Đề tài phát hiện url lừa đảo sửdụng học liên kết

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.17 MB, 43 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

BỘ GIÁO DỤC VÀ ĐÀO TẠO

<b>TRƯỜNG ĐẠI HỌC KINH TẾ - TÀI CHÍNHTHÀNH PHỐ HỒ CHÍ MINH</b>

<b>ĐỒ ÁN CHUYÊN NGÀNHNgành: Công Nghệ Thông TinChuyên ngành: An Tồn Thơng Tin</b>

<b>TÊN ĐỀ TÀI: PHÁT HIỆN URL LỪA ĐẢO SỬDỤNG HỌC LIÊN KẾT</b>

<b>Giảng viên hướng dẫn: ThS. Nguyễn Minh ThắngSinh viên thực hiện: </b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

BỘ GIÁO DỤC VÀ ĐÀO TẠO

<b>TRƯỜNG ĐẠI HỌC KINH TẾ - TÀI CHÍNHTHÀNH PHỐ HỒ CHÍ MINH</b>

<b>ĐỒ ÁN CHUN NGÀNHNgành: Cơng Nghệ Thơng TinChun ngành: An Tồn Thông Tin</b>

<b>TÊN ĐỀ TÀI: PHÁT HIỆN URL LỪA ĐẢO SỬDỤNG HỌC LIÊN KẾT</b>

<b>Giảng viên hướng dẫn: ThS. Nguyễn Minh ThắngSinh viên thực hiện: </b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>LỜI CÁM ƠN</b>

Trước tiên, em xin gởi lời cám ơn chân thành tới thầy hướng dẫn môn đồ án, Th.S Nguyễn Minh Thắng, người đã hướng dẫn nhóm em trong môn học này. Trong suốt quá trình học thầy đã kiên nhẫn hướng dẫn, giúp đỡ. Sự hiểu biết sâu sắc cũng như kinh nghiệm của thầy chính là tiền đề giúp nhóm đạt được những thành tựu và kinh nghiệm quý báu.

Để hồn thành được đồ án mơn học này, nhóm em xin chân thành cảm ơn Ban Giám hiệu, các khoa, phòng và quý thầy, cô của trường Đại Học Kinh Tế Tài Chính, những người đã tận tình giúp đỡ và tạo điều kiện cho em trong quá trình học tập. Đặc biệt, em xin gửi lời cảm ơn sâu sắc đến thầy hướng dẫn môn đồ án, Th.S Ngyễn Minh Thắng - người đã trực tiếp giảng dạy và hướng dẫn nhóm em thực hiện đồ án này bằng tất cả lịng nhiệt tình và sự quan tâm sâu sắc.

Mặc dù đã có những đầu tư nhất định trong q trình làm bài song cũng khó có thể tránh khỏi những sai sót, nhóm em kính mong nhận được ý kiến đóng góp của q thầy cơ để đồ án được hồn thiện hơn.

Nhóm em xin chân thành cảm ơn!

Phạm Thanh Hiếu Vương Quốc Việt

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

1.3 CÁC CƠNG TRÌNH LIÊN QUAN...4

1.3.1 Malicious URL Detection...4

1.3.2 Technical Background...5

1.3.3 Phương pháp tiếp cận Blacklisting...8

1.3.4 Phương pháp tiếp cận heuristic...9

Chương 2 . CƠ SỞ LÝ THUYẾT...10

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

-Chương 4 . KẾT LUẬN VÀ HƯƠNG PHÁT TRIỂN...27

4.1 Kết luận...27

4.2 Hướng phát triển...27

TÀI LIỆU THAM KHẢO...28

MÔ TẢ CÔNG VIỆC...31

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>-DANH MỤC CÁC KÍ HIỆU, CHỮ VIẾT TẮT</b>

7 TPR True Positive Rate tỷ lệ dương tính thực 8 FPR False Positive Rate tỷ lệ dương tính giả 9 GPT-3 Generative Pre-trained

Transformer 3

mơ hình ngơn ngữ lớn được đào tạo trước trên bộ mã hóa Transformer.

15 RF Rừng ngẫu nhiên Rừng ngẫu nhiên 16 AUC Khu vực dưới đường

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>-DANH MỤC CÁC BẢNG</b>

Bảng 3-1 So sánh các số liệu khác nhau của các mơ hình thu được sau 30 kỷ nguyên đào tạo theo dữ liệu (i.i.d.) độc lập và được phân phối giống hệt nhau, trong đó FedAvg(*) biểu thị cách tiếp cận tinh chỉnh được cải thiện bằng cách khởi tạo cục bộ...18 Bảng 3-2 So sánh độ chính xác của mơ hình theo ba kịch bản thử nghiệm với mơ hình được huấn luyện tập trung. (2) thể hiện cài đặt phân phối dữ liệu thứ hai và (3) thể hiện cài đặt thứ ba. Giá trị độ chính xác thu được bằng cách tính giá trị trung bình số học của độ chính xác kiểm tra trên tất cả các máy khách...19 Bảng 3-3 So sánh các số liệu khác nhau của các mơ hình được tinh chỉnh theo FedAvg trong ba kịch bản thử nghiệm riêng biệt...19 Bảng 3-4 So sánh hiệu suất của các mơ hình trước và sau khi cải tiến theo ba lần phân phối dữ liệu...22 Bảng 0-1 Mô tả công việc...31

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>-DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ</b>

Hình 1-1 Kiến trúc cơ bản của thuật tốn FedAvg...6 Hình 2-1 Phương pháp phân rã của Split Learning cho các mơ hình được đào tạo trước...10 Hình 2-2 Sơ đồ kiến trúc của Fed-URLBERT...12 Hình 2-3 Sơ đồ minh họa về sự tích hợp của Học tập Liên kết và Học tập Phân chia ... 13 Hình 3-1 Phân phối Lable với giá trị α là 0,7...18 Hình 3-2So sánh độ chính xác của các mơ hình trước và sau khi cải tiến trong giai đoạn huấn luyện dưới các phân bố dữ liệu khác nhau...22 Hình 3-3 Điều tra về tác động của tỷ lệ lấy mẫu khách hàng đến quá trình đào tạo mơ hình... 24 Hình 3-4 Comparison of Model Performance in Fine- Tuning...25

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>-MỞ ĐẦU</b>

<b>1. Giới thiệu chung</b>

Tấn công lừa đảo là một loại tấn công mạng nhắm vào sự tin tưởng của người dùng bằng cách che dấu ý đồ ác ý của cuộc tấn công dưới dạng thông tin của các nguồn có uy tín. Mục tiêu là lấy cắp dữ liệu của nạn nhân như là thông tin tài khoản ngân hàng, thông tin đăng nhập, … với nhiều mục đích khác nhau như bán kiếm lợi nhuận, thực hiện việc đánh cắp danh tính. Bài báo này đề xuất một phương pháp để tăng độ chính xác trong việc phát hiện URL độc hại bằng cách sử dụng các phương pháp học máy.

Trong bối cảnh mạng đang phát triển, việc phát hiện của các URL độc hại kêu gọi sự hợp tác và kiến thức chia sẻ trên các miền. Tuy nhiên, sự hợp tác thường bị cản trở bởi những lo ngại về quyền riêng tư và sự nhạy cảm trong kinh doanh. Federated learning sẽ giải quyết những vấn đề này bằng cách cho phépcộng tác nhiều khách hàng mà không cần trao đổi dữ liệu trực tiếp.

Trong bài viết này, chúng tôi đề xuất Fed-URL BERT, một Mơ hình đào tạo trước URL liên kết được thiết kế để giải quyết cả hai những lo ngại về quyền riêng tư và nhu cầu cộng tác giữa các miền trong an ninh mạng. Fed-URL BERT tận dụng việc học phân tách để phân chia mơ hình đào tạo trước thành máy khách và máy chủ để phần máy khách chiếm ít tài ngun tính tốn và băng thông hơn. Phương pháp của chúng tôi đạt được hiệu suất tương đương với mơ hình tập trung theo cả hai được phân phối độc lập và giống hệt nhau (IID) và hai kịch bản dữ liệu không phải IID. Điều đáng chú ý là mơ hình liên kết của chúng tôi cho thấy FPR giảm khoảng 7% so với mơ hình tập trung. Ngồi ra, chúng tơi triển khai một giải pháp thích ứng chiến lược tổng hợp cục bộ nhằm giảm thiểu tính khơng đồng nhất giữa các khách hàng, chứng tỏ sự cải thiện hiệu suất đầy hứa hẹn. Nhìn chung, nghiên cứu của chúng tôi xác nhận khả năng ứng dụng của việc học tập liên kết

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

6-Transformer được đề xuất cho URL phân tích mối đe dọa, thiết lập nền tảng cho thế giới thực nỗ lực hợp tác an ninh mạng.

Từ những phân tích trên đây có thể thấy rằng, để ngăn chặn và giảm thiểu các nguy cơ mất an tồn thơng tin cho hệ thống thơng tin cần phải có những giải pháp hiệu quả trong việc phát hiện sớm q trình hacker tấn cơng và đánh lừa ng ờiƣ dùng. Một cách hữu hiệu nhất để phát hiện tấn công trong giai đoạn đánh lừa lừa đảo được sử dụng dựa trên việc phát hiện các URL độc hại.

Nội dung đồ án được chia thành 3 chương sau: Chương 1. GIỚI THIỆU

Chương 2. CƠ SỞ LÝ THUYẾT Chương 3. KẾT QUẢ THỰC NGHIỆM

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<b>7-Chương 1 .GIỚI THIỆU</b>

Trong bối cảnh không ngừng phát triển của các mối đe dọa mạng, phát hiện và giảm thiểu các URL độc hại đã nổi lên như một thách thức then chốt trong an ninh mạng. Phục vụ thường xuyên làm cổng lừa đảo, phân phối phần mềm độc hại và nhiều hình thức lừa đảo trên mạng, đặt ra các URL độc hại rủi ro lớn cho cả cá nhân và tổ chức. Theo báo cáo từ Cơ quan chống lừa đảo Group (APWG), riêng số lượng các cuộc tấn công lừa đảo đã chứng kiến mức tăng hàng năm trên 150% kể từ đầu 2019.

Các biện pháp đối phó với mối đe dọa mạng thông thường dựa vào thu thập và phân tích dữ liệu tập trung, thường được quản lý bởi các trung tâm dữ liệu trong một tổ chức. Tuy nhiên, cách tiếp cận này có thể không nắm bắt được mối đe dọa cụ thể mô hình trên các ngành hoặc khu vực khác nhau và các cuộc đấu tranh với hiệu quả và khả năng mở rộng. Sự cần thiết của sự hợp tác những nỗ lực trong việc phát hiện URL độc hại là điều hiển nhiên, nhưng như vậy sự hợp tác thường bị hạn chế bởi sự miễn cưỡng của các tập đoàn để chia sẻ dữ liệu, chủ yếu là do lo ngại về tính bảo mật, quyền riêng tư và thông tin nhạy cảm trong kinh doanh.

Với những rào cản này, việc sử dụng khung học tập liên kết để hợp tác giữa các tổ chức được coi là một giải pháp đầy hứa hẹn. Học tập liên kết cho phép nhiều tổ chức hợp tác đào tạo các mô hình để phát hiện các URL độc hại trong khi vẫn giữ dữ liệu của chúng riêng tư. Bằng cách đào tạo mơ hình tại địa phương và chỉ chia sẻ tham số mơ hình, khơng phải dữ liệu thơ, nó giải quyết các mối quan tâm về quyền riêng tư và bảo mật dữ liệu. Hơn nữa, liên bang khả năng thích ứng của học tập với các khả năng kỹ thuật khác nhau và cơ sở hạ tầng giữa các tổ chức cho phép mở rộng hơn hợp tác và phát hiện URL độc hại hiệu quả hơn.

Các mơ hình ngơn ngữ được đào tạo trước sử dụng Transformer kiến trúc đã cải tiến đáng kể nhiều loại các lĩnh vực, bao gồm xử lý ngôn ngữ tự nhiên, thị giác

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

8-máy tính và công nghệ phần mềm. Gần đây nghiên cứu cũng đã chứng minh tiềm năng của chúng trong việc phát hiện các URL độc hại, cho thấy tính hiệu quả của Transformers và đào tạo trước về phân tích URL.

Tuy nhiên, việc đào tạo trước đòi hỏi lượng dữ liệu lớn, có thể dẫn đến chi phí tính tốn cao và thời gian sự đầu tư. Thu thập đủ dữ liệu và tính tốn nguồn lực vẫn là một thách thức lớn.

Do đó, việc phát triển các Máy biến áp được đào tạo trước theo liên đoàn mang lại triển vọng ứng dụng đáng kể. Cái này bài báo giới thiệu kiến trúc tiền đào tạo liên kết được thiết kế để phát hiện URL độc hại. Khuôn khổ của chúng tơi

liên quan đến việc đào tạo lại một mơ hình được đào tạo trước dành riêng cho URL theo cách liên kết và tinh chỉnh nó cho tác vụ phát hiện URL độc hại. Cách tiếp cận của chúng tôi kết hợp khả năng phân tích ngữ cảnh nâng cao của các mơ hình được đào tạo trước với hiệu quả của việc học liên kết trong việc xử lý dữ liệu phân tán. Phương pháp này cho phép nhiều người tham gia cộng tác, sử dụng dữ liệu cá nhân của họ nguồn lực để nâng cao hiệu suất mơ hình mà khơng cần nhu cầu lưu trữ hoặc xử lý tập trung. Như vậy cách tiếp cận này dự kiến sẽ cải thiện tính tổng qt của mơ hình đồng thời đẩy nhanh việc thích ứng với các vấn đề mới nổi các mẫu URL độc hại.

Thủ thuật tấn công Phishing được rất nhiều kẻ tấn công sử dụng để đánh cắp thông tin của người dùng làm ảnh hưởng đến các tổ chức tài chính và cá nhân. Vì thế nhóm chúng em muốn tìm ra một giải pháp để khắc phục vấn đề này.

Dưới đây là một số cơng trình liên quan đến đề tài này mà chúng tôi đã nghiên cứu và tham khảo để có thể hồn thiện đề tài nghiên cứu này.

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<b>9-1.3.1 Malicious URL Detection</b>

Tính năng phát hiện URL độc hại có lịch sử nghiên cứu lâu dài, phát triển từ các phương pháp tiếp cận dựa trên quy tắc sang các phương pháp truyền thống dựa trên kỹ thuật tính năng thủ cơng và gần đây nhất là các phương pháp dựa trên học sâu từ đầu đến cuối. Mặc dù công việc trước đây đã đặt nền móng cho nghiên cứu phát hiện URL độc hại, nhưng trọng tâm của chúng tôi chủ yếu tập trung vào các mơ hình được đào tạo trước phổ biến hiện nay. Do đó, chúng tơi chủ yếu xem xét các nghiên cứu dựa trên kiến trúc Transformer trên văn bản tiếng Anh, thể hiện hiệu suất mạnh mẽ khi áp dụng trực tiếp vào phân loại URL. Tài liệu sử dụng tiny-Bert, một phiên bản nhẹ của BERT, để trích xuất các phần nhúng URL để phát hiện URL độc hại ở biên IoT, đạt độ chính xác 99%. URL-Tran được đề xuất, sử dụng máy biến áp, vượt trội đáng kể so với các phương pháp học sâu khác trong việc phát hiện URL lừa đảo với FPR thấp, đạt được TPR 86,80% với FPR là 0,01% và duy trì tính mạnh mẽ trước các cuộc tấn cơng lừa đảo đối nghịch cổ điển. Trọng tài. đã đào tạo trình mã thơng báo chun dụng cho dữ liệu URL, điều chỉnh nhiệm vụ đào tạo trước của mô hình BERT và PhishBERT được đề xuất, đạt được mức tăng TPR lần lượt là 7% và 25% so với URLTran trên các tập dữ liệu khác nhau, trong khi vẫn duy trì FPR cực thấp. Trọng tài. sử dụng BERT để trích xuất tính năng từ dữ liệu URL và sử dụng mạng học sâu trong các tác vụ tiếp theo liên quan đến phát hiện URL lừa đảo, đạt được độ chính xác 96,66% và vượt trội đáng kể so với đường cơ sở được thiết lập bởi các phương pháp học máy truyền thống trên nhiều số liệu khác nhau. Các nghiên cứu trước đây đã xác nhận đáng kể tính hợp lệ của các mơ hình được đào tạo trước để phát hiện URL độc hại. Việc khám phá các mơ hình được đào tạo trước URL liên kết của chúng tôi kết hợp các ưu điểm của việc học và đào tạo trước liên kết, mở rộng khả năng truy cập dữ liệu và cho phép người dùng có ít năng lực tính tốn hơn được hưởng lợi từ các mơ hình phức tạp.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<b>10-1.3.2 Technical Background</b>

Nghiên cứu của chúng tôi dựa trên ba trụ cột công nghệ quan trọng: mô hình cổ điển được đào tạo trước BERT, học tập liên kết và học tập phân tách. Ở đây, chúng tôi giới thiệu các nguyên tắc cơ bản của ba cơng nghệ này.

BERT: Trong nghiên cứu của mình, chúng tơi sử dụng kiến trúc BERT để đào tạo trước một mơ hình URL cụ thể. Vì vậy, bây giờ chúng tôi xem xét nền tảng của BERT. BERT là một mơ hình ngơn ngữ đột phá được đào tạo trước trên bộ mã hóa Transformer. Khối Trans-form bao gồm hai lớp con: lớp chú ý nhiều đầu và lớp mạng thần kinh chuyển tiếp được kết nối đầy đủ. Bộ mã hóa áp dụng các kết nối cịn lại xung quanh mỗi lớp con. BERT giới thiệu một phương pháp tiếp cận được tối ưu hóa bằng cách xác định hai mục tiêu đào tạo – Mơ hình ngơn ngữ ẩn (MLM) và Dự đoán câu tiếp theo (NSP). Những mục tiêu này trao quyền cho mơ hình đào tạo trước để học theo cách tự giám sát từ tập dữ liệu quy mô lớn, thúc đẩy sự hiểu biết sâu sắc về cấu trúc dữ liệu phức tạp và hiện tượng ngơn ngữ vốn có. Chúng tơi bỏ qua việc xây dựng chi tiết về nhiệm vụ NSP do tác động tối thiểu của nó đến hiệu suất như đã được chứng minh trong các nghiên cứu trước đây và sự khơng liên quan của nó trong q trình đào tạo trước URL của chúng tôi.

H nh 1-1 Kiến trúc cơ bản của thuật tốn FedAvg

Mơ hình ngơn ngữ đeo mặt nạ: MLM là một nhiệm vụ liên quan đến việc dự đốn các mã thơng báo gốc từ một ngôn ngữ đã được sửa đổi đầu vào trong đó một số mã thơng báo đã được thay thế. Cụ thể, một tập hợp con các mã thông báo Y X được chọn từ chuỗi mã thông báo X và được thay thế bằng các mã thông báo khác

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

11-nhau. Khi triển khai BERT, Y chiếm 15% số token trong X. Trong số các token này, 80% được thay thế bằng token [MASK], 10% được thay thế bằng các token được chọn ngẫu nhiên dựa trên phân phối unigram và 10% cịn lại khơng thay đổi. BERT chọn độc lập từng mã thông báo trong Y bằng cách chọn ngẫu nhiên một tập hợp con. Trong nghiên cứu của mình, chúng tơi cũng sử dụng MLM làm mục tiêu đào tạo trước cho các URL. Trong giai đoạn tinh chỉnh, thường kết hợp một lớp được kết nối đầy đủ vào mơ hình BERT sẽ đẩy nhanh khả năng thích ứng của nó với các tác vụ xi dịng, dẫn đến hiệu suất cao nhất trong một số lượng hạn chế thời đại đào tạo.

<b>Federated Learning:</b>

Học tập liên kết, một khái niệm được Google tiên phong vào năm 2017, đánh dấu một sự thay đổi đáng kể trong bối cảnh học máy. Nó tạo điều kiện cho việc đào tạo phân tán các mơ hình AI trên nhiều nút điện toán từ xa, loại bỏ nhu cầu truyền dữ liệu trực tiếp. Phương pháp này tỏ ra đặc biệt quan trọng trong bối cảnh mà quyền riêng tư và bảo mật dữ liệu nghiêm ngặt là điều tối quan trọng, chẳng hạn như trong lĩnh vực chăm sóc sức khỏe, tài chính hoặc các khu vực chính phủ. Tại đây, chủ quyền dữ liệu được bảo toàn và dữ liệu được lưu giữ an toàn trên các máy chủ gốc của nó. Theo mơ hình này, trọng tâm là trao đổi các tham số mô hình hoặc hiểu biết sâu sắc về đào tạo hơn là dữ liệu thực tế, từ đó duy trì quyền riêng tư dữ liệu. Sự ra đời của học tập liên kết đã là nền tảng trong việc giải quyết các thách thức về quyền riêng tư dữ liệu, tăng cường nỗ lực hợp tác giữa các tổ chức và thúc đẩy việc chia sẻ hiểu biết và kiến thức.

Kiến trúc liên kết cổ điển được minh họa trong hình.

Trong học liên kết theo kiến trúc máy khách-máy chủ, quy trình huấn luyện mơ hình được thực hiện cục bộ ở phía máy khách trong khi các giá trị gradient hoặc trọng số mơ hình được tạo ra sẽ được gửi đến máy chủ. Máy chủ chịu trách nhiệm tổng hợp chúng để tạo thành một mơ hình tồn cầu, sau đó được phân phối cho từng khách hàng cho giai đoạn đào tạo tiếp theo. Đặc điểm cơ bản của học tập liên kết nằm ở việc thay thế trao đổi dữ liệu bằng trao đổi trọng số mô hình hoặc giá trị

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

12-gradient. Hiện tại, một trong những chiến lược hiệu quả nhất để tổng hợp mơ hình trong học tập liên kết là FedAvg và một trong những lĩnh vực nghiên cứu nổi bật nhất trong cộng đồng học thuật tập trung vào hiệu suất và cải tiến các phương pháp học tập liên kết theo phân phối dữ liệu Non-iid, chẳng hạn như như FedALA và FedProx. Học tập liên kết truyền thống triển khai đào tạo mơ hình cho các khách hàng địa phương. Khi kích thước tham số của mơ hình được đào tạo tăng lên, một hậu quả khơng thể tránh khỏi sẽ nảy sinh trong đó ngày càng nhiều khách hàng khơng thể chịu được chi phí tính toán và lưu trữ liên quan đến việc đào tạo mơ hình. Hiện tượng này làm suy yếu sự tham gia của khách hàng vào đào tạo liên kết, do đó dẫn đến mất một phần độ phong phú của dữ liệu, như đã được chứng minh trong các nghiên cứu trước đây. Nghiên cứu của chúng tôi nhấn mạnh sự không phù hợp của các phương pháp học liên kết dựa trên khách hàng truyền thống đối với các mơ hình học máy được đào tạo trước, quy mơ lớn. Để đáp lại, chúng tôi đề xuất một phương pháp học tập khách hàng thay thế, hiệu quả hơn.

Học phân tách: Học phân tách là một chiến lược học máy phân tích mạng lưới thần kinh phức tạp thành nhiều phân đoạn, được xử lý và tính tốn trên nhiều thiết bị khác nhau. Các kịch bản cho nhiều máy khách có thể dựa trên nhiều nút tính tốn thơng thường (Al-ices) + một nút tính tốn cao (Bob). Trong chiến lược này, mỗi khách hàng cùng nhau đào tạo một mơ hình hồn chỉnh mà khơng tiết lộ dữ liệu gốc, đồng thời phân bổ phần tính tốn chun sâu của mơ hình cho nút tính tốn cao. Trong học phân tách, mơ hình thường được chia thành hai phần. Alice thực hiện việc truyền tiến trên dữ liệu cục bộ của họ và truyền kết quả trung gian cho Bob. Sau đó, Bob tiếp tục với quá trình truyền tiến và truyền lùi, đồng thời gửi lại dữ liệu trung gian của quá trình truyền ngược cho Alices, như trong Hình 2. Tuy nhiên, sự phối hợp của quá trình học giữa nhiều khách hàng xảy ra thông qua chế độ tập trung hoặc ngang hàng. chế độ -to-peer trong Split Learning, dẫn đến chi phí thời gian đào tạo cao.

Các nghiên cứu trước đây đã chứng minh tính hiệu quả của việc kết hợp học tập phân tách với học tập liên kết. Trong công việc này, chúng tôi áp dụng một khái

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

13-niệm tương tự nhưng sử dụng chiến lược phân chia khác để xây dựng Fed-URLBERT của mình. Theo cách tiếp cận của chúng tơi, lớp BertEmbedding được đặt ở phía máy khách, trong khi các lớp Transformer được triển khai trên các máy chủ hiệu suất cao.

<b>1.3.3 Phương pháp tiếp cận Blacklisting.</b>

Cách tiếp cận danh sách đen (danh sách đen) là một kỹ thuật phổ biến và cổ điển để phát hiện các URL độc hại, duy trì một danh sách các URL độc hại biết trước. Bất cứ khi nào có một URL mới được truy cập, một cơ sở dữ liệu được xác thực. Nếu URL có trong danh sách đen, nó coi là độc hại và sau đó cảnh báo sẽ tạo ra; if no url sẽ cho là lành tính. Danh sách đen thiếu khả năng duy trì danh sách đầy đủ tất cả các URL độc hại có thể, bởi vì các URL mới có thể dễ dàng tạo hàng ngày, do đó chúng khơng thể phát hiện các mối đe dọa mới. Điều này đặc biệt quan tâm nghiêm trọng khi tấn công tạo ra các URL mới theo thuật tốn và có thể bỏ qua tất cả các danh sách đen. Mặc dù có một số vấn đề phải đối mặt với danh sách đen, do tính đơn giản và hiệu quả của họ, họ tiếp tục là một trong những kỹ thuật sử dụng phổ biến nhất bởi nhiều hệ thống chống virus hiện nay.

<b>1.3.4 Phương pháp tiếp cận heuristic</b>

Là một số dạng mở rộng của pháp luật dựa trên danh sách đen, trong đó ý kiến mở rộng là tạo ra một “danh sách đen có chữ ký”. Các dạng tấn công thông tin xác thực và dựa trên hành vi của chúng, chữ ký phân bổ cho kiểu tấn công này. Hệ thống phát hiện xâm nhập có thể quét các trang web cho các chữ ký hiệu và tăng cờ nếu có một số hành vi đáng ngạc nhiên được tìm thấy. Những giải pháp này có khả năng hóa học tốt hơn danh sách đen, bởi vì chúng có khả năng phát hiện các mối nguy hiểm trong các URL mới. Tuy nhiên, các chiến lực mạnh có thể được thiết kế chỉ cho một số giới hạn mối đe dọa chung, và không thể kiềm chế tất cả các loại tấn công. Hơn nữa, bằng cách sử dụng các kỹ thuật obfuscation, nó khơng q khó khăn để trả chúng. Một phiên bản công cụ có thể tốt hơn của pháp pháp tiếp theo

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

14-heuristic là cơ sở thực thi thơng tin phân tích của trang web. Ở đây cũng có ý kiến là tìm kiếm chữ ký của hoạt động độc hại tạo quy trình bất chấp, chuyển hương lặp lại.

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

<b>15-Chương 2 .CƠ SỞ LÝ THUYẾT</b>

<b>2.1.1 FED-URLBERT</b>

Trong phần này, chúng tôi mô tả khuôn khổ tổng thể của Fed-URLBERT, sau đó là thảo luận chi tiết về việc triển khai học tập liên kết trong cả giai đoạn tiền đào tạo và tinh chỉnh, sử dụng dữ liệu phi tập trung.

H nh 2-2 Phương pháp phân rã của Split Learning cho các mô h nh được đào tạo trước

<b>2.1.2 Framework</b>

Kiến trúc của Fed-URLBERT, như được mơ tả trong Hình 3, bao gồm việc đào tạo trước và tinh chỉnh mơ hình BERT trên dữ liệu URL bằng cách sử dụng các nguyên tắc học liên kết và học phân tách. Kiến trúc của chúng tôi áp dụng cách tiếp cận dựa trên khách hàng, trong đó một trung tâm tính tốn xử lý các nhiệm vụ học tập chun sâu của bộ mã hóa BERT, trong khi những người tham gia được liên kết tập trung vào đào tạo cục bộ Tokenizer và mã hóa dữ liệu của riêng họ. Trong giai đoạn đào tạo trước, mơ hình Bert W được phân chia thành Wclient và Wserver. Cả máy chủ trung tâm tính tốn và những người tham gia được liên kết đều tham gia cập nhật tham số tiến và lùi thông qua liên lạc liên kết. Chi tiết cụ thể về khóa đào

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

16-tạo được cung cấp trong Phần III-B. Trong giai đoạn tinh chỉnh, lớp ứng dụng của BERT được phân phối giữa tất cả những người tham gia liên kết, được sử dụng để tìm hiểu nhiệm vụ phát hiện URL độc hại ở phía máy khách liên kết. Việc tổng hợp tham số được tiến hành bằng Thuật toán trung bình liên kết, FedAvg, như được nêu chi tiết trong Phần III-C.

<b>2.1.3 Pre-Training</b>

Chúng tôi đào tạo trước các URL bằng cách sử dụng Mơ hình ngơn ngữ đeo mặt nạ (MLM) làm mục tiêu đào tạo. Trong nhiệm vụ MLM, 15% mã thông báo được thay thế bằng [MASK], trong đó 10% khơng thay đổi và 10% khác được thay thế ngẫu nhiên bằng mã thông báo từ từ vựng. Chúng tơi chia mơ hình BERT thành Wclient và Wserver dựa trên các nguyên tắc học phân tách và tổng hợp các tham số liên kết bằng thuật toán FedAvg, như được minh họa trong Hình 4.

Mạng BertEmbedding của mơ hình BERT được phân bổ cho Wclient, trong khi BertEncode (thành phần mã hóa của Transformer), chứa tập tham số lớn hơn và phát sinh chi phí tính tốn đáng kể trong quá trình đào tạo, cùng với lớp mạng BertOnlyMLMHead, được gán cho Wserver của trung tâm tính toán. Các khách hàng được chọn đồng thời cung cấp dữ liệu cục bộ của họ vào các mơ hình cục bộ tương ứng. Các đầu ra trung gian từ q trình truyền chuyển tiếp của mơ hình cục bộ, ký hiệu là Zk,t, được truyền từ máy khách đến máy chủ. Sau đó, q trình lan truyền tiếp tục diễn ra trên mạng của máy chủ, Wserver,k,t, mang lại một đầu ra. Tiếp theo là quá trình truyền ngược, trong đó dZserver,k,t được gửi trở lại Wclient để thực hiện các bước truyền ngược bổ sung. Chu trình này hồn thành một lần lặp huấn luyện, như được mơ tả trong Thuật toán 1. Sau khi đạt đến số vòng đào tạo được chỉ định, máy chủ tổng hợp mơ hình sẽ áp dụng sơ đồ Fed-dAvg để tổng hợp Wclient và phân phối lại cho từng khách hàng. Trung tâm tính tốn cũng sẽ tổng hợp Wserver. Wserver,k,t ở đây đại diện cho mạng phía máy chủ trong trung tâm tính tốn cho khách hàng k trong đợt đào tạo thứ t. Để cho phép thực hiện song song quá trình đào tạo và liên lạc với máy khách, một bản sao của Wclient được đặt cho mỗi máy khách ở phía máy chủ. Sau khi hồn thành số lượng kỷ nguyên đào tạo đã

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

17-chỉ định, mơ hình tồn cầu sẽ được tổng hợp và triển khai cho từng bản sao. Zk,t đại diện cho dữ liệu trung gian được truyền bởi khách hàng k trong vòng huấn luyện thứ t. Phương pháp đào tạo này không chỉ đảm bảo quyền riêng tư và bảo mật dữ liệu khách hàng mà còn giảm chi phí tính tốn cho những khách hàng có nguồn lực hạn chế. Hơn nữa, nó giúp tăng cường hiệu quả giao tiếp trong q trình đào tạo mơ hình và cải thiện độ tin cậy của mơ hình được đào tạo.

<b>2.1.4 Fine-Tuning</b>

Trong giai đoạn tinh chỉnh, một lớp được kết nối đầy đủ sẽ được thêm vào đầu mô hình trên mỗi máy khách cho phép phân loại URL nhị phân. Mơ hình trải qua q trình đào tạo cục bộ bằng cách sử dụng dữ liệu tinh chỉnh trên từng khách hàng, một giai đoạn đòi hỏi tài ngun tính tốn tương đối thấp hơn và được mỗi người tham gia quản lý một cách khả thi. Hiệu quả này xác nhận việc sử dụng phương pháp học tập liên kết cổ điển [19]. Việc tinh chỉnh mô hình hồn chỉnh diễn ra cục bộ tại mỗi máy khách, liên quan đến việc trao đổi các tham số mơ hình giữa máy khách và máy chủ. Việc tổng hợp tham số được thực thi tại máy chủ, như được mơ tả trong Thuật tốn 2.

Trong mỗi vịng huấn luyện, một tập hợp con ngẫu nhiên gồm n khách hàng được chọn để huấn luyện. Sau khi những khách hàng này hồn thành q trình đào tạo cục bộ, các mơ hình cục bộ của họ, ký hiệu là Wk,t, sẽ được gửi đến máy chủ để cập nhật mơ hình tồn cầu. Sau khi tất cả khách hàng tham gia hồn tất q trình đào tạo, máy chủ

H nh 2-3 Sơ đồ kiến trúc của Fed-URLBERT -

</div>