đồ án cơ sở phát hiện website lừa đảo dựa trên url

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.06 MB, 44 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

BỘ GIÁO DỤC VÀ ĐÀO TẠO

<b>TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM</b>

<b>ĐỒ ÁN CƠ SỞ</b>

<b>PHÁT HIỆN WEBSITE LỪA ĐẢO DỰA TRÊN URL</b>

Ngành: <b>Công nghệ thông tinChuyên ngành: An ninh mạng</b>

Giảng viên hướng dẫn : Văn Thiên HoàngSinh viên thực hiện MSSV

Võ Trùng Dương 2180604816Mai Văn Hải 2180600353Lớp: 21DTHA4

TP. Hồ Chí Minh, năm 2024

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>LỜI CẢM ƠN</b>

Ngay từ đầu khi bắt đầu thực hiện đồ án, em đã được thầy Văn Thiên Hoàng tậntình hướng dẫn về cách lựa chọn đề tài, phương pháp nghiên cứu, cách thu thập và xử lý thông tin, và cách trình bày kết quả nghiên cứu. Thầy luôn dành thời gian để giải đáp những thắc mắc của em một cách cẩn thận và tỉ mỉ, giúp em hiểu rõ hơn về nội dung nghiên cứu và có thể hồn thành tốt đồ án. Em xin chân thành cảm ơn thầy Văn Thiên Hồng vì tất cả những gì thầy đã dành cho em trong suốt quá trình thực hiện đồ án. Em biết ơn thầy vì đã là người thầy tận tâm, nhiệt tình. Do kiến thức còn nhiều hạnchế và khả năng tiếp thu còn nhiều hạn chế nên báo cáo sẽ còn nhiều thiếu sót, kinh mong sự góp ý và giúp đỡ từ Quý Thầy cô.

Một lần nữa, em xin chân thành cảm ơn!

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

1.3. Thực trạng các trang web lừa đảo...8

1.4. Mục tiêu nghiên cứu:...10

1.5. Tổng quan về phân loại các URL...10

2.3. Light GBM (Gradient Boosting Machine)...15

2.4. XGBoost (Extreme Gradient Boosting)...17

<i>2.2.4. Bảng so sánh các thuật tốn...19</i>

2.3. Trích chọn các đặc trưng...19

CHƯƠNG 3. KẾT QUẢ THỰC NGHIỆM...21

3.1. Giới thiệu tập dữ liệu sẽ được sử dụng...21

3.2. Wordcloud của URL...21

<i>3.3.6.Phân tách biến đặc trưng và biến mục tiêu...34</i>

<i>3.3.7.Chia dữ liệu thành tập huấn luyện và tập kiểm tra...35</i>

<i>3.3.10. Tầm quan trọng của đặc trưng...37</i>

CHƯƠNG 4. KẾT LUẬN VÀ KIẾN NGHỊ...41

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>DANH MỤC BẢNG</b>

Bảng 2. 1. Bảng so sánh chung các thuật tốn...19Bảng 2. 2. Các đặc trưng được trích chọn sử dụng để xây dựng mơ hình...19

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>DANH MỤC HÌNH ẢNH</b>

Hình 1. 1. Các loại tấn cơng lừa đảo...7

Hình 1. 2. Biểu đồ thể hiện số lượng các cuộc tấn cơng lừa đảo 04/2021-03/2022...8

Hình 1. 3. Cách bước tấn cơng lừa đảo...9

Hình 2. 1. Các thành phần của URL...12

Hình 2. 2. Giải thuật Rừng ngẫu nhiên...14

Hình 2. 3. q trình học của thuật tốn GTB...16

Hình 2. 4. Cơng thức tính tham số...16

<small>Hình 2. 5. Mơ hình thuật tốn GTB...16</small>

Hình 3. 1. Wordcloud của URL an tồn...21

Hình 3. 2. Wordcloud của phishing URL...22

Hình 3. 3. Wordcloud của Malware URL...22

Hình 3. 4. Wordcloud của Defacement URL...23

Hình 3. 5. import các thư viện...24

Hình 3. 33. Phân tách biến đặc trưng và biến mục tiêu...35

Hình 3. 34. Chia dữ liệu thành tập huấn luyện và tập kiểm tra...35

Hình 3. 35. Random Forest Classifier...36

Hình 3. 36. Light GBM Classifier...36

Hình 3. 37. Xgboost Classifier...36

Hình 3. 38. Hiệu suất của Light GBM, XGBoost và Random Forest...37

Hình 3. 39. Biểu đồ tầm quan trọng của đặc trưng...38

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Hình 3. 40. Hàm main...39Hình 3. 41. Sử dụng kết quả phân tích URL từ hàm main dể đưa vào mơ hình lbg dự đốn loạiURL...40Hình 3. 42. Dự đoán URL...40

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>CHƯƠNG 1. TỔNG QUAN1.1. Lý do chọn đề tài </b>

Trong thời đại số hóa hiện nay, Internet đã trở thành một phần thiết yếu của cuộc sống, mang lại nhiều tiện ích và cơ hội cho người dùng từ giao dịch tài chính, mua sắm trực tuyến, đến việc trao đổi thơng tin. Tuy nhiên, cùng với sự phát triển vượtbậc của công nghệ là sự gia tăng không ngừng của các mối đe dọa an ninh mạng, đặc biệt là các cuộc tấn công lừa đảo (phishing). Những cuộc tấn công này ngày càng trở nên phổ biến và tinh vi, gây ra hậu quả nghiêm trọng cho cả cá nhân và tổ chức.

Tấn công lừa đảo không chỉ gây thiệt hại về tài chính mà cịn làm mất uy tín và niềm tin của người dùng đối với các dịch vụ trực tuyến. Đối với các tổ chức, thiệt hại từ các cuộc tấn cơng này có thể dẫn đến mất mát dữ liệu quan trọng, ảnh hưởng tiêu cực đến danh tiếng và thương hiệu. Các phương pháp bảo mật truyền thống như phần mềm diệt virus và tường lửa đã khơng cịn đủ hiệu quả để đối phó với những phương thức tấn cơng ngày càng phức tạp và tinh vi của tin tặc. Do đó, việc phát triển các giải pháp mới, tiên tiến hơn là điều cần thiết.

Với những lý do trên, chúng em cho rằng đề tài “Phát hiện website lừa đảo dựa trên URL” là một lựa chọn đúng đắn và cấp thiết. Nghiên cứu này không chỉ giải quyếtcác vấn đề thực tiễn mà cịn đóng góp vào sự phát triển của lĩnh vực an ninh mạng, bảovệ người dùng và các tổ chức trước các mối đe dọa ngày càng gia tăng từ Internet. Việc tiếp tục nghiên cứu và phát triển các phương pháp mới để đối phó với các cuộc tấn công này là điều cần thiết để bảo vệ an tồn thơng tin và tài sản của người dùng trên mạng.

Tấn công lừa đảo (phishing) là một trong những hình thức tấn cơng mạng phổ biến và nguy hiểm nhất. Tấn cơng lừa đảo thường nhằm mục đích đánh cắp thông tin nhạy cảm của người dùng như thơng tin đăng nhập, thơng tin tài chính và dữ liệu cá nhân. Các cuộc tấn công này thường được thực hiện thông qua các email giả mạo, tin nhắn, hoặc các trang web lừa đảo.

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Phương pháp phổ biến nhất là tạo ra các trang web giả mạo có giao diện giống hệt trang web thật của các tổ chức uy tín như ngân hàng, công ty thương mại điện tử, và dịch vụ email. Người dùng khi truy cập vào những trang web này sẽ bị lừa nhập thông tin cá nhân và tài chính, từ đó kẻ tấn cơng có thể thu thập và sử dụng thông tin này cho các hoạt động phạm pháp. Đôi khi, những kẻ tấn công thực hiện các cuộc tấn công lừa đảo để phát tán phần mềm độc hại qua mạng. Có nhiều loại tấn cơng lừa đảo khác nhau:

<b>Hình 1. 1. </b>Các loại tấn cơng lừa đảo.

Các cuộc tấn cơng lừa đảo có nhiều hình thức và thường liên quan đến nhiều kênh liên lạc khác nhau, chẳng hạn như email, tin nhắn tức thời, mã phản hồi nhanh (QR) và phương tiện truyền thông xã hội. Những kẻ tấn công thường giả mạo các ngânhàng nổi tiếng, đại lý thẻ tín dụng hoặc các trang web thương mại điện tử nổi tiếng để đe dọa hoặc thuyết phục người dùng đăng nhập vào trang web lừa đảo và cung cấp thông tin đăng nhập.

Ví dụ: người dùng có thể nhận được tin nhắn cho biết có vấn đề với tài khoản ngân hàng của họ, người dùng nhấp vào link và được chuyển hướng đến trang web giống hệt với trang web của ngân hàng. Khách hàng điền thông tin đăng nhập của họ mà khơng do dự từ đó rơi vào bẫy của những kẻ tấn công. Tội phạm theo dõi dữ liệu này và khai thác nó để truy cập vào tài khoản hợp pháp của người dùng.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

1.3.<b>Thực trạng các trang web lừa đảo</b>

Internet như một con dao hai lưỡi, mang đến vơ số lợi ích cho đời sống con người trong mọi lĩnh vực, từ thông tin, giải trí đến mua sắm, giao dịch. Tuy nhiên, bên cạnh những mặt tích cực, nó cũng tiềm ẩn nhiều nguy cơ, đặc biệt là vấn nạn lừa đảo trực tuyến thông qua các trang web giả mạo.

Trên thế giới, theo số liệu báo cáo của tổ chức APWG (Anti Phishing Working Group) [2]. Trong quý đầu tiên của năm 2022 APWG OpSec Security báo cáo rằng các cuộc tấn cơng lừa đảo chống lại lĩnh vực tài chính, bao gồm các ngân hàng, chiếm 23,6% tổng số lừa đảo. Các cuộc tấn công chống lại các nhà cung cấp dịch vụ webmailvà phần mềm dưới dạng dịch vụ (SAAS) vẫn còn phổ biến, trong khi các cuộc tấn công vào các trang web bán lẻ / thương mại điện tử giảm từ 17,3% xuống còn 14,6% sau mùa mua sắm cuối năm. Lừa đảo chống lại các dịch vụ truyền thông xã hội đã tănglên rõ rệt, từ 8,5% tổng số cuộc tấn công trong quý 4/2021 lên 12,5% trong quý

1/2022. Lừa đảo chống lại các mục tiêu tiền điện tử như sàn giao dịch tiền điện tử và nhà cung cấp ví đã lên từ 6,5 trong q trước lên 6,6% các cuộc tấn cơng.

<b>Hình 1. 2. </b>Biểu đồ thể hiện số lượng các cuộc tấn cơng lừa đảo 04/2021-03/2022.

Cịn ở Việt Nam theo tổng hợp của NCS [3], năm 2023 đã ghi nhận 13.900 vụ tấn công mạng vào các tổ chức tại Việt Nam, trung bình mỗi tháng xảy ra 1.160 vụ. NCS chỉ ra Top 3 điểm yếu bị tấn công nhiều nhất tại Việt Nam năm 2023. Tỷ lệ cao nhất là điểm yếu con người, chiếm 32,6% tổng số vụ việc. Theo đó hacker sử dụng email giả mạo (phishing) có file đính kèm mã độc dưới dạng file văn bản hoặc nội

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

dung có đường link đăng nhập giả mạo để chiếm tài khoản, kiểm soát máy tính người dùng từ xa.

Khi tạo ra một trang web lừa đảo, các đối tượng tội phạm nhanh chóng tạo ra hàng nghìn biến thể URL khác nhau trước khi phát tán đến người dùng. Do đó, khi truy cập vào các địa chỉ này, người dùng đều bị điều hướng đến cùng một trang web lừa đảo. Qua đó, dễ dàng nhận thấy số lượng trang web lừa đảo gia tăng liên tục trong những năm gần đây mà khơng có dấu hiệu chững lại. Điều này gây ra những thiệt hại nặng nề cho nền kinh tế thế giới nói chung và những nguy cơ mất an tồn thơng tin nóiriêng đối với các tổ chức, doanh nghiệp và đặc biệt là với cá nhân.

Để thực hiện thành công hành vi lừa đảo, đối tượng tấn công sẽ tiến hành nhữngcách thức như sau.

Tạo trang web giả mạo: Kẻ tấn cơng tạo ra một trang web có giao diện và tươngtác giống hệt trang web gốc.Sử dụng các yếu tố như logo, bố cục và nội dung của trang web thật để đánh lừa người dùng.

Gửi mail cho người dùng: Kẻ tấn công soạn email với nhiều nội dung gây tị mị, kích thích người dùng, ví dụ: Cập nhật thông tin tài khoản ngân hang, Khai báo thông tin cá nhân tham gia trúng thưởng, Gửi hàng loạt email đến người dung ... khuyến khích họ nhấp vào liên kết dẫn đến trang web giả mạo.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Người dùng truy cập vào URL độc hại: Người dùng không nhận ra URL độc hại trong email và nhấp chuột vào. Họ bị chuyển hướng đến trang web giả mạo do kẻ tấn công tạo ra.

Người dùng nhập thông tin nhạy cảm: Trên trang web giả mạo, người dùng bị lừa nhập các thông tin nhạy cảm như: Tên đăng nhập, Mật khẩu, Mã số thẻ tín dụng, Thơng tin cá nhân khác

Kẻ tấn cơng đã có được thông tin người dùng: Sau khi thu thập thông tin nhạy cảm, kẻ tấn công sử dụng chúng cho các mục đích bất hợp pháp như: Bán dữ liệu người dung, Thực hiện giao dịch gian lận, Rửa tiền

1.4.Mục tiêu nghiên cứu:

Dự án này hướng tới lĩnh vực an ninh mạng và trong đó sẽ phát triển một mơ hình phát hiện URL độc hại bằng cách sử dụng học máy, em sẽ tìm hiểu cách có thể phát hiện tự động các URL độc hại có nghĩa là các URL bị xâm phạm bởi tin tặc hoặc được sử dụng cho tội phạm mạng hoặc tấn công mạng.

Trong nghiên cứu này em sẽ tập trung vào việc phát hiện các URL độc hại dướidạng bài toán phân loại đa lớp. Chúng em sẽ phân loại các URL gốc thành các loại khác nhau, bao gồm URL an toàn (lành tính), URL lừa đảo (phishing), URL chứa phầnmềm độc hại (malware) hoặc URL bị thay đổi giao diện (defacement).

<b>1.5. Tổng quan về phân loại các URL</b>

URL lành tính: Đây là những URL an toàn để truy cập.

URL lừa đảo (Phishing): Bằng cách tạo URL lừa đảo, tin tặc cố gắng đánh cắp thơng tin cá nhân hoặc tài chính nhạy cảm như thơng tin đăng nhập, số thẻ tín dụng, chi tiết ngân hàng trực tuyến, v.v.

URL chứa phần mềm độc hại (Malware): Loại URL này sẽ tiêm phần mềm độc hại vào hệ thống của nạn nhân khi họ truy cập.

URL bị thay đổi giao diện (Defacement): URL bị thay đổi giao diện thường được tin tặc tạo ra với mục đích đột nhập vào một máy chủ web và thay thế trang web được lưu trữ bằng trang web của riêng chúng, bằng các kỹ thuật như tiêm mã, kịch bản

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

chéo trang (XSS), v.v. Các mục tiêu phổ biến của URL bị thay đổi giao diện là các trang web tôn giáo, trang web chính phủ, trang web ngân hàng và trang web cơng ty.

1.6.Quy trình dự án

Vì các thuật tốn học máy chỉ hỗ trợ đầu vào dạng số, chúng em sẽ tạo các đặc trưng từ vựng (lexical features) dạng số từ các URL đầu vào. Do đó, đầu vào cho các thuật toán học máy sẽ là các đặc trưng từ vựng dạng số thay vì URL gốc.

Trong nghiên cứu này em sẽ sử dụng ba bộ phân loại học máy tổng hợp là Random Forest, Light GBM (Gradient Boosting Machine) và XGBoost (Extreme Gradient Boosting).

Sau đó, em cũng sẽ so sánh hiệu suất của chúng và vẽ biểu đồ tầm quan trọng của các đặc trưng để hiểu đặc trưng nào đóng vai trị quan trọng trong việc dự đoán cácURL độc hại.

<b>1.7. Cấu trúc đồ án</b>

CHƯƠNG 1. TỔNG QUAN

CHƯƠNG 2. CƠ SỞ LÝ THUYẾT

CHƯƠNG 3. KẾT QUẢ THỰC NGHIỆMCHƯƠNG 4. KẾT LUẬN VÀ KIẾN NGHỊ

CHƯƠNG 2. CƠ SỞ LÝ THUYẾT

<b>2.1. Khái niệm:</b>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Trước khi tìm hiểu về URL độc hại, trước tiên chúng ta phải hiểu rằng URL về cơ bản là một công cụ định vị tài nguyên thống nhất, nó là địa chỉ mà chúng ta có thể xác định tài nguyên bên trong đầu vào. URL là địa chỉ duy nhất có định dạng có cấu trúc được xác định rõ ràng để truy cập các trang web qua World Wide Web (WWW).

<b>Hình 2. 1. Các thành phần của URL.</b>

Nói chung, có ba thành phần cơ bản tạo nên một URL

a) Protocol (Giao thức): về cơ bản, nó là một định danh xác định giao thức nàosẽ sử dụng, ví dụ: HTTP, HTTPS, v.v.

b) Host name (Tên máy chủ): còn được gọi là resource name (tên tài nguyên). Nó chứa địa chỉ IP hoặc tên miền nơi đặt tài nguyên thực tế.

<b>c) Path (Đường dẫn): Nó chỉ định đường dẫn thực tế nơi đặt tài nguyên</b>

Theo hình 2.1 google.com.vn là tên miền. Tên miền cấp cao nhất là một thành phần khác của tên miền cho biết bản chất của trang web, tức là mạng lưới (.net), giáo dục (.edu), tổ chức (.edu), thương mại (.com), cơ quan chính phủ (.gov) v.v.

Các URL đã sửa đổi hoặc bị xâm phạm được sử dụng cho các cuộc tấn công mạng được gọi là URL độc hại.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Một URL hoặc trang web độc hại thường chứa các loại trojan, phần mềm độc hại, nội dung không mong muốn khác nhau dưới dạng lừa đảo, tự động tải xuống, thư rác.

Mục tiêu chính của trang web độc hại là gian lận hoặc đánh cắp thông tin cá nhân hoặc tài chính của những người dùng. Theo Báo cáo mối đe dọa bảo mật Internet (ISTR) 2019 của Symantec [6], URL độc hại là một kỹ thuật được sử dụng nhiều trongtội phạm mạng.

Random Forest (Rừng ngẫu nhiên) là một thuật tốn học máy có giám sát (supervised learning) được sử dụng phổ biến trong các bài toán phân loại và hồi quy. Thuật toán này hoạt động bằng cách xây dựng một tập hợp lớn các cây quyết định (decision tree) và sử dụng kết quả dự đoán của tập hợp này để đưa ra dự đoán cuối cùng.

Giải thuật học máy rừng ngẫu nhiên (Random Forests - RF[9]) thực hiện huấn luyện mơ hình phân lớp (Hình 2.2) qua các bước chính như sau:

 Chuẩn bị tập dữ liệu ta có m là số lượng phần tử trong tập dữ liệu huấn luyện, n là số lượng biến (thuộc tính) trong mỗi phần tử dữ liệu

 Xây dựng rừng cây: T là cây quyết định trong rừng. Mơ hình cây quyết địnhthứ T được xây dựng trên tập mẫu Bootstrap thứ T lấy ngầu nhiên m phần tửcó hồn lại từ tập dữ liệu huấn luyện để tạo thành một tập con. T tập con độclập được tạo ra cho T cây quyết định. Mỗi cây quyết định được xây dựng từ đầu trên tập con tương ứng. Tại mỗi nút trong cây, chọn ngẫu nhiên n’ biến (n’<< n) từ n biến ban đầu.Sử dụng n’ biến này để tính tốn phân hoạch tốt nhất cho nút, cây được xây dựng đến độ sâu tối đa đã được cài đặt trước (không cắt nhánh).

 Phân loại dữ liệu mới ta có x là phần tử dữ liệu cần phân loại. Cho x đi qua T cây quyết định trong rừng, mỗi cây quyết định sẽ dự đoán lớp cho x. Lớp được dự đoán nhiều nhất bởi các cây quyết định sẽ là lớp cuối cùng cho x.

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<b>Hình 2. 2. Giải thuật Rừng ngẫu nhiên</b>

Nguyên tắc hoạt động:

a) Tạo tập hợp cây quyết định:

 Thuật toán ngẫu nhiên một tập con dữ liệu con (bootstrap sample) từ tập dữ liệu gốc với kích thước bằng kích thước tập dữ liệu gốc.

 Sử dụng tập con dữ liệu con này để xây dựng một cây quyết định. Lặp lại bước trên nhiều lần (thường là vài trăm hoặc vài nghìn lần) để

tạo ra một tập hợp lớn các cây quyết định.b) Dự đốn:

 Khi có một mẫu dữ liệu mới cần dự đoán, mỗi cây quyết định trong tập hợp sẽ dự đoán lớp cho mẫu dữ liệu này.

 Lớp được dự đoán bởi nhiều cây quyết định nhất sẽ được coi là lớp dự đoán cuối cùng cho mẫu dữ liệu mới.

Ưu điểm:

 Độ chính xác cao: Random Forest thường có độ chính xác cao hơn so với các thuật toán học máy khác như SVM (Support Vector Machine) hay K-Nearest Neighbors (KNN).

 Ít bị quá khớp (overfitting): Random Forest có khả năng chống quá khớptốt do sử dụng nhiều cây quyết định khác nhau để dự đoán.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

 Có thể xử lý được dữ liệu có nhiễu: Random Forest có khả năng xử lý tốtdữ liệu có nhiễu do sử dụng tập con dữ liệu con để xây dựng cây quyết định.

 Dễ sử dụng: Random Forest tương đối dễ sử dụng và không địi hỏi nhiều tham số cần điều chỉnh.

Nhược điểm:

 Có thể tốn nhiều thời gian để đào tạo: Do cần phải xây dựng nhiều cây quyết định, Random Forest có thể tốn nhiều thời gian để đào tạo, đặc biệtlà với các tập dữ liệu lớn.

 Có thể khó giải thích kết quả: Do sử dụng nhiều cây quyết định, RandomForest có thể khó giải thích kết quả dự đốn cho một mẫu dữ liệu cụ thể.

<b>2.3.Light GBM (Gradient Boosting Machine)</b>

Light GBM (Light Gradient Boosting Machine) là một thuật toán học máy có giám sát (supervised learning) mạnh mẽ được sử dụng cho các bài toán phân loại và hồi quy. Thuật toán này là một cải tiến của Gradient Boosting Machine (GBM) truyền thống, khắc phục một số nhược điểm và mang lại hiệu suất cao hơn. Nó hoạt động dựatrên nguyên tắc học theo hướng dốc (gradient boosting), tương tự như GBM (Gradient Boosting Machine) truyền thống, nhưng được cải tiến với nhiều ưu điểm vượt trội.

Để hiểu về nguyên lý thuật toán LightGBM, trước hết chúng ta cùng tìm hiểu lýthuyết của thuật tốn GTB [10]. Ngun lý chung của GTB là kết hợp nhiều cây quyết định để thu được câu trả lời cuối cùng và bằng cách cộng kết quả của tất cả các cây quyết định. Quá trình này đã được cải thiện để đạt được mức tăng cường độ dốc cực cao trong thuật toán XGBoost. Sự khác biệt giữa XGBoost và GTB là ở cách phân chia cây và cách xác định giá trị của nút lá. LightGBM được tối ưu hóa hơn nữa trên cơ sở cải tiến công thức GTB của XGBoost.

Nguyên lý cơ bản được sử dụng trong thuật tốn GTB là việc kết hợp các cây mơ hình học tập cơ bản yếu (tức là có độ sai số cao) thành một cây mơ hình học tập mạnh hơn theo kiểu tuần tự.Chúng ta có thể xem q trình học của thuật tốn GTB như minh họa trong Hình 2. 3. Cây học sau được xây dựng nhằm mục đích ước lượng các giá trị của phần sai số của cây học ngay trước. Mơ hình cuối cùng sẽ có dạng [10]:

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<b>Hình 2. 3. q trình học của thuật tốn GTB</b>

Trong đó x là mẫu và hàm   ; h x i là cây ra quyết định thứ i [10]. Các tham số khác được tính như sau:

<b>Hình 2. 5. Mơ hình thuật tốn GTB</b>

Cơ chế hoạt động Light GBM:

a) Khởi tạo: Bắt đầu với một mơ hình đơn giản, ví dụ như một cây quyết định (decision tree) có độ sâu nhỏ.

b) Lặp:

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

 Đánh giá lỗi: Tính tốn lỗi dự đốn của mơ hình hiện tại trên tập dữ liệu huấn luyện.

 Xây dựng cây tiếp theo: Xây dựng một cây quyết định mới nhằm giảm thiểu lỗi dự đoán được xác định ở bước trước.

 Cập nhật mơ hình: Cập nhật mơ hình hiện tại bằng cách kết hợp cây quyết định mới với trọng số phù hợp.

c) Lặp lại bước 2 cho đến khi đạt được số lượng cây tối ưu hoặc đáp ứng các tiêu chí dừng.

 Ít bị quá khớp (overfitting): Light GBM sử dụng các kỹ thuật

regularization để giảm thiểu overfitting, giúp mơ hình tổng quát hóa tốt hơn.

 Hỗ trợ cả dữ liệu thưa thớt (sparse data): Light GBM có khả năng xử lý hiệu quả các tập dữ liệu thưa thớt, thường gặp trong các ứng dụng thực tế.

<b>2.4.XGBoost (Extreme Gradient Boosting)</b>

XGBoost (eXtreme Gradient Boosting) là một thư viện mã nguồn mở, được phát triển bởi Tianqi Chen et al., là một trong những thuật toán Gradient Boosting Machine (GBM) hiệu quả và được sử dụng rộng rãi nhất hiện nay. XGBoost kế thừa và cải tiến GBM truyền thống, mang lại hiệu suất vượt trội về tốc độ, độ chính xác và

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

khả năng xử lý các bài toán học máy phức tạp. XGBoost cũng hoạt động dựa trên nguyên tắc học theo hướng dốc (gradient boosting) giống như LightGBM.

Cơ chế hoạt động: XGBoost lặp lại các bước sau

a) Khởi tạo: Bắt đầu với một mô hình đơn giản, ví dụ như một cây quyết định (decision tree) có độ sâu nhỏ.

 Cập nhật mơ hình: Cập nhật mơ hình hiện tại bằng cách kết hợp cây quyết định mới với trọng số phù hợp. Trọng số được xác định bằng thuậttoán "learning rate", giúp điều chỉnh mức độ ảnh hưởng của từng cây quyết định trong mơ hình tổng hợp.

c) Lặp lại bước 2 cho đến khi đạt được số lượng cây tối ưu hoặc đáp ứng các tiêu chí dừng.

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

 Do là một mơ hình ensemble learning, XGBoost có thể khó giải thích kếtquả dự đốn cho một mẫu dữ liệu cụ thể.

<i><b>2.2.4. Bảng so sánh các thuật toán.</b></i>

Bảng 2. 1.<b><small> Bảng so sánh chung các thuật toán</small></b>

quá khớp, có thể giải thích kết quả

Tốn nhiều thời gianđể đào tạo, có thể khơng hiệu quả với dữ liệu lớn

Phân loại, hồi quy, lựa chọn tính năng

hoạt, xử lý dữ liệu thưa thớt tốt

Khó điều chỉnh tham số, khó giải thích kết quả

Phân loại, hồi quy, xếp hạng, phát hiện gian lận, lựa chọn tính năng

khơng

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

11 count_http Kiểm tra http

CHƯƠNG 3. KẾT QUẢ THỰC NGHIỆM

<b>3.1. Giới thiệu tập dữ liệu sẽ được sử dụng</b>

Nghiên cứu điển hình này sẽ sử dụng một tập dữ liệu chứa 651.191 URL được phân loại thành các loại:

<small></small> 428.103 URL lành tính (an tồn)

<small></small> 96.457 URL bị thay đổi giao diện (defacement)

<b>3.2. Wordcloud của URL</b>

Biểu đồ đám mây từ khóa (Wordcloud) của URL giúp chúng ta hiểu được mẫu phân bố của các từ/ký hiệu trong các loại URL khác nhau. Đây là một trong những kỹ

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

thuật của xử lý ngôn ngữ tự nhiên (Natural Language Processing) để phân tích sự phânbố của các từ.

<b>Hình 3. 1. Wordcloud của URL an tồn.</b>

Như chúng ta có thể thấy trong hình trên đây, biểu đồ đám mây từ khóa của các URL an tồn (benign) hiển thị rõ ràng các ký hiệu thường gặp như html, com, org, wiki, v.v.

<b>Hình 3. 2. Wordcloud của </b>phishing URL.

</div>