HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG
---------------------------------------
NGUYỄN MINH TN
DỊ TÌM CÁC DẠNG TẤN CƠNG MẠNG MÁY TÍNH
Chun ngành: Hệ thống Thơng tin
Mã số: 8.48.01.04
TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
HÀ NỘI - 2018
Luận văn được hồn thành tại:
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG
Người hướng dẫn khoa học:
TS. NGUYỄN ĐÌNH HĨA
Phản biện 1: TS. VŨ VĂN THỎA
Phản biện 2: PGS.TS. NGUYỄN LINH GIANG
Luận văn được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học
viện Cơng nghệ Bưu chính Viễn thông
Vào lúc: 09 giờ 40 ngày 14 tháng 07 năm 2018
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Cơng nghệ Bưu chính Viễn thơng
1
MỞ ĐẦU
Hiện nay với sự phát triển mạnh mẽ ngành công nghệ thông tin, mạng xã
hội bùng nổ, thông tin, dữ liệu có mặt và xuất hiện xung quanh chúng ta. Công
nghệ thông tin phát triển đã mang lại cho nhân loại nhiều lợi ích, số lượng
người tham gia các ứng dụng internet này càng cao. Trong quá trình phát triển
của công nghệ thông tin, chúng ta đã thu thập được một khối lượng lớn dữ liệu.
Nhưng sự phát triển này cũng mang đến rất nhiều điều bất lợi bởi cùng với sự
phát triển của cơng nghệ bảo mật thì các kẻ phá hoại cũng ngày càng tinh vi và
sảo quyệt hơn. Điều đó thật dễ hiểu bởi khi ta gia tăng lượng thơng tin, lợi ích
trên Internet thì cũng sẽ làm nảy sinh các xâm nhập để khai thác thơng tin đó
nhằm phục vụ cho lợi ích riêng. Tấn công phổ biến nhất của hacker hiện nay
hướng tới các website, cơ sở dữ liệu nhằm lợi dụng các loại lỗ hổng bảo mật để
cài phần mềm gián điệp, điều khiển từ xa, xâm nhập, nhằm phá hoại, lấy cắp
thông tin với mục đích chính trị và kinh tế, làm ảnh hưởng tới các tổ chức
doanh nghiệp.
Để phòng chống các tấn cơng từ mạng máy tính, có nhiều phương pháp
cả về kỹ thuật lẫn chính sách đã được đề xuất, áp dụng nhằm đảm bảo an tồn
thơng tin như: triển khai các hệ thống tường lửa (Firewall) nhiều lớp, hệ thống
phát hiện xâm nhập trái phép (IDS), các hệ thống xác thực, các hệ thống bảo
mật thiết bị đầu cuối (Endpoint). Tuy vậy, giải pháp dị tìm các dạng tấn cơng
mạng, chủ động phịng thủ trước các sự tấn cơng là một trong những giải pháp
quan trọng, được quan tâm triển khai. Vấn đề phịng chống tấn cơng trái phép
ngày càng được coi trọng. Nhưng muốn làm tốt, ngăn ngừa được những kẻ tấn
cơng mạng thì ta cần phải có nhìn nhận chính xác về cách thức và phương pháp
tấn cơng. Chính vì vậy, học viên chọn đề tài luận văn “Dị tìm các dạng tấn
cơng mạng máy tính”, trong đó tập trung nghiên cứu ứng dụng học máy trong
dị tìm các dạng tấn cơng mạng mất thường.
2
Trên thực tế, chưa có một giải pháp tồn diện cho việc phịng chống các
loại hình tấn cơng trên mạng. Phịng chống các nguy cơ tấn cơng mạng khơng
phải trách nhiệm của một cá nhân hay tổ chức, mà là của cộng đồng. Đào tạo
nâng cao nhận thức và kỹ năng khai thác dịch vụ cho người sử dụng. Phát triển
và tối ưu nguồn lực, vật lực và nhân lực chuyên trách an ninh mạng. Thay đổi
quan điểm phòng chống tấn cơng, phịng chống khơng chỉ từ bên ngồi mà ngay
cả từ bên trong nội bộ. Triển khai các hệ thống giám sát bảo vệ toàn mạng
nhằm tự động phát hiện và cô lập các truy cập/hoạt động trái phép trên mạng
nội bộ và mạng diện rộng dùng riêng (nghe lén, phát tán mã độc, …). Xây dựng
chính sách phịng chống APT (Advanced persistent threat) ngay từ bên trong
mạng nội bộ.
Mục tiêu của luận văn là nghiên cứu về tấn công mạng, các loại tấn công
mạng, nghiên cứu về các hệ thống phát hiện tấn công mạng và xây dựng thử
nghiệm hệ thống phát hiện các dạng tấn công mạng máy tính. Luận văn áp dụng
phương pháp phân tầng trong việc phát hiện các loại dữ liệu tấn công mạng dựa
trên bộ dữ liệu mẫu.
Mục đính nghiên cứu đó là nghiên cứu về tấn công mạng, các loại tấn
công mạng; nghiên cứu về các hệ thống phát hiện tấn công mạng, từ đó xây
dựng thử nghiệm hệ thống phát hiện các dạng tấn cơng mạng máy tính.
Đối tượng và phạm vi nghiên cứu học viên tập trung vào nghiên cứu các
phương pháp học máy; phương pháp phân loại để dò tìm các dạng tấn cơng
mạng máy tính; Tập trung nghiên cứu 4 loại tấn cơng mạng phổ biến hiện nay
đó là: Denial of Service (DoS); Remote to Local (R2L); User to Root (U2R);
Probe
Phương pháp mà học viên áp dụng trong việc xây dựng luận văn cụ thể
gồm: nghiên cứu lý thuyết trong đó phân tích, tổng hợp thơng tin để tổng kết
các kiến thực nền tảng về phương pháp học máy và xây dựng mơ hình dị tìm
3
các dạng tấn cơng mạng máy tính. Phần nghiên cứu thực nghiệm tập trung vào
việc đề xuất cụ thể sử dụng phương pháp phân loại từng tầng và sử dụng học
máy Support Vector Machine (SVM) để dị tìm các dạng tấn cơng mạng mạng
máy tính, sử dụng tập dữ liệu dataset của DARPA các dữ liệu mô phỏng tấn
công hiện đang phổ biến để đánh giá hệ thống dị tìm mình đã xây dựng.
Phần nội dung của luận văn được chia thành các phần như sau: phần mở
đầu, 03 chương chính, phần kết luận, danh mục tài liệu tham khảo, các phần
được bố trí thứ tự như sau:
Phần mở đầu của luận văn nêu thực trạng về các vấn đề an tồn bảo mật
của mạng máy tính, giới thiệu về tình hình tấn cơng mạng máy tính trong thực
tế, các hệ thống phịng chống tấn cơng mạng máy tính hiện nay từ đó ln văn
đưa ra các nội dung chính về mục đích, đối tượng, phạm vi nghiên cứu cũng
như phương pháp nghiên cứu.
Nội dung của chương 1 là tổng quan về tấn công mạng trong chương này,
luận văn sẽ trình bày về các loại tấn cơng mạng máy tính tiêu biểu hiện nay.
Các phương pháp dị tìm tấn cơng mạng máy tính và tìm hiểu một số phương
pháp phần lớp dữ liệu để sử dụng cho việc dị tìm tấn công mang.
Chương 2 của luận văn tập trung nghiên cứu phương pháp sử dụng để dị
tìm các dạng tấn cơng mạng máy tính, trong chương này luận văn sẽ trình bày
về phương phân loại từng tầng để dị tìm các dạng tấn cơng mạng máy tính, giới
thiệu về thuật tốn và bộ cơng cụ được sử dụng để triển khai thuật tốn đó.
Chương 3 là phần xây dựng hệ thống thực nghiệm, trong chương này luận
văn sẽ giới thiệu về bộ dữ liệu KDD99 sử dụng để huấn luyện. Cách thức cài
đặt thử nghiệm; đưa ra kết quả thực nghiệm và đánh giá kết quả thực nghiệm
đó; So sánh kết quả thực nghiệm này với các phương pháp hiện có.
Phần kết luận của luận văn sẽ nêu ra các kết quả chính khi sử dụng
phương pháp này, các bất cập còn tồn tại cũng như giới hạn của luận văn, từ đó
4
đề xuất mở rộng hướng nghiên cứu mới trong tương lai để đạt kết quả cao hơn,
có khả năng ứng dụng vào thực tế.
Phần danh mục các tài liệu tham khảo trình bày các nguồn tài liệu tiếng
việt cũng như tiếng anh để phục vụ xây dựng luân văn này.
5
1
CHƢƠNG 1: TỔNG QUAN
1.1 Khái niệm tấn công mạng máy tính
Hiện nay vẫn chưa có định nghĩa chính xác về thuật ngữ "tấn cơng" (xâm
nhập, cơng kích). Mỗi chun gia trong lĩnh vực ATTT luận giải thuật ngữ này
theo ý hiểu của mình. Thuật ngữ này có thể giải thích như sau: "xâm nhập - đó
là sự phá huỷ chính sách ATTT" hoặc "là tác động bất kỳ dẫn đến việc phá huỷ
tính tồn vẹn, tính bí mật, tính sẵn sàng của hệ thống và thông tin xử lý trong hệ
thống" [11]
Hiểu theo cách tích cực: Tấn cơng mạng (penetration testing) là phương
pháp Hacker mũ trắng xâm nhập vào một hệ thống mạng, thiết bị, website để
tìm ra những lỗ hổng, các nguy cơ tấn công nhằm bảo vệ cá nhân hoặc tổ chức.
Hiểu theo cách tiêu cực: Tấn công mạng (network attack) là hình thức, kỹ
thuật Hacker mũ đen tấn công vào một hệ thống để thay đổi đối tượng hoặc
tống tiền.
Để thực hiện được tấn cơng mạng, thì người thực hiện tấn cơng phải có sự
hiểu biết về giao thức TCP/IP, có hiểu biêt vể hệ điều hành và sử dụng thành
thạo một số ngơn ngữ lập trình. Khi đó kẻ tấn cơng sẽ xác định phương hướng
tấn công vào hệ thống.
1.2 Một số kiểu tấn công mạng máy tính
Có rất nhiều kiểu tấn cơng mạng máy tính khác nhau và thường được
phân thành 4 loại chính: tấn cơng từ chối dịch vụ, kiểu thăm dị, tấn cơng chiếm
quyền “root”, tấn công điều khiển từ xa. [9]
1.2.1 Tấn công từ chối dịch vụ
1.2.2 Tấn công điều khiển từ xa
1.2.3 Tấn cơng chiếm quyền root
1.2.4 Tấn cơng thăm dị
1.3 Các phƣơng pháp phát hiện xâm nhập mạng
6
1.3.1 Các phương pháp phát hiện xâm nhập trái phép theo nguồn dữ liệu
1.3.2 Các phương pháp phát hiện xâm nhập trái phép theo kỹ thuật phân
tích dữ liệu
Có một số kỹ thuật giúp thực hiện dị sự khơng bình thường của các cuộc
tấn cơng như dưới đây:
Dị theo ngưỡng (Threshold Detection):
Phát hiện xâm nhập trái phép dựa vào học máy có giám sát
Phát hiện xâm nhập trái phép dựa vào học máy khơng có giám sát
tập trung nghiên cứu và sử dụng phương pháp huấn luyện có giám sát
1.4 Tổng quan về một số phƣơng pháp phân loại dữ liệu
1.4.1 Phương pháp phân loại dữ liệu Bayes
a) Giới thiệu phƣơng pháp
c) Nhận xét
1.4.2 Phương pháp cây quyết định
a) Giới thiệu về phƣơng pháp
b) Nội dung phƣơng pháp
c) Nhận xét
1.4.3 Phương pháp SVM
Kết luận chƣơng
Trong chương này, luận văn đã trình bày tổng quan về tấn cơng mạng
máy tính. Các phương pháp dị tìm tấn cơng mạng máy tính. Trình bày tổng
quan về một số phương pháp phân loại dữ liệu có giám sát. Tiếp theo chương 2
học viên sẽ nghiên cứu phương pháp dị tìm các dạng tấn cơng mạng máy tính
dựa trên phân tầng.
7
2
CHƢƠNG 2
NGHIÊN CỨU PHƢƠNG PHÁP DỊ TÌM CÁC DẠNG TẤN CƠNG
MẠNG MÁY TÍNH
Thực tế có một số cách tiếp cận cho bài tốn dị tìm tấn cơng mạng như
phát hiện xâm nhập dựa vào luật, dựa vào phân tích thống kê hay dựa vào các
thuật toán học máy. Trong phạm vi luận văn này sẽ lựa chọn và tập trung sử
dụng phương pháp phân loại từng lớp để dị tìm các loại tấn cơng mạng, sử
dụng thuật tốn SVM và triển khai phần thực nghiệm viết bằng bằng ngôn ngữ
Jave sử dụng thư viện weka để huấn luyện thực hiện dị tìm các dạng tấn cơng
mạng máy tính.
2.1 Mơ tả phƣơng pháp phát hiện tấn công mạng dựa trên phân tầng
Kiểu tấn
Kiểu tấn
Kiểu tấn
Kiểu tấn
công DoS
công Probe
công R2L
công U2R
Yes
Cánh báo
DoS?
Tầng 2
cho người
No
quản trị
Tầng 3
Yes
Probe?
Yes
Dữ liệu
No
truy cập
mạng
No
Tầng 1
Normal?
Tầng 4
Yes
R2L?
No
Bình thường
Hình 2.1 Sơ đồ thuật toán lựa chọn bằng phƣơng pháp phân loại
Nguyên lý cơ bản của phương pháp được sử dụng trong luận văn là
chuyển đổi một bài tốn tìm kiếm và phân loại nhiều lớp thành một tập hợp các
8
bài toàn phân loại hai lớp. Hệ thống được chia thành bốn tầng. Tại mỗi tầng sẽ
áp dụng một bộ phân loại 2 lớp để tìm kiếm và phát hiện loại của dữ liệu đầu
vào theo một trong số các loại dữ liệu mong muốn. Theo đó, dữ liệu truy cập
mạng trước tiên được đưa vào tầng 1 để phân loại xem đó có phải là dữ liệu là
bình thường hay khơng, hay nó là dữ liệu của một cuộc tấn cơng. Nếu dữ liệu
truy cập đó là một cuộc tấn cơng thì hệ thống sẽ cảnh báo cho người quản trị,
đồng thời dữ liệu này sẽ được chuyển sang tầng 2 để xác định xem đó có phải là
kiểu tấn cơng DoS hay khơng? Nếu có thì xác định được đó là kiểu tấn cơng
DoS, nếu khơng thì dữ liệu sẽ được chuyển sang tầng 3 để xác định đó có phải
là kiểu tấn cơng Probe hay khơng? Nếu có thì xác định được đó là kiểu tấn cơng
Probe, nếu khơng thì dữ liệu sẽ được chuyển sang tầng 4 để tiếp tục xác xác
định có phải kiểu tấn cơng R2L hay khơng? Nếu có thì đó là kiểu tấn cơng R2L,
nếu khơng thì đó là kiểu tấn cơng U2R.
Việc dị tìm phát hiện các dạng tấn cơng mạng khơng chỉ là phát hiện ra
một kết nối có phải là tấn công hay không mà cần chỉ rõ tấn cơng đó nó thuộc
loại tấn cơng nào. Mục tiêu của việc sử dụng mơ hình phân loại từng tầng là để
giảm thời gian và độ phức tạp tính tốn cần thiết để phát hiện các sự kiện bất
thường nhờ vào việc sử dụng các bộ phân loại hai lớp. Vì vậy, thời gian cần
thiết để phát hiện một sự kiện xâm nhập có thể được giảm đi, điều này làm cho
hệ thống sớm phát hiện ra từng loại tấn công mạng để có thể nâng cao khả năng
ngăn chặn một cuộc tấn công theo các hướng độc lập. Mỗi một loại tấn cơng hệ
thống sẽ có một cơng cụ hoặc thuật tốn khác nhau để dị tìm ra loại đó là tấn
cơng gì, sau khi xác định được loại tấn cơng đó thì hệ thống sẽ có các phương
án phịng chống riêng và các tấn công này được chặn ngay sau đó. Với phương
pháp phân loại từng tầng này hệ thống có thể áp dụng được nhiều cơng cụ thuật
tốn khác nhau để tìm ra các loại tấn cơng khác nhau. Việc lựa chọn thứ tự phân
loại các tấn công dựa vào xác suất xuất hiện thực tế của mỗi kiểu tấn công
9
nhằm tối ưu thời gian phân loại, các kiểu tấn cơng có xác suất xuất hiện thấp
hơn sẽ nằm ở các tầng cao hơn do thời gian phân loại lớn hơn.
Trên thực tế, việc chuyển đổi bài toán từ phân loại nhiều lớp sang phân
loại hai lớp làm tăng tính linh hoạt của hệ thống nhờ vào tính đa dạng và sẵn có
của các bộ phân loại hai lớp có thể sử dụng trong hệ thống. Việc sử dụng bộ
phân loại nào không phải là điều quá quan trọng đối với hệ thống này. Hệ thống
này có thể được mở rộng dễ dàng để có thể dị tìm các dạng tấn cơng mạng
khác ngồi bốn loại tấn cơng mạng đã đề cập đến. Qua khảo sát thực tế SVM là
bộ cơng cụ dễ sử dụng, đồng thời có thể cho kết quả tốt khi phát hiện tấn công
DoS, Probe [2]. Do vậy, trong phạm vi luận văn này để triển khai phương pháp
phân loại từng tầng giải quyết bài toán dị tìm các dạng tấn cơng mạng máy
tính, tác giả sẽ sử dụng thuật tốn phân loại có giám sát SVM.
2.2 Thuật tốn SVM
2.3 Mơ hình SVM cho bài tốn hai lớp
2.3.1 Mơ hình dual
2.3.2 Hàm kernel
2.4 Máy véctơ hỗ trợ trong trƣờng hợp phân đa lớp
2.4.1 Chiến lược one-vs-all.[7]
2.4.2 Chiến lược one-vs-one. [7]
2.5 Phần mềm Weka
2.5.1 Giới thiệu về Weka
Kết luận chƣơng
Trong chương 2 này luận văn đã trình bày về phương pháp phân loại để
sử dụng cho việc dị tìm các dạng tấn cơng mạng máy tính và trình bày thuật
tốn phân loại có giám sát SVM, giới thiệu tổng quan về phần mềm làm nền
tảng cơ sở nhằm xây dựng hệ thống kiểm thử ở chương 3.
10
3
CHƢƠNG 3: XÂY DỰNG HỆ THỐNG
Chương này luận văn sẽ trình bày chi tiết quá trình thực nghiệm triển khai
hệ thống trên bộ dữ liệu đã từng được sử dụng rộng rãi trong các cơng trình
nghiên cứu trước đây, bộ dữ liệu KDD99 thuộc dự án của DARPA. Nội dung
chương này cũng bao gồm các kết quả thực nghiệm đánh giá, phân tích, so sánh
phù hợp
3.1 Giới thiệu về bộ dữ liệu mẫu về xâm nhập mạng
Bảng 3.1 Phân bố theo nhóm trong tập dữ liệu gốc
Kiểu tấn cơng
Số lƣợng mẫu
Số mẫu trùng lặp
Số lƣợng mẫu sử
loại bỏ
dụng
Normal
97278
9447
87831
DoS
391458
336886
54572
Probe
4107
1977
2130
R2L
1114
127
987
U2R
52
0
52
Tổng
4940009
348437
145572
Dữ liệu này tổng số 494009 bản ghi, sau khi loại bỏ các dữ liệu trùng lặp
thì cịn lại 145572 bản ghi. Các dữ liệu này được chia làm hai phần với tỷ lệ
50% cho việc huấn luyện và 50% cho việc thử nghiệm. Sau khi phân chia, số
lượng bản ghi tập huấn luyện là: 72786 bản ghi, và tập thử nghiệm là 72786 bản
ghi. Mặc dù số lượng bản ghi này không quá lớn nhưng trong phạm vi thực
nghiệm luận văn, học viên sẽ chỉ sử dụng số bản ghi này với mục đích triển
khai thực nghiệm để đánh giá các kết quả của hệ thống đã được giới thiệu.
11
Bảng 3.2 Phân bố dữ liệu theo nhóm trong tập huấn luyện
Số lƣợng mẫu
Kiểu
tấn công
Normal
DoS
Probe
R2L
U2R
Tổng
47837
23337
1043
538
31
72786
Tỷ lệ (%)
65.723
32.062
1.433
0.739
0.043
100
Bảng 3.3 Phân bố dữ liệu theo nhóm trong tập thử nghiệm
Số lƣợng mẫu
Kiểu tấn công
Normal
DoS
Probe
R2L
U2R
Tổng
39994
31235
1087
449
21
72786
Tỷ lệ (%)
54.947
42.913
1.493
0.617
0.029
100
Theo các bảng nêu trên, chúng ta để ý thấy số lượng cũng như tỷ lệ % của
nhóm xâm nhập DoS và Probe rất lớn. Điều này khơng có nghĩa là các nhóm
DoS và Probe xảy ra nhiều mà là do KDD-99 định nghĩa sự kiện dựa trên kết
nối TCP/IP. Thông thường mối đợt tấn công DoS và Probe thường sinh ra rất
nhiều kết nối, vì vậy trong tập dữ liệu KDD-99 mỗi kết nối TCP/IP được xem
như một sự kiện.
3.2 Cài đặt và các kết quả thực nghiệm
Hệ thống thực nghiệm được viết bằng ngôn ngữ Java, sử dụng bộ thư viện
Weka để phân loại.
3.2.1 Huấn luyện hệ thống
a. Huấn luyện tầng 1: (Normal_Attack)
12
Để huấn luyện tầng thứ nhất, chúng ta sử dụng tồn bộ dữ liệu Normal và
dữ liệu attack có trong bộ dữ liệu huấn luyện. Theo đó, dữ liệu có nhãn Normal
là 47837 bản ghi và dữ liệu tấn công có tổng cộng 24949 bản ghi.
b. Huấn luyện tầng 2: (DoS_Orther)
Để huấn luyện tầng thứ hai, chúng ta chỉ sử dụng dữ liệu tấn công ở trong
bộ dữ liệu huấn luyện. Dữ liệu này bao gồm toàn bộ các bản ghi có nhãn DoS
23337 bản ghi, và tất cả các bản ghi thuộc các loại tấn cơng cịn lại 1612 bản
ghi.
c. Huấn luyện tầng 3: (Probe_orther)
Để huấn luyện tầng này, chúng ta chỉ sử dụng dữ liệu tấn công dạng
Probe, U2R, và R2L. Dữ liệu này bao gồm tất cả các bản ghi có nhãn Probe
1043 bản ghi, và tồn bộ các bản ghi thuộc hai loại tấn công R2L và U2R với số
lượng 569 bản ghi.
d. Huấn luyện tầng 4: (R2L_U2R)
Ở tầng này, dữ liệu huấn luyện chỉ bao gồm hai loại tấn công là R2L và
U2R. Dữ liệu này bao gồm 538 bản ghi có nhãn R2L và 31 bản ghi có nhãn
U2R.
3.2.2 Các kết quả phân loại tấn công mạng
a. Phân loại Normal
13
Hình 3.1 Phân loại Normal
Dữ liệu truy cập mạng được đưa vào tầng thứ nhất xác định xem bản ghi
nào được xác định là bình thường, bản ghi nào là tấn công sẽ được tiếp tục cho
đi qua tầng thứ 2 để tiếp tục phân loại các loại tấn công là DoS, Probe, U2L hay
R2L. Kết quả phân loại Normal ta được bảng:
Bảng 3.4 Bảng ma trận nhầm lẫn khi phân loại Normal
Phân loại
Normal
Attack
Normal
39942
52
Attack
183
32609
Sau khi phân loại Normal ta thu được kết quả ma trận như sau:
Số bản ghi Normal được hệ thống phân loại đúng là: 39942;
Số bản ghi Normal bị phân loại sai thành tấn công là: 52;
Số bản ghi tấn công được phân loại đúng là: 32609;
Số bản ghi tấn công bị phân loại nhầm sang bình thường là: 183. Trong số
183 bản ghi này có 128 bản ghi thuộc loại DoS, 30 bản ghi thuộc loại Probe, 19
bản ghi thuộc loại R2L, và 6 bản ghi thuộc loại U2R.
14
b. Phân loại DoS
Hình 3.2 Phân loại DoS
Dữ liệu sau khi đi qua tầng thứ nhất, những bản ghi được xác định là tấn
công sẽ được tiếp tục cho đi qua tầng thứ 2 để phân loại xem tấn công nào là
DoS, tấn công nào không phải là DoS. Kết quả phân loại DoS ta được bảng:
Bảng 3.5 Bảng ma trận nhầm lẫn khi phân loại DoS
Phân loại
DoS
Other
DoS
31106
129
Other
8
1549
Sau khi phân loại DoS ta thu được kết quả ma trận như sau:
Số bản ghi DoS được hệ thống phân loại đúng là: 31106;
Số bản ghi DoS bị phân loại sai thành tấn công khác là: 129;
Số bản ghi các tấn cơng cịn lại được phân loại đúng là: 1549;
Số bản ghi tấn công con lại bị phân loại nhầm sang DoS: 8. Trong số 8
bản ghi này có 7 bản ghi thuộc Normal, 1 bản ghi thuộc Probe
15
c. Phân loại Probe
Hình 3.3 Phân loại Probe
Sau khi đi qua tầng thứ 2, các bản ghi được xác định là không phải tấn
công DoS lại được tiếp tục cho qua tầng thứ 3 để xác định xem chúng có phải là
loại tấn công Probe hay không. Kết quả phân loại Probe ta được bảng:
Bảng 3.6 Bảng ma trận nhầm lẫn khi phân loại Probe
Phân loại
Probe
Other
Probe
1056
31
Other
11
1667
Sau khi phân loại Probe ta thu được kết quả ma trận ở như sau:
Số bản ghi Probe được hệ thống phân loại đúng là: 1056;
Số bản ghi Probe bị phân loại sai thành tấn công khác là: 31;
Số bản ghi tấn công còn lại được phân loại đúng là: 1667;
Số bản ghi tấn còn lại bị phân loại nhầm sang Probe là: 11. Trong số 11
bản ghi này có 10 bản ghi thuộc Normal, 1 bản ghi thuộc loại DoS.
16
d. Phân loại R2L và U2R
Hình 3.4 Phân loại R2L và U2R
Các bản ghi sau khi đi qua tầng thứ 3 mà được kết luận không phải tấn
công Probe sẽ được cho qua tầng cuối cùng để xác định chúng có phải là tấn
cơng R2L hay là tấn cơng U2R: Kết quả phân loại R2L và U2R ta được bảng:
Bảng 3.7 Bảng ma trận nhầm lẫn khi phân loại R2L vs U2R
Phân loại
R2L
U2R
R2L
429
20
U2R
10
11
Sau khi phân loại R2L và U2R ta thu được kết quả ma trận như sau:
Số bản ghi R2L được hệ thống phân loại đúng là: 429;
Số bản ghi R2L bị phân loại sai thành tấn công U2R là: 20; Trong số 20
bản này có 19 bản ghi thuộc Normal, 1 bản ghi thuộc U2R.
Số bản ghi U2R được phân loại đúng là: 11;
17
Số bản ghi U2R phân loại nhầm sang R2L là: 10. Trong số 10 bản ghi này
có 6 bản ghi Normal, 4 bản ghi thuộc R2L.
Từ 4 ma trận nhầm lẫn ở các bƣớc phân loại trên ta thu đƣợc bảng ma trận
nhầm lẫn
Bảng 3.8 Ma trận nhầm lẫn
Phân
Normal DoS
Probe R2L
U2R
loại
Sơ
Tỷ lệ %
lượng
chính
dữ liệu
xác
test
Normal 39942
7
10
35
0
39994
99.87
DoS
128
31106 1
0
0
31235
99.59
Probe
30
1
1056
0
0
1087
97.15
R2L
19
0
0
429
1
449
95.55
U2R
6
0
0
4
11
21
52.38
Từ các kết quả trên ta nhận thấy, dùng phương pháp phân loại theo từng
tầng để phân lọa các dạng tấn công mạng cho kết quả chính xác rất cao, nhất là
đối với 2 loại tấn cơng đó là DoS và Probe
3.3 Đánh giá kết quả thực nghiệm
Kết quả thực nghiệm trong luận văn này cho thấy rằng hiệu quả trong việc
cải thiện tỷ lệ phát hiện tấn công. Hơn nữa lựa chọn phương pháp tiếp cận phân
loại từng tầng đã làm giảm đáng kể thời gian cần thiết để thử nghiệm mơ hình.
Hệ thống này giúp có thể xác định một cuộc tấn cơng khi nó được phát hiện ở
một lớp cụ thể, điều này giúp hệ thống đẩy nhanh cơ chế phản hồi xâm nhập, do
đó giảm thiểu tác động của một cuộc tấn cơng. Hệ thống này có lợi thế là có thể
tăng hoặc giảm tùy thuộc vào môi trường mà hệ thống được triển khai, mang lại
18
sự linh hoạt cho các quản trị viên mạng. Trong bài tốn phát hiện tấn cơng
mạng nhu cầu đặt ra khơng chỉ là phát hiện ra một kết nối có phải là tấn cơng
hay khơng mà cần chỉ rõ nó thuộc loại tấn cơng nào. Bộ phân loại này có thể
đáp ứng được yêu cầu mà bài toán phát hiện tấn cơng mạng đề ra. Bên cạnh đó,
ưu điểm phân loại theo từng cấp tỉ lệ dự đoán sai thấp sẽ giúp cho hệ thống phát
hiện tấn công phát hiện sớm tấn công mạng và giảm thiểu cảnh báo sai. Như
vậy việc sử dụng phương pháp phân loại này vào việc dị tìm phát hiện tấn cơng
mạng là hồn tồn phù hợp
Về nhược điểm: Độ chính xác của bộ phân loại này nhạy cảm với tham số
gamma do người dùng thiết lập. Thời gian huấn luyện và dự đoán cần phải
được cải thiện hơn nữa để có thể đáp ứng được việc xây dựng hệ thống phát
hiện xâm nhập mạng có khả năng xử lý khối lượng dữ liệu ngày càng lớn. Dữ
liệu thử nghiệm chỉ dựa trên tập dữ liệu KDD cup 99 được tạo lập để chuyên
đánh giá các hệ thống phát hiện xâm nhập nên có sự khác biệt lớn so với các dữ
liệu thực. Nếu thay dữ liệu thử nghiệm bằng các dữ liệu thực thì độ chính xác sẽ
giảm xuống.
3.4 So sánh, đánh giá với các phƣơng pháp khác
Để đưa ra đánh giá một cách chính xác nhất về hiệu quả phân loại của
phương pháp phân loại theo từng cấp, việc so sánh với một số phương pháp
phân loại khác trong học máy là rất cần thiết. Hai thuật toán phổ biến thường
được sử dụng để phân loại trong học máy là Naive Bayes và cây quyết định sẽ
được lựa chọn để so sánh.
19
Mơ hình phân loại sử dụng thuật tốn Naive Bayes để phân loại [3]
Hình 3.5 Kết quả của mơ hình phân loại sử dụng thuật tốn Naive Bayes [3]
Mơ hình phân loại sử dụng cây quyết định để phân loại [3]. Mơ hình này sử
dụng thuật tốn J48 để phân loại.
Hình 3.6 Kết quả của mơ hình phân loại sử dụng thuật tốn cây quyết định [3]
So sánh với cơng trình nghiên cứu sử dụng với hai thuật hai thuật toán
trên lần lượt kết quả của hai thuật toán trên có độ chính xác lần lượt là 81.661%
20
và 95.51% thì kết quả của luận văn có kết quả chính xác cao, có một số điểm thì
cho kết quả kém hơn do luận văn chia dữ liệu để xây dựng mơ hình và kiểm tra
khác, bên cạnh đó máy tính dùng để thực nghiệm cũng có cấu hình khơng được
cao chính vì vậy thời gian phát hiện và xử lý chậm hơn.
Kết luận chƣơng
Chương 3 của luận văn, tác giả đã nghiên cứu áp dụng phương pháp phân
loại từng tầng và sử dụng thuật toán SVM để thực hiện dị tìm các dạng tấn
cơng mạng máy tính qua các tầng đó. Kết quả sử dụng phương pháp đã dị tìm
phát hiện ra các loại tấn cơng mạng dựa trên việc phân cấp từng lớp, các dạng
tấn công mạng tìm ra được với tỷ lệ phần trăm chính xác cao. Dựa vào kết quả
trên và so sánh với một số phương pháp sử dụng cách tiếp cận khác trong các
cơng trình khoa học đã được cơng bố.
21
KẾT LUẬN
Luận văn đã trình bày được khái niệm, kiến thức cơ bản về các loại tấn
cơng mạng máy tính tiêu biểu hiện nay và các phương pháp dị tìm các loại tấn
công này. Luận văn đã áp dụng phương pháp phân loại theo từng tầng để
chuyển bài toán đa lớp thành tập các bài toán hai lớp để xác định chính xác từng
loại tấn cơng mạng dựa trên bộ dữ liệu mẫu. Tìm hiểu và sử dụng tập dữ liệu
KDD99, cơng cụ Weka trong phân tích dữ liệu. Áp dụng các kết quả nghiên
cứu, luận văn đã thực hiện việc dự đốn lần lượt các loại tấn cơng mạng máy
tính đó là DoS, Probe, R2L, U2R với tập dữ liệu đầu vào KDD99 cho độ chính
xác lần lượt là: 99.59%, 97.15%, 95.55%, 52.38%. Các kết quả tìm được đạt tỷ
lệ cao trong việc phát hiện tất cả các cuộc tấn công được ghi trong dữ liệu.
Về hạn chế của luận văn, do thời gian và nguồn lực và kiến thức của học
viên cịn có hạn trong việc nghiên cứu nên các kết quả của luân văn mới thực
hiện được việc dị tìm ra các loại tấn cơng mạng máy tính, mới chỉ tìm hiểu và
sử dụng một bộ dữ liệu KDD99. Chưa thực nghiệm hệ thống với các thuật tốn
khác như cây quyết định, mạng noron để có cơ sở so sánh, đánh giá hiệu quả
Trong thời gian tới học viên mong muốn nghiên cứu sâu hơn để cải thiện
hiệu suất, tăng tốc độ xử lý dữ liệu với dữ liệu lớn. Nghiên cứu tìm ra các bộ
phân loại phức tạp và kết hợp nhiều bộ phân loại để đem lại hiệu năng cao hơn
khi dị tìm các loại tấn cơng mạng. Xây dựng hệ thống hồn chỉnh với tập dữ
liệu lớn để tự động phát hiện xâm nhập với nhiều thuật toán khác nhau cho kết
quả cao nhất.