Tải bản đầy đủ (.pdf) (16 trang)

Nghiên cứu phương pháp phát hiện xâm nhập mạng dựa trên mạng nơ ron (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (302.69 KB, 16 trang )

HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG
-------------------------------

Nguyễn Đình Đức

NGHIÊN CỨU PHƢƠNG PHÁP PHÁT HIỆN XÂM
NHẬP MẠNG DỰA TRÊN MẠNG NƠ RON

Chun ngành: Hệ thống thơng tin
Mã số: 8480104

TĨM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2018


Luận văn được hồn thành tại:
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG
Người hướng dẫn khoa học: TS. Phạm Hồng Duy

Phản biện 1: TS. Hoàng Xuân Dậu – Học viện Công nghệ BCVT
Phản biện 2: TS. Nguyễn Trọng Đường – Bộ TT&TT

Luận văn đã được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện
Công nghệ Bưu chính Viễn thơng
Vào lúc: 08 giờ 30’ ngày 14 tháng 07 năm 2018

Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Cơng nghệ Bưu chính Viễn thơng



1

I. MỞ ĐẦU
1. Lý do chọn đề tài
Hiện nay mạng Internet đã trở thành một phần không thể thiếu của con
người. Internet ngày càng phổ biến rộng rãi cho mọi người để trao đổi thông
tin trên mạng. Khả năng kết nối trên toàn thế giới đang mang lại thuận tiện
cho tất cả mọi người, nhưng nó cũng tiềm ẩn những nguy cơ khó lường đe
dọa tới mọi mặt của đời sống xã hội. Việc mất trộm thông tin trên mạng gây
ảnh hưởng đến tính riêng tư cho các cá nhân, những vụ lừa đảo, tấn công từ
chối dịch vụ gây ảnh hưởng lớn đến hoạt động kinh doanh cho các cơng ty và
gây phiền tối cho người sử dụng Internet… làm cho vấn đề bảo mật trên
mạng luôn là một vấn đề nóng hổi và được quan tâm đến trong mọi thời điểm.
Cho đến nay, các giải pháp bảo mật ln được chú trọng và đã có những
đóng góp lớn trong việc hạn chế và ngăn chặn những vấn đề về bảo mật, ví dụ
như Firewall ngăn chặn những kết nối khơng đáng tin cậy, mã hóa làm tăng
độ an tồn cho việc truyền dữ liệu, các chương trình diệt virus với cơ sở dữ
liệu liên tục cập nhật về những loại virus mới nhất. Tuy nhiên hiện nay các vụ
vi phạm bảo mật xảy ra ngày càng tinh vi hơn cùng với sự gia tăng những vụ
lạm dụng, dùng sai xuất phát từ trong hệ thống mà những phương pháp bảo
mật khác khơng chống được. Những điều đó dẫn đến yêu cầu phải có một
phương pháp bảo mật bổ trợ cho những phương pháp bảo mật truyền thống.
Phương pháp phát hiện xâm nhập trái phép IDS là một phương pháp bảo mật
có khả năng chống lại các kiểu tấn công, các vụ lạm dụng, dùng sai xuất phát
từ trong hệ thống và có thể hoạt động tốt với các phương pháp bảo mật khác.
Nó đã được nghiên cứu, phát triển và ứng dụng từ lâu trên thế giới và đã thể
hiện vai trị quan trọng trong các chính sách bảo mật.
Từ ý nghĩa khoa học và thực tiễn nêu trên, học viên chọn đề tài: “Nghiên
cứu phương pháp phát hiện xâm nhập mạng dựa trên mạng nơ ron ”.



2

2. Tổng quan về vấn đề nghiên cứu
Một số hệ thống phát hiện xâm nhập ra đời (IDS – Intrusion Detection
System)
nhằm phát hiện và ngăn chặn sớm các cuộc tấn công mạng. Hai hướng tiếp cận
phổ
biến để xây dựng hệ thống IDS là: xây dựng Hệ chuyên gia (rule-based) và
hướng ứng dụng Học máy (SVM, mạng nơ-ron...). Mỗi phương pháp đều mang
lại những hiệu quả nhất định, nhưng bên cạnh đó chúng cịn tồn tại những hạn
chế riêng:
- Hệ chun gia (rule-based): Phương pháp này sử dụng các luật tấn công đã
biết trước, dựa vào các luật được định nghĩa trong hệ thống mà khi có cuộc tấn
cơng mới thì hệ thống sẽ so sánh các đặc trưng, dấu hiệu của gói tin với tập luật
đã có. Hệ thống phát hiện dựa trên hệ chuyên gia có thể kể đến như Snort. Ưu
điểm là khi đã được định nghĩa luật cho cuộc tấn cơng thì khả năng phát hiện
nhầm rất thấp, hệ thống này có thể thêm các luật mới rất linh động, cơ chế hoạt
động không quá phức tạp. Nhược điểm là khi khơng có luật cho kiểu tấn cơng
mới thì hệ thống khơng phát hiện được. Số lượng luật nhiều hệ thống sẽ hoạt
động chậm hơn. IDS dạng này phụ thuộc rất nhiều vào khả năng cập nhật luật
mới cũng như trình độ am hiểu về bảo mật của người quản trị.
- Ứng dụng học máy: Phương pháp này ra đời với mục đích khắc phục
việc
phải cập nhật các luật mới có thể tạo ra xung đột trong tập luật đã có, vốn chỉ
phù hợp với các mơ hình qui mơ vừa và nhỏ. Thay vào đó hệ thống IDS sẽ
được học mơ hình phát hiện bất thường dựa trên một số lượng nhất định các
mẫu dữ liệu được thu thập. Hiệu quả của phương pháp này thường cho ra hệ
thống có khả năng tốt hơn đồng thời lại linh động trong thay đổi huấn luyện.



3

Với cách tiếp cận này, người ta có thể dễ dàng hơn trong việc xây dựng các hệ
thống IDS phức tạp, việc phát hiện xâm nhập không đơn thuần chỉ là phát hiện
nhằm cảnh báo có tấn cơng hay khơng tấn cơng mà cịn có thể đưa ra loại hình,
tính năng chi tiết của cuộc tấn công tương ứng. Mạng nơ-ron là một phương
pháp học máy được chọn trong luận văn để ứng dụng cho bài toán phát hiện
xâm nhập theo phương pháp học máy.
Trên thực tế, hướng tiếp cận ứng dụng học máy cũng không đảm bảo cho
kết quả tốt trong mọi tình huống. Ví dụ, các hình thức tấn cơng như DoS,
DDoS, Probe (thăm dị), U2R (leo thang đặc quyền)... thường có tần suất chênh
lệch nhau rất nhiều. Các cuộc tấn công DoS là rất phổ biến nhưng các cuộc tấn
cơng leo thang đặc quyền lại rất ít để lấy mẫu cho huấn luyện. Điều này dẫn đến
tình trạng dữ liệu thu thập được khi áp dụng cho học máy cũng có tỉ lệ chênh
lệch rất lớn giữa các kiểu tấn công, dẫn đến việc dự báo bị thiên vị cho các
trường hợp dữ liệu nhiều và ít hiệu quả với các trường hợp dữ liệu ít, đơi khi
làm giảm cả chất lượng dự báo chung của cả hệ thống.
3. Mục đích nghiên cứu
Mục đích của đề tài là tìm hiểu mạng nơ-ron để áp dụng cho bài tốn phát
hiện
xâm nhập. Bên cạnh đó đề tài cịn quan tâm đến việc cải tiến chất lượng hệ
thống IDS, nhằm mục đích phát hiện chính xác hơn và khơng thiên vị giữa các
kiểu cảnh báo tấn công trong điều kiện dữ liệu huấn luyện chênh lệch nhau.
Trong quá trình thực hiện luận văn có thể thực hiện một số giải pháp cải tiến
sau:
- Cải tiến bộ dữ liệu huấn luyện bằng cách loại bỏ các bản ghi trùng lặp, việc
loại bỏ này cũng giúp phần giảm bớt sự thiên vị trong cảnh báo. Luận văn cũng
muốn giảm bớt một số thuộc tính dư thừa trong mỗi bản ghi bằng cách kế thừa



4

một nghiên cứu của Mukkamala và Sung, việc loại bỏ thuộc tính dư thừa giúp
q trình huấn luyện trở nên nhanh hơn, chính xác hơn.
- Kết hợp hệ thống chuyên gia (rule-based) cùng với mạng nơ-ron. Hệ thống
rule-based sẽ được dùng để phát hiện các kiểu tấn cơng ít phổ biến, như thế các
luật thêm vào hệ thống cũng không nhiều, độ chính xác và thời gian phát hiện
nhanh. Hệ thống IDS sử dụng mạng nơ-ron sẽ dùng để phát hiện các kiểu tấn
cơng có tần suất lớn, nhằm hạn chế việc phải thêm quá nhiều luật bằng tay.
4. Đối tƣợng và phạm vi nghiên cứu
Nghiên cứu kỹ thuật học máy mạng nơ-ron, sau đó ứng dụng để làm cơng
cụ
phân loại các kết nối mạng trên bộ dữ liệu NSL-KDD99.
Trong chương trình đánh giá phát hiện tấn cơng mạng của Cơ quan Quản
lý Nghiên cứu Dự Án Bộ quốc phòng Mỹ (DARPA), một môi trường đã được
thiết lập để thu được các dữ liệu thô về TCP/IP dump cho một mạng được mô
phỏng giống như mạng LAN của Không lực Hoa Kỳ. Với mỗi kết nối TCP/IP,
41 đặc trưng số và phi số được trích xuất. Dữ liệu được sử dụng trong cuộc thi
KDD cup 1999 là một phiên bản của bộ dữ liệu này. Các cuộc tấn công thuộc
về bốn loại chính: DoS, R2L, U2R, Probing. Nghiên cứu các hệ thống IDS sử
dụng mơ hình hệ chun gia (rule-based) như Snort để nắm được ưu nhược
điểm để cái tiến hệ thống IDS sử dụng học máy.
5. Phƣơng pháp nghiên cứu
Nghiên cứu và cài đặt kỹ thuật học máy mạng nơ-ron. Thu thập và tiền xử
lý bộ dữ liệu mẫu hiện có về tấn cơng mạng. Áp dụng giải pháp cải tiến trên dữ
liệu đã xử lý, đánh giá kết quả sau khi thực hiện với các kết quả nghiên cứu đã
cơng bố trước đó. Đó là lý do tơi chọn đề tài: “ Nghiên cứu phương pháp phát
hiện xâm nhập mạng dựa trên mạng nơ ron”.



5

II. NỘI DUNG
Chƣơng 1: Cơ sở lý thuyết
Chương này đưa ra các khái niệm về tấn công mạng và bài toán phát hiện
xâm nhập. Giới thiệu về hệ thống phát hiện xâm nhập (IDS), thành phần của
hệ thống IDS và phân loại các hệ thống IDS hiện nay.
1.1. Tổng quan về tình hình tấn cơng mạng
1.1.1. Khái niệm
Trong thực tế có rất nhiều cách diễn giải khác nhau về tấn cơng mạng, theo
Sandeep Gutta thì tấn cơng mạng (cyber attack hay intrusion) có thể được
hiểu là một loạt các hoạt động máy tính nguy hiểm đe dọa và làm tổn hại tới
sự bảo mật và tính tồn vẹn của một máy tính hay hệ thống mạng. Tấn cơng
mạng phá vỡ hoạt động bình thường của hệ thống máy tính và có thể truy
nhập trái phép hoặc phá hủy thơng tin trong các hệ thống máy tính.
1.1.2. Các kiểu tấn cơng mạng
Trong lịch sử tồn tại của mạng máy tính đã từng xảy ra rất nhiều các cuộc
tấn công mạng với qui mô lớn, nhỏ khác nhau và cũng để lại nhiều thiệt hại
nghiêm trọng. Có nhiều cách thức tấn cơng nhưng chúng ta có thể phân thành
bốn loại hình tấn cơng mạng chính
1.2. Bài tốn phát hiện xâm nhập mạng
Khi một máy tính hay một hệ thống máy tính hoạt động trên mơi trường
mạng, sẽ có rất nhiều kết nối giữa nó và các máy tính, các thiết bị khác. Có
thể trong những kết nối đó có những kết nối đang tìm cách tấn cơng hệ thống
để đạt được mục đích nào đó. Bản thân mỗi máy tính đều có những biện pháp
để tự bảo vệ nhưng nó có những điểm yếu và thực sự không đủ sức chống lại
các cuộc tấn công mới với mức độ ngày càng tinh vi hơn



6

1.2.1. Phát hiện xâm nhập mạng
Phát hiện xâm nhập mạng là quá trình theo dõi các sự kiện xảy ra trong một
hệ thống máy tính hoặc mạng máy tính và phân tích chúng để tìm ra các dấu
hiệu sự cố có thể xảy ra.
1.2.2. Phân loại phƣơng pháp phát hiện xâm nhập mạng
Các IDS có thể giám sát các sự kiện ở 3 cấp độ khác nhau: mạng (network),
máy trạm (host), ứng dụng (application). Chúng có thể phân tích các sự kiện
bằng việc sử dụng một trong các phương pháp: dựa trên dấu hiệu(signaturebased), dựa trên dị thường (anomaly-based) và phân tích trạng thái giao thức
(statefull protocol analysic)[2]. Bên cạnh việc theo dõi và phân tích các sự
kiện để nhận dạng các hoạt động không mong muốn
1.3. Hệ thống phát hiện xâm nhập IDS
Hệ thống phát hiện xâm nhập (Intrusion Detection System – IDS) là hệ
thống phần cứng hoặc phần mềm có chức năng giám sát lưu thơng mạng, tự
động theo dõi các sự kiện xảy ra trên hệ thống máy tính, phân tích để phát
hiện ra các vấn đề liên quan đến an ninh, bảo mật và đưa ra cảnh báo cho nhà
quản trị.
1.3.1. Thành phần của hệ thống IDS
- Trung tâm điều khiển (The Command Console)
- Bộ cảm biến (Network Sensor)
- Bộ phân tích gói tin(Network Trap)
- Thành phần cảnh báo (Alert Notification)
1.3.2. Phân loại các hệ thống IDS
Hệ thống phát hiện xâm nhập được chia làm nhiều loại khác nhau, chúng ta


7

có thể dựa theo loại và vị trí đặt của các Sensor hoặc phương pháp sử dụng

cho Engine để sinh ra các cảnh báo. Hầu hết các IDS đơn giản đều kết hợp ba
thành phần Sensor, Console, Engine vào trong một thiết bị phần cứng hoặc
một ứng dụng.
Kết luận chương 1
Chương này trình bày các khái niệm, kiến thức cơ bản nhất liên quan đến
bảo mật và hệ thống phát hiện xâm nhập. Đây là những kiến thức cơ bản
nhưng rất cần thiết để có thể đi vào tìm hiểu sâu hơncác công việc phát triển
hệ thống IDS. Các kiến thức đã trình bày như: các kiểu tấn cơng mạng, các
phương pháp phát hiện xâm nhập mạng, phân loại các hệ thống xâm nhập
mạng. Tiếp theo đó trong chương 1 cũng giới thiệu các thành phần của hệ
thống IDS, phân loại các hệ thống IDS đã được phát triển và sử dụng hiện
nay. Trong chương tiếp theo tác giả đi trình bày nội dung liên quan đến
nguồn dữ liệu dành cho phát hiện xâm nhập cũng như phân tích ưu, nhược
điểm của các phương pháp xây dựng hệ thống IDS.


8

Chƣơng 2: Tìm hiểu và nghiên cứu các phƣơng pháp phát hiện tấn
cơng trong hệ thống IDS
Để có thể nghiên cứu và phát triển được một hệ thống IDS chúng ta cần
nắm được các khái niệm liên quan như: dấu hiệu bất thường, các nguồn dữ
liệu dùng cho phát hiện bất thường, các phương pháp phát hiện bất
thường...Từ đó chọn lọc các phương pháp phù hợp cho xây dựng mô hình
IDS.
2.1. Thế nào là bất thƣờng trong mạng
Sự bất thường trong mạng thường dùng để chỉ những tình huống khi hoạt
động của mạng đi chệch so với các trạng thái được quy định là bình thường. Bất
thường trong mạng có thể phát sinh từ nhiều nguyên nhân như các thiết bị mạng
bị hỏng hóc, hệ thống mạng quá tải, hệ thống gặp phải các cuộc tấn công từ

chối dịch vụ, hoặc các cuộc xâm nhập phá vỡ khả năng vận chuyển của các dịch
vụ mạng
2.2. Các nguồn dữ liệu dùng cho phát hiện bất thƣờng
Thu thập các loại dữ liệu liên quan đến hiệu năng của mạng là công việc cơ
bản cho việc phát hiện bất thuờng. Các loại bất thường có thể phát hiện được
phụ thuộc vào bản chất của dữ liệu mạng.
2.2.1. Network Probes
Network Probes là các công cụ đặc biệt như lệnh ping, traceroute...được
sử dụng để thu thập các thông số mạng cần thiết như thời gian trễ và tỉ lệ mất
gói tin.
2.2.2. Lọc gói tin cho việc phân tích luồng
Trong phương thức lọc gói tin, các luồng gói tin sẽ được thống kê, lấy mẫu
bằng cách ghi lại các thơng tin IP header của các gói tin ở các thời điểm khác
nhau và ở các vị trí khác nhau.


9

2.2.3. Dữ liệu từ các giao thức định tuyến
Thông tin về các sự kiện mạng có thể được thu thập thông qua các giao thức
định tuyến.
2.2.4. Dữ liệu từ các giao thức quản trị mạng
Các giao thức quản trị mạng cung cấp tất cả thông tin thống kê về giao thông
trên mạng. Những giao thức này hỗ trợ rất nhiều thơng số có thể giám sát chính
xác hoạt động thiết bị mạng.
2.3. Các phƣơng pháp phát hiện bất thƣờng
Các phương pháp này bao gồm hệ chun gia (rule-based), mạng nơron,mơ
hình máy trạng thái hữu hạn, so sánh mẫu, phân tích thống kê. Chúng ta sẽ
nghiên cứu cơ chế hoạt động điểm mạnh, điểm yếu của từng phương pháp.
2.3.1. Phƣơng pháp hệ chuyên gia (rule-based)

Phương pháp này ra đời từ rất sớm và được ứng dụng vào lĩnh vực dò lỗi hay
phát hiện bất thường trong mạng. Trong hệ chuyên gia, một cơ sở dữ liệu chứa
tập luật (rules) miêu tả các hành vi bất thường được dùng để so sánh với các
luồng dữ liệu đi đến hệ thống mạng.
2.3.2. Phƣơng pháp mạng nơ-ron (Artificial Neural Network)
Phương pháp này ra đời với mục đích khắc phục việc phải cập nhật các luật
mới có thể tạo ra xung đột trong tập luật đã có, vốn chỉ phù hợp với các mơ
hình quy mơ vừa và nhỏ
2.3.3. Phân tích thống kê
Hệ thống hoạt động trên nguyên tắc thu thập dữ liệu của các thông số trên
mạng và áp dụng một số kỹ thuật thống kê trên dữ liệu thu thập được để tạo ra
các tập hồ sơ cho các thông số trong thời điểm hoạt động bình thường.


10

2.3.4. Mạng Bayes (Bayesian network based)
Mạng Bayes là mơ hình đồ thị thể hiện mối quan hệ nguyên nhân - kết quả,
dựa chủ yếu trên lý thuyết xác suất có điều kiện kết hợp với lý thuyết đồ thị để
giải quyết hai vấn đề quan trọng là tính khơng chắc chắn và tính phức tạp, do đó
được ứng dụng rộng rãi.
Kết luận chƣơng 2
Chương này nghiên cứu một cách tổng quan về hệ thống phát hiện xâm nhập
dựa trên phát hiện bất thường, nó có sự khác biệt với hệ thống IDS dựa trên dấu
hiệu.IDS dựa trên phát hiện bất thường sẽ xây dựng một hệ thống thông tin mô
tả trạng thái bình thường, từ đó làm cơ sở để xác định sự bất thường mà có
nhiều khả năng dẫn đến tấn công. Chương này cũng giới thiệu các khái niệm và
kỹ thuật phát hiện bất thường với những ưu nhược điểm cụ thể. Có nhiều
phương pháp phát hiện bất thường như: mạng nơ-ron, hệ chuyên gia (rulebased), phân tích thống kê, mạng Bayes...
Chƣơng 3: Phƣơng pháp phát hiện xâm nhập dựa trên mạng Nơ-ron

Có nhiều phương pháp học máy đã được sử dụng cũng như cần cải tiến
cho bài toán phát hiện xâm nhập. Hiệu quả của mỗi phương pháp thường
được đánh giá qua độ chính xác cảnh báo xâm nhập. Chương này sẽ tập trung
trình bày phương pháp học máy mạng nơ-ron cũng như đề xuất phương pháp
cải tiến kết quả phát hiện xâm nhập. Phần cuối chương sẽ demo thực nghiệm
và phân tích.
3.1. Mơ hình mạng nơ-ron trong bài tốn phát hiện xâm nhập
Nhiệm vụ chính của bài toán là thiết kế một mạng nơ-ron để huấn
luyện trên một tập mẫu thu thập từ thực tế. Mỗi mẫu dữ liệu huấn luyện là
thông tin về đặc điểm có được qua phân tích, thống kê từ một luồng dữ liệu
đi vào hệ thống thực, hoặc là tấn công hoặc khơng, chúng ta cũng có thể phân


11

tích sâu hơn như tấn cơng đó thuộc loại tấn cơng gì.
3.1.1. Mạng nhiều lớp truyền thẳng – MLP
Mơ hình mạng nơ-ron được sử dụng rộng rãi nhất là mô hình mạng
nhiều lớp (tầng) truyền thẳng (MLP: Multi Layer Perceptron). Một mạng
MLP tổng quát là mạng có n (n≥2) tầng (thơng thường tầng đầu vào khơng
được tính đến): trong đó gồm một tầng đầu ra (tầng thứ n) và (n-1) tầng ẩn.
3.1.2. Thuật toán học theo phƣơng pháp lan truyền ngƣợc sai số trong
mạng nơ-ron MLP
Thuật toán này được áp dụng cho mạng truyền thẳng nhiều lớp trong
đó các nơ-ron có thể sử dụng các hàm chuyển là các hàm liên tục và có các
dạng khác nhau để điều chỉnh trọng số.
3.1.3. Một số vấn đề cần chú ý khi sử dụng mạng MLP
Mạng nơ-ron perceptron nhiều lớp là loại mạng nơ-ron được sử dụng
trong nhiều ứng dụng thực tế. Tuy nhiên, để mạng có thể đưa ra kết quả tốt,
chúng ta cần quan tâm đến một số vấn đề có ảnh hưởng khá quan trọng đến

hiệu quả làm việc của nó bao gồm:vấn đề chuẩn hố số liệu đầu vào, vấn đề
học chưa đủ và học quá của mạng, vấn đề lựa chọn một cấu trúc mạng phù
hợp với bài toán.
3.2. Bộ dữ liệu NSL-KDD99
Bộ dữ liệu NSL- KDD99 có nguồn gốc từ MIT’sLincoln Lab. Nó được
phát triển cho chương trình đánh giá phát hiện tấn cơng mạng của Cơ quan
Quản lý Nghiên cứu Dự án phòng thủ tiên tiến Bộ quốc phòng Mỹ (DARPA)
năm 1998 và được coi là bộ dữ liệu tiêu chuẩn cho việc đánh giá về phát hiện
tấn công mạng [5]. Với mỗi kết nối TCP/IP, có 41 đặc trưng số và phi số
được trích xuất. Dữ liệu được sử dụng trong cuộc thi KDD cup 1999 là một


12

phiên bản của bộ dữ liệu này.
3.3. Tiền xử lý dữ liệu
Tập dữ liệu đầy đủ của bộ NSL- KDD99 là tập gốc KDD cup 99 được tinh
chỉnh bằng cách:
Loại bỏ các bản ghi trùng lặp
Số lượng các bản ghi đủ lớn với tập huấn luyện và kiểm tra
3.4. Mô hình đề xuất
Tập huấn luyên đầy đủ định dạng ARFF
Tập hợp đầy đủ NSL-KDD bao gồm nhãn loại tấn công và mức độ khó
khăn ở định dạng CSV
Tập đầy đủ kiểm tra nhãn nhị phân ở định dạng ARFF
Tập NSL-KDD kiểm tra bao gồm các nhãn tấn công ở mức độ khó ở định
dạng CSV
3.4.1 Giới thiệu cơng cụ Weka.
+ Weka là một công cụ phần mềm viết bằng Java phục vụ lĩnh vực học máy
và khai phá dữ liệu.

3.4.2 Chuẩn dữ liệu đầu vào.
Để có thể tiến hành thực nghiệm trên Weka thì điều bắt buộc là phải đưa
dữ liệu về một trong các định dạng được Weka quy định sẵn như. csv,.
arff...Trong luân văn này, sẽ sử dụng tập tin có định dạng ARFF (AtrributeRegation File Format).
3.4.3. Thực nghiệm
Máy tính sử dụng cho q trình chạy mơ hình đánh giá có bộ xử lý Intel
core i5, tần số 2.4 GHz, 6.0 GB ram. Bộ công cụ weka phiên bản 3.9.1. Dữ liệu
đầu vào cho thực nghiệm là tập KDDtrain+.arff chứa 125973 bản ghi, số thuộc
tính 42 (cả nhãn). Các thuật toán được áp dụng là cây quyết định, svm, mạng
neural nhân tạo.


13

3.5. Đánh giá kết quả
Đồ án thử nghiệm các cấu trúc mạng nơ ron với số lớp ẩn và số nút trên lớp
khác nhau, 1-3 lớp.
Số nút trên mỗi lớp từ vài chục đến vài trăm (Khi chọn tham số t cỡ vài trăm
nút)
Kết quả cho thấy:
Lớp càng nhiều, nút càng nhiều sẽ tăng độ chính xác của thuật tốn, thời gian
huấn luyện nhanh dần.
3.6. Kết luận chƣơng 3
Chương 3 tập trung đi vào nghiên cứu các phương pháp tiền xử lý dữ liệu với
bộ NSL- KDD 99. Mục đích là để giảm các thuộc tính dư thừa, các bản ghi
trùng lặp, chuẩn hóa miền dữ liệu đầu vào...để kết quả huấn luyện và phát hiện
xâm nhập tốt nhất. Chương này cũng đã trình bày kết quả huấn luyện mạng nơron bước đầu, nó chưa thực sự tốt và cịn thiên vị cảnh báo giữa các trạng thái.
Nguyên nhân là do tỉ lệ dữ liệu huấn luyện giữa các trạng thái chênh lệch nhau
quá lớn.



14

KẾT LUẬN
Kết quả đạt đƣợc
Luận văn tiến hành nghiên cứu tổng quan về bài toán xâm nhập và phát
hiện xâm nhập và thực nghiệm với tập dữ liệu NSL-KDD sử dụng các thuật
toán như cây quyết định, máy vector hỗ trợ, mạng neural nhân tạo để đánh giá.
Những kết quả chính mà luận văn đạt được:
Nghiên cứu và tìm hiểu về bài tốn xâm nhập và phát hiện xâm nhập,
trình bày một số phương pháp xâm nhập và phát hiện xâm nhập đã có trước.
Luận văn đã trình bày các mối đe dọa về tấn công mạng, các biện pháp
phát hiện tấn cơng mạng để từ đó có các giải pháp ngăn chặn. Để có thể hiểu
và nghiên cứu được hệ thống IDS, luận văn đưa ra các thành phần của hệ thống
cũng như phân loại các hệ thống IDS.
Tìm hiểu về tập dữ liệu NSL-KDD.
Xây dựng mơ hình huấn luyện và kiểm thử với bộ dữ liệu lấy được mơ tả
với các thuật tốn khác nhau; tìm hiểu, thay đổi các tham số của mơ hình và
thuật tốn để được kết quả đánh giá tốt nhất.
Hƣớng nghiên cứu tƣơng lai
Với những kết quả đã đạt được luận văn có thể nghiên cứu và phát triển
theo các hướng sau:
Tiếp tục thử nghiệm với các kiến trúc mạng nơ-ron khác như Deep
learning, mạng SOM...
Xây dựng thêm module bắt gói tin và tiền xử lý tự động để đưa chương
trình thực nghiệm vào hoạt động theo thời gian thực trong việc phát hiện bất
thường của mạng.
Kết hợp các hướng nghiên cứu khác để cải tiến chất lượng phát hiện xâm
nhập tốt hơn nữa.




×