Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.8 MB, 26 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<small>Chuyên ngành: Khoa Học Máy Tính</small>
<small>Luận văn được hoàn thành tại:</small>
<small>HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THONG</small>
<small>Người hướng dẫn khoa học: TS.Hoàng Xuân Dậu...</small>
<small>(Ghi rõ học hàm, học vị)</small>
<small>Phản biện Ì:...</small>
<small>Phản biện 2:_...-...</small>
<small>Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại</small>
<small>Học viện Công nghệ Bưu chính Viễn thơng</small>
<small>Vào lúc: ... giỜ... ngày ... thang ... năm ...</small>
<small>Có thê tìm hiêu luận văn tại:</small>
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">mơ hình phịng vệ nhiều lớp có chiều sâu (defense in depth) thường được
chủ ngày càng phổ biến với mức độ tinh vi ngày càng cao. Trong mô hình này, hệ thống mạng thường được bảo vệ bang lớp bảo vệ thứ nhất, gồm tường lửa, các biện pháp kiểm sốt truy nhập, xác thực, mã hóa,... Lớp bảo vệ hệ thống thứ hai thường gồm các hệ thống phát hiện va ngăn chặn xâm nhập mạng và host. Các hệ thống phát hiện xâm nhập mạng (NIDS — Network-based Intrusion Detection System) được sử dụng để giám sát và bảo vệ cả mạng, hoặc một phân đoạn mạng. Các hệ thống phát hiện xâm
<small>nhập host (HIDS — Host-based Intrusion Detection System) được sử dụng</small>
dé bảo vệ một máy (host), hoặc một dịch vụ cu thể.
<small>Phát hiện xâm nhập dựa trên chữ ký (Signature-based IDS) và dựa trên</small>
mạng và cảnh báo nếu phát hiện chữ ký của tấn cơng, xâm nhập. Kỹ thuật
một cách hiệu quả với tốc độ cao xử lý cao và u cau tài ngun tính tốn
<small>xâm nhập mới, do chữ ký của chúng chưa có trong cơ sở dữ liệu. Ngồi ra,</small>
phát hiện xâm nhập dựa trên chữ ký cũng đòi hỏi nhiều công sức cho xây
rõ nét giữa hành vi hiện tại với hành vi lưu trong hồ sơ của đối tượng. Phát
nhập, xâm nhập mới mà không yêu cầu biết trước thông tin về chúng. Nhược điểm của kỹ thuật này là tỷ lệ cảnh báo sai tương đối cao so với
nguyên hệ thống cho việc xây dựng hồ sơ đối tượng và phân tích hành vi
<small>hiện tại.</small>
Như vậy, phát hiện xâm nhập dựa trên bất thường có nhiều triển vọng
sâu về các kỹ thuật, giải pháp phát hiện tắn công, xâm nhập mạng dựa trên bat thường là cần thiết dé nâng cao hiệu quả phát hiện, giảm cảnh báo sai và giảm chỉ phí tính tốn. Đề tài luận văn “ Nghiên cứu các kỹ thuật phát hiện xâm nhập mạng dựa trên bất thường “ tập trung nghiên cứu, đánh giá
xuất nhằm lựa chọn kỹ thuật phù hợp ứng dụng cho đảm bảo an tồn thơng tin, hệ thống máy chủ và mạng...
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">An tồn thơng tin (Information security) là một lĩnh vực tương đối mới và được quan tâm trong vài thập kỷ gần đây và phát triển mạnh trong khoảng 10 năm qua nhờ sự phát triển mạnh mẽ của mạng Internet và các dịch vụ mạng trên nền Internet. Tuy nhiên, do Internet ngày càng mở rộng và gần như không cịn khái niệm biên giới quốc gia trong khơng gian
phổ biến và mức độ phá hoại ngày càng nghiêm trọng. Van dé đảm bảo an tồn cho thơng tin, các hệ thống và mạng trở nên cấp thiết và là mối quan
<small>1.1.1. Tính bí mật</small>
<small>Tính bí mật (Confidentiality): Tính bí mật đảm bảo thơng tin trong hệ</small>
thống không bị truy cập trái phép từ những đối tượng bất hợp pháp. Đối tượng truy nhập có thể là con người hoặc các chương trình máy tính. Tính bí mật của thơng tin có thể được thực hiện dựa vào phần cứng vật lý hoặc phần mềm.
<small>1.1.2. Tính tồn vẹn</small>
Tính tồn vẹn (Integrity): Tính tồn vẹn đảm bảo sự nguyên vẹn, thống nhất của thông tin trong quá trình lưu trữ hay truyền thơng. Bat kỳ sự thay đổi trái phép nào làm sai lệch thông tin sẽ phải được phát hiện và ngăn
- Thời gian trung bình giữa các sự có;
- Thời gian trung bình ngừng dé sửa chữa; - Thời gian khơi phục sau sự cố.
1.2.1 Khái quát về tắn công
Tấn công (attack) vào hệ thống máy tính và mạng được thực hiện bằng cách khai thác các lỗ hồng của hệ thống. Theo tổ chức ITU (International
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">cơ chính (threat) được nêu trong Hình 1.4, bao gồm...
e Tan cơng giả mạo e Tan công chặn bat
e Tan công gây gián đoạn e Tan công sửa đổi
<small>1.3.1 Giới thiệu</small>
<small>Phát hiện xâm nhập (Intrusion Detection) là quá trình giám sát các sự kiện</small>
xảy ra trong một hệ thống máy tính hoặc mạng, sau đó phân tích các sự kiện này để tìm băng chứng của các tấn công, xâm nhập. Một hệ thống
<small>phận chức năng: bộ phận thu thập thông tin, bộ phận phát hiện xâm nhập</small>
<small>và bộ phận phản ứng xâm nhập.</small>
1.3.2. Các thành phan của hệ thống phát hiện xâm nhập
<small>1.4. Phân loại phát hiện xâm nhập</small>
Có nhiều phương pháp phân loại phát hiện đột nhập, trong đó hai
1.4.1. Phân loại dựa trên nguồn thông tin
<small>1.4.2. Phân loạt dựa trên kỹ thuật phát hiện1.4.2.1. Phát hiện đột nhập dựa trên chữ ký</small>
<small>Trong chương 2, luận văn đi sâu phân tích và so sánh các kỹ thuật phát</small>
hiện xâm nhập mang dựa trên bat thường.
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9"><small>Cùng với các giải pháp phát hiện xâm nhập mang dựa trên chữ ký,</small>
nhiều giải pháp phát hiện xâm nhập mạng dựa trên bất thường đã được
xâm nhập dựa trên bất thường tiêu biểu, bao gồm: phát hiện dựa trên thông kê, dựa trên phân loại, dựa trên tính tốn mềm, dựa trên tri thức và phương pháp kết hợp.
2.1 Phương pháp thống kê
Vé mặt thống kê, một sự bất thường là một quan sát mà đang bị nghỉ ngờ là một phần hoặc hồn tồn khơng thích hợp vì nó khơng phải được
tạo ra bởi một mơ hình ngẫu nhiên giả định.
<small>2.2 Phương pháp dựa trên phân loại</small>
Phân loại hay phân lớp (Classification) là vấn đề xác định loại tập hợp nào mà một quan sát mới thuộc về, trên cơ sở tập dữ liệu huấn luyện có chứa các quan sát có thành viên nhóm được biết đến.
2.3. Phương pháp dựa trên tính tốn mém
Tính tốn mềm (Soft computing), khác với tính tốn truyền thống đề cập đến các mơ hình gần đúng và đưa ra các giải pháp cho những vấn đề phức tạp trong thực tiễn. Khơng giống như tín tốn cứng, tính tốn mềm có thể chịu được sự khơng chính xác, khơng chắc chắn, một phần sự thật, và xấp xi.
<small>2.4. Các phương pháp dựa trên tri thức</small>
<small>Trong các phương pháp dựa trên tri thức, các sự kiện mạng hoặc hệ</small>
thống được kiểm tra với các quy tắc hoặc mẫu tấn cơng đã được xác định trước. Mục đích là đề đại diện cho các cuộc tan cong da biét trong một thời gian tổng quát dé xử lý các sự kiện thực tế trở nên dé dàng hon. Các phương pháp dựa trên tri thức là các hệ thống chuyên gia, dựa trên quy tắc, dựa trên nền tảng, dựa trên logic và phân tích chuyển tiếp trang thái.
Mục này trình bày một số phương pháp sử dụng kết hợp của nhiều kỹ thuật phát hiện xâm nhập dựa trên bat thường.
<small>2.5.2. Phương pháp dựa trên sự hiên hợp (Fusion-based)2.5.3. Cac phương pháp lai</small>
<small>2.6. So sánh các kỹ thuật phát hiện</small>
Chương 2 đã giới thiệu một số phương pháp điển hình được sử dụng
thống kê, phân loại, dựa trên tính toán mềm, dựa trên tri thức, phương pháp kết hợp. Chương 2 cũng cung cấp phần so sánh các ưu nhược điểm
<small>của chúng.</small>
<small>Trong Chương 3, luận văn sẽ trình bày mơ hình và thử nghiệm phát</small>
hiện xâm nhập mạng dựa trên phương pháp thống kê n-gram.
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11"><small>Trên cơ sở phân tích các phương pháp phát hiện xâm nhập mạng dựa</small>
thử nghiệm phát hiện xâm nhập mạng dựa trên thống kê n-gram [7].
3.1. Giới thiệu mô hình phát hiện xâm nhập mạng dựa trên thống kê
<small>n-gram [7]</small>
mơ hình có định, các từ khóa, dấu hiệu chính xác hay một miền giới hạn
trong luồng dữ liệu. Dé mơ hình hóa payload chúng ta cần phải chia thành các nhóm nhỏ hơn dựa vào một số chuẩn liên kết. Số hiệu công dịch vụ và độ dài là những tham số lựa chọn rõ ràng nhất và dễ xác định nhất. Có thé phân loại các gói tin thành 2 loại, là các gói đến (inbound) và các gói đi
Thong thuong, cac dich vu mang chuẩn có một số hiệu cơng (port) dé nhan biét nhu: céng 20 cho truyén dữ liệu FTP (File Transfer Protocol), cơng 21 cho tín hiệu điều khiến FTP, cơng 22 cho dịch vụ SSH (Secure Shell), cổng 23 cho Telnet, công 25 cho dịch vụ mail SMTP (Simple Mail Transfer Protocol), cơng 80 cho Web... Mỗi ứng dụng có một giao thức riêng và vì thế nó có một loại payload. Payload đến cơng 22 thường bị mã hóa và hiển thị như các byte, trong khi đó payload đến công 21 hiển thị ở
<small>dạng ký tự thông thường (plaintext).</small>
Với mỗi công, độ dài payload cũng rất khác nhau. Hầu hết những gói tin TCP thơng thường có độ dài payload từ 0 đến 1460. Những payload
<small>khác nhau có độ dài khác nhau. Payload có kích thước lớn thường là</small>
<small>những dữ liệu media hay nhị phân (anh, video, file thực thi, ....). Vì vay</small>
<small>chúng ta tính tốn mơ hình hóa cho mỗi payload có độ dài khác nhau cho</small>
mỗi công dịch vụ của các luồng khác nhau.[7]
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">Dé giữ cho mơ hình đơn giản và tính tốn nhanh, chúng ta mơ hình hóa
Một n-gram là một chuỗi của n byte liền kề trong một đơn vị payload. Một
các chuỗi n-gram.
Với mỗi payload, vector đặc trưng là tần suất quan hệ của mỗi n-gram được tính bằng thương của số lần xuất hiện của mỗi gram trên tổng số
n-gram. Trường hợp đơn giản nhất của một I-gram, ta tính tốn tần suất
<small>trung bình của mỗi ký tự ASCII có mã từ 0 — 255. Một payload của một</small>
cơng có độ dài có định, chúng ta xử lý tần suất của mỗi ký tự như một biến va tính tốn giá tri trung bình và độ lệch chuẩn của mơ hình payload.
hình M; Với mỗi độ dài payload i nhận được của cơng j, Mí; lưu thơng tin tần suất byte trung bình và độ lệch chuẩn cho tần suất của mỗi byte. Sự kết hợp giá trị trung bình và phương sai của từng byte có thể mơ tả rõ đặc điểm payload trong phạm vi của độ dài. Mỗi mơ hình Mẹ sau khi tính tốn trong q trình huấn luyện được gọi là một trung tâm (centroid). Như vậy, nếu có 5 cơng và mỗi cổng lại có 10 độ dài payload khác nhau thì sẽ có tổng cộng 50 mơ hình centroid được sinh ra sau q trình huấn luyện.
Mơ hình thử nghiệm được triển khai theo 2 giai đoạn như sau:
Giai đoạn huấn luyện: Đầu tiên giám sát và thu thập các gói tin trong thời gian mạng hoạt động bình thường (khơng có tấn cơng) cho q trình huấn luyện. Các gói tin này được mơ hình hóa dựa trên 1-gram, tính tốn tần suất, các giá trị trung bình và phương sai của từng byte tạo thành mơ
<small>hình Mỹ;</small>
<small>- Giai đoạn phát hiện: Các gói tin giám sát sẽ được xử lý, tính tốn dựa</small>
trên mơ hình I-gram và so sánh với mơ hình centroid đã được huấn luyện trước đó tương ứng với các giá trị công và độ dài payload. Nếu payload của gói tin khác với những dấu hiệu thơng thường, cờ phát hiện
sẽ đánh dấu là bất thường và sinh ra cảnh báo.
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">Việc so sánh giữa 2 mơ hình payload đóng vai trị rất quan trọng, có
có một thuật tốn so sánh có độ chính xác cao, ơn định, đồng thời phải có
<small>văn này sử dụng thuật tốn tính khoảng cách Mahalanobis (Mahalanobis</small>
<small>Distance) [7].</small>
<small>3.2.Thử nghiệm mơ hình</small>
<small>3.2.1.Giớt thiệu tập dữ liệu thir nghiệm</small>
<small>Trong mơ hình thử nghiệm, luận văn sử dụng tập dữ liệu 1999 DARPAIntrusion Detection Evaluation [18]. Bộ dữ liệu 1999 DARPA IDS được</small>
thu thập tai MIT Lincoln Lab dùng dé đánh giá hệ thống phát hiện xâm
lại trong file tepdump. Thêm vào đó, tập dữ liệu cịn có bổ sung them các file audit log, file dump của hệ thống hằng ngày và BSM log (Solaris
<small>system call) [18].</small>
Bộ dữ liệu bao gồm dữ liệu thu thập trong 3 tuần dùng dé huấn luyện và di liệu thu thập trong 2 tuần dùng để kiểm tra. Trong dữ liệu huấn luyện có 2 tuần dữ liệu bình thường (tuần thứ 1 và tuần thứ 3) và 1 tuần dữ liệu tấn công đã được gán nhãn (tuần thứ 2).
3.2.1.1. Dữ liệu huấn luyện
Dữ liệu huấn luyện được tạo ra trên một mạng mô phỏng bao gom dữ liệu sử dụng bình thường và cả các phiên tan cơng. Dữ liệu huấn luyện sẽ bao gồm những thành phan sau:
<small>e Dữ liệu tcpdump bên ngoài (outside) là lưu lượng mạng của mộttháng được thu thập bởi tcpdump packet sniffer. Dữ liệu này chứa</small>
<small>trong và bên ngồi mạng.</small>
<small>e Dữ liệu tcpdump bên trong (inside) là lưu lượng mạng thu thập được</small>
<small>mạng.</small>
</div>