Tải bản đầy đủ (.pdf) (26 trang)

Nghiên cứu các kỹ thuật phát triển xâm nhập mạng dựa trên bất thường

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.8 MB, 26 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Nguyễn Minh Hién

NGHIÊN CỨU CÁC KỸ THUAT PHAT HIỆN XÂM NHAP

MẠNG DỰA TRÊN BÁT THƯỜNG

<small>Chuyên ngành: Khoa Học Máy Tính</small>

Mã số: 60.48.01.01

TĨM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2017

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<small>Luận văn được hoàn thành tại:</small>

<small>HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THONG</small>

<small>Người hướng dẫn khoa học: TS.Hoàng Xuân Dậu...</small>

<small>(Ghi rõ học hàm, học vị)</small>

<small>Phản biện Ì:...</small>

<small>Phản biện 2:_...-...</small>

<small>Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại</small>

<small>Học viện Công nghệ Bưu chính Viễn thơng</small>

<small>Vào lúc: ... giỜ... ngày ... thang ... năm ...</small>

<small>Có thê tìm hiêu luận văn tại:</small>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

LOI MO ĐẦU

Nhằm đảm bảo an toàn cho thơng tin, hệ thống máy chủ va mạng,

mơ hình phịng vệ nhiều lớp có chiều sâu (defense in depth) thường được

sử dung do các cuộc tan công, xâm nhập trái phép vào các hệ thông máy

chủ ngày càng phổ biến với mức độ tinh vi ngày càng cao. Trong mô hình này, hệ thống mạng thường được bảo vệ bang lớp bảo vệ thứ nhất, gồm tường lửa, các biện pháp kiểm sốt truy nhập, xác thực, mã hóa,... Lớp bảo vệ hệ thống thứ hai thường gồm các hệ thống phát hiện va ngăn chặn xâm nhập mạng và host. Các hệ thống phát hiện xâm nhập mạng (NIDS — Network-based Intrusion Detection System) được sử dụng để giám sát và bảo vệ cả mạng, hoặc một phân đoạn mạng. Các hệ thống phát hiện xâm

<small>nhập host (HIDS — Host-based Intrusion Detection System) được sử dụng</small>

dé bảo vệ một máy (host), hoặc một dịch vụ cu thể.

<small>Phát hiện xâm nhập dựa trên chữ ký (Signature-based IDS) và dựa trên</small>

bất thường (Anomaly-based IDS) là hai nhóm kỹ thuật phát hiện xâm nhập

được sử dụng phổ biến. Phát hiện xâm nhập dựa trên chữ ký, hay dựa trên mẫu trước hết xây dựng một cơ sở dữ liệu các chữ ký của các tan cong,

xâm nhập đã biết. Sau đó giám sát các hành vi hiện tại của hệ thống, hoặc

mạng và cảnh báo nếu phát hiện chữ ký của tấn cơng, xâm nhập. Kỹ thuật

này có ưu điểm là có khả năng phát hiện các tấn cơng, xâm nhập đã biết

một cách hiệu quả với tốc độ cao xử lý cao và u cau tài ngun tính tốn

tương đối thấp. Tuy nhiên, nó khơng có khả năng phát hiện các tấn công,

<small>xâm nhập mới, do chữ ký của chúng chưa có trong cơ sở dữ liệu. Ngồi ra,</small>

phát hiện xâm nhập dựa trên chữ ký cũng đòi hỏi nhiều công sức cho xây

dựng và cập nhật cơ sở dữ liệu chữ ký, hoặc dấu hiệu tan công, xâm nhập.Phát hiện xâm nhập dựa trên bất thường dựa trên giả thiết các hành vitan cơng, xâm nhập thường có quan hệ chat chẽ với các hành vi batthường. Quá trình xây dựng và triển khai kỹ thuật này gồm 2 giai đoạn: (1)Xây dựng hồ sơ (profile) của đối tượng trong chế độ làm việc bình thường,và (2) Giám sát hành vi hiện tại của hệ thống và cảnh báo nếu có khác biệt

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

rõ nét giữa hành vi hiện tại với hành vi lưu trong hồ sơ của đối tượng. Phát

hiện xâm nhập dựa trên bat thường có tiềm năng phát hiện các loại xâm

nhập, xâm nhập mới mà không yêu cầu biết trước thông tin về chúng. Nhược điểm của kỹ thuật này là tỷ lệ cảnh báo sai tương đối cao so với

phương pháp dựa trên chữ ký. Đồng thời, nó cũng tiêu tốn nhiều tài

nguyên hệ thống cho việc xây dựng hồ sơ đối tượng và phân tích hành vi

<small>hiện tại.</small>

Như vậy, phát hiện xâm nhập dựa trên bất thường có nhiều triển vọng

do nó có khả năng phát hiện các tan cơng, xâm nhập mới. Việc nghiên cứu

sâu về các kỹ thuật, giải pháp phát hiện tắn công, xâm nhập mạng dựa trên bat thường là cần thiết dé nâng cao hiệu quả phát hiện, giảm cảnh báo sai và giảm chỉ phí tính tốn. Đề tài luận văn “ Nghiên cứu các kỹ thuật phát hiện xâm nhập mạng dựa trên bất thường “ tập trung nghiên cứu, đánh giá

các kỹ thuật phát hiện xâm nhập mạng dựa trên bat thường đã được đề

xuất nhằm lựa chọn kỹ thuật phù hợp ứng dụng cho đảm bảo an tồn thơng tin, hệ thống máy chủ và mạng...

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

CHUONG 1- TONG QUAN VE PHÁT HIỆN XÂM NHAP MẠNG

1.1 Các yêu cầu đảm bảo an toàn cho hệ thống va mang

An tồn thơng tin (Information security) là một lĩnh vực tương đối mới và được quan tâm trong vài thập kỷ gần đây và phát triển mạnh trong khoảng 10 năm qua nhờ sự phát triển mạnh mẽ của mạng Internet và các dịch vụ mạng trên nền Internet. Tuy nhiên, do Internet ngày càng mở rộng và gần như không cịn khái niệm biên giới quốc gia trong khơng gian

mạng, các sự cơ mắt an tồn thơng tin liên tục xảy ra và đặc biệt các dạng tấn công, xâm nhập các hệ thống máy tính và mạng xuất hiện ngày càng

phổ biến và mức độ phá hoại ngày càng nghiêm trọng. Van dé đảm bảo an tồn cho thơng tin, các hệ thống và mạng trở nên cấp thiết và là mối quan

tâm của mỗi quốc gia, co quan, tổ chức và mỗi người dùng.

<small>1.1.1. Tính bí mật</small>

<small>Tính bí mật (Confidentiality): Tính bí mật đảm bảo thơng tin trong hệ</small>

thống không bị truy cập trái phép từ những đối tượng bất hợp pháp. Đối tượng truy nhập có thể là con người hoặc các chương trình máy tính. Tính bí mật của thơng tin có thể được thực hiện dựa vào phần cứng vật lý hoặc phần mềm.

<small>1.1.2. Tính tồn vẹn</small>

Tính tồn vẹn (Integrity): Tính tồn vẹn đảm bảo sự nguyên vẹn, thống nhất của thông tin trong quá trình lưu trữ hay truyền thơng. Bat kỳ sự thay đổi trái phép nào làm sai lệch thông tin sẽ phải được phát hiện và ngăn

1.1.3. Tính sẵn dùng

- Thời gian trung bình giữa các sự có;

- Thời gian trung bình ngừng dé sửa chữa; - Thời gian khơi phục sau sự cố.

1.2 Các dạng tan công vào hệ thống và mang

1.2.1 Khái quát về tắn công

Tấn công (attack) vào hệ thống máy tính và mạng được thực hiện bằng cách khai thác các lỗ hồng của hệ thống. Theo tổ chức ITU (International

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Telecommunication Union), các cuộc tan cơng được bắt nguồn từ 5 nguy

cơ chính (threat) được nêu trong Hình 1.4, bao gồm...

1.2.2 Một số dạng tan cơng điển hình

e Tan cơng giả mạo e Tan công chặn bat

e Tan công gây gián đoạn e Tan công sửa đổi

1.3. Khái quát về phát hiện xâm nhập

<small>1.3.1 Giới thiệu</small>

<small>Phát hiện xâm nhập (Intrusion Detection) là quá trình giám sát các sự kiện</small>

xảy ra trong một hệ thống máy tính hoặc mạng, sau đó phân tích các sự kiện này để tìm băng chứng của các tấn công, xâm nhập. Một hệ thống

phát hiện xâm nhập (Intrusion Detection System - IDS) thường gồm ba bộ

<small>phận chức năng: bộ phận thu thập thông tin, bộ phận phát hiện xâm nhập</small>

<small>và bộ phận phản ứng xâm nhập.</small>

1.3.2. Các thành phan của hệ thống phát hiện xâm nhập

<small>1.4. Phân loại phát hiện xâm nhập</small>

Có nhiều phương pháp phân loại phát hiện đột nhập, trong đó hai

phương pháp được sử dụng phô biến là phân loại phát hiện đột nhập dựa trên nguồn thông tin và dựa trên phương pháp phân tích xử lý dữ liệu.

1.4.1. Phân loại dựa trên nguồn thông tin

<small>1.4.2. Phân loạt dựa trên kỹ thuật phát hiện1.4.2.1. Phát hiện đột nhập dựa trên chữ ký</small>

1.4.2.2. Phát hiện đột nhập dựa trên bất thường 1.5. Kết chương

Chương 1 đề cập đến các yêu cầu đảm bảo an toàn cho thơng tin, hệ thống và mạng như: tính bí mật, tính tồn vẹn và tính sẵn dùng, đồng thời giới thiệu khái quát các dạng tan công vào hệ thống và mạng. Tiếp theo, chương 1 giới thiệu về mơ hình và phân loại phát hiện xâm nhập mạng .

<small>Trong chương 2, luận văn đi sâu phân tích và so sánh các kỹ thuật phát</small>

hiện xâm nhập mang dựa trên bat thường.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

CHƯƠNG 2- CÁC KỸ THUẬT PHÁT HIỆN XÂM NHẬP MẠNG

DUA TREN BAT THUONG

<small>Cùng với các giải pháp phát hiện xâm nhập mang dựa trên chữ ký,</small>

nhiều giải pháp phát hiện xâm nhập mạng dựa trên bất thường đã được

nghiên cứu, đề xuất. Chương này sẽ trình bày một số kỹ thuật phát hiện

xâm nhập dựa trên bất thường tiêu biểu, bao gồm: phát hiện dựa trên thông kê, dựa trên phân loại, dựa trên tính tốn mềm, dựa trên tri thức và phương pháp kết hợp.

2.1 Phương pháp thống kê

Vé mặt thống kê, một sự bất thường là một quan sát mà đang bị nghỉ ngờ là một phần hoặc hồn tồn khơng thích hợp vì nó khơng phải được

tạo ra bởi một mơ hình ngẫu nhiên giả định.

2.1.1. Một số mơ hình phát hiện dựa trên thong kê

2.1.2 Uu nhược điểm của phát hiện dựa trên thong kê

<small>2.2 Phương pháp dựa trên phân loại</small>

Phân loại hay phân lớp (Classification) là vấn đề xác định loại tập hợp nào mà một quan sát mới thuộc về, trên cơ sở tập dữ liệu huấn luyện có chứa các quan sát có thành viên nhóm được biết đến.

2.2.1. Một số mơ hình phát hiện dựa trên phân loại

2.2.2. Uu nhược điểm của phát hiện dựa trên phân loại

2.3. Phương pháp dựa trên tính tốn mém

Tính tốn mềm (Soft computing), khác với tính tốn truyền thống đề cập đến các mơ hình gần đúng và đưa ra các giải pháp cho những vấn đề phức tạp trong thực tiễn. Khơng giống như tín tốn cứng, tính tốn mềm có thể chịu được sự khơng chính xác, khơng chắc chắn, một phần sự thật, và xấp xi.

2.3.1. Các phương pháp dựa trên thuật toán di truyền 2.3.2. Cách tiếp cận mạng nơ ron nhân tạo

2.3.3. Phương pháp dựa trên tiếp cận lý thuyết mờ 2.3.4. Các phương pháp dựa trên tiếp cận tập thô

2.3.5. Ưu nhược điểm của phát hiện dựa trên tính tốn mém

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<small>2.4. Các phương pháp dựa trên tri thức</small>

<small>Trong các phương pháp dựa trên tri thức, các sự kiện mạng hoặc hệ</small>

thống được kiểm tra với các quy tắc hoặc mẫu tấn cơng đã được xác định trước. Mục đích là đề đại diện cho các cuộc tan cong da biét trong một thời gian tổng quát dé xử lý các sự kiện thực tế trở nên dé dàng hon. Các phương pháp dựa trên tri thức là các hệ thống chuyên gia, dựa trên quy tắc, dựa trên nền tảng, dựa trên logic và phân tích chuyển tiếp trang thái.

2.4.1. Một số mơ hình phát hiện dựa trên tri thức

2.4.2. Uu nhược điểm của phát hiện dựa trên tri thức 2.5. Phương pháp kết hợp

Mục này trình bày một số phương pháp sử dụng kết hợp của nhiều kỹ thuật phát hiện xâm nhập dựa trên bat thường.

2.5.1. Các phương pháp dựa trên tổng hợp (Ensemble-based)

<small>2.5.2. Phương pháp dựa trên sự hiên hợp (Fusion-based)2.5.3. Cac phương pháp lai</small>

<small>2.6. So sánh các kỹ thuật phát hiện</small>

2.7. Kết chương

Chương 2 đã giới thiệu một số phương pháp điển hình được sử dụng

cho phát hiện xâm nhập mạng dựa trên bat thường như: phát hiện dựa trên

thống kê, phân loại, dựa trên tính toán mềm, dựa trên tri thức, phương pháp kết hợp. Chương 2 cũng cung cấp phần so sánh các ưu nhược điểm

<small>của chúng.</small>

<small>Trong Chương 3, luận văn sẽ trình bày mơ hình và thử nghiệm phát</small>

hiện xâm nhập mạng dựa trên phương pháp thống kê n-gram.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

CHƯƠNG 3: THU NGHIỆM PHAT HIỆN XÂM NHẬP MẠNG

<small>Trên cơ sở phân tích các phương pháp phát hiện xâm nhập mạng dựa</small>

trên bất thường ở chương 2, chương 3 giới thiệu và thử nghiệm mơ hình

thử nghiệm phát hiện xâm nhập mạng dựa trên thống kê n-gram [7].

3.1. Giới thiệu mô hình phát hiện xâm nhập mạng dựa trên thống kê

<small>n-gram [7]</small>

Payload của các gói tin truyền trên mạng là một chuỗi (stream) các

byte. Không giống như đề mục (header) của các gói tin, payload khơng có

mơ hình có định, các từ khóa, dấu hiệu chính xác hay một miền giới hạn

giá trị. Một ký tự hoặc giá tri byte có thể xuất hiện trong bất ky vi trí nào

trong luồng dữ liệu. Dé mơ hình hóa payload chúng ta cần phải chia thành các nhóm nhỏ hơn dựa vào một số chuẩn liên kết. Số hiệu công dịch vụ và độ dài là những tham số lựa chọn rõ ràng nhất và dễ xác định nhất. Có thé phân loại các gói tin thành 2 loại, là các gói đến (inbound) và các gói đi

Thong thuong, cac dich vu mang chuẩn có một số hiệu cơng (port) dé nhan biét nhu: céng 20 cho truyén dữ liệu FTP (File Transfer Protocol), cơng 21 cho tín hiệu điều khiến FTP, cơng 22 cho dịch vụ SSH (Secure Shell), cổng 23 cho Telnet, công 25 cho dịch vụ mail SMTP (Simple Mail Transfer Protocol), cơng 80 cho Web... Mỗi ứng dụng có một giao thức riêng và vì thế nó có một loại payload. Payload đến cơng 22 thường bị mã hóa và hiển thị như các byte, trong khi đó payload đến công 21 hiển thị ở

<small>dạng ký tự thông thường (plaintext).</small>

Với mỗi công, độ dài payload cũng rất khác nhau. Hầu hết những gói tin TCP thơng thường có độ dài payload từ 0 đến 1460. Những payload

<small>khác nhau có độ dài khác nhau. Payload có kích thước lớn thường là</small>

<small>những dữ liệu media hay nhị phân (anh, video, file thực thi, ....). Vì vay</small>

<small>chúng ta tính tốn mơ hình hóa cho mỗi payload có độ dài khác nhau cho</small>

mỗi công dịch vụ của các luồng khác nhau.[7]

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Dé giữ cho mơ hình đơn giản và tính tốn nhanh, chúng ta mơ hình hóa

payload sử dụng mơ hình n-gram và cụ thể là phân bố giá tri byte, khi n=1.

Một n-gram là một chuỗi của n byte liền kề trong một đơn vị payload. Một

cửa sô trượt có độ rộng n được dịch chun trên tồn bộ payload dé tao ra

các chuỗi n-gram.

Với mỗi payload, vector đặc trưng là tần suất quan hệ của mỗi n-gram được tính bằng thương của số lần xuất hiện của mỗi gram trên tổng số

n-gram. Trường hợp đơn giản nhất của một I-gram, ta tính tốn tần suất

<small>trung bình của mỗi ký tự ASCII có mã từ 0 — 255. Một payload của một</small>

cơng có độ dài có định, chúng ta xử lý tần suất của mỗi ký tự như một biến va tính tốn giá tri trung bình và độ lệch chuẩn của mơ hình payload.

Từ tập dữ liệu đầu vào là các gói tin (packet), chúng ta tính tốn mơ

hình M; Với mỗi độ dài payload i nhận được của cơng j, Mí; lưu thơng tin tần suất byte trung bình và độ lệch chuẩn cho tần suất của mỗi byte. Sự kết hợp giá trị trung bình và phương sai của từng byte có thể mơ tả rõ đặc điểm payload trong phạm vi của độ dài. Mỗi mơ hình Mẹ sau khi tính tốn trong q trình huấn luyện được gọi là một trung tâm (centroid). Như vậy, nếu có 5 cơng và mỗi cổng lại có 10 độ dài payload khác nhau thì sẽ có tổng cộng 50 mơ hình centroid được sinh ra sau q trình huấn luyện.

Mơ hình thử nghiệm được triển khai theo 2 giai đoạn như sau:

Giai đoạn huấn luyện: Đầu tiên giám sát và thu thập các gói tin trong thời gian mạng hoạt động bình thường (khơng có tấn cơng) cho q trình huấn luyện. Các gói tin này được mơ hình hóa dựa trên 1-gram, tính tốn tần suất, các giá trị trung bình và phương sai của từng byte tạo thành mơ

<small>hình Mỹ;</small>

<small>- Giai đoạn phát hiện: Các gói tin giám sát sẽ được xử lý, tính tốn dựa</small>

trên mơ hình I-gram và so sánh với mơ hình centroid đã được huấn luyện trước đó tương ứng với các giá trị công và độ dài payload. Nếu payload của gói tin khác với những dấu hiệu thơng thường, cờ phát hiện

sẽ đánh dấu là bất thường và sinh ra cảnh báo.

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Việc so sánh giữa 2 mơ hình payload đóng vai trị rất quan trọng, có

ảnh hưởng trực tiếp đến kết qua của quá trình đánh giá, do đó u cầu phải

có một thuật tốn so sánh có độ chính xác cao, ơn định, đồng thời phải có

hiệu suất cao để khơng làm ảnh hưởng đến hoạt động của hệ thống. Luận

<small>văn này sử dụng thuật tốn tính khoảng cách Mahalanobis (Mahalanobis</small>

<small>Distance) [7].</small>

<small>3.2.Thử nghiệm mơ hình</small>

<small>3.2.1.Giớt thiệu tập dữ liệu thir nghiệm</small>

<small>Trong mơ hình thử nghiệm, luận văn sử dụng tập dữ liệu 1999 DARPAIntrusion Detection Evaluation [18]. Bộ dữ liệu 1999 DARPA IDS được</small>

thu thập tai MIT Lincoln Lab dùng dé đánh giá hệ thống phát hiện xâm

nhập. Tất cả lưu lượng mạng bao gồm payload của từng gói tin được ghi

lại trong file tepdump. Thêm vào đó, tập dữ liệu cịn có bổ sung them các file audit log, file dump của hệ thống hằng ngày và BSM log (Solaris

<small>system call) [18].</small>

Bộ dữ liệu bao gồm dữ liệu thu thập trong 3 tuần dùng dé huấn luyện và di liệu thu thập trong 2 tuần dùng để kiểm tra. Trong dữ liệu huấn luyện có 2 tuần dữ liệu bình thường (tuần thứ 1 và tuần thứ 3) và 1 tuần dữ liệu tấn công đã được gán nhãn (tuần thứ 2).

3.2.1.1. Dữ liệu huấn luyện

Dữ liệu huấn luyện được tạo ra trên một mạng mô phỏng bao gom dữ liệu sử dụng bình thường và cả các phiên tan cơng. Dữ liệu huấn luyện sẽ bao gồm những thành phan sau:

<small>e Dữ liệu tcpdump bên ngoài (outside) là lưu lượng mạng của mộttháng được thu thập bởi tcpdump packet sniffer. Dữ liệu này chứa</small>

nội dung của tất cả gói tin được truyền tải giữa các máy tính bên

<small>trong và bên ngồi mạng.</small>

<small>e Dữ liệu tcpdump bên trong (inside) là lưu lượng mạng thu thập được</small>

từ tat cả các gói tin được truyền tải giữa các máy tính bên trong

<small>mạng.</small>

</div>

×