Tải bản đầy đủ (.pdf) (27 trang)

Nghiên cứu giải pháp phát hiện tấn công ddos qua khai phá dữ liệu (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (405.45 KB, 27 trang )

HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG

NGUYỄN NGỌC HUYỀN

NGHIÊN CỨU GIẢI PHÁP PHÁT HIỆN
TẤN CÔNG DDOS QUA KHAI PHÁ DỮ LIỆU
Chuyên ngành : Hệ thống thông tin
Mã số : 60.48.01.04

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2016



Luận văn được hồn thành tại
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG

Người hướng dẫn khoa học: PGS TS. LÊ HỮU LẬP

Phản biện 1 : …………………….………………………….
Phản biện 2 : …………………….………………………….

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại
Học viện Cơng nghệ Bưu chính Viễn thông
Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ..............
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Cơng nghệ Bưu chính Viễn thơng


PHẦN MỞ ĐẦU



1. Lý do chọn đề tài
Ngày nay, với sự bùng nổ của Internet, việc sử dụng
Internet rất đa dạng và phong phú, vì vậy, tầm quan trọng
của an ninh mạng ngày càng cần thiết và cấp bách hơn bao
giờ hết.
Động cơ tấn công DDoS trong suốt thập kỷ qua có thể
do mục tiêu chính trị, tống tiền, cạnh tranh khơng lành
mạnh… Nói chung, nó gồm có sự phối hợp, sự cố gắng ác ý
của một người hay nhiều người để chống lại hoạt động của
Web Service (dịch vụ Web) một cách cục bộ hoặc kéo dài.
Việc tìm ra thủ phạm tấn cơng DDoS thường khó khăn, phức
tạp và mất rất nhiều thời gian bởi hình thức tấn cơng DDoS
ngày càng tinh vi phức tạp.
Trên thế giới nói chung và tại Việt Nam nói riêng,
trong nhiều năm qua, nhiều trang mạng của Chính phủ, trang
mạng báo điện tử hoặc các trang mạng của các doanh nghiệp
thương mại điện tử đã phải hứng chịu những hậu quả nghiêm
trọng cả về tài sản, lẫn uy tín từ những đợt tấn cơng từ chối
dịch vụ gây ra bởi các tin tặc trong và ngồi nước. Ví dụ, vào
tháng Hai năm 2000, hệ thống mạng của công ty Internet
Yahoo phải hứng chịu đợt tấn công DDoS đầu tiên làm các
dịch vụ của công ty phải ngừng hoạt động trong 2 giờ, gây


thiệt hại lớn về doanh thu quảng cáo. Vào tháng Mười Hai
năm 2010, một nhóm tin tặc có tên là “Anonymous” đã đạo
diễn một loạt các cuộc tấn công DDoS gây ngừng hoạt động
các trang web của các tổ chức tài chính, như Mastercard,
Visa International, Paypal.

Theo thống kê của Bkav tại Việt Nam, trung bình mỗi
tuần có 1 - 2 cuộc tấn công từ chối dịch vụ (DDoS) và
thường nhắm đến các website thương mại điện tử, website
công ty công nghệ, diễn đàn… có nhiều người truy cập.
Tuy nhiên, cơng tác đấu tranh phòng, chống đối với
loại hành vi này cịn có nhiều vấn đề bất cập. Do tính cấp
thiết của các vấn đề nêu trên em đã chọn đề tài luận văn là:
“Nghiên cứu giải pháp phát hiện tấn công DDOS qua khai
phá dữ liệu”

2. Tổng quan vấn đề nghiên cứu
Tấn công từ chối dịch vụ phân tán (Distributed Denial
of Service - DDoS) là một dạng phát triển ở mức độ cao của
tấn công DoS được phát hiện lần đầu tiên vào năm 1999 [6].
Tấn công từ chối dịch vụ (Denial of Service - DoS) là dạng
tấn công nhằm ngăn chặn người dùng hợp pháp truy nhập
các tài nguyên mạng.
Vì vậy, để phịng chống tấn cơng DDoS một cách hiệu
quả nhằm hạn chế và giảm thiểu thiệt hại do tấn công DDoS


gây ra, việc nghiên cứu về các dạng tấn công DDOS và các
biện pháp phòng chống là cần thiết. Từ đó xây dựng thử
nghiệm một chương trình phát hiện tấn công DDOS dựa trên
bất thường để đảm bảo an ninh an tồn cho ứng dụng, server.

3. Mục đích nghiên cứu
Mục đích chính của luận văn là tìm hiểu tổng quan về
tấn công DDOS và phương pháp nhận diện qua khai phá dữ
liệu dựa trên mẫu bất thường. Từ đó xây dựng thử nghiệm

một chương trình phát hiện tấn cơng DDOS dựa trên khai
phá dữ liệu.

4. Đối tƣợng và phạm vi nghiên cứu
Đối tượng nghiên cứu là: tìm hiểu tổng quan về tấn
cơng DDOS, phân loại, mục đích và phương pháp tấn cơng
và các biện pháp phịng chống, phương pháp nhận diện tấn
công qua khai phá dữ liệu
Phạm vi nghiên cứu là: xây dựng thử nghiệm một chương
trình phát hiện tấn công DDOS qua khai phá dữ liệu.

5. Phƣơng pháp nghiên cứu
- Nghiên cứu lý thuyết.
- Xây dựng chương trình
- Thu thập dữ liệu giả lập.
- Làm thực nghiệm và so sánh, đánh giá kết quả.

6. Kết cấu luận văn


Ngoài phần mở đầu, kết thúc và danh mục tài liệu
tham khảo, luận văn có kết cấu gồm 3 chương.
Chƣơng 1: Tổng quan về tấn công DDOS
Chƣơng 2: Phương pháp phát hiện tấn công DDOS
dựa trên khai phá dữ liệu
Chƣơng 3: Xây dựng chương trình thử nghiệm phát
hiện tấn cơng DDOS


CHƢƠNG 1: TỔNG QUAN VỀ TẤN CÔNG DDOS


1.1

Khái niệm và mục tiêu tấn công DDOS

Tấn công từ chối dịch vụ phân tán (Distributed
Denial of Service - DDoS) là một dạng phát triển ở mức
độ cao của tấn công DoS được phát hiện lần đầu tiên vào
năm 1999[11].
Tấn công DDOS với quy mơ lớn, mục đích tấn cơng
tính đáp ứng sẵn sàng của dịch vụ hệ thống hoặc tài
nguyên mạng. Thông qua việc gửi một khối lượng lớn gói
tin độc hại hoặc bất hợp pháp gây lỗi trong giao thức
truyền hoặc lỗi trong ứng dụng chạy trên máy chủ, hoặc cố
gắng vắt cạn tài nguyên máy chủ dịch vụ khiến không thể
phục vụ người dùng[6].

1.2

Mục tiêu của tấn công DDOS

Mục tiêu tấn cơng DDoS khá đa dạng. Tuy nhiên, có
thể chia các dạng tấn công DDoS dựa trên động cơ của tin
tặc thành 5 loại chính[11]:
- Nhằm giành được các lợi ích tài chính, kinh tế
- Để trả thù
- Gây chiến tranh trên không gian mạng
- Do niềm tin ý thức hệ
- Để thử thách trí tuệ


1.3

Mơ hình tấn cơng DDOS


-

Mơ hình tấn cơng trực tiếp.

-

Mơ hình tấn cơng gián tiếp – phản chiếu

1.4

Phân loại kỹ thuật tấn công DDOS

1.5

Phƣơng pháp phát hiện và phịng chống

tấn cơng DDOS
Phát hiện xâm nhập là q trình giám sát và phân tích
các sự kiện xảy ra trên mạng hoặc hệ thống để tìm ra các
dấu hiệu tấn cơng, đột nhập. Có 2 phương pháp phân loại
các biện pháp phát hiện đột nhập[2]:
Phương pháp dựa trên nguồn dữ liệu
Dựa trên phương pháp phân tích

1.6


Hệ thống phát hiện xâm nhập

Kết luận chƣơng 1
Chương 1 đã giới thiệu tổng quan về kiến thức tấn
công DDOS, phân loại kỹ thuật tấn công DDOS, đồng thời
giới thiệu các phương pháp phát hiện và phịng chống tấn
cơng DDOS.
Trong đó tập trung trình bày chi tiết các kỹ thuật của
phát hiện dựa trên bất thường. Tuy tỷ lệ phát hiện sai của
kỹ thuật phát hiện dựa trên bất thường là cao hơn so với
dựa trên dấu hiệu. Nhưng kỹ thuật để áp dụng còn phụ
thuộc vào các yếu tố khác nhau như kiểu dữ liệu đầu vào


và cơ chế hoạt động, loại dữ liệu dị biệt, mơi trường, hiệu
năng, chi phí xử lý và mức độ bảo mật cần thiết…
Hiện nay với tốc độ phát triển lớn của hệ thống
mạng, đòi hỏi phải xử lý dữ liệu lớn, có khả năng mở rộng
và tính chất tấn cơng DDOS là xảy ra trong thời gian ngắn
và khó phát hiện nên luận văn sẽ chọn kỹ thuật phát hiện
bất thường – dựa trên khai phá dữ liệu. Nhằm đảm bảo các
tiêu chí:
● Khả năng xử lý khối lượng dữ liệu lớn, có thể sử

dụng trong các hệ thống thời gian thực.
● Khả năng mở rộng.

Chương 2 sẽ tập trung đi tìm hiểu tiếp về kĩ thuật khai
phá dữ liệu áp dụng vào bài tốn phát hiện tấn cơng DDOS.



CHƢƠNG 2: PHƢƠNG PHÁP PHÁT HIỆN
TẤN CÔNG DDOS DỰA TRÊN KHAI PHÁ DỮ LIỆU
2.1

Tổng quan về khai phá dữ liệu

2.1.1 Định nghĩa
Khai phá dữ liệu được hiểu như một quá trình chắt
lọc hay khai phá tri thức từ một lượng lớn dữ liệu.
Ngày nay khai phá dữ liệu được coi là một phương
pháp quan trọng để phát hiện tấn công DDos. Các hướng
tiếp cận khai phá dữ liệu khác nhau như phân lớp, phân
cụm, luật kết hợp và phát hiện ngoại lai (outlier) là một số
kỹ thuật thường xuyên được sử dụng để phân tích lưu
lượng mạng hoặc dữ liệu để phát hiện ra các dữ liệu bất
thường[8].
2.1.2 Quy trình khai phá dữ liệu
Khai phá dữ liệu là một trong bẩy bước của quá trình
khai phá tri thức – KDD và KDD được xem như bẩy quá
trình khác nhau theo thứ tự. Quá trình để khai phá dữ liệu
gồm các bước:
-

Gom, làm sạch dữ liệu (data cleaning)

-

Tích hợp dữ liệu (data integration)


-

Chọn dữ liệu (data selection)

-

Chuyển đổi dữ liệu (data transformation)

- Khai phá dữ liệu (data mining)


- Đánh giá mẫu (pattern evaluation)
- Trình diễn dữ liệu (Knowlegde presention)

2.1.3 Các chức năng chính của khai phá dữ liệu
2.2.4 Phân cụm dữ liệu
Có ba phương pháp được sử dụng nhiều trong khai
phá dữ liệu file log, đó là:
- Luật kết hợp.
- Phân lớp dữ liệu.
- Phân cụm dữ liệu.
Luận văn này sẽ tập trung đi nghiên cứu phương
pháp phân cụm và áp dụng thuật toán của phân cụm để
phát hiện tấn công DDos.
Định nghĩa: Phân cụm dữ liệu là sự phân chia một
cơ sở dữ liệu lớn thành các nhóm dữ liệu, trong đó các đối
tượng tương tự như nhau.
Mục tiêu của phân cụm: xác định được bản chất
nhóm trong tập dữ liệu chưa được gán nhãn.

Phƣơng pháp phân cụm: Hiện nay các phương
pháp phân cụm chính sau:
+ Phương pháp phân cụm phân hoạch
+ Phương pháp phân cụm phân cấp.
+ Phương pháp phân cụm dựa trên mật độ.
+ Phương pháp phân cụm dựa trên lưới.


+ Phương pháp phân cụm dựa trên mơ hình.

2.2 Phát hiện tấn công DDOS dựa trên khai
phá dữ liệu
2.2.1 Phương pháp
Có rất nhiều các phương pháp phân cụm được ứng
dụng trong thực tế. Kỹ thuật này phân hoạch một tập hợp
dữ liệu có n phần tử thành k nhóm cho đến khi xác định
số các cụm được thiết lập. Số các cụm được thiết lập là các
đặc trưng được lựa chọn trước.
Phương pháp này là tốt cho việc tìm các cụm hình
cầu trong khơng gian Euclidean.

2.2.2 Kỹ thuật
Hệ thống phát hiện bất thường dựa trên KPDL áp
dụng kỹ thuật phát hiện phần tử dị biệt để xác định tấn
cơng, nó bao gồm các module chính: Module Lọc, Module
trích xuất thơng tin, Module phát hiện phần tử dị biệt,
Module phản ứng.

2.3


Một số thuật toán phân cụm phát hiện

dị biệt trong khai phá dữ liệu
2.3.1

Thuật toán K-Means

K-means Clustering là một thuật toán dùng trong các
bài tốn phân loại/nhóm n đối tượng thành k nhóm dựa
trên đặc tính/thuộc tính của đối tượng (k n nguyên,


dương). Việc lựa chọn K ảnh hưởng đến chất lượng đầu ra
của cụm[9].

2.3.2

Thuật toán K-Medios

Thuật toán K – Medios là thuật toán mở rộng của KMeans, nhằm giải quyết các vấn đề xử lý dữ liệu ngoại lai
và nhiễu, nhưng nó khơng thích hợp để áp dụng để xử lý
tập dữ liệu lớn.

2.3.3 Đánh giá thuật toán K-Means và KMedios
Cả 2 thuật này này đều có mục đích phân nhóm các đối
tượng vào K cụm khác nhau, K được người dùng xác định
ban đầu. Mỗi cụm được đại diện bởi một trong các đối
tượng của cụm. Dưới đây là bảng so sánh giữa 2 thuật toán:
Bảng 2.1: So sánh thuật toán K-Means và K-Medios


Đánh giá
Phạm vi áp
dụng
Ưu điểm

K-Means
- Phù hợp mơ hình
dữ liệu lớn
- Đơn giản, hiệu quả.
Tự tổ chức.

Nhược điểm

- Hiệu quả của thuật

K-Medios
- Phù hợp mơ
hình dữ liệu nhỏ
- Khắc phục
được độ nhiễu
hơn so với thuật
toán K-Means,
phân biệt các
phân tử vào
nhóm rõ ràng
hơn.
- Độ phức tạp lớn


tốn phụ thuộc vào

hơn so với thuật
việc chọn số nhóm K tốn K-means.
- Chi phí cho thực
hiện vịng lặp tính
tốn khoảng cách lớn
khi số cụm K và dữ
liệu phân cụm lớn.
Kết luận chƣơng 2
Chương này đã tập trung đi vào phân tích kỹ thuật
khai phá và phân tích dữ liệu để áp dụng vào việc phát
hiện tấn công DDOS dựa trên dữ liệu đầu vào bất thường.
Bao gồm:
- Định nghĩa và nhiệm vụ khai phá dữ liệu
- Quy trình khai phá dữ liệu
- Phát hiện bất thường dựa trên khai phá dữ liệu
- Bài toán và thuật toán áp dụng pháp hiện bất thường
Tìm hiểu 2 thuật tốn K-Means và K-Medios, dựa
trên sự so sánh và tính tối ưu áp dụng vào việc phát hiện
bất thường đòi hỏi việc xử lý dữ liệu nhanh với khối lượng
dữ liệu lớn để đáp ứng tính sẵn sàng hệ thống, nên chương
3 luận văn sẽ chọn thuật toán K-Means để áp dụng xây
dựng chương trình thử nghiệm.


CHƢƠNG 3: XÂY DỰNG CHƢƠNG TRÌNH
THỬ NGHIỆM PHÁT HIỆN TẤN CƠNG DDOS

3.1 Đặt vấn đề bài tốn
Xây dựng chương trình phát hiện tấn công DDOS
qua phương pháp khai phá dữ liệu sử dụng thuật tốn KMeans sử dụng phân tích file log Iptables của hệ thống.

Vấn đề bài toán hiện tại: trên thực tế đối với hệ
thống, khi vào khung giờ cao điểm sẽ có nhiều request gửi
đến hệ thống xử lý, khung giờ bình thường số lượng
request sẽ ít hơn nhiều. Do vậy chúng ta sẽ gặp trường hợp
xẩy ra dự đốn khơng chính xác, do có sự chênh lệch tỉ lệ
request giữa khung giờ cao điểm và khung giờ bình
thường.
Yêu cầu đầu vào: Thực hiện quét file log của
firewall trong hệ thống mạng server liên tục theo tần xuất
cấu hình.
Xử lý: Phân chia xử lý thành 2 khung giờ cao điểm
và bình thường với dữ liệu huấn luyện khác nhau để đưa ra
kết quả chính xác cao hơn.
Yêu cầu đầu ra: Dựa trên việc phân tích dữ liệu file
log firewall đưa ra cảnh báo khi xác định được tấn cơng
DDOS vào các máy đích. Phân biệt được sự chênh lệch
giữa tấn công hay không giữa các khung giờ


Xác định tiêu chí cảnh báo tấn cơng DDOS:
- Xây dựng một bộ dữ liệu huấn luyện ban đầu với
dữ liệu lịch sử. Xác định hai cụm: cụm bình
thường – dữ liệu q khứ bình thường , cụm tấn
cơng – dữ liệu quá khứ xác định đã tấn công hệ
thống.
- Xử lý dữ liệu file log: không xẩy ra tấn cơng
khi dữ liệu được phân tích xác định thuộc cụm
bình thường, xẩy ra tấn công khi dữ liệu xác
định cụm còn lại.
Nguyên tắc cảnh báo: đưa ra cảnh báo trên ứng dụng khi

xẩy ra tấn công dựa trên tổng số kết nối và thông lượng
mạng trong khoảng thời gian t rơi vào cụm bất thường
cho quản trị hệ thống.

3.3 Phân tích thiết kế bài tốn
Phân tích dữ liệu file log: định dạng ghi log, mỗi
kết nối được ghi theo dòng, mỗi dòng gồm nhiều trường
dữ liệu.
Tuy nhiên, ta quan tâm dữ liệu các trường:
[Date][SRC][DST][LEN][Protocol]
Bƣớc 1:Hệ thống thực hiện lấy dữ liệu đầu vào là file log
từ File /var/log/messages: Chứa các thông tin log của hệ
thống được daemon syslogd ghi nhận, thực hiện đánh dấu


đổi tên file log. Ở đây chương trình sử dụng file log chứa
dữ liệu giả lập, định dạng log được giả lập theo đúng định
dạng thực tế nhằm mục đích tạo ra các trường hợp khác
nhau bất thường – không bất thường.
Bƣớc 2: Hệ thống sau khi lấy được file log, thực hiện quét
file đọc từng dòng trong file log, lọc theo từ khóa đã cấu
hình trong file để lấy dữ liệu các trường
[Date][SRC][DST][LEN][Protocol] của từng dòng, lưu dữ
liệu lọc được vào bảng tbl_info. Tương ứng mỗi dòng là
một bản ghi.
Bƣớc 3: Sau ki quét xong dữ liệu, tiến trình lấy dữ liệu
trong bảng tbl_info, đánh dấu thời gian của bản ghi đầu
tiên và tạo tên nhóm mới theo đơn vị thời gian
(yyyyMMddHHmmss.SSS) theo khoảng thời gian t phút
(cấu hình trong file …/etc/config.txt). Các bản ghi tiếp

theo nếu vẫn nằm trong khoảng thời gian đã định sẵn so
với bản ghi đầu tiên thì sẽ được lưu cùng tên nhóm, ngược
lại nếu nằm ngồi khoảng thời gian đó thì sẽ tạo nhóm mới
và đánh dấu lại thời gian của bản ghi, dữ liệu sau khi lưu
vào bảng tbl_info_g sẽ được gán tên nhóm bằng trường
group_name. Tiến trình sẽ đánh dấu ID của bản ghi cuối
cùng, lượt quét tiếp theo tiến trình sẽ quét từ bản ghi có ID
lớn hơn ID đã đánh dấu.
Bƣớc 4: Thực hiện lưu dữ liệu vào bảng tbl_cluster, các
dữ liệu này sẽ được gom nhóm theo tên nhóm, địa chỉ IP
và port đích. Kiểm tra thời gian bắt đầu của nhóm, nếu
thuộc vào khoảng thời gian cao điểm (đã cấu hình) thì sẽ
đánh dấu nhóm này vào cụm giờ cao điểm, ngược lại là
nhóm giờ bình thường.
Bƣớc 5: Thực hiện phân cụm theo thuật toán K-Means,
khởi tạo thuật toán lấy số cụm bằng hai, tâm cụm được lấy


từ dữ liệu mẫu trong cơ sở dữ liệu với điểm nào có số
connects, thơng lượng cao hơn sẽ được tính là tâm điểm
bất thường. Các nhóm giờ cao điểm sẽ được gom cùng với
dữ liệu mẫu của giờ cao điểm, các nhóm bình thường sẽ
lấy dữ liệu mẫu của giờ bình thường. Thực hiện phân cụm
cho các nhóm này theo 2 tiêu chí riêng biệt: số kết nối và
tổng dung lượng nhóm.
Bƣớc 6: Sau khi thuật tốn K-Means xử lý phân chia dữ
liệu vào cụm. Hệ thống dựa trên kết quả phân cụm sẽ đưa
ra cảnh báo tấn công nêú có dữ liệu rơi vào cụm bất
thường. Hiển thị vào danh sách cảnh báo ngồi màn hình
web (enable button “Đã xử lý”). Nếu quản trị mạng đã

nắm xử lý thông tin. Click vào button “Đã xử lý” để đánh
dấu trạng thái cho cảnh báo đã (disable button).

3.4 Thiết kết cơ sở dữ liệu

Hình 3.2: Mơ hình thiết kế cơ sở dữ liệu

3.4 Xây dựng chƣơng trình thử nghiệm
Mơi trường thực hiện: Cơ sở dữ liệu - MySQL, môi


trường server: Linux,Windows, sử dụng ngôn ngữ PHP JAVA
Môi trường triển khai: Web
Bƣớc 1: Chuẩn bị dữ liệu
+ Dữ liệu mẫu giả định trong DB:
- Giờ bình thường: giả định cụm bất thường có tâm
khoảng (connection,size) = (4502, 53), cụm bình thường
có tâm (760, 10)
- Giờ cao điểm: giả định cụm bất thường có tâm khoảng
(connection,size) = (42270, 528) , cụm bình thường có
tâm (2940, 37)
+ Dữ liệu file log đầu vào:
- Dữ liệu file n file log, nhiều khoảng thời gian khác
nhau.
VD: Tập dữ liệu trong file log lần lượt thể hiện như sau:
Khung giờ bình thường:
- Cụm 1: 10 bản ghi từ: Sep 24 06:01:20 đến Sep 24
06:03:20 . Trong khoảng thời gian 3 phút có 10 connect
tới hệ thống với size (lenght) = 800
- Cụm 2: 30 bản ghi từ: Sep 24 06:04:20 đến Sep 24

06:07:20 . Trong khoảng thời gian 3 phút có 17 connect
tới hệ thống với size (lenght) = 1360
- Cụm 3: 1000 bản ghi từ: Sep 24 06:08:20 đến Sep 24


06:21:20 . Trong khoảng thời gian 3 phút có 1000
connect tới hệ thống với size (lenght) = 80000
- Cụm 4: 0 bản ghi từ: Sep 24 06:22:20 đến Sep 24
06:25:20 . Trong khoảng thời gian 3 phút có 0 connect tới
hệ thống với size (lenght) = 0
- Cụm 5: 80000 bản ghi từ: Sep 24 06:25:20 đến Sep 24
06:28:20 . Trong khoảng thời gian 3 phút có 80000
connect tới hệ thống với size (lenght) = 400
- Cụm 6: 26 bản ghi từ: Sep 24 06:25:20 đến Sep 24
06:28:20 . Trong khoảng thời gian 3 phút có 26 connect
tới hệ thống với size (lenght) = 2080
Khung giờ cao điểm: được cấu hình từ 19h00 đến 23h
00: (42270, 528) , cụm bình thường có tâm (2940, 37)
- Cụm 7: 100 bản ghi từ: Sep 24 19:01:20 đến Sep 24
19:03:20 . Trong khoảng thời gian 3 phút có 100 connect
tới hệ thống với size (lenght) = 80000
- Cụm 8: 76 bản ghi từ: Sep 24 19:04:20 đến Sep 24
19:07:20 . Trong khoảng thời gian 3 phút có 76 connect
tới hệ thống với size (lenght) = 6080
- Cụm 9: 30 bản ghi từ: Sep 24 19:08:20 đến Sep 24
19:21:20 . Trong khoảng thời gian 3 phút có 30 connect
tới hệ thống với size (lenght) = 2400
- Cụm 10: 0 bản ghi từ: Sep 24 19:22:20 đến Sep 24



19:25:20 . Trong khoảng thời gian 3 phút có 0 connect tới
hệ thống với size (lenght) = 0
- Cụm 11: 450 bản ghi từ: Sep 24 19:25:20 đến Sep 24
19:28:20 . Trong khoảng thời gian 3 phút có 450 connect
tới hệ thống với size (lenght) = 36000
- Cụm 12: 500 bản ghi từ: Sep 24 19:25:20 đến Sep 24
19:28:20 . Trong khoảng thời gian 3 phút có 500 connect
tới hệ thống với size (lenght) = 40000
- Cụm 13: 560 bản ghi từ: Sep 24 19:28:20 đến Sep 24
19:31:20 . Trong khoảng thời gian 3 phút có 500 connect
tới hệ thống với size (lenght) = 44800
Kết quả dữ liệu trong file log tạo:
Vào khung giờ bình thường hệ thống thực hiện đưa ra các
cảnh báo với cụm dữ liệu sau: cụm 5, cụm 3
Vào khung giờ bình thường hệ thống thực hiện đưa ra các
cảnh báo với cụm dữ liệu sau: cụm 11, cụm 12, cụm 13
Bƣớc 2: Cấu hình hệ thống thực hiện phân cụm theo 3
phút 1 cụm.
Bƣớc 3: Đưa file log dữ liệu vào thư mục cấu hình quét
file.
 Kết quả thực tế: Hệ thống thực hiện quét file dữ liệu
đầu vào, và lấy dữ liệu mang đi xử lý.
Bƣớc 4: Kiểm tra xử lý hệ thống sau khi phân tích dữ


liệu có nội dung như file log trên.
Kết quả thực tế: Hệ thống hiển thị danh sách kết quả
cảnh báo. Khớp với dữ liệu đầu vào giả lập

3.5 Kết quả đạt đƣợc

Có rất nhiều kĩ thuật cũng như phương pháp để áp
dụng nhận diện tấn cơng DDOS như đã trình bày ở
chương 1 và chương 2. Tuy nhiên, chương trình tập trung
vào xây dựng dựa trên phương pháp phát hiện bất thường
dựa trên khai phá dữ liệu. Trong đó sử dụng kĩ thuật phân
cụm áp dụng thuật toán K-Means để phát hiện các cụm
dữ liệu trong khoảng thời gian có số kết nối và lưu lượng
bất thường phân tích.
Ƣu điểm:
- Kết quả hiển thị giao diện web trực quan
- Cách thức xử lý đơn giản, hiệu quả cao. Kết hợp việc
phân tích số lượng kết nối và lưu lượng bất thường hệ
thống nhận được
- Chương trình có tính mềm dẻo, linh hoạt. Do các thông
số định nghĩa: Khung giờ cao được, Khoảng thời gian
phân cụm được cấu hình trong file config. Khơng để cứng
trong code, nên quản trị viên có thể tự cấu hình điều
chỉnh cho phù hợp với hệ thống khi áp dụng thực tế.


Nhƣợc điểm:
- Cảnh báo dừng chỗ đưa ra kết quả trên web, nên yêu cầu
đòi hỏi quản trị viên phải trực đáp ứng 24/24.
- Dữ liệu mẫu tự tạo và tự thử nghiệm trên hệ thống nên
chưa kiểm tra được tính đáp ứng trên thực tế.


KẾT LUẬN CHƢƠNG 3

Chương 3 đã đưa ra vấn đề bài tốn, từ đó phân

tích, đánh giá bài tốn. Từ đó xây dựng chương trình phát
hiện bất thường nhằm mục đích đảm bảo tính sẵn sàng,
tồn vẹn của hệ thống. Với dữ liệu đầu vào là file log
server, chương trình thực hiện quét, phân tích và xử lý dữ
liệu trong file log, đưa ra cảnh báo cho quản trị viên khi
gặp dữ liệu bất thường.


×