Tải bản đầy đủ (.pdf) (7 trang)

Nghiên cứu ứng dụng học máy vào quản trị mạng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (412.88 KB, 7 trang )

Hội nghị Khoa học công nghệ lần thứ XXII

Trường Đại học Giao thông vận tải

NGHIÊN CỨU ỨNG DỤNG HỌC MÁY VÀO QUẢN TRỊ MẠNG
Nguyễn Thanh Toàn 1
1

Trường Đại học Giao thông Vận tải, Số 3 Cầu Giấy, Hà Nội
*
Tác giả liên hệ: Email:

Tóm tắt. Cơng việc quản trị hệ thống mạng của bất kỳ tổ chức nào cũng là một
việc quan trọng để hệ thống vận hành trôi chảy, đáp ứng được các yêu cầu của tổ chức
về ứng dụng, hiệu năng, chi phí hợp lý và an tồn. Khi hệ thống mạng có quy mơ lớn,
cơng việc quản tri mạng ngày càng phức tạp địi hỏi phải có các công cụ hiệu quả để
trợ giúp người quản trị hệ thống kịp thời ứng phó với các yêu cầu mới cũng như khi sự
cố xảy ra. Học máy là một kỹ thuật đã được các nhà khoa học lựa chọn để cung cấp
thêm giải pháp hỗ trợ cho công việc quản trị mạng. Một trong những khả năng của học
máy là trích xuất thơng tin từ dữ liệu, trong quản trị mạng xuất hiện rất nhiều dữ liệu
liên quan đến hoạt động của hệ thống có thể sử dụng để cung cấp cho học máy để tìm
ra những thơng tin giúp cải thiện hoạt động quản trị mạng hoặc phát hiện tấn cơng.
Từ khóa: quản trị mạng, học máy, tấn công từ chối dịch vụ, xgboost.

1. ĐẶT VẤN ĐỀ
Quản trị mạng là một công việc quan trọng, để định hướng cho các tổ chức, cá
nhân chịu trách nhiệm quản trị mạng, năm 1989, tổ chức chuẩn hoá quốc tế ISO đã
đưa ra mơ hình và khung quản trị xác định các nhiệm vụ quản lý mạng còn gọi là các
lĩnh vực quản trị mạng bao gồm:
Quản lý lỗi: Bao gồm phát hiện lỗi, cách ly lỗi và chỉnh sửa các thao tác khác
thường của môi trường OSI. Các lỗi là nguyên nhân làm cho các hệ thống mở không


đáp ứng các mục tiêu vận hành của chúng và các lỗi này có thể liên tục hoặc tạm thời.
Bản thân các lỗi là các sự việc cụ thể trong thao tác của hệ thống mở. Phát hiện lỗi
cung cấp khả năng nhận ra các lỗi [1].
Quản lý Cấu hình: Định danh, kiểm tra việc điều khiển, thu thập dữ liệu từ và
cung cấp dữ liệu cho các hệ thống mở với mục đích chuẩn bị, khởi tạo, bắt đầu, cung
cấp cho thao tác hành liên tục của và kết thúc các dịch vụ liên kết [1].
Quản lý Kế toán: Giúp thiết lập các chi phí để trang bị các tài nguyên trong mạng
và xác định chi phí sử dụng các tài nguyên đó [1].
Quản lý Hiệu năng: Giúp đánh giá tính năng các tài nguyên trong mạng và tính
hiệu quả của các hoạt động truyền thông [1].
Quản lý An ninh: Mục đích của quản lý an ninh là hỗ trợ việc ứng dụng các
chính sách an ninh bởi các chức năng trong đó có chức năng quan trọng là báo cáo các
-319-


Hội nghị Khoa học công nghệ lần thứ XXII

Trường Đại học Giao thông vận tải

sự việc liên quan đến an ninh [1].
Đã có nhiều nghiên cứu việc ứng dụng học máy vào quản trị mạng như Machine
Learning for Cognitive Network Management [2], Unsupervised Machine Learning for
Networking: Techniques, Applications and Research Challenges [3], Real-Time
Network Anomaly Detection System Using Machine Learning [4].
Bài báo của chúng tôi được tổ chức thành 4 phần, phần 1 trình bày các lĩnh vực
quản trị mạng theo đề xuất của ISO, phần 2 giới thiệu về học máy và khả năng ứng
dụng vào quản trị mạng, phần 3 trình bày việc phát hiện kiểu tấn cơng từ chối dịch vụ
phân tán và thực nghiệm kỹ thuật học máy Xgboost để phát hiện tấn công mạng DDoS
thuộc lĩnh vực quản lý an ninh và phần 4 là kết luận. Qua bài báo này, chúng tôi khẳng
định việc ứng dụng học máy vào quản trị mạng là công việc cần thiết vì tính năng tự

động và tốc độ xử lý thông tin tốc độ cao giúp phản ứng kịp thời các vấn đề liên quan
đến hệ thống mạng.
2. ỨNG DỤNG HỌC MÁY VÀO QUẢN TRỊ MẠNG
Ứng dụng học máy để tự động hóa quản lý mạng và lặp lại công việc quản lý là
một nhiệm vụ không tầm thường. Học máy có thể được ứng dụng vào các lĩnh vực
quản trị mạng theo ISO như sau:
• Quản lý lỗi: Lỗi trong mạng là không thể tránh khỏi, chỉ là sớm hay muộn và
nhiều khi tác động của nó có thể khá tốn chi phí để khắc phục. Thời gian phản ứng lỗi
chậm và độ chính xác kém của kỹ thuật quản lý lỗi truyền thống làm tăng thêm chi phí
này. Điều này đã thúc đẩy những nỗ lực áp dụng học máy để chủ động dự đoán lỗi,
giảm thiểu tự động tác hại của lỗi, giảm thiểu thời gian chết của hệ thống và sự can
thiệp của con người. Có thể ứng dụng học máy vào việc phân tích các tập tin nhật ký
mạng để có hành động tương ứng khi phát hiện sự cố [2].
• Quản lý cấu hình: Người quản trị mạng phải triển khai các chính sách mạng
ngày càng tinh vi được triển khai, và khi các vấn đề xảy ra phải thực hiện điều chỉnh
cấu theo các thay đổi trạng thái trong mạng (ví dụ: có sự xâm nhập, thay đổi lưu
lượng, suy giảm hiệu suất). Khi trạng thái mạng liên tục thay đổi, các nhà quản lý có
thể cũng phải liên tục thực hiện cấu hình mạng để thích ứng với những thay đổi này,
đó là một q trình dễ xảy ra lỗi. Học máy có thể giúp tự động hóa cơng việc này bằng
các mơ hình huấn luyện để xác định trạng thái tối ưu khi hành vi mạng thay đổi theo
thời gian. Một số nghiên cứu đã cho thấy những lợi ích của học máy đối với việc phân
bổ tài nguyên và cấu hình dịch vụ động [2].
• Quản lý kế tốn: Kế tốn được kết hợp chặt chẽ với mơ hình kinh doanh và
kiểm sốt. Các mơ hình này sử dụng dữ liệu kế toán trong việc ra quyết định, lập kế
hoạch dịch vụ và chuyển giao, thiết kế biểu giá và kế hoạch định giá. Do đó, điều cần
thiết là đảm bảo tính tồn vẹn của dữ liệu kế tốn bằng cách thu thập chính xác dữ liệu
sử dụng và phát hiện gian lận. Hiện nay việc sử dụng học máy cho quản lý kế toán
mạng chưa được nghiên cứu nhiều.
• Quản lý hiệu năng: Các hệ thống mạng ngày nay thường chạy nhiều loại dịch
-320-



Hội nghị Khoa học công nghệ lần thứ XXII

Trường Đại học Giao thông vận tải

vụ với yêu cầu về hiệu năng khác nhau để phục vụ ngày càng nhiều người dùng với
nhu cầu riêng biệt. Đảm bảo hiệu năng là một cơng việc rất cần thiết nhưng cũng rất
khó khăn. Trên thực tế, nếu khơng có khả năng dự đốn chính xác hành vi mạng,
chúng ta khơng thể cung cấp các đảm bảo về hiệu năng. Đã có rất nhiều nỗ lực trong
lĩnh vực học máy để tìm cách đáp ứng hiệu suất và cũng như dự đoán lưu lượng tải của
mạng [2].
• Quản lý an ninh: Cơng việc phổ biến nhất trong quản lý an ninh mạng là giám
sát mạng với các mẫu của mối đe dọa nổi tiếng. Khi lượng thông tin trao đổi qua mạng
tăng cao, việc giám sát mạng theo kiểu thủ công không thể đáp ứng được yêu cầu an
ninh mạng. Nhu cầu về các biện pháp an ninh mạnh mẽ và nhanh chóng là rõ ràng và
vai trò của học máy đối với quản lý an ninh mạng ngày càng được nhiều quan tâm [2].
3. PHÁT HIỆN TẤN CÔNG DDOS BẰNG HỌC MÁY DỰA TRÊN PHÂN
TÍCH NHẬT KÝ MÁY CHỦ
3.1. Tấn cơng từ chối dịch vụ (DoS)
DoS là viết tắt của cụm từ tiếng anh Denial of Service, nghĩa tiếng Việt là từ chối
dịch vụ. Tấn công từ chối dịch vụ DoS là một sự kiện an ninh mạng xảy ra khi kẻ tấn
công có hành động ngăn cản người dùng hợp pháp truy cập hệ thống máy tính, thiết bị
hoặc các tài nguyên mạng khác.
Trong tấn công từ chối dịch vụ, kẻ tấn cơng nhằm vào các máy tính và sử dụng
mạng máy tính mà người dùng đang sử dụng để ngăn cản truy cập email, website, tài
khoản trực tuyến (ví dụ như ngân hàng) và các dịch vụ khác.
Một kiểu DoS rõ ràng và phổ biến nhất là kẻ tấn công gửi ồ ạt dữ liệu vào máy
chủ, hệ thống hoặc mạng, làm cạn kiệt tài nguyên của nạn nhân, khiến người dùng hợp
pháp gặp khó khăn hoặc thậm chí khơng thể sử dụng được các dịch vụ thường dùng.

Ví dụ, khi người dùng nhập vào URL của một website vào trình duyệt để gửi một yêu
cầu đến máy chủ của trang này để xem trang web, vì máy chủ chỉ có thể xử lý một số
yêu cầu nhất định trong một khoảng thời gian, vì vậy nếu kẻ tấn cơng gửi ồ ạt nhiều
yêu cầu đến máy chủ sẽ làm máy chủ bị quá tải và yêu cầu của người dùng bình
thường sẽ khơng được xử lý. Đây là kiểu “từ chối dịch vụ” vì nó làm cho người dùng
khơng thể truy cập đến trang web mong muốn.
3.2. Tấn công từ chối dịch vụ phân tán (DDoS)
DDoS là viết tắt của Distributed Denial of Service, nghĩa tiếng Việt là từ chối
dịch vụ phân tán. Tấn công DDoS là nỗ lực làm sập một dịch vụ trực tuyến bằng cách
làm tràn ngập nó với dữ liệu từ nhiều nguồn.
Trong tấn cơng từ chối dịch vụ phân tán (DDoS), một kẻ tấn công có thể sử dụng
máy tính của người dùng hợp pháp để tấn cơng vào các máy tính khác. Bằng cách lợi
dụng những lỗ hổng về bảo mật cũng như sự khơng hiểu biết, kẻ này có thể giành
quyền điều khiển máy tính của người dùng hợp pháp. Sau đó chúng sử dụng máy tính
của người dùng hợp pháp để gửi số lượng lớn dữ liệu đến một website hoặc gửi thư rác
-321-


Trường Đại học Giao thông vận tải

Hội nghị Khoa học cơng nghệ lần thứ XXII

đến một địa chỉ hịm thư nào đó. Tấn cơng này được được gọi là phân tán vì kẻ tấn
cơng sử dụng nhiều máy tính ở các vị trí khác nhau trên mạng trong đó có cả máy tính
của người dùng hợp pháp để thực hiện tấn công DoS.
Mặc dù DDoS cung cấp một chế độ tấn cơng ít phức tạp hơn các dạng tấn cơng
mạng khác, nhưng chúng đang ngày càng mạnh mẽ và tinh vi hơn. Có ba loại tấn cơng
cơ bản:
Volume-based: Sử dụng lưu lượng truy cập cao để làm tràn ngập băng thông
mạng

Protocol: Tập trung vào việc khai thác các tài nguyên máy chủ
Application: Tập trung vào các ứng dụng web và được xem là loại tấn công tinh
vi và nghiêm trọng nhất
Việc phát hiện và chống lại các cuộc tấn công DDoS thuộc vào nhiệm vụ quản trị
an ninh mạng.
Vài năm trở lại đây, các dịch vụ như DNS hay Network Time Protocol (NTP)
luôn là công cụ bị lợi dụng cho nhiều cuộc tấn công DDoS. Gần đây, Portmap trở
thành cái tên mới nhất trong danh sách các dịch vụ này [5].
Mặc dù nhiều phương pháp thống kê đã được thiết kế để phát hiện tấn công
DDoS, nhưng việc thiết kế một bộ dị thời gian thực với chi phí tính tốn thấp vẫn là
một trong những mối quan tâm chính. Chúng tôi sẽ ứng dụng học máy, cụ thể là kỹ
thuật học máy XGBoost [6] để phân tích file nhật ký thống kê yêu cầu dịch vụ đã được
gửi đến máy chủ để phát hiện các cuộc tấn công DDoS. Trong bài báo này, chúng tôi
tập trung vào phát hiện tấn cơng DDoS theo hình thức tấn cơng BENIGN/Portmap. Dữ
liệu để thực nghiệm được lấy từ CICDDoS2019 dataset [7].
3.3. Phân loại tấn công bằng XGBOOST
Chúng tôi sử dụng XGBoost để phân loại các tấn công dựa trên BENIGN hoặc
Portmap. XGBoost viết tắt là Extreme Gradient Boosting, là giải thuật Tree, áp dụng
các kỹ thuật để kết hợp các Tree, làm mịn sai số khi huấn luyện và chuẩn hóa sai số,
hệ số và số biến. Ta có:
n: số mẫu huấn luyện
m: số lượng features
D = {(xi,yi)} là tập dữ liệu với |D| = n, xi ∈

m,

yi ∈

q: cấu trúc của một cây, ánh xạ mẫu dữ liệu vào nút lá tương ứng
T: số lượng nút lá trên cây.

fk: cấu trúc các cây k độc lập của mơ hình.

𝓌i : trọng số của nút lá thứ i
-322-


Trường Đại học Giao thông vận tải

Hội nghị Khoa học cơng nghệ lần thứ XXII

: giá trị dự đốn của instance thứ i tại vòng lặp thứ t
đạo hàm bậc 2 của hàm f
Ij = {i|q(xi) = j}: tập các giá trị tại nút lá j
IL: tập giá trị nút lá bên trái
IR: tập giá trị nút lá bên phải
I = IL ∪ IR
Mơ hình học:
(1)
Trong đó
(2)
Hàm học:
+

.

(3)

Trong đó
(4)


Hàm lỗi tính trên tồn bộ cây
(5)
3.4. Kết quả
Dữ liệu gồm 191695 bản ghi với 87 trường, được gán nhãn benign và portmap.
Chúng tôi chia dữ liệu làm hai phần, 70% cho huấn luyện và 30% cho kiểm thử. Hình
1 chỉ ra hiệu năng của quá trình huấn luyện và kiểm thử. Sau 40 epochs, mơ hình huấn
luyện đã hội tụ và đạt tối ưu. Độ chính xác cao do dữ liệu ít và quá khớp.

-323-


Trường Đại học Giao thông vận tải

Hội nghị Khoa học cơng nghệ lần thứ XXII

Hình 1. Hàm lỗi của q trình huấn luyện và kiểm thử
Độ chính xác được đánh giá trên tập dữ liệu kiểm thử. Bảng 1 chỉ ra confusion
matrix là một phương pháp đánh giá kết quả của những bài toán phân loại với việc
xem xét cả những chỉ số về độ chính xác và độ bao quát của các dự đoán cho từng lớp.
Bảng 1. Confusion matrix của phát hiện tấn công
Predicted
1414

1

0

56094

Actual


Từ confusion matrix cho thấy, 1414 mẫu dữ liệu benign và 56049 mẫu dữ liệu
portmap được phân loại đúng. Tương tự, có 1 mẫu dữ liệu benign bị phân loại sai.
4. KẾT LUẬN
Chúng tôi đã sử dụng một kỹ thuật học máy để phát hiện cuộc tấn công DDoS vào
dịch vụ portmap thông qua việc sử dụng các tập tin nhật ký của máy chủ. Mục đích
của dịch vụ portmap là cho phép các máy khách trên mạng có thể truy cập vào các thư
mục chia sẻ từ các máy chủ Unix, Linux ví dụ như NFS. Bằng việc tấn công DDoS
vào portmap, kẻ tấn cơng có thể làm cho các máy khách nhận ồ ạt các phản hồi từ máy
chủ portmap, có thể làm tê liệt máy khách.
Việc sử dụng học máy giúp người quản trị mạng nhanh chóng phát hiện được dấu
hiệu tấn cơng từ việc phân tích các tập tin nhật ký rất lớn trên máy chủ, từ đó kịp thời
có các giải pháp cần thiết để bảo vệ mạng.
Để chống lại tấn công DDoS với dịch vụ portmap, các chuyên gia an ninh mạng đã
đề xuất giải pháp là sử dụng tường lửa và chỉ định rõ những máy khách có địa chỉ IP
xác định mới được truy cập dịch vụ, khơng để như hiện nay là máy khách có địa chỉ IP
bất kỳ đều có thể truy cập được dịch vụ portmap khi biết địa chỉ của máy chủ.

-324-


Hội nghị Khoa học công nghệ lần thứ XXII

Trường Đại học Giao thông vận tải

TÀI LIỆU THAM KHẢO
[1] ISO/IEC 7498-4 : 1989 (E)
[2] Sara Ayoubi, Noura Limam, Mohammad A. Salahuddin, Nashid Shahriar and
Raouf Boutaba, "Machine Learning for Cognitive Network Management". IEEE
Communications Magazine · January 2018.

[3] Muhammad Usama, Junaid Qadir, Aunn Raza, Hunain Arif, Kok-Lim Alvin Yau,
Yehia Elkhatib, Amir Hussain, Ala Al-Fuqaha "Unsupervised Machine Learning for
Networking: Techniques, Applications and Research Challenges". arXiv :1709 [cs.NI]
19 Sep 2017.
[4] Shuai Zhao, Mayanka Chandrashekar, Yugyung Lee, Deep Medhi "Real-Time
Network Anomaly Detection System Using Machine Learning". 2015 11th
International Conference on the Design of Reliable Communication Networks
(DRCN).
[5] Level 3 Communications. 2015
[6] The XGBoost Contributors Initial release March 27, 2014
[7] Iman Sharafaldin, Arash Habibi Lashkari, Saqib Hakak, and Ali A. Ghorbani,
"Developing Realistic Distributed Denial of Service (DDoS) Attack Dataset and
Taxonomy", IEEE 53rd International Carnahan Conference on Security Technology,
Chennai, India, 2019.
.

-325-



×