ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN CHÍ THANH
KHAI PHÁ DỮ LIỆU LOGFILE CỦA
FIREWALL TRONG HỆ THỐNG MẠNG
IPTV NHẰM PHÁT HIỆN TẤN CÔNG
TỪ CHỐI DỊCH VỤ
Ngành: CNTT
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy
Hà Nội – 2013
1
LỜI CẢM ƠN
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới thầy giáo,
PGS-TS Hà Quang Thụy đã tận tình chỉ bảo, hướng dẫn em trong suốt quá trình
thực hiện đề tài.
Em xin gửi lời cảm ơn sâu sắc tới quý Thầy Cô trong Khoa CNTT, trường
Đại học Công nghệ, Đại học Quốc gia Hà Nội đã truyền đạt kiến thức quý báu
cho em trong những năm học vừa qua.
Cuối cùng, xin gửi lời cảm ơn chân thành đến những tác giả của các tài
liệu mà tôi đã sử dụng để tham khảo trong quá trình thực hiện đề tài.
Xin chân thành cảm ơn!
2
LỜI CAM ĐOAN
Tôi xin cam đoan mô hình giải pháp “Khai phá dữ liệu logfile của
Firewall trong hệ thống mạng IPTV nhằm phát hiện tấn công từ chối dịch vụ”
được trình bày trong luận văn này do tôi thực hiện dưới sự hướng dẫn của PGS.
TS. Hà Quang Thụy.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn
gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận văn. Trong luận
văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà
không chỉ rõ về tài liệu tham khảo.
Học viên thực hiện
Nguyễn Chí Thanh
3
MỤC LỤC
LỜI CẢM ƠN 1
LỜI CAM ĐOAN 2
MỤC LỤC 3
DANH MỤC CÁC CHỮ VIẾT TẮT 5
DANH MỤC BẢNG BIỂU 6
DANH MỤC HÌNH VẼ 7
MỞ ĐẦU 8
CHƯƠNG 1: SƠ BỘ VỀ LOGFILE MẠNG IPTV 11
1.1. GIỚI THIỆU VỀ MẠNG IPTV 11
1.1.1. IPTV là gì 11
1.1.2. Kiến trúc tổng quan mạng IPTV 11
1.1.3. Các dịch vụ của mạng IPTV 13
1.2. DỮ LIỆU LOGFILE MẠNG IPTV 13
1.2.1. Logfile Firewall 14
1.2.2. Router syslog 15
1.2.3. STB logs 16
1.2.4. Log ứng dụng 17
1.3. TẤN CÔNG TỪ CHỐI DỊCH VỤ 19
1.3.1. Giới thiệu về tấn công từ chối dịch vụ 19
1.3.2. Các loại tấn công từ chối dịch vụ 19
CHƯƠNG 2: PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU LOGFILE 21
2.1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 21
2.1.1. Phát hiện tri thức 21
2.1.2. Khai phá dữ liệu 22
2.1.3. Ứng dụng của khai phá dữ liệu 23
2.2. SƠ BỘ VỀ KHAI PHÁ DỮ LIỆU LOGFILE IPTV 24
2.3. MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU LOGFILE ĐIỂN HÌNH 25
2.3.1. Sơ bộ về phân lớp dữ liệu 25
II.3.1.1. Khái niệm phân lớp dữ liệu 25
II.3.1.2. Ứng dụng của phân lớp dữ liệu 28
II.3.1.3. Các kỹ thuật phân lớp dữ liệu 29
2.3.2. Sơ bộ về phân cụm dữ liệu 29
II.3.2.1. Khái niệm phân cụm dữ liệu 29
II.3.2.2. Ứng dụng của phân cụm dữ liệu 30
4
II.3.2.3. Các kỹ thuật phân cụm dữ liệu 31
CHƯƠNG 3: MÔ HÌNH KHAI PHÁ DỮ LIỆU LOGFILE CỦA FIREWALL TRONG HỆ THỐNG
MẠNG IPTV NHẰM PHÁT HIỆN TẤN CÔNG TỪ CHỐI DỊCH VỤ 32
3.1. MÔ TẢ BÀI TOÁN 33
3.1.1. Tên gọi bài toán 33
3.1.2. Phân tích bài toán 33
3.1.3. Xác định dữ liệu cần thiết 33
3.2. MÔ HÌNH GIẢI PHÁP 34
3.2.1. Xây dựng mô hình 34
3.2.2. Phân lớp bản ghi logfile theo địa chỉ và cổng dịch vụ máy đích 37
3.2.3. Phân cụm bản ghi logfile theo địa chỉ máy trạm 40
CHƯƠNG 4: THỰC NGHIỆM 45
4.1. QUY TRÌNH THỰC NGHIỆM 45
4.1.1. Môi trường thực nghiệm 45
4.1.2. Mô tả quy trình thực nghiệm 46
4.2. PHÂN TÍCH DỮ LIỆU LOGFILE FIREWALL ISA 46
4.3. PHẦN MỀM DoSAlert 48
4.3.1. Chức năng chính của phần mềm 48
4.3.2. Mô tả cơ sở dữ liệu 49
4.3.3. Giao diện phần mềm 50
4.4. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 52
4.4.1. Kết quả thực nghiệm 52
4.4.2. Đánh giá kết quả thực nghiệm 56
KẾT LUẬN 57
TÀI LIỆU THAM KHẢO 58
5
DANH MỤC CÁC CHỮ VIẾT TẮT
API
Application Programming Interface
CSDL
Cơ sở dữ liệ
DoS
Denial of Service
CNTT
Công nghệ thông tin
DDoS
Distributed Denial of Service
DRM
Digital Rights Management
DSLAM
Digital Subscriber Line Access Multiplexer
EPG
Electronic Program Guide
HDTV
High Definition Television
IP
Internet Protocol
IPTV
Internet Protocol Television
ISP
Internet Service Provider
ITU
International Telecommunication Union
KDD
Knowledge Discovery in Database
KPDL
Khai pha dữ liệu
MoD
Music on Demand
PKI
Public Key Infrastructure
QoS
Quality of Service
SIEM
Security Information and Event Management
STB
Set Top Box
VoD
Video on Demand
VoIP
Voice over Internet Protocol
DSL
Digital Subscriber Line
6
DANH MỤC BẢNG BIỂU
Bảng 1.1: Cấu trúc STB log. 17
Bảng 1.2: Cấu trúc logfile của IIS 18
Bảng 3.1: Dữ liệu kiểm thử sau khi trích chọn và khử nhiễu 39
Bảng 3.2 (a): Dữ liệu kiểm thử sau khi phân lớp 39
Bảng 3.2 (b): Dữ liệu kiểm thử sau khi phân lớp 39
Bảng 3.2 (c): Dữ liệu kiểm thử sau khi phân lớp 40
Bảng 4.1: Cấu trúc logfile Firewall ISA 2006 48
Bảng 4.2: Cấu trúc bảng cơ sở dữ liệu tbl_setting 49
Bảng 4.3: Cấu trúc bảng cơ sở dữ liệu tbl_destinationip 49
Bảng 4.4: Cấu trúc bảng phụ trong cơ sở dữ liệu 50
7
DANH MỤC HÌNH VẼ
Hình 1.1: Mô hình tổng quan hệ thống IPTV 12
Hình 1.2: Dữ liệu logfile của Firewall ISA Server 2006 15
Hình 1.3: Syslog 16
Hình 2.1: Quá trình phát hiện tri thức 21
Hình 2.2: Quá trình khai phá dữ liệu 23
Hình 2.3: Quá trình phân lớp dữ liệu [1] 26
Hình 2.4: Bước học trong phân lớp dữ liệu [1] 27
Hình 2.5 (a): Bước phân lớp dữ liệu [1] 28
Hình 2.5 (b): Bước phân lớp dữ liệu [1] 28
Hình 2.6: Ví dụ về phân cụm dữ liệu 30
Hình 3.1: Mô hình giải quyết bài toán 35
Hình 3.2: Tập dữ liệu kiểm thử 38
Hình 3.3(a): Kết quả phân cụm trên tập dữ liệu kiểm thử 43
Hình 3.3(b): Kết quả phân cụm trên tập dữ liệu kiểm thử 43
Hình 4.1: Mô hình hệ thống thực nghiệm 46
Hình 4.2: Giao diện chính của phần mềm DoSAlert 50
Hình 4.3: Menu chính của phần mềm DoSAlert 51
Hình 4.4: Giao diện thiết lập danh sách IP cần giám sát 51
Hình 4.5: Giao diện thiết lập đường dẫn thư mục 52
Hình 4.6: Giao diện thiết lập tham số cảnh báo tấn công từ chối dịch vụ 52
Hình 4.7: Giao diện quản trị phần mềm XAMPP 53
Hình 4.8: Giao diện quản trị ISA Server 2006 53
Hình 4.9: Giao diện website demo 54
Hình 4.10: Cấu hình ghi log trên Firewall ISA 54
Hình 4.11:Dữ liệu trên logfile của Firewall ISA 55
Hình 4.12:Thông tin cảnh báo trên phần mềm DoSAlert 56
8
MỞ ĐẦU
Ngày nay, việc quản lý và vận hành các hệ thống mạng viễn thông đều
dựa trên việc phân tích dữ liệu do các thiết bị và ứng dụng trong hệ thống cung
cấp. Những dữ liệu này được gọi là dữ liệu log hệ thống và dữ liệu log ứng
dụng. Dữ liệu log hệ thống là những dữ liệu được tạo ra bởi các thiết bị hệ thống
và hệ điều hành. Dữ liệu log ứng dụng là những dữ liệu được tạo ra bởi các ứng
dụng chuyên trách phục vụ một hoặc một số nhiệm vụ trong hệ thống. Những dữ
liệu này thường rất phức tạp do được cung cấp bởi những hệ thống có sự tham
gia của nhiều hãng trong cùng một mạng lưới rộng lớn. Nguyên nhân của sự
phức tạp này chủ yếu là do các dữ liệu có định dạng khác nhau, ý nghĩa các
thành phần khác nhau, dẫn đến khó khăn trong quá trình đọc và phân tích, gây
phức tạp trong việc tìm mối tương quan giữa các dữ liệu, gây phức tạp trong
việc thu thập và lưu trữ, v.v… Một phần nhỏ của dữ liệu này được thể hiện
thông qua các hệ thống giám sát vận hành trực tuyến, cho phép cung cấp một
bức tranh toàn cảnh về quá trình vận hành và chất lượng dịch vụ theo từng thành
phần mạng khác nhau, tuy nhiên phần lớn dữ liệu được nén và lưu trữ cục bộ.
Khi có một sự kiện bất thường xảy ra cần được phân tích chi tiết tức thời, các dữ
liệu gần đây sẽ được lấy ra, giải nén rồi đưa vào phân tích. Đây là một loại phân
tích ra quyết định trực tuyến và nó tạo ra những thách thức lớn đối với các
phương thức khai phá dữ liệu và các quá trình phát hiện tri thức [8, 9, 10, 11].
Ngoài ra, sự phát triển nhanh chóng của công nghệ viễn thông như nâng
cao tốc độ Internet, các công nghệ di động mới, sự phát triển của kết nối không
dây, sự kết hợp các công nghệ cũ và mới, cùng với sự gia tăng không ngừng
khách hàng sử dụng cũng làm cho số lượng dữ liệu log tạo ra lớn hơn, dữ liệu
log ngày càng phức tạp hơn. Việc trích xuất các phần dữ liệu phù hợp, có giá trị
trong một khối lượng lớn các dữ liệu hệ thống là thách thức đối với các phương
thức và công cụ phân tích hiện nay. Điều này đỏi hỏi sự cải tiến không ngừng
các phương pháp tiếp cận và kỹ thuật khai phá dữ liệu, đồng thời nâng cao khả
năng xử lý và lưu trữ của các thiết bị hệ thống nhằm cho phép truy xuất và phân
tích dữ liệu nhanh chóng.
Các hệ thống mạng viễn thông lớn được thiết kế để tạo ra những tập dữ
liệu log đặc thù nhằm hỗ trợ cho việc phân tích. IPTV (Internet Protocol
TeleVision) là một ví dụ về những hệ thống mạng như vậy [13, 14]. Thông qua
dữ liệu log, những quản trị viên có thể nắm được quá trình vận hành của hệ
thống, biết được những gì đang diễn ra trong mạng. Tuy nhiên không phải toàn
bộ các dữ liệu log là có giá trị, chỉ một phần nhỏ trong đó cần giám sát trực
tuyến, một phần cần được lưu trữ để sử dụng khi cần thiết, thậm chí, có những
dữ liệu hoàn toàn vô giá trị. Để lấy ra và sử dụng những dữ liệu có ích đòi hỏi
phải có phương pháp khai phá dữ liệu thích hợp. Điều này sẽ hỗ trợ các quản trị
viên trong việc phân tích và ra quyết định nhanh khi cần thiết.
9
Việc khai phá dữ liệu logfile trong hệ thống đang ngày càng được quan
tâm và chú trọng nhiều hơn. Phạm vi ứng dụng của nó cũng được mở rộng ra
các lĩnh vực khác, đặc biệt là lĩnh vực đảm bảo an toàn thông tin. Chỉ thị 897/CT
của Thủ tướng Chính phủ về việc tăng cường triển khai các hoạt động đảm bảo
an toàn thông tin số nêu rõ: các Bộ, cơ quan ngang Bộ, cơ quan thuộc Chính
phủ, Ủy ban nhân dân các tỉnh, thành phố trực thuộc Trung ương nhất thiết phải
“áp dụng chính sách ghi lưu tập trung biên bản hoạt động (logfile) cần thiết để
phục vụ công tác điều tra và khắc phục sự cố mạng” đối với các hệ thống thông
tin quan trọng, các cổng, trang thông tin điện tử quan trọng [4]. Điều này cho
thấy tầm quan trọng của việc sử dụng dữ liệu logfile trong việc đảm bảo an toàn
vận hành cho các hệ thống công nghệ thông tin (CNTT) là không nhỏ.
Trên thị trường hiện nay có một loại giải pháp bảo mật đang bắt đầu được
sử dụng phổ biến trong các hệ thống CNTT lớn nói chung và hệ thống IPTV nói
riêng, đó là giải pháp “Quản lý và phân tích các sự kiện an toàn thông tin”
(Security Information and Event Management - SIEM) [10]. Giải pháp này dựa
trên việc thu thập và phân tích dữ liệu log của tất cả các thiết bị và ứng dụng
trong hệ thống. Những kỹ thuật chính được áp dụng trong giải pháp SIEM chính
là các kỹ thuật khai phá dữ liệu. Mục tiêu của các giải pháp này mới chỉ ở mức
độ hỗ trợ điều tra, xử lý các sự cố vận hành hệ thống, đánh giá hiệu suất hoạt
động, và chưa tập trung nhiều vào việc phát hiện, cảnh báo các sự cố bảo mật.
Mặt khác, các giải pháp này chỉ phù hợp để triển khai trong những hệ thống có
quy mô lớn, được đầu tư nhiều giải pháp bảo mật khác để bảo vệ tổng thể, theo
đó, giải pháp SIEM sẽ đưa ra cảnh báo dựa trên log của chính những thiết bị bảo
mật đó. Có thể thấy các giải pháp này chưa thực sự phù hợp với môi trường
CNTT ở Việt Nam bởi vì các doanh nghiệp ở Việt Nam chưa dành sự quan tâm
đúng mức về việc đảm bảo an toàn thông tin, mặt khác chi phí đầu tư cũng là
một vấn đề lớn khiến cho các hệ thống CNTT ở Việt Nam không được trang bị
đầy đủ các giải pháp bảo mật, dẫn đến việc triển khai các sản phẩm SIEM không
hiệu quả.
Dựa trên việc tham khảo nghiên cứu của Kimmo Hätönen, 2009 [10] về
phân tích logfile hệ thống mạng IPTV nhằm hỗ trợ ra quyết định trong việc xử
lý các sự cố vận hành, đánh giá hiệu năng hệ thống, đánh giá chất lượng dịch vụ,
tác giả nhận thấy có thể áp dụng một cách hiệu quả các kỹ thuật khai phá dữ liệu
vào việc đảm bảo an toàn, bảo mật cho hệ thống mạng IPTV nói riêng và các hệ
thống CNTT nói chung. Hướng tiếp cận này sẽ hữu ích trong việc phát triển
những giải pháp cảnh báo tấn công, có đặc tính phù hợp với môi trường CNTT
tại Việt Nam, đó là: hiệu quả, chi phí thấp, dễ triển khai và áp dụng cho nhiều hệ
thống với quy mô khác nhau.
Cụ thể trong luận văn này, tác giả đề xuất xây dựng mô hình giải pháp
khai phá dữ liệu logfile của Firewall trong mạng IPTV nhằm phát hiện tấn công
từ chối dịch vụ (DoS).
Nội dung của luận văn chia thành các chương như sau:
10
Chương 1: Luận văn giới thiệu sơ bộ về hệ thống mạng IPTV và một số
loại logfile thường gặp trong mạng IPTV. Kiến trúc tổng quan và các dịch vụ
điển hình hệ thống mạng IPTV được trình bày. Cấu trúc dữ liệu của các logfile
hệ thống (Logfile Firewall, Router Syslog, STB log) cũng như logfile ứng dụng
đã được mô tả. Một số nội dung sơ bộ về tấn công từ chối dịch vụ cũng được
giới thiệu.
Chương 2: Luận văn giới thiệu tổng quan về khai phá dữ liệu và các
phương pháp khai phá dữ liệu logfile điển hình. Nội dung chính của chương này
là giới thiệu về một số bài toán khai phá dữ liệu logfile.
Chương 3: Dựa trên hướng tiếp cận của Kimmo Hätönen [10], luận văn
đề xuất một mô hình giải pháp khai phá dữ liệu logfile của Firewall trong hệ
thống mạng IPTV nhằm phát hiện tấn công từ chối dịch vụ. Các bước thực hiện
quá trình mô hình (Xác định dữ liệu liên quan, Thu thập và tiền xử lý dữ liệu,
Thi hành khai phá dữ liệu, Xác định mẫu thu thập được, Đánh giá mẫu kết quả)
được trình bày.
Chương 4: Luận văn trình bầy thực nghiệm thực tế dựa trên mô hình đề
xuất. Luận văn đề nghị một tiêu chí kết luận đang diễn ra một cuộc tấn công từ
chỗi dịch vụ và thực nghiệm phát hiện phát hiện sự xuất hiện của tấn công theo
tiêu chí được đề xuất. Phần mềm thực nghiệm dựa trên DoSAlert đã hoạt động
cho kết quả phù hợp.
Phần kết luận: Tóm lược kết quả đạt được của luận văn và định hướng
phát triển trong tương lai.
11
CHƯƠNG 1: SƠ BỘ VỀ LOGFILE MẠNG IPTV
1.1. GIỚI THIỆU VỀ MẠNG IPTV
1.1.1. IPTV là gì
Cuối thập kỷ trước, cùng sự phát triển của các dịch vụ truyền hình vệ tinh,
sự tăng trưởng của dịch vụ truyền hình cáp số, và đặc biệt là sự ra đời của
HDTV (High Definition Television) đã để lại dấu ấn đối với lĩnh vực truyền
hình. Tuy nhiên, hiện nay trên thế giới đã xuất hiện một phương thức cung cấp
dịch vụ mới mạnh hơn, đó là IPTV (Internet Protocol Television). IPTV ra đời
dựa trên sự hậu thuẫn của ngành viễn thông, đặc biệt là mạng băng rộng; IPTV
dễ dàng cung cấp nhiều hoạt động tương tác hơn, tạo nên sự cạnh tranh mạnh
mẽ hơn cho các doanh nghiệp kinh doanh dịch vụ truyền hình.
Sự phát triển nhanh chóng của mạng Internet băng rộng làm thay đổi cả
về nội dung và kĩ thuật truyền hình. IPTV là một hệ thống cung cấp các dịch vụ
truyền hình số tới các thuê bao sử dụng giao thức IP trên kết nối băng rộng.
IPTV thường được cung cấp cùng với dịch vụ VoD và cũng có thể cung cấp
cùng với các dịch vụ Internet khác như truy cập Web và VoIP, do đó còn được
gọi là “Triple Play” và được cung cấp bởi nhà khai thác dịch vụ băng rộng sử
dụng chung một hạ tầng mạng. Hiện nay IPTV đang là cấp độ cao nhất và là
công nghệ truyền hình của tương lai. Sự vượt trội trong kĩ thuật truyền hình của
IPTV là tính năng tương tác giữa hệ thống với người xem, cho phép người xem
chủ động về thời gian và khả năng triển khai nhiều dịch vụ giá trị gia tăng tiện
ích khác trên hệ thống nhằm đáp ứng nhu cầu của người sử dụng. Đây cũng là
xu hướng hội tụ của mạng viễn thông thế giới.
Trên thế giới đã có một số quốc gia triển khai thành công IPTV. Tại Việt
Nam một số nhà cung cấp IPTV như VNPT, FPT, VTC,…
Hệ thống IPTV truyền tải các kênh truyền hình quảng bá và nội dung
video, audio theo yêu cầu chất lượng cao qua một mạng băng thông rộng. Theo
tổ chức Liên Hiệp Viễn Thông Quốc Tế ITU thì: IPTV là dịch vụ đa phương tiện
bao gồm truyền hình, video, audio, văn bản, đồ họa và dữ liệu truyền trên một
mạng IP và được quản lý để đáp ứng yêu cầu về chất lượng dịch vụ (Quality of
Serice – QoS), sự trải nghiệm (Quality of Experience – QoE), tính bảo mật, tính
tương tác và độ tin cậy [13].
1.1.2. Kiến trúc tổng quan mạng IPTV
Hệ thống IPTV bao gồm 04 thành phần quan trọng, đó là: nội dung
(Content), nền tảng (Platform), hệ thống mạng (Network), và thiết bị đầu cuối
(Terminal). Trong mô hình kinh doanh, 04 thành phần trên tương ứng với 04 vai
trò sau: nhà cung cấp nội dung (Content Provider), nhà cung cấp dịch vụ
12
(Service Provider), nhà cung cấp hệ thống mạng (Network Provider), khách
hàng (Customer) [14].
Kiến trúc tổng quan mạng IPTV như sau [14]:
Hình 1.1: Mô hình tổng quan hệ thống IPTV
Thành phần nội dung (Content) [14]: bao gồm âm thanh, hình ảnh, dữ
liệu, dữ liệu văn bản, và các ứng dụng. Những nội dung này được phân phối
thông qua các kênh khác nhau như vệ tinh, truyền hình mặt đất, cơ sở dữ liệu
của nhà cung cấp nội dung, v.v…
Thành phần nền tảng (Platform) [14]: bao gồm việc nhận dữ liệu nội
dung, xử lý, truyền tải, bảo mật và quản lý tùy theo quy định của nhà cung cấp
dịch vụ. Thành phần này bao gồm các hệ thống chính sau:
- Hệ thống nhận nội dung: nhận các tín hiệu nguồn từ nhà cung cấp
nội dung, nhà cung cấp chương trình, thông qua truyền hình mặt
đất, vệ tinh, cáp, mạng IP, v.v… Đồng thời, hệ thống này kiểm soát
việc phân phối tín hiệu thông qua các bộ chuyển mạch và giám sát
việc phát nội dung thông qua phòng điểu khiển chính.
- Hệ thống xử lý và truyền tải: hệ thống này thực hiện việc nén các
tín hiệu nhận được theo một định dạng nhất định (ví dụ: H.264,
MPEG2, VC1), sau đó đóng gói thành theo định dạng IP và chuyển
sang hệ thống mạng.
- Hệ thống xử lý giá trị gia tăng: sử dụng các middleware và các nền
tảng ứng dụng để cung cấp các dịch vụ dữ liệu bổ sung như thông
tin, thương mại, truyền thông, giải trí, giáo dục.
- Hệ thống bảo mật: bao gồm các hệ thống quản lý bản quyền số, các
hệ thống mã hóa và giải mã nội dung, hệ thống kiểm soát truy nhập
nhằm ngăn chặn việc khai thác nội dung bất hợp pháp. Trong đó, hệ
thống quản lý bản quyền số (DRM) giúp nhà khai thác bảo vệ nội
13
dung của mình, như trộn các tín hiệu truyền hình hay mã hóa nội
dung VoD, khi truyền đi trên mạng Internet và tích hợp với tính
năng an ninh tại STB ở phía thuê bao. Hệ thống DRM dựa trên các
khái niệm của hệ thống cơ sở hạ tầng khoá công khai (Public Key
Infrastructure – PKI. Ngoài ra, hệ thống bảo mật cũng bao gồm các
thiết bị chuyên dụng khác như: tường lửa (firewall), thiết bị phát
hiện và ngăn chặn xâm nhập (ips), thiết bị quản lý log tập trung,
v.v…
- Hệ thống quản lý: thực hiện phối hợp và kiểm soát các hoạt động
nội bộ giữa các hệ thống phụ và trong toàn bộ hệ thống. Ngoài ra,
hệ thống này còn quản lý và lên lịch cho cách chương trình, nội
dung và các thiết bị, đồng thời quản lý các thông tin về trạng thái
thuê bao và tính cước.
Thành phần hệ thống mạng (Network) [14]: thành phần này bao gồm hạ
tầng mạng IP băng rộng để truyền dịch vụ từ nhà cung cấp dịch vụ IPTV đến
khách hàng. Mạng truy nhập sẽ tận dụng phần hạ tầng mạng xDSL có sẵn. Để
cung cấp dịch vụ với chất lượng tốt và tiêu thụ ít băng thông khi có đồng thời
nhiều truy nhập đến hệ thống, mạng truy nhập băng rộng cần phải được hỗ trợ
multicast.
Thành phần đầu cuối (Terminal) [14]: thành phần này nằm ở phía khách
hàng, bao gồm các thiết bị cho phép thu nhận, giải mã và hiển thị nội dung trên
tivi như Set-Top-Box (STB). STB cần hỗ trợ các chuẩn MPEG-4/H.264. Ngoài
ra, STB cũng có thể hỗ trợ HDTV, có khả năng kết nối với các thiết bị lưu trữ
bên ngoài, video phone, truy nhập web, v.v
1.1.3. Các dịch vụ của mạng IPTV
Cung cấp các dịch vụ quảng bá: Quảng bá ti vi (Broadcast TV); kênh âm
thanh (Audio Channel); truyền hình trực tuyến (Time-Shift TV); VOD băng hẹp
[8].
Cung cấp các dịch vụ theo yêu cầu: Video theo yêu cầu (Video on
Demand - VoD); âm nhạc theo yêu cầu (Music on Demand - MoD); TV theo
yêu cầu (TV on Demand - TVoD) [8].
Cung cấp các dịch vụ tương tác: thông tin tương tác (Interactive
Information); truyền hình tương tác (Interactive TV); công ích, từ thiện, trực
tuyến (Online Subscription); đánh bạc trực tuyến (Online Gambling); phỏng vấn
trực tuyến (Online Bill Enquiry); trò chơi (Game); Web; Email; TV thương mại
(TV-Commerce) [8].
1.2. DỮ LIỆU LOGFILE MẠNG IPTV
Trong một hệ thống mạng lớn như IPTV, các nhà cung cấp dịch vụ
thường thu thập một lượng lớn dữ liệu như log thiết bị, log hệ thống, các thông
14
tin cảnh báo, thông điệp điều khiển được tạo ra trên mạng lưới bởi các ứng dụng
hoặc thiết bị. Những dữ liệu này thường đa dạng và phức tạp bởi có rất nhiều
thiết bị khác nhau tham gia vào hệ thống. Các máy chủ với các hệ điều hành
khác nhau cũng tạo ra một lượng lớn dữ liệu log. Ngoài ra còn có log của những
ứng dụng hoạt động trên hệ thống.
Trong mạng IPTV, thường gặp một số loại logfile hệ thống sau:
- Firewall logs: là các bản ghi log ghi lại trạng thái hoạt động của
Firewall, các kết nối vào ra hệ thống, các hành động mà Firewall đã
thực thi đối với từng kết nối (cho phép hoặc chặn), thông tin về
nguồn kết nối, đích kết nối, v.v…
- Router syslogs [11]: đó là các log được tạo ra bởi các router trong
đó mô tả một loạt các sự kiện được router ghi lại.
- STB logs [11]: là các bản ghi mô tả lại những hoạt động của người
dùng cuối, chẳng hạn tắt, bật STB, yêu cầu nội dung, v.v
- Các log ứng dụng, đặc biệt là log ứng dụng web, cho phép khai thác
các dữ liệu được thu thập khi người dùng truy cập máy chủ web
nhằm thực hiện một số tác vụ như xem và yêu cầu dịch vụ truyền
hình, đăng ký và sử dụng các dịch vụ giá trị gia tăng,v.v… Các log
ứng dụng khác có thể được sử dụng cho những yêu cầu phân tích cụ
thể.
1.2.1. Logfile Firewall
Trong hệ thống IPTV, vấn đề đảm bảo an toàn an ninh trong quá trình
cung cấp dịch vụ luôn được quan tâm. Đây cũng là một trong những yêu cầu
hàng đầu trong quá trình thiết kế, xây dựng của hệ thống IPTV nói riêng và các
hệ thống CNTT nói chung.
Hiện nay có rất nhiều giải pháp an toàn thông tin được áp dụng trong các
hệ thống CNTT. Trong đó, Firewall là giải pháp bảo mật phổ biến nhất, và là
một trong những trang bị tiêu chuẩn cần có đối với một hệ thống IPTV.
Firewall cho phép người quản trị kiểm soát các truy nhập ra vào hệ thống,
ngăn chặn những truy nhập bất hợp pháp. Các Firewall thế hệ mới ngoài chức
năng kiểm soát kết nối cơ bản còn được tích hợp thêm các module bảo mật khác
như: module phát hiện và ngăn chặn xâm nhập, module thiết lập kết nối mạng
riêng ảo, module dò quét virus,…
Trong quá trình vận hành, việc phân tích dữ liệu log của Firewall đóng vai
trò quan trọng trong việc đánh giá hiệu quả hoạt động, điều tra truy vết khi xảy
ra sự cố trên hệ thống, thống kê đánh giá lưu lượng kết nối và hiệu năng của hệ
thống, v.v Đặc biệt, do lưu lại những thông tin liên quan đến các kết nối từ bên
ngoài vào hệ thống nên dữ liệu log của Firewall rất hữu ích trong việc phát hiện
và cảnh báo các cuộc tấn công từ chối dịch vụ.
15
Log của các loại Firewall khác nhau sẽ có cấu trúc khác nhau, được lưu
dưới những định dạng khác nhau. Hai định dạng phổ biến của log Firewall là cơ
sở dữ liệu và logfile. Luận văn này sẽ tập trung vào việc phân tích dữ liệu log
được lưu trữ dưới dạng file nhằm mục đích phát hiện ra các cuộc tấn công Từ
chối dịch vụ.
Ví dụ về cấu trúc logfile của Firewall ISA Server 2006:
Hình 1.2: Dữ liệu logfile của Firewall ISA Server 2006
1.2.2. Router syslog
Router syslog ghi lại những thông tin được quan sát bởi router, chẳng hạn
các liên kết (link), thay đổi trạng thái giao thức liên quan, đưa ra cảnh báo về
môi trường (ví dụ điện áp, nhiệt độ), các cảnh báo khác như vi phạm về quy tắc
định tuyến,v.v…
Mặc dù các thông điệp syslog chủ yếu để giám sát và gỡ các lỗi phần
cứng và phần mềm router, nhưng chúng có thể rất có giá trị để những người vận
hành mạng quản lý các dịch vụ và xử lý các sự cố mạng. Chính vì vậy mà syslog
thường được thu thập trên tất cả các router trong mạng, đặc biệt là mạng ISP.
Một giao thức syslog (syslog protocol) được chuẩn hóa và hỗ trợ rộng rãi bởi
các nhà cung cấp router nhằm chuyển các thông điệp syslog từ router tới các bộ
thu thập syslog.
Dưới đây là ví dụ về syslog [11]:
16
Hình 1.3: Syslog
Có thể nhận thấy một cấu trúc tối thiểu trong các thông điệp syslog:
1. Nhãn thời gian cho biết thời điểm thông điệp được tạo ra.
2. Tham số xác định router tạo ra thông điệp (gọi là router nguồn).
3. Loại thông điệp, còn được gọi là mã lỗi (error code), chỉ ra bản chất
của vấn đề.
4. Thông tin chi tiết được tạo ra bởi hệ điều hành của router.
Thông tin chi tiết thường khá đặc biệt. Chúng là các đoạn văn bản được
tạo ra bởi hệ điều hành router bao gồm các thông tin như vị trí, tình trạng, hoặc
các thông điệp cảnh báo đã được thiết lập sẵn. Trong thông điệp syslog có thể
định nghĩa nhiều kiểu phụ. Kiểu phụ là một đoạn thông điệp được sử dụng lặp
lại nhiều lần với một số thay đổi về giá trị các chuỗi con trong đoạn thông điệp
đó. Chẳng hạn, “Line protocol on Interface , changed state to ” có thể được
xem là một kiểu phụ. Việc kết hợp giữa syslog và các kiểu phụ có thể được dùng
để tạo ra các mẫu xác định các lớp điều kiện mạng mà thông điệp syslog mô tả.
Ta gọi đây là phân lớp log.
1.2.3. STB logs
Trong mạng IPTV, set-top-box (STB) là một máy tính nhỏ cung cấp liên
lạc hai chiều trên nền IP và chịu trách nhiệm giải mã các tín hiệu video. STB
được tích hợp các giao tiếp mạng để tạo ra các kết nối tốc độ cao. Phần mềm
chạy trên STB ghi lại các sự kiện như là tắt/bật STB, chuyển kênh, ngắt hệ
thống,v.v…
Các hãng cung cấp STB có định dạng log khác nhau. Dưới đây là một ví
dụ về định dạng STB log [6]:
Vender:XX;stbmodel:STB-
1;STBID:1233;IP:202.18.0.1;Username:;hardw
areversion:001.001.001;softwareversion:001.001.001;Firmw
are::001.001.001;Version:001.001.001 (new line)
YYYYMMDDHHMMSS: event description (new line)
YYYYMMDDHHMMSS: event description (new line)
Bảng dưới mô tả cấu trúc sự kiện (event) trong STB [6]:
Field name
Field data type
Field data sub type
Event type
State change
Startup
Shutdown
17
Peripheral change
Enter standby state
Exit standby state
Fault
Software error
Hardware error
Network error
Service
observation
Refer to 4.4
Configuration
change
Local configuration
change
Remote configuration
change
Other
Fault level
Enumeration: DEBUG; INFO; WARN;
ERROR; FATAL
Error
Refer to Appendix B
Bảng 1.1: Cấu trúc STB log.
1.2.4. Log ứng dụng
Các ứng dụng khác nhau có thể đưa ra những log có định dạng khác nhau.
Một số ứng dụng có thể sử dụng các định dạng chuẩn như syslog, tuy nhiên một
số ứng dụng khác lại sử dụng các định dạng riêng biệt. Các định dạng log ứng
dụng có thể khác nhau về kiểu lưu trữ (ví dụ: mã hóa hoặc không), số trường và
ý nghĩa các trường, mỗi bản ghi là một dòng hoặc gồm nhiều dòng,v.v…
Dưới đây là các trường dữ liệu có trong log được tạo ra bởi web server IIS
(internet information server) [8]:
Field Name
Field Description
date
Date of the conclusion of the WS request (UTC
time)
time
Time of the conclusion of the WS request
(UTC time)
18
s-sitename
Name of the website (usually W3SVC1,
meaning “website 1”)
s-computername
Name of the server that answered to the request
s-ip
IP of the server(s) to which the request was
sent (usually the Service Group IP)
cs-method
Operation requested (usually “POST” or
“GET”)
cs-uri-stem
URI stem (usually the filename on the server)
cs-uri-query
URI query (the query requested)
s-port
Port of the server (usually “80”)
cs-username
Name of the client (usually ““)
c-ip
IP of the client
cs-version
Client’s web service version (usually
“HTTP/1.1”)
cs(User-Agent)
Client’s software version and globally unique
identifier (GUID)
cs(Cookie)
Cookie used (usually ““)
cs(Referer)
Client’s web service referrer (usually ““)
cs-host
Address of the server that hosted the requested
web service (usually the Service Group
address)
sc-status
HTTP Status Code
sc-substatus
Associated Sub Status Code
sc-win32-status
Associated Win32 Status Code
sc-bytes
Bytes sent from the server to the client
cs-bytes
Bytes sent from the client to the server
tim-taken
Time taken to service the request
Bảng 1.2: Cấu trúc logfile của IIS
19
1.3. TẤN CÔNG TỪ CHỐI DỊCH VỤ
1.3.1. Giới thiệu về tấn công từ chối dịch vụ
Tấn công từ chối dịch vụ (Denial of Service – DoS) là một hình thức phá
hoại dựa trên những hành động ngăn chặn người dùng tiếp cận một tài nguyên
nào đó trên mạng [9]. Theo đó, tin tặc sẽ lợi dụng điểm yếu hoặc lỗi an toàn
thông tin của một hệ thống mạng cung cấp dịch vụ để làm ngưng trệ hoặc ngăn
cản người dùng truy nhập dịch vụ đó, buộc nhà cung cấp phải tạm ngừng dịch
vụ và tìm cách khôi phục hệ thống.
Những cuộc tấn công từ chối dịch vụ đã được biết đến từ đầu những năm
1980 [9]. Ngày nay, các cuộc tấn công từ chối dịch vụ thường được thực hiện
phân tán (Distributed DoS – DDoS): có nghĩa là tin tặc chiếm quyền kiểm soát
một lượng lớn máy tính và ra lệnh cho chúng liên tục tạo các yêu cầu kết nối tới
hệ thống là đích tấn công. Kết quả là hệ thống này bị quá tải và khiến cho những
người dùng hợp lệ không thể truy cập được. Nạn nhân điển hình của tấn công từ
chối dịch vụ là các hệ thống máy chủ website thương mại điện tử, website tin
tức, mạng doanh nghiệp, ngân hàng và các website chính phủ [9].
Việc ngừng hoạt động của hệ thống dịch vụ thường gây thiệt hại khó có
thể tính chính xác: đó là tổng của thiệt hại trực tiếp về tiền bạc, uy tín cho nhà
cung cấp dịch vụ, và thiệt hại gián tiếp của khách hàng sử dụng dịch vụ. Đôi khi,
dù chỉ làm chậm và giảm khả năng phục vụ của hệ thống, thì loại tấn công này
cũng dẫn tới những thiệt hại đáng kể.
1.3.2. Các loại tấn công từ chối dịch vụ
Tấn công từ chối dịch vụ có ba loại cơ bản sau đây [5]:
1. Tiêu hao tài nguyên:
Máy tính và hệ thống mạng cần được đảm bảo một số yếu tố nhất định
để có thể vận hành, chẳng hạn: băng thông mạng, bộ nhớ và không
gian ổ đĩa, chip xử lý, cấu trúc dữ liệu, khả năng truy cập tới các máy
tính và hệ thống mạng khác, và một số tài nguyên môi trường như
nguồn điện, điều hòa nhiệt độ… Trong đó, những loại tài nguyên sau
thường bị khai thác trong các cuộc tấn công từ chối dịch vụ [5]:
- Kết nối mạng.
- Sử dụng chính tài nguyên
- Tiêu hao băng thông.
- Tiêu hao tài nguyên hệ thống như bộ nhớ, vi xử lý, không
gian ổ đĩa,…
2. Phá hủy hoặc thay đổi thông tin cấu hình: một tin tặc có thể lợi
dụng lỗ hổng trên hệ thống để thay đổi hoặc phá hủy các thông tin
cấu hình (chẳng hạn: thay đổi bảng định tuyến trên router, chỉnh
sửa registry trên hệ điều hành), điều này có thể khiến cho hệ thống
vận hành không đúng chức năng hoặc không thể vận hành được.
20
3. Phá hủy mức vật lý hoặc thay đổi thành phần hệ thống mạng: kiểu
tấn công này liên quan đến những lỗ hổng trong việc bảo vệ hệ
thống mức vật lý. Tin tặc có thể lợi dụng vấn đề này để tương tác
trực tiếp vào hệ thống và thực hiện các hành động phá hoại.
Hiện nay, trên thực tế, tấn công từ chối dịch vụ thường xuất hiện phổ biến
ở loại thứ nhất, tức là làm tiêu hao tài nguyên hệ thống. Có hai loại kỹ thuật
chính để thực hiện loại tấn công này, đó là:
Loại thứ nhất: tin tặc gửi rất nhiều yêu cầu dịch vụ, bắt chước như người
dùng thực sự yêu cầu đối với hệ thống. Khi nhận được quá nhiều yêu cầu dịch
vụ giả của tin tặc, hệ thống sẽ sử dụng toàn bộ tài nguyên của mình để đáp ứng
các yêu cầu đó và không còn tài nguyên để phục vụ các yêu cầu thực sự của
người dùng, và người dùng không thể truy nhập được vào hệ thống. Hình thức
phổ biến của kiểu tấn công gây quá tải này là tấn công từ chối dịch vụ phân tán
(Distributed DoS – DDoS), tạo ra yêu cầu dịch vụ giả từ nhiều địa chỉ, khiến cho
nhà quản trị hệ thống không phân biệt được đó có phải là một cuộc tấn công từ
chối dịch vụ hay không.
Loại thứ hai: tin tặc lợi dụng kẽ hở an toàn thông tin của hệ thống để gửi
các yêu cầu hoặc các gói tin không hợp lệ (không đúng theo tiêu chuẩn) một
cách cố ý, khiến cho hệ thống bị tấn công khi nhận được yêu cầu hay gói tin này
sẽ xử lý không đúng hoặc không theo trình tự đã được thiết kế, dẫn đến sự sụp
đổ của chính hệ thống đó. Ví dụ điển hình của kiểu tấn công này là “SYN
Flooding”, gây cho hệ thống dịch vụ mất khả năng tiếp nhận kết nối TCP.
Biến thể của tấn công từ chối dịch vụ là dạng tấn công từ chối dịch vụ
phân tán (DDoS). Hình thức tấn công này hiện rất phổ biến và được các tin tặc
sử dụng nhiều bởi khả năng phá hoại lớn. Bản chất của tấn công từ chối dịch vụ
phân tán là bao gồm nhiều cuộc tấn công từ chối dịch vụ đơn lẻ xuất phát từ một
số lượng cực lớn các máy tính khác nhau. Do đó, việc phát hiện các cuộc tấn
công từ chối dịch vụ đơn lẻ cũng sẽ giúp phát hiện được những cuộc tán công từ
chối dịch vụ phân tán.
Luận văn này tập trung vào việc phân tích logfile của Firewall để phát
hiện ra các cuộc tấn công từ chối dịch vụ được thực hiện theo kỹ thuật thứ nhất,
tức là tin tặc sử dụng một lượng lớn các yêu cầu dịch vụ giả để làm tiêu hao tài
nguyên hệ thống.
21
CHƯƠNG 2: PHƯƠNG PHÁP KHAI PHÁ DỮ
LIỆU LOGFILE
2.1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
2.1.1. Phát hiện tri thức
Khai phá dữ liệu (KPDL: Data Mining) là một lĩnh vực nghiên cứu nhằm
tự động khai thác thông tin, tri thức mới hữu ích, tiềm ẩn từ những cơ sở dữ liệu
(CSDL) lớn tại các đơn vị, tổ chức, doanh nghiệp,…. từ đó làm thúc đẩy khả
năng sản xuất, kinh doanh, cạnh tranh cho các đơn vị, tổ chức này. Các kết quả
nghiên cứu khoa học cùng những ứng dụng thành công trong phát hiện tri thức
từ cơ sở dữ liệu (Knowledge Discovery in Databases: KDD) cho thấy KPDL là
một lĩnh vực phát triển bền vững, mang lại nhiều lợi ích và có nhiều triển vọng,
đồng thời có ưu thế hơn hẳn so với các công cụ tìm kiếm phân tích dữ liệu
truyền thống. Hiện nay, KPDL đã ứng dụng ngày càng rộng rãi trong các lĩnh
vực như thương mại, tài chính, y học, viễn thông,….
Các kỹ thuật chính được áp dụng trong lĩnh vực KPDL phần lớn được
thừa kế từ lĩnh vực CSDL, học máy, trí tuệ nhân tạo, lý thuyết thông tin, xác
suất thống kê và tính toán hiệu năng cao, [7].
Như vậy, một cách khái quát, KPDL là một quá trình tìm kiếm, phát hiện
các tri thức mới, hữu ích, tiềm ẩn trong CSDL lớn. KDD là mục tiêu chính của
KPDL, do vậy hai khái niệm KPDL và KDD được các nhà khoa học trên hai
lĩnh vực xem là tương đương với nhau. Thế nhưng nếu phân chia một cách chi
tiết thì KPDL là một bước chính trong quá trình KDD.
Quá trình phát hiện tri thức (KDD) có thể chia thành 5 bước như sau [1]:
Hình 2.1: Quá trình phát hiện tri thức
22
- Chọn lựa dữ liệu: Đây là bước trích chọn những tập dữ liệu cần
được khai phá (liên quan tới bài toán phát hiện tri thức) từ các tập
dữ liệu lớn ban đầu.
- Tiền xử lý dữ liệu: Đây là bước làm sạch dữ liệu (xử lý những dữ
liệu không đầy đủ, nhiễu, không nhất quán, ), rút gọn dữ liệu (sử
dụng hàm nhóm và tính tổng, các phương pháp nén dữ liệu, sử
dụng histograms, lấy mẫu, ), rời rạc hóa dữ liệu (rời rạc hóa dựa
vào histograms, dựa vào entropy, dựa vào phân khoảng, ). Sau
bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn và được rời
rạc hóa.
- Biến đổi dữ liệu: Đây là bước chuẩn hóa và làm mịn dữ liệu để đưa
dữ liệu về dạng thuận lợi nhất nhằm phục vụ quá trình khai phá ở
bước sau.
- Khai phá dữ liệu: Đây là bước áp dụng những kỹ thuật phân tích
(như các kỹ thuật của học máy) nhằm để khai thác dữ liệu, trích
chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong
dữ liệu. Đây được xem là bước quan trọng và tốn nhiều thời gian
nhất của toàn quá trình KDD.
- Đánh giá và trình diễn tri thức: Những mẫu thông tin và mối liên hệ
trong dữ liệu đã được khám phá ở bước trên được biến đổi và trình
diễn ở một dạng gần gũi với người sử dụng như đồ thị, cây, bảng
biểu, luật, Đồng thời bước này cũng đánh giá những tri thức khám
phá được theo những tiêu chí nhất định.
2.1.2. Khai phá dữ liệu
Khai phá dữ liệu là một giai đoạn quan trọng trong quá trình phát hiện tri
thức. Về bản chất là giai đoạn duy nhất trong các giai đoạn nói trên tìm ra được
thông tin mới, tiềm ẩn, ữu ích có trong cơ sở dữ liệu phục vụ cho mô tả và dự
đoán.
Mô tả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của những
thuộc tính dữ liệu trong tập dữ liệu mà con người có thể hiểu được.
Dự đoán là dựa trên những dữ liệu hiện thời để dự đoán những quy luật
được phát hiện từ các mối liên hệ giữa các thuộc tính của dữ liệu trên cơ sở đó
chiết xuất ra các mẫu, dự đoán được những giá trị chưa biết hoặc những giá trị
tương lai của các biến quan tâm.
Quá trình khai phá dữ liệu gồm các bước chính sau đây [3]:
23
Hình 2.2: Quá trình khai phá dữ liệu
Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết.
- Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp.
- Thu thập và tiền xử lý dữliệu: Thu thập các dữ liệu liên quan và
tiền xử lý chúng sao cho thuật toán khai phá dữ liệu có thể hiểu
được. Đây là một quá trình rất khó khăn, có thể gặp phải rất nhiều
các vướng mắc như: dữ liệu phải được sao ra nhiều bản (nếu được
chiết xuất vào các tệp), quản lý tập các dữ liệu, phải lặp đi lặp lại
nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi), v.v
- Thuật toán khai phá dữ liệu: Lựa chọn thuật toán khai phá dữ liệu
và thực hiện việc khai phá dữ liệu để tìm được các mẫu có ý nghĩa.
2.1.3. Ứng dụng của khai phá dữ liệu
KPDL là một lĩnh vực được quan tâm và ứng dụng rộng rãi. Một số ứng
dụng điển hình trong KPDL có thể liệt kê như sau [1]:
- Ứng dụng trong khoa học như thiên văn học, tin sinh học, y học
(sáng chế các dược phẩm)
- Ứng dụng trong thương mại như quản lý quan hệ khách hàng
(Customer Relationship Management: CRM), phát hiện gian lận,
thương mại điện tử, sản xuất, thể thao/giải trí, dịch vụ viễn thông,
tiếp thị định hướng, bảo hiểm y tế
- Ứng dụng trong World Wide Web như máy tìm kiếm, quảng cáo
trực tuyến, khai phá web và khai phá mạng phương tiện xã hội
- Ứng dụng trong hoạt động chính quyền như phát hiện tội phạm,
phát hiện lừa đảo thuế thu nhập cá nhân
- v.v
Hiện nay các hệ quản trị CSDL đã tích hợp những modul để KPDL như
SQL Server, Oracle, đến năm 2007 Microsoft đã cung cấp sẵn công cụ KPDL
tích hợp trong cả MS-Word, MS-Excel.
24
2.2. SƠ BỘ VỀ KHAI PHÁ DỮ LIỆU LOGFILE IPTV
Theo Kimmo Hätönen [10], việc quản lý mạng IPTV nói riêng và các
mạng viễn thông nói chung yêu cầu phải có khả năng đưa ra quyết định nhanh
(rapid decision-making). Khả năng này được cung cấp bởi các phương pháp
khai phá dữ liệu. Việc ra quyết định dựa trên kết quả truy xuất thông tin từ một
lượng lớn dữ liệu được thu thập liên tục từ các hệ thống mạng. Các dữ liệu này
được tạo ra bởi các thành phần trong hệ thống (thiết bị mạng, thiết bị máy chủ,
STB, các ứng dụng,…). Các thiết bị bảo mật như Firewall, IPS/IDS, Web
Firewall,… cũng là một thành phần không thể thiếu trong hệ thống IPTV.
Chúng cũng tham gia vào quá trình vận hành hệ thống mạng. Các thiết bị bảo
mật này ghi lại những thông tin về các kết nối ra vào, kiểm tra thông tin truyền
tải để phát hiện mã độc hay những hành động gây hại,… Việc theo dõi và phân
tích log của những thiết bị này giúp cho người quản trị kiểm soát vận hành hệ
thống tốt hơn, đảm bảo sự an toàn bảo mật của hệ thống trong quá trình cung
cấp dịch vụ. Tất cả những thành phần của hệ thống sẽ tạo ra các mục log, đưa ra
cảnh báo về các sự kiện, trạng thái hệ thống và một loạt các thông số về hoạt
động của hệ thống. Dữ liệu log sau đó được thu thập và gửi về trung tâm vận
hành, tại đây chúng được giám sát và phân tích để phát hiện ra bất kỳ vấn đề nào
xảy ra trong quá trình vận hành hoặc nhằm tối ưu hiệu suất và chất lượng dịch
vụ. Một hệ thống mạng trung bình có thể tạo ra hàng ngàn cảnh báo và hàng
chục gigabyte dữ liệu log mỗi ngày. Dữ liệu này chứa thông tin về hiệu suất và
hoạt động của tất cả các thành phần mạng và dịch vụ được cung cấp.
Khối lượng dữ liệu thu thập đặt ra những thách thức đối với các phương
pháp phân tích và những công cụ hỗ trợ các chức năng quản lý mạng [10]. Ví
dụ, làm thế nào để nhận ra và xác định ngay lập tức các vấn đề làm gián đoạn
lưu thông dữ liệu, làm thế nào để tìm ra các vùng mạng và các thành phần cần
phải tối ưu, làm thế nào để phát hiện ngay khi diễn ra các cuộc tấn công mạng
làm ảnh hưởng đến hoạt động của hệ thống? Đây là những vấn đề gặp phải
thường xuyên trong quá trình quản lý và vận hành mạng IPTV nói riêng và các
mạng viễn thông nói chung. Trong bối cảnh như vậy, các hệ thống viễn thông
chính là một trong những đối tượng đầu tiên được áp dụng các phương pháp
khai phá dữ liệu vào việc hỗ trợ ra quyết định trong quá trình quản trị hệ thống.
Một trong những thách thức lớn nhất đối với các kỹ thuật khai phá dữ liệu
và phát hiện tri thức là làm sao để hỗ trợ cho các quá trình liên tục, chẳng hạn
bảo trì mạng, giám sát mạng, trong đó các nhiệm vụ tương tự được lặp đi lặp lại
hàng ngày. Trong những nhiệm vụ này, các tập dữ liệu được phân tích hàng
ngày là rất lớn và có khung thời gian chặt chẽ. Các kỹ thuật khai phá dữ liệu
hiện nay đã được cải tiến rất nhiều và thực sự có hiệu quả trong việc phân tích
nhanh dữ liệu với khối lượng lớn; đồng thời hỗ trợ đắc lực cho người quản trị
trong việc ra quyết định.
IPTV là một hệ thống cung cấp dịch vụ có độ phức tạp cao. Việc đảm bảo
chất lượng và tính liên tục của dịch vụ là mục tiêu hàng đầu của bất kỳ hệ thống
IPTV nào. Biện pháp để đạt được các mục tiêu này là thường xuyên phân tích