Tải bản đầy đủ (.pdf) (46 trang)

Phát triển kỹ thuật phát hiện tấn công deface

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1018.59 KB, 46 trang )

Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------

NGUYỄN TRỌNG ĐỨC

PHÁT TRIỂN KỸ THUẬT PHÁT HIỆN TẤN CÔNG
DEFACE
Chuyên ngành
Mã số

: KHOA HỌC MÁY TÍNH
: 8480101

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 7 năm 2023


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG–HCM

Cán bộ hướng dẫn khoa học 1: TS. Phan Trọng Nhân


Cán bộ hướng dẫn khoa học 2: TS. Trương Tuấn Anh
Cán bộ chấm nhận xét 1

: PGS. TS. Nguyễn Tuấn Đăng

Cán bộ chấm nhận xét 2

: TS. Nguyễn Quang Hùng

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.HCM
ngày 10 tháng 7 năm 2023
Thành phần hội đồng đánh giá luận văn thạc sĩ gồm:
1. Chủ tịch: PGS. TS. Trần Minh Quang
2. Thư ký: TS. Nguyễn Thị Ái Thảo
3. Phản biện 1: PGS. TS. Nguyễn Tuấn Đăng
4. Phản biện 2: TS. Nguyễn Quang Hùng
5. Uỷ Viên: TS. Đặng Trần Trí
Xác nhận của chủ tịch hội đồng đánh giá LV và Trưởng khoa quản lý chuyên ngành
sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA KHOA HỌC VÀ
KỸ THUẬT MÁY TÍNH


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

ĐẠI HỌC QUỐC GIA TP.HCM

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN TRỌNG ĐỨC…………………..MSHV: 207097
Ngày, tháng, năm sinh: 20/12/1998………………….………Nơi sinh: Bình Dương
Chuyên ngành: Khoa học máy tính………………….…………Mã số : 8480101
I. TÊN ĐỀ TÀI: PHÁT TRIỂN KỸ THUẬT PHÁT HIỆN TẤN CÔNG
DEFACE (DEVELOPING A TECHNIQUE TO DETECT DEFACE
ATTACKS)
II. NHIỆM VỤ VÀ NỘI DUNG:
 Một giải pháp phát hiện một cuộc tấn công deface trong thời gian
thực.
 Phải phân biệt được hành vi nào là hành vi tấn cơng, hành vi nào là
bình thường, thơng báo cho người quản trị hoặc tự động khôi phục
lại trang web như ban đầu.
 Đảm bảo thiệt hại tới trang web nằm ở mức tối thiểu.
III. NGÀY GIAO NHIỆM VỤ : 20/12/2022
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 04/06/2023
V. CÁN BỘ HƯỚNG DẪN: TS. PHAN TRỌNG NHÂN, TS. TRƯƠNG
TUẤN ANH
Tp. HCM, ngày
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

TS. Phan Trọng Nhân

tháng 7 năm 2023


HỘI ĐỒNG NGÀNH
(Họ tên và chữ ký)

TS. Trương Tuấn Anh

TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

LỜI CẢM ƠN
Lời nói đầu, tôi xin được gửi lời cảm ơn chân thành và sâu sắc đến thầy giảng viên
hướng dẫn TS. Trương Tuấn Anh và TS. Phan Trọng Nhân đã hỗ trợ và có những
đóng góp hết sức quý báu để giúp tơi hồn thành đề cương luận văn thạc sĩ này một
cách tốt nhất. Trong suốt quá trình nghiên cứu đề tài, hai thầy luôn là người định
hướng và đề xuất những kiến thức mới về mặt khoa học cho đề tài.
Bên cạnh đó, tơi cũng muốn thay mặt cho tồn thể sinh viên gửi lời biết ơn đến với
quý thầy cơ của trường Đại học Bách Khoa TPHCM nói chung và của Khoa Khoa
học và Kỹ thuật Máy Tính nói riêng vì đã tận tình chỉ bảo và truyền tải kiến thức thức
vô giá cho sinh viên trong khoảng thời gian học tập tại trường cũng như trong con
đường sự nghiệp sau này.
Xin chân thành cảm ơn.Trân trọng
Tp. Hồ Chí Minh, ngày tháng 7 năm 2023

Tác giả

i



Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

TÓM TẮT LUẬN VĂN
Đây là đề án nghiên cứu về chủ đề tấn công deface đối với web và các phương án,
kỹ thuật được xây dựng để tìm ra cách phát hiện một cuộc tấn cơng deface ngay khi
có dấu hiệu, và tìm ra giải pháp phục hồi trang web lại nguyên trạng trước khi bị tấn
công. Kỹ thuật này sắp xếp, phân loại các thành phần càu HTML thành hai dạng
chính, sau đó xử lí các thành phần này theo một quy tắc đặt sẵn. Các phương pháp
xử lí bao gồm phát hiện thay đổi trên pixel, dùng thuật tốn mã hóa hash để đảm
bảo tính tồn vẹn, phân tích các DOM (Document Object Model). Kỹ thuật sau đó
sẽ gửi thơng báo cho người quản trị và có hành động tương ứng để xử lí cuộc tấn
cơng, phục hồi website lại trạng thái an toàn.

ii


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

ABSTRACT
This is a research project on the topic of deface attacks against websites and the
plans and techniques developed to detect signs of a deface attack and find solutions
to restore the website to its original state before the attack. This technique organizes
and classifies HTML components into two main forms, and then processes these
components according to a predefined rule. The processing methods include

detecting changes in pixels, using hash encryption algorithms to ensure integrity,
and analyzing the Document Object Model (DOM). The technique then sends
notifications to the administrator and takes corresponding actions to handle the
attack and restore the website to a secure state.

iii


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

Lời cam đoan
Tôi xin cam đoan đây là cơng trình nghiên cứu của bản thân.
Các số liệu, kết quả trình bày trong luận văn là trung thực và chưa từng được ai
công bố trong bất kỳ cơng trình nào trước đây.

Học viên

NGUYỄN TRỌNG ĐỨC

iv


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

MỤC LỤC
Lời cam đoan....................................................................................................iv

1.

2.

GIỚI THIỆU ĐỀ TÀI .................................................................................. 1
1.1

Tổng quan .............................................................................................. 1

1.2

Nhiệm vụ luận văn ................................................................................ 2

MỤC TIÊU, GIỚI HẠN, ĐỐI TƯỢNG VÀ PHƯƠNGPHÁP NGHIÊN
CỨU TRONG ĐỀ TÀI .................................................................................3
2.1

Mục tiêu nghiên cứu ..............................................................................3

2.2

Giới hạn nghiên cứu ..............................................................................3

2.3

Đối tượng nghiên cứu ............................................................................4

2.4

Phương pháp nghiên cứu ..................................................................... 4


3.

KẾ HOẠCH TRIỂN KHAI ......................................................................... 5

4.

NỘI DUNG CỦA ĐỀ ÁN THẠC SĨ ........................................................... 7

5.

4.1

Tổng quan đề tài ....................................................................................7

4.2

Cơ sở lý thuyết ....................................................................................... 7

4.3

Các cơng trình nghiên cứu liên quan ................................................ 13

4.4

Phương pháp đề xuất ..........................................................................16

4.5

Phát triển kỹ thuật phát hiện tấn công ............................................. 19


4.6

Triển khai, kiểm tra và so sánh độ chính xác của kỹ thuật ............29

4.7

Kết luận ................................................................................................ 32

KẾT LUẬN ..................................................................................................34

TÀI LIỆU THAM KHẢO ................................................................................. 35

v


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

DANH SÁCH HÌNH MINH HOẠ

vi


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

DANH SÁCH BẢNG BIỂU

Bảng 3.1 Công việc dự kiến của luận văn ...................................................................5
Bảng 3.2 Giản đồ Gantt trực quan hố q trình thực hiện luận văn dự kiến ............ 6
Bảng 4.1 Kiểm tra tính chính xác của việc phân loại ............................................... 29
Bảng 4.2 Kiểm tra tính chính xác lúc theo dõi ..........................................................30
Bảng 4.3 Kiểm tra tài nguyên tiêu thụ .......................................................................31
Bảng 4.4 Thông số trước và sau khi khởi chạy .........................................................32

vii


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

1. GIỚI THIỆU ĐỀ TÀI
1.1 Tổng quan
World Wide Web (WWW) ra đời từ năm 1989 bởi Tim-Bernes Lee – một nhà khoa
học máy tính làm việc tại CERN. Kể từ thời điểm đó, World Wide Web đã không
ngừng phát triển, trờ thành một thành phần không thể thiếu của Internet. Mọi người
dùng Website để chia sẻ thơng tin, dùng để quảng cáo, giải trí và rất nhiều mục đích
khác. Điều này cũng gia tăng một số lượng lớn các hành vi có ý đồ xấu.
Các hành vi tấn cơng web, trong đó có tấn công deface là một trong những vấn đề
lớn trong nền an ninh mạng. Deface – tạm dịch là hủy hoại hình ảnh – là khi hacker,
hoặc các cá nhân tổ chức có ý đồ xấu xâm nhập vào trang web và thay đổi các
thông tin hiển thị. Các thông tin này có thể là tồn bộ giao diện trang web, hoặc đơi
khi các thơng tin nhỏ, khó để ý hơn như địa chỉ, liên lạc. Các ảnh hưởng thì các
cuộc tấn công deface khá đa dạng, tùy theo thông tin gì đã bị thay đổi trên website.
Một trong những kiểu tấn cơng deface phổ biến nhất là thay đổi tồn bộ trang web
của nạn nhân thành trang web của kẻ tấn công, thay đổi các hiển thị trên trang web
thành các thông tin như “Trang web này đã bị hack bởi hacker 00XX” hoặc các

thông diệp quấy phá đối với nạn nhân. Các hành vi khó phát hiện hơn nhưng ảnh
hưởng cũng không hề kém là các thay đổi nhỏ như thông tin liên lạc. Kẻ tấn công
như tin tặc, hacker có thể thay đổi các email, số điện thoại liên lạc thành thơng tin
của chính họ. Khi một người dùng web có nhu cầu liên lạc với trang web, họ vơ
tình liên lạc thẳng đến kẻ tấn cơng, dẫn đến các tình huống lừa đảo, chiếm đoạt tài
sản…
Lí do tấn cơng rất đa dạng và khó đốn, đơi khi hacker được thuê bởi các tổ chức
đối đầu để loại bỏ các sự cạnh tranh, đôi khi là do các mục đích chính trị, đơi khi
chẳng vì một lí do gì cả, hacker chỉ muốn thể hiện khả năng của mình. Lí do cuối
nghe có vẻ lạ lùng nhưng lại là một trong những lí do lớn nhất đứng đằng sau các
hacker. Sự nghiêm trọng đặc biệt gia tăng khi các cuộc tấn công này nhằm vào các
tổ chức lớn hoặc vào các trang web của chính phủ, gây nên thiệt hại vơ cùng lớn về
cả mặt tài chính và hình ảnh.[1]
1


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

Hình 1.1 insights.london.nhs.uk bị tấn cơng deface bởi hacker
Chính vì lí do trên, một biện pháp để phát hiện một cuộc tấn công deface là vơ cùng
cần thiết. Đây cũng là lí do chính và cũng là động lực lớn để tác giả thực hiện để tài
luận văn thạc sĩ này. Xây dựng một giải pháp giám sát website, có thể phát hiện một
cuộc tấn công deface và thông báo cho người quản trị trang web. Việt Nam luôn
nằm trong danh sách những nước bị tấn công mạng nhiều nhất, tác giả mong muốn
đề tài này có thể cống hiến phần nào cho nền an ninh mạng quốc gia, đảm bảo một
môi trường web an toàn cho người sử dụng.
1.2 Nhiệm vụ luận văn
Luận văn tập trung vào trả lời và giải quyết hai vấn đề:

 Một giải pháp phát hiện một cuộc tấn công deface trong thời gian thực.
 Phải phân biệt được hành vi nào là hành vi tấn công, hành vi nào là bình
thường, thơng báo cho người quản trị hoặc tự động khôi phục lại trang web
như ban đầu.
 Đảm bảo thiệt hại tới trang web nằm ở mức tối thiểu.

2


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

2. MỤC TIÊU, GIỚI HẠN, ĐỐI TƯỢNG VÀ PHƯƠNGPHÁP
NGHIÊN CỨU TRONG ĐỀ TÀI
2.1 Mục tiêu nghiên cứu
Mục tiêu nghiên cứu là phát triển một kỹ thuật chạy ngay trên server đang triển khai
trang web. Kỹ thuật chạy liên tục song song với web, liên tục giám sát và kiểm tra
các thay đổi, phân biệt được thay đổi nào là có chủ ý, thay đổi nào là ngoài ý muốn
của người quản trị. Một số ví dụ hành vi có thể là:
 Người dùng web bình luận vào bài đăng: đây là hành vi bình
thường
 Kẻ tấn công thay đổi tên công ty, đổi logo: đây là hành vi tấn cơng
Kỹ thuật sau đó sẽ tìm phương án xử lí, có thể liên lạc và thông báo ngay lập tức
đến người quản trị web, hoặc sẽ tự động cập nhật các trang web lại trạng thái trước
đó tùy theo cấu hình. Người quản trị cũng có thể thay đổi các thơng số của kỹ thuật,
như khoảng cách mỗi lần kỹ thuật quét website để phát hiện deface. Kỹ thuật cũng
có thể áp dụng nhiều hình thức thông báo khác nhau như qua điện thoại… Nếu
không nhận được phản hồi từ người quản trị trong một khoảng thời gian nhất định,
kỹ thuật sẽ xử lí trang web theo cách hiệu quả nhất đã được định nghĩa.

Do cách thức tấn công một trang web rất đa dạng và phức tạp, nghiên cứu này sẽ
tập trung vào việc làm cách nào để xử lí một cuộc tấn cơng đã xảy ra
2.2 Giới hạn nghiên cứu
Phạm vi nghiên cứu sẽ tập trung trả lời hai câu hỏi:
 Phương án nào là tối ưu để phát hiện một cuộc tấn cơng, phân biệt chúng
với các hành vi bình thường?
 Làm cách nào để đảm bảo việc giám sát là liên tục, đảm bảo việc phát
hiện là theo giời gian thực
 Kỹ thuật có thể đưa ra phương án xử lí trong thời gian phù hợp?
 Làm sao để đảm bảo tỉ lệ giữa tài nguyên sử dụng để chạy kỹ thuật và
hiệu suất của kỹ thuật
3


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

2.3 Đối tượng nghiên cứu
Một website có lưu lượng truy cập vừa phải, có các tính năng cho người dùng thay
đổi thơng tin theo ý muốn (đăng tải ảnh đại diện, đăng bình luận…).
Khơng tập trung vào phương thức tấn công deface, chỉ tập trung vào cách phát hiện
và phục hồi sau khi đã bị tấn công.
Giả lập hành vi tấn công deface lên trang web, phát hiện và xử lí cuộc tấn
cơng này.
2.4 Phương pháp nghiên cứu
Phương pháp phân tích và tổng hợp: vấn đề lớn của luận văn được chia ra thành
những vấn đề nhỏ hơn và tập trung xử lý. Phải phát hiện được thay đổi trong thẻ
HTML trong đó bao gồm rất nhiều thẻ nhỏ hơn như head, body… các thẻ này lại có
nhiều thẻ con bên trong. Mỗi thẻ sẽ có một thành phần riêng có thể được chỉnh sửa,

các thành phần này phải được xử lí riêng biệt.
Phương pháp phân tích dữ liệu: Dữ liệu thu được từ các cuộc tấn công deface mô
phỏng sẽ được thu thập. Đâu là điểm chung thường thấy của các cuộc tấn công, đâu
là điểm chung giữa các thành phần website. Dùng các điểm chung này để đưa ra
phương án, vận dụng phương pháp này để kiểm tra, tìm ra các điểm chung để đưa
ra giải pháp xử lí hợp lí.
Phương pháp thực nghiệm: Để kiểm tra kết quả và tính hiệu quả từ các biện
pháp phát hiện được sử dụng, phải giả lập các tình huống tấn cơng khá nhau để
kiểm tra tính năng của kỹ thuật. Các tình huống tấn cơng phải đa dạng, tấn cơng
vào nhiều vị trí khác nhau, đặc biệt vào những vị trí ngồi dự đốn. Kỹ thuật phải
phát hiện tất cả các tình huống tấn cơng này.
Các thư viện và ngơn ngữ lập trình: Sử dụng thư viện về hệ thống và ngôn
ngữ python để lập trình kỹ thuật

4


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

3. KẾ HOẠCH TRIỂN KHAI
Các công việc dự kiến của luận văn (bao gồm ký hiệu, mơ tả cơng việc, thời gian
hồn thành dự kiến):
Bảng 3.1 Công việc dự kiến của luận văn
Ký hiệu

Mô tả công việc

Thời gian dự kiến


Nghiên cứu các phương thức tấn công
K1

2 tuần

deface
Nghiên cứu các kết quả từ cuộc tấn

K2

Nghiên
K3

1 tuần

công deface
cứu

hệ

thống

web,

các

Document Object Model (DOM)

2 tuần


Nghiên cứu phân biệt giữa hành vi tấn
K4

cơng và hành vi bình thường bằng cách 1 tháng
kiểm tra các thẻ HTML được cho trước.
Phát triển biện pháp phát hiện trên thời

K5

gian thực, kỹ thuật chay song song với 2 tháng
web

K6

Kiểm tra tính chính xác của kỹ thuật

1 tuần

Xây dựng tính năng thơng báo người
K7

quản trị, phục hồi web bị tấn công

2 tháng

K8

Tổng hợp, đánh giá và viết luận văn


1 tuần

5


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

Bảng 3.2 Giản đồ Gantt trực quan hố q trình thực hiện luận văn dự kiến
K1
K2
K3
K4
K5
K6
K7
K8

12/2022

1/2023

3/2023

3/2023

6

4/2023


5/2023

6/2023


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

4. NỘI DUNG CỦA ĐỀ ÁN THẠC SĨ
4.1 Tổng quan đề tài
Đây là công trình nghiên cứu về tấn cơng deface với website và phát triển một kĩ
thuật phát hiện hiệu quả, nhanh trong thời gian thực và thông báo cho ngời quản trị
viên của trang web.
Một website chất lượng không chỉ giúp tăng tính nhìn thấy của thương hiệu, mà cịn
mở rộng cơ hội tiếp cận thị trường, thu hút khách hàng mới và tăng doanh số bán
hàng. Song song với việc này, website cũng là một trong những đối tượng đầu tiên
cho các cuộc tấn cơng an tồn an ninh mạng.
Một trong những kiểu tấn công phổ biến nhất nhắm vào website là tấn công deface,
trong một cuộc tấn công deface, kẻ tấn công hay hacker thường cố gắng thay đổi
một phần hoặc toàn bộ giao diện của trang web. Mức độ của các cuộc tấn công tuỳ
thuộc vào hacker, đôi khi họ chỉ thay đổi một phần rất nhỏ của giao diện như thơng
tin liên lạc (nhằm vào các tình huống đánh lừa người dùng), đơi khi họ thay đổi
tồn bộ trang web. Trong tình huống thứ hai, kẻ tấn cơng thường để lại một thơng
điệp, ví dụ như "Trang web của bạn đã bị hack".
Tất cả các tình huống tấn công deface đều gây ra hậu quả vô cùng to lớn, từ danh dự,
hình ảnh của doanh nghiệp, cá nhân, đến những ảnh hưởng tài chính, hình sự khác.
Chính vì những lí do trên, một biện pháp để phát hiện và phục hồi trang web khi có
một cuộc tấn cơng deface xảy ra là vô cùng cần thiết. Đề án này đề xuất một kỹ

thuật phát hiện tấn công deface (sau khi đã xảy ra) và tìm cách khắc phục và phục
hồi trang web, hạn chế tối thiểu thiệt hại từ các cuộc tấn công này.
4.2 Cơ sở lý thuyết
4.2.1 Một vài khái niệm liên quan
Web hay World Wide Web là một hệ thống toàn cầu dựa trên Internet, kết nối các
máy tính và các thiết bị mạng lại thành một mạng lưới truyền tải và chia sẻ thông
điệp vô cùng lớn.
Website là tập hợp một số các tài nguyên như: tài liệu, hình ảnh, video… Website
7


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

thường được truy cập qua một liên kết gọi là URL (Uniform Resource Locator).
Website được tạo ra từ nhiều ngơn ngữ lập trình khác nhau, một số ngôn ngữ phổ
biến là: HTML (HyperText Markup Language) để định dạng và cấu trúc nội dung.
CSS (Cascading Style Sheets) được sử dụng để kiểm soát giao diện và trình bày của
trang web. Các trang web có thể cũng sử dụng JavaScript để tạo ra các hiệu ứng
tương tác và chức năng động.
Tấn cơng deface là hình thức tấn công an ninh mạng khi kẻ tấn công chủ động thay
đổi nội dung của một trang web để hiển thị thơng điệp hoặc hình ảnh mà họ muốn
truyền tải.
Bảo vệ website khỏi các cuộc tấn công deface là bảo vệ uy tín và danh tiếng của
doanh nghiệp, bảo vệ khách hàng khỏi các rủi ro bảo mật.
4.2.2 Cấu trúc website và sự liên quan tới deface
Website, nói một cách đơn giản, có thể gọi là tập hợp các thẻ HTML tạo thành.
HTML sử dụng cú pháp đánh dấu để mô tả các thành phần khác nhau của một trang
web, chẳng hạn như tiêu đề, đoạn văn, liên kết, hình ảnh, bảng, biểu mẫu và nhiều

hơn nữa.
Deface xảy ra khi một trong các thẻ này bị thay đổi nội dung mà không được sự cho
phép của người quản trị trang web. Tuy nhiên, việc khó ở đây là nội dung của các
thẻ không phải luôn luôn là cố định mà có thể thay đổi theo thời gian để phù hợp
với việc hiển thị nội dung của trang web.
Một số thẻ HTML thơng dụng thường được dùng trong một ví dụ trang web đơn
giản:
<!DOCTYPE html>
<html>
<head>
<title>Tiêu đề trang</title>
</head>
<body>
8


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

Đầu đề


Đây là một đoạn văn.


<a href="">Liên kết</a>
<img src="hình ảnh.jpg" alt="Hình ảnh">
</body>
</html>

 <!DOCTYPE html> khai báo loại tài liệu và phiên bản HTML được sử dụng
(trong trường hợp này là HTML5).
 Thẻ <html> đại diện cho phần tử gốc và chứa tất cả các phần tử khác.

 Phần <head> chứa thông tin về tài liệu và siêu dữ liệu.
 Thẻ <title> xác định tiêu đề của trang web, hiển thị trên thanh tiêu đề hoặc
tab của trình duyệt.
 Phần <body> chứa nội dung hiển thị của trang web.
 Thẻ

đại diện cho một đầu đề.
 Thẻ

xác định một đoạn văn.
 Thẻ <a> tạo một liên kết.
 Thẻ <img> nhúng một hình ảnh.
4.2.3 Mơ hình máy học
Mơ hình máy học SVM (Support Vector Machine):
Support Vector Machines (SVM) là một thuật toán phân loại mạnh mẽ trong lĩnh
vực máy học. SVM tìm cách tạo ra một đường ranh giới tuyến tính hoặc phi tuyến
tính để phân tách các điểm dữ liệu thuộc các lớp khác nhau. Cách hoạt động của
SVM là tìm ra đường ranh giới tốt nhất sao cho khoảng cách từ các điểm dữ liệu
gần nhất đến đường ranh giới là lớn nhất.
Để tạo ra đường ranh giới tối ưu, SVM sử dụng một khái niệm quan trọng gọi là
"vector hỗ trợ". Vector hỗ trợ là các điểm dữ liệu nằm gần đường ranh giới. SVM
tìm cách tối đa hóa khoảng cách từ các vector hỗ trợ này đến đường ranh giới.
9


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

Tuy nhiên, không phải lúc nào các lớp dữ liệu cũng phân tách tuyến tính. Để xử lý
trường hợp này, SVM sử dụng một phép ánh xạ không gian gọi là "kernel" để
chuyển đổi dữ liệu vào một khơng gian cao hơn, trong đó có thể tạo ra một đường
ranh giới tuyến tính.
Q trình huấn luyện SVM là quá trình tìm kiếm đường ranh giới tối ưu bằng cách


giải quyết một bài toán tối ưu hóa. Thuật tốn SVM tìm cách tìm ra các hệ số tối ưu
cho đường ranh giới và các vector hỗ trợ bằng cách sử dụng phương pháp tối ưu
hóa lề cứng (hard margin) hoặc lề mềm (soft margin).
Khi dự đoán, SVM sử dụng đường ranh giới đã học để xác định lớp của các điểm
dữ liệu mới dựa trên vị trí của chúng đối với đường ranh giới. SVM là một thuật
tốn linh hoạt và có thể được áp dụng cho nhiều bài toán phân loại, bao gồm cả
phân loại tuyến tính và phi tuyến tính.

Hình 4.1 Hình ảnh minh hoạ cho mơ hình SVM
Random Forest là một thuật toán học tập tập hợp được sử dụng rộng rãi trong lĩnh
vực máy học. Nó là sự kết hợp của nhiều cây quyết định độc lập nhau để tạo thành
một mơ hình dự đốn mạnh mẽ. Cách hoạt động của Random Forest là xây dựng
10


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

một tập hợp các cây quyết định và kết hợp kết quả từ các cây để đưa ra dự đốn
cuối cùng.
Q trình xây dựng Random Forest bắt đầu bằng việc lấy mẫu ngẫu nhiên từ tập dữ
liệu ban đầu để tạo thành các tập con dữ liệu cho mỗi cây quyết định. Mỗi cây quyết
định được huấn luyện độc lập trên một tập con dữ liệu này, theo nguyên tắc "chọn
ngẫu nhiên, lựa chọn và trích dẫn".
Khi dự đốn, các cây quyết định trong Random Forest được áp dụng đồng thời lên
một điểm dữ liệu mới. Mỗi cây quyết định đưa ra dự đoán riêng của mình dựa trên
đặc trưng của điểm dữ liệu đó. Cuối cùng, kết quả cuối cùng được tính bằng cách áp
dụng phương pháp "phiếu bầu" (voting) hoặc "trung bình" (averaging) trên các dự
đốn của các cây.

Random Forest có nhiều ưu điểm quan trọng. Đầu tiên, nó có khả năng xử lý hiệu
quả cả dữ liệu số và dữ liệu hạng mục. Thứ hai, việc kết hợp các cây quyết định
giúp giảm hiện tượng overfitting và cung cấp một mô hình dự đốn ổn định và
chính xác. Thứ ba, Random Forest cung cấp một đánh giá về mức độ quan trọng
của các đặc trưng trong q trình dự đốn.
Random Forest được áp dụng trong nhiều bài toán, bao gồm phân loại, hồi quy và
phát hiện các đặc điểm quan trọng trong dữ liệu. Nó là một cơng cụ mạnh mẽ và
đáng tin cậy trong việc xây dựng các mơ hình dự đoán.

11


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

Hình 4.2 Hình ảnh minh họa Decision Tree
Gradient Boosting là một thuật toán học tập tập hợp được sử dụng trong lĩnh vực
máy học. Nó hoạt động bằng cách xây dựng các cây quyết định theo tuần tự để tạo
ra một mơ hình dự đốn mạnh mẽ.
Q trình xây dựng mơ hình Gradient Boosting bắt đầu với một cây quyết định đơn
giản, được gọi là cây gốc. Cây gốc được huấn luyện trên toàn bộ tập dữ liệu.
Sau đó, các cây quyết định tiếp theo được tạo ra để sửa các sai lầm dự đốn của cây
trước đó. Điểm đặc biệt ở đây là các cây mới chỉ được huấn luyện trên phần dư thừa
của dữ liệu, tức là dữ liệu mà cây trước đó chưa dự đốn chính xác.
Q trình huấn luyện các cây tiếp theo trong Gradient Boosting dựa trên việc điều
chỉnh các cây để giảm gradient của hàm mất mát. Gradient là đạo hàm của hàm mất
mát tại mỗi điểm dữ liệu. Bằng cách điều chỉnh cây để giảm gradient, các cây mới
được tạo ra có khả năng cải thiện dự đoán và tiếp tục giảm sai số dự đoán.
Kết quả cuối cùng của Gradient Boosting được tính bằng cách cộng dồn dự đoán

của tất cả các cây trong tập hợp. Q trình này tạo ra một mơ hình dự đốn mạnh
mẽ, có khả năng xử lý cả các vấn đề hồi quy và phân loại.
Gradient Boosting có một số đặc điểm quan trọng. Đầu tiên, nó có khả năng xử lý
12


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

cả dữ liệu tuyến tính và phi tuyến tính. Thứ hai, q trình tạo cây theo tuần tự giúp
tăng cường khả năng dự đoán và tạo ra một mơ hình mạnh mẽ. Tuy nhiên, điều này
cũng có thể làm tăng độ phức tạp tính toán và thời gian huấn luyện của thuật toán.
Gradient Boosting được sử dụng trong nhiều bài toán, bao gồm phân loại, hồi quy
và xếp hạng. Nó cung cấp một cơng cụ mạnh mẽ để xây dựng các mơ hình dự đốn
chính xác và linh hoạt.
4.3 Các cơng trình nghiên cứu liên quan
Trong quá trình nghiên cứu đề cương, một số giải pháp xử lí các cuộc tấn cơng
deface thơng dụng đã được xem qua và phân tích nhằm tìm ra các phương pháp tối
ưu, vận dụng và phát triển, giảm thiểu các bất tiện của các giải pháp này.
Các giải pháp phịng chống về deface thường nằm trong một gói cơng cụ, người
dùng có thể mua các cơng cụ này theo mơ hình th bao. Các cơng cụ này thường
sẽ được cài đặt trên đám mây và kiểm soát trang web qua internet. Một số ví dụ cho
các cơng cụ này có thể như là: site24x7, Fluxguard, Succuri…
Tác giả sẽ không tập trung nhiều vào các thương hiệu mà sẽ xem xét các kỹ thuật và
giải pháp mà các công cụ này sử dụng, sau đó tổng quan chúng lại thành các hướng
xử lí khả thi.
Một trong những giải pháp phổ biến được sử dụng là phát hiện thay đổi trên pixel.
Một ảnh chụp hoặc bản ghi của trang web sẽ được công cụ lưu lại tại một thời điểm
mà trang web được cho là an toàn. Ảnh chụp này sẽ được lưu trữ an toàn ở một cơ

sở dữ liệu. Kế đến, sau mỗi một khoảng thời gian xác định, công cụ sẽ tiếp tục lấy
một ảnh ghi từ website, sau đó so sánh hình ảnh này với ảnh chụp trong khoảng thời
gian “an toàn” theo từng pixel một, nếu có sự khác biệt giữa hay hình ảnh trên, cho
dù chỉ là một pixel, công cụ sẽ cho ra kết quả là trang web đã bị tấn công deface.[3]
Phương pháp này có khả năng tìm ra nhưng thay đổi dù là nhỏ nhất (pixel) trên giao
diện của một website, tuy nhiên chính điều này cùng là điểm yếu lớn nhất của
phương pháp pixel. Các thay đổi có chủ ý của người dùng cũng sẽ bị đánh dấu là
tấn công deface, đặc biệt đối với các website có thơng tin hiển thị thay đổi liên tục
13


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

như blog và tin tức. Người dùng sẽ cập nhật nội dung blog liên tục, cũng như người
đăng tin tức luôn đăng những tin nổi bật trong thời gian gần đó. Điều này dẫn tới rất
nhiều kết quả dương tính giả (False Positive) khi sử dụng phương pháp này.

Hình 4.3 Hình ảnh minh họa, phương pháp pixel phát hiện thay đổi bằng ảnh chụp
màn hình[4]

Phương pháp thứ hai là dùng hash để kiểm tra tính tồn vẹn dữ liệu. Hash là một
giải thuật mã hóa một chiều, tức là khi được xử lí hash và có kết quả đầu ra, kết quả
này là độc nhất cho mỗi đầu vào. Phương pháp này sẽ tính tốn hash cho các thành
phần của website như hình ảnh, tệp HTML… trong khoảng thời gian mà trang web
được cho là “an tồn” sau đó lưu giá trị này lại vào cơ sở dữ liệu (CSDL) dưới dạng
tên tập tin - mã hash. Sau một khoảng thời gian nhất định, giá trị hash sẽ được tính
lại và so sánh với giá trị đã được lưu lại, do bản chất hash là độc nhất cho mỗi đầu
vào, một thay đổi dù là nhỏ nhất cũng sẽ được phát hiện khi so sánh hash[5].


14


Luận văn thạc sĩ

HVTH: Nguyễn Trọng Đức

Hình 4.4 Flowchart cho phương pháp dùng mã băm hash
Một điểm yếu lớn của phương pháp này là hash chỉ có thể thể hiện đã có thay đổi
đối với thành phần website được tính tốn chứ khơng hề thể hiện thay đổi gì đã
được thực thi. Điều này gây khó khăn cho việc xử lí, phục hồi trang web khi tấn
cơng deface đã xảy ra. Đối với một số thành phần website có thay đổi chỉ nằm trong
một số trường nhất định, phương pháp này sẽ hiệu quả hơn.
Phương pháp thứ ba được tác giả nghiên cứu là kiểm tra các Document Object
Model (DOM), các thẻ HTML có các thành phần như scr (source, nguồn gốc), href
(hypertext reference, tham chiếu)… các thành phần này chỉ đến các tập tin được sử
dụng trong website. Khi dùng phương pháp này, công cụ sẽ kiểm tra và đảm bảo
các nguồn là chính thống, có gốc đến từ chính máy chủ của website (vì phần lớn tấn
cơng deface sẽ dẫn nguồn đến trang web của kẻ tấn công). Một số ví dụ như sau [6]:
 Phát hiện deface hình ảnh: phát hiện thay đổi trong thuộc tính src của
các thẻ như <img>
 Phát hiện deface script: phát hiện thay đổi trong thuộc tính src của các
thẻ như <script>
 Phát hiện deface link: phát hiện thay đổi trong thuộc tính href của các
15


×