ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
---------------------------------------
NGUYỄN BÌNH LONG
NHẬN DIỆN CÁC VIDEO CĨ YẾU TỐ CHÍNH TRỊ VIỆT NAM
TRÊN MẠNG XÃ HỘI TIKTOK
Chuyên ngành: Khoa Học Máy Tính
Mã số: 8.48.01.01
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 7 năm 2022.
CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI:
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học 1: PGS.TS Đặng Trần Khánh
Cán bộ hướng dẫn khoa học 2: PGS.TS Lê Hồng Trang
Cán bộ chấm nhận xét 1: TS. Đặng Trần Trí
Cán bộ chấm nhận xét 2: PGS.TS Nguyễn Tuấn Đăng
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. Hồ Chí Minh
ngày 21 tháng 7 năm 2022.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. PGS.TS Trần Minh Quang
- Chủ tịch
2. TS Phan Trọng Nhân
- Thư ký
3. TS Đặng Trần Trí
- GV Phản biện 1
4. PGS.TS Nguyễn Tuấn Đăng - GV Phản biện 2
5. PGS.TS Lê Hồng Trang
- Ủy viên
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau
khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Nguyễn Bình Long
Ngày, tháng, năm sinh: 03/05/1992
Chuyên ngành: Khoa học máy tính
MSHV: 1870570
Nơi sinh: Quảng Ngãi
Mã số: 8.48.01.01
I. TÊN ĐỀ TÀI: Nhận diện các video có yếu tố chính trị Việt Nam trên mạng xã hội Tiktok
/ Identifying Viet Nam politcal video contents on TikTok social Network.
II. NHIỆM VỤ VÀ NỘI DUNG: Thực hiện việc thu thập bộ dữ liệu gồm các video có
yếu tố chính trị và phi chính trị, tìm hiểu các cơng trình nghiên cứu về sử dụng mơ hình
học sâu và kết hợp đa mơ hình để phân loại video. Đề xuất, xây dựng và thử nghiệm mơ
hình học sâu phù hợp để giải quyết bài toán của đề tài.
III. NGÀY GIAO NHIỆM VỤ: 14/02/2022
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 30/06/2022
V. CÁN BỘ HƯỚNG DẪN: PGS.TS Đặng Trần Khánh – PGS.TS Lê Hồng Trang
CÁN BỘ HƯỚNG DẪN I CÁN BỘ HƯỚNG DẪN II
(Họ tên và chữ ký)
(Họ tên và chữ ký)
PGS.TS Đặng Trần Khánh
Tp. Hồ Chí Minh, ngày tháng năm 2022
CHỦ NHIỆM BỘ MƠN ĐÀO TẠO
(Họ tên và chữ ký)
PGS.TS Lê Hồng Trang
TRƯỞNG KHOA KHOA HỌC & KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)
i
LỜI CẢM ƠN
Đầu tiên, tơi xin được bày tỏ lịng biết ơn sâu sắc tới PGS.TS Đặng Trần Khánh và
PGS.TS Lê Hồng Trang, người đã hướng dẫn tôi trong suốt quá trình thực hiện luận văn
cũng như đề cương. Nhờ có những chỉ dẫn và góp ý của thầy mà tơi mới có thể hồn thành
tốt được đề tài luận văn này. Tôi xin được gửi lời cảm ơn đến q thầy cơ khoa Khoa học
và Kỹ thuật máy tính đã truyền thụ những kiến thức, kinh nghiệm quý báu cho tôi trong
hơn hai năm qua. Xin gửi lời tri ân đến tất cả các thành viên trong nhóm DSTAR LAB của
thầy Khánh vì những sự giúp đỡ và hỗ trợ trong suốt quá trình học tập và thực hiện luận
văn. Cuối cùng, tôi xin gửi lời cảm ơn chân thành đến gia đình và bạn bè, những người đã
ln động viên, ủng hộ tôi trong suốt thời gian học Cao học.
Tp. Hồ Chí Minh, ngày tháng năm 2022
ii
TÓM TẮT LUẬN VĂN
Với việc ra đời bộ luật “An ninh mạng Việt Nam năm 2018”, một trong những chủ
đề được các nhà quản lý quan tâm hiện nay là phân loại tự động video thành danh mục
chính trị hoặc các chủ đề khác để có thể bước đầu xử lý và nắm bắt những gì đang xảy ra
trên mạng internet nói chung và mạng xã hội Tiktok nói riêng. Các video này chứa đựng
nhiều đặc trưng như: hình ảnh, văn bản, âm thanh mỗi đặc trưng đều chứa thông tin có giá
trị. Để nâng cao khả năng phân loại, điều cần thiết là phải phân tích hiệu quả tất cả thơng
tin được trích xuất từ các đặc trưng khác nhau, trong khi hầu hết các mơ hình học tập hiện
tại đều bỏ qua một số đặc trưng và chỉ tập trung vào một phương thức duy nhất. Trong đề
tài này, trình bày một framework kết hợp đa mơ hình học tập có giám sát dựa trên nhiều
đặc trưng để phân loại hiệu quả video có yếu tố chính trị. Trong đó, sử dụng kỹ thuật Word
Embedding là FastText để phân tích văn bản, các mơ hình CNN đã được huấn luyện trước
gồm: Inception-V3, MTCNN, VGG-Face để trích xuất đặc trưng hình ảnh và gương mặt,
sau đó, một kỹ thuật kết hợp chậm dựa trên mơ hình Light GBM được sử dụng để tổng hợp
thông tin và phân loại ở cấp độ video. Framework có thể phân loại video khi một đặc trưng
bị thiếu bằng cách sử dụng các đặc trưng còn lại. Framework được áp dụng cho tập dữ liệu
mới chứa 10.000 videos chính trị và phi chính trị được thu thập từ Tiktok. Các kết quả thử
nghiệm của framework cho kết quả tốt hơn so với một số mơ hình dựa trên từng đặc trưng
riêng lẻ, cũng như phương pháp kết hợp thơng thường. Cụ thể độ chính xác tốt nhất của
framework đạt 0.93, trong khi phương pháp kết hợp sử dụng logistic regression đạt 0.92,
và mơ hình dựa trên từng đặc trưng văn bản, gương mặt, hình ảnh lần lượt là 0.88, 0.68,
0.88.
iii
ABSTRACT
With the introduction of “Law On Cybersecurity 2018”, the most concerned topic of
the managers is political video classification system, gasping the activities on the internet
as we as Tiktok. These videos contain a lot of features like images, texts, and audio. Each
of these features is very informative. To improve the classification, the effective usage of
all features is required. However, most of current systems only make use of only one
feature. In this thesis, I propose a framework that utilizing multiple model based on
different features to effectively classify political video. We have used Word Embedding
for text analysis, CNN models that included Inception-V3, MTCNN, and VGG-Face for
facial and image feature extraction, after that slow fusion based on Light GBM is used for
information aggregation and classification. Framework can analyze a video when some
features are missing by using the remaining features. Framework has been applied to a
dataset with 10,000 political and non-political video collected from TikTok. The results of
framework are shown to be better than some models based on a single feature as well as
traditional combination method. The accuracy of framework is 0.93, while the accuracy of
logistic regression is 0.92 and the models based on text, facial, and image feature is 0.88,
0.68, and 0.88 respectively.
iv
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Nhận diện các video có yếu tố chính trị Việt Nam trên
mạng xã hội Tiktok” là kết quả nghiên cứu của tôi dưới sự hướng dẫn, góp ý của PGS.TS
Đặng Trần Khánh và PGS.TS Lê Hồng Trang. Những thông tin tham khảo từ các cơng
trình khác có liên quan đều đã được ghi rõ trong luận văn. Nội dung nghiên cứu và các kết
quả đều là do chính tơi thực hiện, khơng sao chép hay lấy từ một nguồn nào khác. Tôi xin
chịu toàn bộ trách nhiệm về lời cam đoan này.
Tp. Hồ Chí Minh, ngày
Học Viên
tháng
Nguyễn Bình Long
v
năm 2022
MỤC LỤC
NHIỆM VỤ LUẬN VĂN THẠC SĨ .................................................................................... i
LỜI CẢM ƠN ..................................................................................................................... ii
TÓM TẮT LUẬN VĂN ..................................................................................................... iii
ABSTRACT ....................................................................................................................... iv
LỜI CAM ĐOAN ................................................................................................................ v
DANH MỤC HÌNH VẼ .................................................................................................... ix
DANH MỤC BẢNG ........................................................................................................... x
DANH MỤC MÃ CHƯƠNG TRÌNH ............................................................................... xi
DANH MỤC CHỮ VIẾT TẮT ........................................................................................ xii
1
GIỚI THIỆU ............................................................................................................... 1
1.1
Tổng quan đề tài ................................................................................................. 1
1.2
Tính ứng dụng của đề tài ................................................................................... 4
1.3
Mục tiêu và giới hạn của đề tài ......................................................................... 6
1.3.1 Mục tiêu ............................................................................................................ 6
1.3.2 Giới hạn đề tài................................................................................................... 7
1.4
2
Cấu trúc của luận văn ........................................................................................ 8
KIẾN THỨC NỀN TẢNG .......................................................................................... 8
2.1
Mạng nơron nhân tạo (Artificial Neural Network – ANN) ............................ 8
2.1.1 Giới thiệu .......................................................................................................... 8
2.1.2 Các hàm kích hoạt (Activation function)........................................................ 10
2.1.3 Hàm chi phí mất mát....................................................................................... 12
2.1.4 Các kỹ thuật xử lý với mạng nơ ron ............................................................... 13
2.2
Mạng nơ ron tích chập (Convolutional Neural Network - CNN) ................ 15
2.2.1 Lớp tích chập – Convolution layer ................................................................. 15
2.2.2 Lớp gộp – Pooling layer ................................................................................. 16
2.2.3 Lớp kết nối đầy dủ – Fully connected layer ................................................... 16
2.3
Kiến trúc mơ hình mạng chuyển đổi đa tác vụ (Multi-task Cascaded
Convolutional Networks - MTCN) ............................................................................ 17
2.4
Tổng quan kiến trúc mơ hình xác minh khn mặt DeepFace .................... 21
2.5
Tổng quan kiến trúc mơ hình Inception-V3 .................................................. 22
2.6
Mơ hình Word Embedding .............................................................................. 27
2.6.1 Mơ hình Word2Vec ........................................................................................ 29
2.6.2 CBOW model ................................................................................................. 30
vi
2.6.3 Skip-gram model ............................................................................................ 30
2.6.4 Mơ hình FastText............................................................................................ 31
2.7
3
4
Các chiến lược kết hợp nhiều mơ hình trong phân loại video ...................... 32
CÁC CƠNG TRÌNH LIÊN QUAN .......................................................................... 34
3.1
Phân loại video trên quy mơ lớn với mạng nơ ron tích chập (CNN) ........... 34
3.2
Phân loại video trên quy mô lớn dựa trên đặc trưng văn bản ..................... 36
3.3
Phương pháp kết hợp nhiều mơ hình học sâu để phân loại video ............... 37
PHƯƠNG PHÁP THỰC HIỆN ............................................................................... 40
4.1
Phương pháp thu thập và xử lý dữ liệu .......................................................... 40
4.1.1 Phương pháp thu thập dữ liệu ......................................................................... 40
4.1.2 Phương pháp xử lý dữ liệu văn bản ................................................................ 41
4.1.3 Phương pháp xử lý dữ liệu âm thanh .............................................................. 42
4.1.4 Phương pháp xử lý dữ liệu video và hình ảnh ................................................ 42
5
4.2
Phương pháp trích xuất đặc trưng và xây dựng mơ hình phân loại văn bản .
….. ...................................................................................................................... 43
4.3
Phương pháp trích xuất đặc trưng và nhận diện khn mặt ....................... 44
4.4
Phương pháp xây dựng mơ hình phân loại hình ảnh .................................... 45
4.5
Phương pháp xây dựng mơ hình kết hợp ....................................................... 46
4.6
Phương pháp đánh giá ..................................................................................... 47
HIỆN THỰC VÀ ĐÁNH GIÁ .................................................................................. 48
5.1
Framework đề xuất .......................................................................................... 48
5.2
Thu thập dữ liệu ............................................................................................... 50
5.3
Xử lý dữ liệu ...................................................................................................... 52
5.3.1 Tải video và audio .......................................................................................... 52
5.3.2 Gán nhãn dữ liệu ............................................................................................. 53
5.3.3 Trích xuất khung hình chính từ video............................................................. 54
5.3.4 Xử lý và huấn luyện dữ liệu văn bản với mơ hình word embedding FastText
…………………………………………… .................................................... 54
5.3.5 Phát hiện và nhận diện gương mặt.................................................................. 56
5.4
Huấn luyện mơ hình phân loại dựa trên đặc trưng hình ảnh ...................... 58
5.5
Chiến lược huấn luyện và thử nghiệm ............................................................ 59
5.6
Huấn luyện mơ hình kết hợp ........................................................................... 60
5.7
Kết quả của mơ hình và nhận xét ................................................................... 62
5.7.1 Tập dữ liệu ...................................................................................................... 62
5.7.2 Thử nghiệm và đánh giá kết quả..................................................................... 63
vii
5.8
6
Xây dựng ứng dụng thử nghiệm ..................................................................... 66
KẾT LUẬN ................................................................................................................ 69
6.1
Các kết quả đạt được ....................................................................................... 69
6.2
Khó khăn và hạn chế ........................................................................................ 70
6.3
Hướng mở rộng của đề tài ............................................................................... 70
TÀI LIỆU THAM KHẢO ................................................................................................ 72
LÝ LỊCH TRÍCH NGANG .............................................................................................. 75
viii
DANH MỤC HÌNH VẼ
Hình 1.1 Framework được đề xuất kết hợp dữ liệu chậm ở cấp độ video. ...................................... 2!
Hình 1.2 Minh họa tính ứng dụng của framework. ......................................................................... 5!
Hình 2.1 Đồ thị hàm tanh [22]. ...................................................................................................... 10!
Hình 2.2 Đồ thị hàm Sigmoid [22]. ............................................................................................... 11!
Hình 2.3 Đồ thị hàm ReLU [22]. ................................................................................................... 11!
Hình 2.4 Minh họa họa giai đoạn P-Net tạo ra Image Pyramid [9]. .............................................. 17!
Hình 2.5 Minh họa kiến trúc P-Net [9]. ......................................................................................... 18!
Hình 2.6 Minh họa cho phép NMS, những box bị trùng nhau sẽ bị loại bỏ và giữ lại 1 box có
mức tin tưởng cao nhất [9]. ........................................................................................................... 19!
Hình 2.7 Minh họa kiến trúc R-Net [9]. ........................................................................................ 20!
Hình 2.8 Minh họa kiến trúc O-Net [9]. ........................................................................................ 20!
Hình 2.9 Minh họa kết quả của mạng O-Net gồm 3 giá trị [9]. .................................................... 21!
Hình 2.10 Sơ lược về kiến trúc DeepFace, mạng bao gồm 120 triệu tham số [10]. ..................... 22!
Hình 2.11 Sơ lược về kiến trúc DeepFace, mạng bao gồm 120 triệu tham số [12]. ..................... 23!
Hình 2.12 Minh họa cấu trúc chuyển đổi bất đối xứng [12]. ........................................................ 24!
Hình 2.13 Minh họa cấu trúc mơ hình sau khi tối ưu [12]. ........................................................... 25!
Hình 2.14 Minh họa cách giảm số chiều dữ liệu hiệu quả trong khi mở rộng các lớp filter [12]. 26!
Hình 2.15 Mơ tả các lớp của mơ hình Inception-V3, kích thước kích thước đầu ra của mỗi mơđun là kích thước đầu vào của mơ-đun tiếp theo [12]. .................................................................. 27!
Hình 2.16 CBOW model vs Skip-gram model [23]. ..................................................................... 31!
Hình 2.17 Mơ hình phân loại bao gồm kết hợp hai giai đoạn để tích hợp dữ liệu cấp độ frame và
cấp độ video [3]. ............................................................................................................................ 33!
Hình 3.1 Minh họa kiến trúc CNN đa phân giải [1]. ..................................................................... 34!
Hình 3.2 Minh họa kết quả phân loại sử dụng mơ hình FastText trên tập dữ liệu 21 gồm danh
mục [2]. .......................................................................................................................................... 36!
Hình 3.3 Tổng quan về framework kết hợp nhiều mơ hình được đề xuất để phân loại video trên
mạng xã hội [4]. ............................................................................................................................. 39!
Hình 4.1 Minh họa kiến trúc mơ hình VGG-Face theo các lớp [10]. ............................................ 45!
Hình 4.2 Minh họa kỹ thuật học chuyển tiếp với mơ hình Inception-V3 [9]. ............................... 46!
Hình 5.1 Minh họa kiến trúc Framework đề xuất và luồng hoạt động trong đề tài....................... 49!
Hình 5.2 Luồng huấn luyện framework đề xuất. ........................................................................... 59!
Hình 5.3 Minh họa chia tỷ lệ để huấn luyện và kiểm thử.............................................................. 60!
Hình 5.4 Cho thấy số lượng giữ liệu của từng nhãn ở lần kiểm thử đầu tiên. ............................... 63!
Hình 5.5 Cho thấy số lượng giữ liệu của từng nhãn ở lần kiểm thử lần hai. ................................. 64!
Hình 5.6 Mơ tả mức độ quan trọng của từng đặc trưng trong việc phân loại cấp độ video. ......... 66!
Hình 5.7 Khởi chạy tệp predcit.py với tham số là id của video Tiktok. ........................................ 66!
Hình 5.8 Giao diện người dùng cho ứng dụng nhận diện video có yếu tố chính trị Việt Nam trên
mạng xã hội Tiktok. ....................................................................................................................... 67!
Hình 5.9 Ứng dụng người dùng dự đốn video. ............................................................................ 68!
ix
DANH MỤC BẢNG
Bảng 2.1 Minh họa quá quá trình tách các sub-words của FastText. ............................................ 32!
Bảng 3.1 Minh họa các thử nghiệm phân loại của mơ hình CNN Fusion và các mơ hình khác [1].
....................................................................................................................................................... 35!
Bảng 3.2 Minh họa kết quả phân loại video giữ framework được đề xuất bao gồm kết hợp hai
giai đoạn để tích hợp dữ liệu cấp độ frame và cấp độ video, và các mô hình dựa trên từng đặc
trưng [3]. ........................................................................................................................................ 38!
Bảng 3.3 Minh họa kết quả phân loại video giữa các mơ hình [4]. ............................................... 39!
Bảng 5.1 Số dữ liệu video và khung chính. ................................................................................... 62!
Bảng 5.2 Số lượng chuyển giọng nói thành văn bản. .................................................................... 62!
Bảng 5.3 Kết quả của các mô hình sau lần kiểm thử đầu tiên. ...................................................... 64!
Bảng 5.4 Kết quả của các mơ hình sau lần kiểm thử lần hai. ........................................................ 65!
x
DANH MỤC MÃ CHƯƠNG TRÌNH
Mã chương trình 5.1 Thu thập video từ Tikok. ............................................................................. 51!
Mã chương trình 5.2 Tải video và audio về cơ sở dữ liệu. ............................................................ 52!
Mã chương trình 5.3 Sử dụng FFmpeg để trích xuất các khung chính. ........................................ 54!
Mã chương trình 5.4 Tiền xử lý dữ liệu văn bản. .......................................................................... 54!
Mã chương trình 5.5 Xây dựng mơ hình và huấn luyện FastText. ................................................ 55!
Mã chương trình 5.6 Sử dụng MTCNN để phát hiện gương mặt.................................................. 56!
Mã chương trình 5.7 Sử dụng VGG-Face để vector hóa gương mặt. ........................................... 57!
Mã chương trình 5.8 Sử dụng kỹ thuật học chuyển tiếp và mơ hình Inception-V3 để huấn luyện.
....................................................................................................................................................... 58!
Mã chương trình 5.9 Huấn luyện mơ hình kết hơp sử dụng Logistic Regession. ......................... 61!
Mã chương trình 5.10 Huấn luyện mơ hình kết hơp sử dụng LightGBM. .................................... 61!
xi
DANH MỤC CHỮ VIẾT TẮT
ANN
DL
ML
MTCNN
CNN
LSTM
Artificial Neural Network
Deep Learning
Machine Learning
Multi-task Cascaded Convolutional Networks
Convolutional Neural Network
Long short term memor
xii
1!
GIỚI THIỆU
1.1!
Tổng quan đề tài
Thời đại khoa học công nghệ 4.0 mang tới sự phát triển vượt bậc, nó giúp con người
và máy móc tiến lại gần nhau hơn. Đặc biệt trong thế giới kỹ thuật số ngày nay bao gồm
nhiều nội dung đa phương tiện: video, hình ảnh, âm thanh. Rõ ràng là việc sản xuất video
đã trở nên đơn giản như nhấn một nút bấm, tuy nhiên hiếm khi xảy ra trường hợp video
được chia sẻ có thơng tin mơ tả đủ tốt về nội dung của nó và phân loại nó, thậm chí mơ
tả và nội dung khơng thống nhất với nhau, điều này gây khó khăn cho người dùng khi
cố gắng tìm kiếm một video nhất định theo một danh mục cụ thể.
Cùng với việc ra đời bộ luật “An ninh mạng Việt Nam năm 2018”, một trong những
chủ đề được các nhà quản lý quan tâm hiện nay là phân loại tự động video thành danh
mục chính trị hoặc phi chính trị và nắm bắt những gì đang xảy ra trên mạng internet nói
chung và mạng xã hội Tiktok nói riêng. Với Các video này chứa đựng nhiều đặc trưng
như: hình ảnh, văn bản, âm thanh mỗi đặc trưng đều chứa thơng tin có giá trị. Để nâng
cao khả năng phân loại, điều cần thiết là phải phân tích hiệu quả tất cả thơng tin được
trích xuất từ các đặc trưng khác nhau, trong khi hầu hết các mơ hình học tập như CNN
Fusion [1], CNN-LSTM [6], LR-CN [6] đều bỏ qua một số đặc trưng và chỉ tập trung
vào một phương thức duy nhất.
Trong đề tài này, trình bày một framework kết hợp nhiều mơ hình học sâu trên
nhiều đặc trưng như: hình ảnh, văn bản, gương mặt để phân loại hiệu quả video có yếu
tố chính trị. Trong đó, sử dụng mơ hình Word Embedding là FastText [14] để phân tích
văn bản, các mơ hình CNN [13] đã được huấn luyện trước gồm: Inception-V3 [12],
MTCNN [9], VGG-Face [10] để trích xuất đặc trưng hình ảnh và gương mặt, sau đó, sử
dụng chiến lược kết hợp chậm dựa trên kỹ thuật mới trong phân loại là mơ hình Light
GBM [11] để biểu diễn dữ liệu và phân phân loại ở cấp độ video. Framework có thể phân
tích video khi một đặc trưng bị thiếu bằng cách sử dụng các đặc trưng còn lại. Framework
1
được áp dụng cho tập dữ liệu mới chứa 10.000 videos chính trị và phi chính trị được thu
thập từ Tiktok. Sau đây là hình ảnh mơ tả framework mà đề tài đã xây dựng:
Hình 1.1 Framework được đề xuất kết hợp dữ liệu chậm ở cấp độ video.
2
Hình 1.1 minh họa framework đề tài sẽ thực hiện:
-! Đầu tiên, chương trình thu thập sẽ tự động thu thập các video từ tiktok bao gồm:
thông tin tiêu đề, mô tả, video, audio và lưu vào cơ sở dữ liệu.
-! Sử dụng Google API speech to text [20] để chuyển các giọng nói trong video thành
văn bản, nối với tiêu đề, mô tả thành văn bản cuối; sử dụng giải pháp Word
Embedding bằng mơ hình Fasttext [14] một cơng cụ biểu diễn không gian từ hiệu
quả do facebook cung cấp để trích xuất đặc trưng và đưa ra điểm số phân loại dựa
trên đặc trưng văn bản. Trường hợp khơng có văn bản từ tiêu đề và giọng nói thì
kết quả của phân loại sẽ là Null.
-! Đối với đặc trưng hình ảnh, đầu tiên video được trích xuất thành các khung hình
chính.
§! Xây dựng một cơ sở dữ liệu cơ bản về gương mặt của các chính trị gia, sau
đó hiện thực lại mơ hình học sâu để phát hiện gương mặt của các người có
trong cơ sở dữ liệu. Sử dụng mơ hình MTCCN [9] để phát hiện gương mặt có
trong khung hình chính, tiếp theo sử dụng VGG-Face [10] để vector hóa
gương mặt này. Sau đó tìm kiếm trong cơ sở dữ liệu. Kết quả của mơ hình
này sẽ là có hoặc khơng.
§! Sử dụng mạng CNN Inception-V3 [12] để trích xuất đặc trưng và đưa ra điểm
số phân loại dựa trên đặc trưng hình ảnh.
-! Sử dụng chiến lược kết hợp chậm để đưa ra phân loại ở cấp độ video. Sau khi có
điểm số phân loại dựa trên ba đặc trưng là: hình ảnh, gương mặt và văn bản Light
GBM được sử dụng để tối ưu trọng số của các đặc trưng là: hình ảnh, gương mặt,
văn bản, và cuối cùng đưa ra đưa ra kết quả phân loại.
Các kết quả thử nghiệm của framework cho kết quả tốt hơn so với một số mơ hình
dựa trên đặc trưng riêng lẻ cũng như phương pháp kết hợp thơng thường. Cụ thể độ chính
xác tốt nhất của framework sau hai lần thử nghiệm đạt 0.93, và mơ hình dựa trên từng
đặc trưng văn bản, gương mặt, hình ảnh lần lượt là 0.88, 0.68, 0.88.
3
Đây là framework kết hợp đa mơ hình học tập có giám sát dựa trên nhiều đặc trưng
để phân loại hiệu quả video có yếu tố chính trị Việt Nam trên mạng xã hội Tiktok, những
đóng góp của đề tài này được liệt kê như sau:
-! Bộ dữ liệu 10.000 videos thu thập từ mạng xã hội Tiktok được gán nhãn chính trị
và phi chính trị gồm: tiêu đề, mơ tả, video, audio để làm đa dạng thêm cho việc
trình bày của bộ dữ liệu phân tích đa đặc trưng.
-! Một cách thức tiếp cận sử dụng chiến lược kết hợp chậm để đưa ra phân loại ở cấp
độ video bằng cách áp dụng gradient boosting (mơ hình Light GBM) vào bài tốn
phân loại, đối với phương pháp này mơ hình cho phép đầu vào là giá trị null nhằm
giải quyết vấn đề thiếu dữ liệu của các đặc trưng, và đưa ra được trọng số tầm quan
trọng của các đặc trưng trong việc phân loại video.
1.2!
Tính ứng dụng của đề tài
Trong thực tế, các nhà quản lý Việt Nam đang gặp phải rất nhiều khó khăn trong
việc nắm bắt thơng tin, tình hình diễn biến đang xảy ra trong nhiều ngành, nhiều lĩnh vực
nói chung và về chủ đề chính trị nói riêng trên các trang mạng xã hội. Lợi dụng “khoảng
trống thông tin” nhiều video tấn công vào sự hiếu kỳ của công chúng và làm mới thông
tin cũ, bịa đặt thông tin mới. Nhiều thông tin bị xun tạc, bóp méo sự thật, thơng qua
những tiêu đề “giật gân”, “câu khách” về vấn đề dư luận đang quan tâm, nhất là vấn đề
liên quan đến chính trị như: nội bộ Đảng, Nhà nước, tham nhũng, tiêu cực với mục đích
xâm phạm an ninh quốc gia, trật tự an tồn xã hội, quyền và lợi ích của tổ chức, cá nhân.
Nhiều video mang nội dung riêng tư, bịa đặt, xuyên tạc hoặc thật giả lẫn lộn nhằm khủng
bố tinh thần và tạo dư luận xã hội trên cộng đồng mạng phục vụ các ý đồ đen tối, gây
phương hại đến ổn định chính trị và trật tự, an tồn xã hội.
Bên cạnh đó, mỗi ngày có hàng tỷ video được đăng tải lên các trang mạng xã hội,
trong khi hệ thống kiểm duyệt của các trang mạng xã hội này không thể ngay lập tức
4
ngăn chặn các nội dung vi phạm pháp luật Việt Nam, mà phải có các yêu cầu gỡ bài từ
các nhà quản lý. Đến lúc đó các video vi phạm này đã được lan truyền rộng rãi gây ảnh
hưởng tiêu cực đến xã hội.
Hiện tại chưa có bất kỳ hệ thống nào có thể giải quyết triệt để vấn đề video vi phạm
pháp luật Việt Nam, mà phải có sự giám sát và phân loại bởi con người. Trong khi nguồn
lực con người có giới hạn, số lượng video cần nắm bắt và phân loại lên đến hàng tỷ mỗi
ngày.
Đề tài này sẽ cung cấp một framework tự động thu thập video từ Tiktok, phân loại
và đưa ra video có khả năng cao có yếu tố chính trị tích cực và tiêu cực. Từ đó giúp các
nhà quản lý tốn ít thời gian hơn để để nắm bắt thông tin trên mạng xã hội Tiktok.
Hình 1.2 Minh họa tính ứng dụng của framework.
5
1.3!
Mục tiêu và giới hạn của đề tài
1.3.1! Mục tiêu
Mục tiêu của đề tài này bao gồm:
-! Thu thập, xử lý các video từ Tiktok và văn bản từ các trang mạng để làm dữ
liệu: Để khách quan và khi huấn luyện các mơ hình khơng bị Overfitting, các video
sẽ được thu thập từ chính mạng xã hội Titkok. Do đặc trưng văn bản được kết hợp
gồm tiêu đề, mô tả và sinh ra từ giọng nói từ video tikok tương đơi ít, nên đề tài sẽ
thu thập thêm các văn bản từ các trang web: vnexpress.net, chinhphu.vn,
vietnamnet.vn để phục vụ cho quá trình huấn luyện và kiểm thử các mơ hình dựa
trên đặc trưng văn bản.
-! Nghiên cứu các mơ hình phân loại video dựa trên đa đặc trưng và kết hợp đa
mơ hình: đề tài đề xuất xây dựng framework đa mơ hình để trích xuất các đặc trưng
hình ảnh, văn bản của video; bằng chiến lược kết hợp chậm (slow fusion [1]) để
đưa ra phân loại cấp độ video; bộ phân loại ở cấp độ video sử dụng kỹ thuật
LightGBM [11] để thấy được trọng số của các đặc trưng và giải quyết được vấn đề
thiếu dữ liệu của một đặc trưng riêng lẻ.
-! Huấn luyện, tối ưu và thử nghiệm các mơ hình trên tập dữ liệu thu thập được:
tối thiểu hóa hàm mất mát, thử nghiệm và tối ưu khi huấn luyện mơ hình, từ đó
đánh giá độ chính xác so với các mơ hình dựa trên từng đặc trưng riêng lẻ.
-! Hiện thực ứng dụng phân loại video: từ mơ hình được huấn luyện, tiến hành xây
dựng ứng dụng giao diện người dùng, cho phép nhập đường dẫn video Titok, kết
quả đầu ra bao gồm: thơng tin video, hình ảnh, kết quả phân loại của framework.
-! Đưa ra kết luận và hướng phát triển tiếp theo của đề tài trong tương lai: Đề
tài thu được một số kết quả khả quan, từ đó đề xuất ra những hướng mở rộng trong
tương lai.
6
1.3.2! Giới hạn đề tài
Tiktok khơng có API [16] để các nhà phát triển thu thập dữ liệu, cũng như có chính
sách chặn các trình thu thập dữ liệu, vì vậy việc thu thập dữ liệu để phục vụ đề tài gặp
nhiều khó khăn; cùng với sự hạn chế về nhân lực và tài nguyên, vì vậy đề tài chỉ thu thập
được 10.000 video, với số lượng video hạn chế như vậy, đề tài sẽ khơng ứng dụng các
mơ hình học sâu kết hợp yếu tố không-thời gian như: CNN Fusion [1], CNN-LSTM [6],
LR-CN [6] để phân loại video theo như đề cương luận văn, vì các mơ hình này phải được
huấn luyện trên tập dữ liệu vài triệu video để đảm bảo mơ hình cho kết quả chính xác.
Thay vào đó, luận văn sẽ tiến hành hiện thực framework đã giới thiệu trong phần tổng
quan.
Đặc thù trên mạng xã hội Titkok các video đã được xử lý và thêm nhiều hiệu ứng
hình ảnh, và âm thanh, đặc biệt phần lớn video đều được gắn kèm nhạc nền, nên đặc
trưng âm thanh đề tài sẽ không sử dụng trong framework phân loại.
Bên cạnh đó, đề tài tập trung vào việc thu thập dữ liệu và xây dựng framework
phân loại, vì vậy đề tài sẽ sử dụng Google API speech to text [20] để chuyển giọng nói
của video thành văn bản.
Do đặc trưng dữ liệu, sau khảo sát dữ liệu nhận thấy rằng các văn bản trích xuất
được từ OCR (Optical Character Recognition – nhận diện ký tự quang học) rất ít, và bị
nhiễu nhiều bởi hiệu ứng trong video dẫn đến mơ hình phát hiện các văn bản hoạt động
khơng tốt. Ngoài ra khi kiểm tra nội dung các văn bản có thể có trong các video, tác giả
nhận thấy các nội dung đó khơng thống nhất với nội dung video, nên quyết định khơng
sử dụng OCR để trích xuất văn bản phục vụ việc nhận diện các video chính trị Việt Nam
trên mạng xã hội Tiktok.
Do thời gian thực hiện luận văn và nguồn lực có hạn, vì vậy, để có thể triển khai
tồn bộ framework một cách hồn chỉnh, đề tài giới hạn các video có yếu tố chính trị
Việt Nam gồm trường hợp:
7
-! Các hoạt động hội họp, các chuyến thăm và làm việc của 18 Ủy viên Bộ chính trị
khóa XIII;
-! Các hoạt động hội họp, các chuyến thăm và làm việc của 28 thành viên Chính phủ
nhiệm kỳ 2021 – 2026.
Đề tài cũng giới hạn chỉ thu thập và xây dựng cơ sở dữ liệu gương mặt của các
chính trị gia như đã nêu ở trên.
1.4!
Cấu trúc của luận văn
Chương 1: Tổng quan về nội dung, mục tiêu và cấu trúc luận văn.
Chương 2: Kiến thức nền tảng có liên quan đến đề tài như Word Embedding, mạng
nơ-ron, mạng CNN, mơ hình học chuyển tiếp, Light GBM ...
Chương 3: Các cơng trình nghiên cứu có liên quan đến đề tài.
Chương 4: Trình bày các phương pháp sử dụng khi hiện thực luận văn.
Chương 5: Mô tả thực tế hiện thực hệ thống và đánh giá kết quả.
Chương 6: Kết luận các kết quả đạt được, khó khăn, hạn chế và hướng mở rộng
của đề tài.
2!
KIẾN THỨC NỀN TẢNG
2.1!
Mạng nơron nhân tạo (Artificial Neural Network – ANN)
2.1.1! Giới thiệu
Mạng nơ-ron nhân tạo (Artificial Neural Network – ANN) là mơ hình xử lý thông
tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh của sinh vật, bao gồm rất
nhiều các node được liên kết với nhau tạo thành một mạng lưới cực kì lớn và phức tạp.
ANN hoạt động giống như bộ não của con người, được học bởi kinh nghiệm (thông qua
8
việc huấn luyện), có khả năng lưu giữ những kinh nghiệm hiểu biết (tri thức) và sử dụng
những tri thức đó trong việc dự đốn các dữ liệu chưa biết (unseen data).
Kiến trúc chung của một ANN gồm 3 thành phần chính, đó là: Input Layer, Hidden
Layer và Output Layer (hình 2.1). Trong đó, lớp ẩn (Hidden Layer) gồm các nơ-ron nhận
dữ liệu input từ các nơ-ron ở lớp (layer) trước đó và chuyển đổi các input này cho các
lớp xử lý tiếp theo. Trong một ANN có thể có nhiều lớp ẩn. Các node xử lý của ANN
gọi là nơ-ron. Chúng nhận các dữ liệu vào (inputs), tính tốn và cho ra một kết quả
(output) duy nhất. Kết quả xử lý của nơ-ron này có thể làm input cho các nơ- ron khác.
Q trình xử lý thơng tin của một ANN:
Mỗi input tương ứng với 1 thuộc tính (attribute) của dữ liệu. Các giá trị này thường
được đưa vào dưới dạng một vector m-chiều. Output là kết quả đầu ra tương ứng với dữ
liệu input. Các trọng số liên kết (Weights) là thành phần rất quan trọng của ANN, nó thể
hiện mức độ quan trọng giữa các input đầu vào đối với q trình xử lý thơng tin, chuyển
đổi dữ liệu từ layer này sang layer khác. Cuối cùng là bias (hệ số tự do) giúp chuẩn hoá
trong quá trình cập nhật trọng trọng số. Quá trình học (Learning Processing) của ANN
thực ra là quá trình điều chỉnh các Weights để có được kết quả mong muốn. Hàm tổng
(Summation Function) cho phép tính tổng có trọng số của tất cả các input được đưa vào
mỗi nơ-ron và giá trị bias. Hàm tổng của một nơ-ron đối với N input được tính theo cơng
thức sau:
Kết quả trên sẽ được cho vào một hàm kích hoạt (Activation function) để đánh giá
khả năng đi tiếp trong mạng. Có nghĩa là liệu output của nơ-ron này có thể được lan
truyền đến layer tiếp theo để làm input hay không?
� = � (� )
9
Việc lựa chọn hàm kích hoạt rất quan trọng vì nó có tác động lớn đến kết quả của
ANN. Người ta thường sử dụng các hàm phi tuyến để tăng hiệu năng cho mạng. Một số
hàm kích hoạt phổ biến sẽ được trình bày rõ ở phần sau.
2.1.2! Các hàm kích hoạt (Activation function)
Có rất nhiều dạng hàm phi tuyến tính có thể sử dụng cho các tầng ẩn. Hiện tại
khơng có lý thuyết nào về việc sử dụng hàm phi tuyến tính nào trong trường hợp nào, và
cách chọn hàm phi tuyến tính thích hợp cho một tác vụ cụ thể trong thực nghiệm. Trong
số các hàm phi tuyến tính, các hàm sau được sử dụng nhiều nhất: tanh, sigmoid, rectified
linear unit (ReLU).
Tanh
Hàm tanh có cơng thức tanh(�) = ! !∀ ∃# có dạng chữ S, biến đổi giá trị x vào
! !∀ ∀#
miền [-1, 1].
Hình 2.1 Đồ thị hàm tanh [22].
Sigmoid
Hàm Sigmoid có cơng thức �(� ) = #∃! #∀ có dạng chữ S, biến đổi giá trị x vào
#
miền [0,1].
10
Hình 2.2 Đồ thị hàm Sigmoid [22].
ReLU
Hàm ReLU, là một hàm phi tuyến tính đơn giản để sử dụng và cho kết quả rất tốt
trong thực nghiệm. Hàm ReLU sẽ biến mỗi giá trị x < 0 thành 0. Mặc dù đơn giản nhưng
ReLU lại hiệu quả với nhiều tác vụ, đặc biệt là khi kết hợp với kỹ thuật dropout
regularization. Hàm ReLU có cơng thức dạng:
0� < 0
����(� ) = 2
���ℎ������
Hình 2.3 Đồ thị hàm ReLU [22].
11