ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
VŨ DUY QUANG
PHÂN TÍCH CẢM XÚC DỰA TRÊN KHÍA CẠNH
NGÀNH: KHOA HỌC MÁY TÍNH
MÃ NGÀNH: 8480101
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, 07/2022
CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học :
• PGS.TS Quản Thành Thơ
• TS. Nguyễn Thiên Bình
Cán bộ chấm nhận xét 1 : PGS.TS Võ Thị Ngọc Châu
Cán bộ chấm nhận xét 2 : TS. Nguyễn Lưu Thùy Ngân
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG
Tp. HCM ngày 21 tháng 07 năm 2022
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. Chủ tịch: PGS.TS. Huỳnh Tường Nguyên
2. Thư ký: TS. Nguyễn Tiến Thịnh
3. Phản biện 1: PGS.TS Võ Thị Ngọc Châu
4. Phản biện 2: TS. Nguyễn Lưu Thùy Ngân
5. Uỷ viên: TS. Trần Thanh Tùng
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA KHOA HỌC VÀ
KỸ THUẬT MÁY TÍNH
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc!
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: VŨ DUY QUANG
MSHV: 2070013
Ngày, tháng, năm sinh: 17/09/1995
Nơi sinh: Đăk Lăk
Chuyên ngành: Khoa học Máy tính
Mã số : 8480101
.
I.!TÊN ĐỀ TÀI: PHÂN TÍCH C M XÚC D A TRÊN KHÍA C NH
ASPECT BASED SENTIMENT ANALYSIS
II. NHIỆM VỤ VÀ NỘI DUNG:
-! Nghiên cứu các phương pháp giải quyết bài toán Phân tích cảm xúc dựa trên khía
cạnh.
-! Nghiên cứu và xây dựng mơ hình Phân tích cảm xúc dựa trên khía cạnh cho ngơn
ngữ tiếng Việt.
-! Thực nghiệm và đánh giá kết quả.
III. NGÀY GIAO NHIỆM VỤ : 06/09/2021
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 06/06/2022
V.! CÁN BỘ HƯỚNG DẪN: PGS.TS Quản Thành Thơ, TS.Nguyễn Thiên Bình
Tp. HCM, ngày 07 tháng 06 năm 2022
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)
CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)
TRƯỞNG KHOA
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)
LỜI CÁM ƠN
Trước hết, tôi xin gửi lời cảm ơn sâu sắc đến PGS.TS. Quản Thành Thơ,
TS. Nguyễn Thiên Bình giảng viên hướng dẫn luận văn tốt nghiệp và là
những người thầy gắn bó với tơi trong q trình học tập. Chính nhờ những
tri thức các Thầy truyền đạt cùng với sự hướng dẫn tận tình, những góp ý
khoa học của Thầy đã giúp tơi hồn thành tốt nhất đề tài luận văn tốt nghiệp
này.
Tôi cũng xin chân thành gửi lời cảm ơn tới quý Thầy Cô đang công tác tại
Khoa Khoa học và Kĩ thuật Máy tính, Trường Đại Học Bách Khoa TP.HCM,
những người đã nhiệt tình truyền đạt kiến thức, kinh nghiệm trong suốt hai
năm học để tôi có được nền tảng kiến thức vững chắc như ngày hôm nay.
Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, bạn bè, những người đã
động viên, giúp đỡ tơi rất nhiều trong q trình thực hiện đề tài này.
Tp. Hồ Chí Minh, tháng 6 năm 2022
i
TÓM TẮT LUẬN VĂN
Việc phân loại được các thái cực cảm xúc được biểu đạt đối với một khía
cạnh cụ thể xuất hiện trong câu có thể mang lại những giá trị to lớn đối cho
nhiều lĩnh vực trong đời sống và trong nghiên cứu. Qua quá trình nghiên
cứu các cơng trình liên quan đến bài tốn Phân loại cảm xúc dựa trên khía
cạnh, tơi đã xây dựng một mơ hình phân loại thái cực cảm xúc đối với khía
cạnh được nhắc đến trong một câu tiếng Việt. Mơ hình này là sự kết hợp của
mơ hình ngơn ngữ BERT và một mạng nơ-ron truyền thẳng cùng với bốn
phương pháp xây dựng câu phụ trợ nhằm đưa bài toàn về dạng phân loại cặp
câu.
Từ kết quả đạt được, tôi hy vọng đề tài sẽ cung cấp những thơng tin hữu
ích cho các hệ thống phân tích cảm xúc cho ngơn ngữ tiếng Việt sau này.
ABSTRACT
Categorizing the sentiment polarity expressed for a particular aspect that
appear in a sentence can be of great value to many areas of life and research.
Through the process of researching works related to the problem of Aspectbased Sentiment Analysis, I have built a model to classify the sentiment
polarity of the aspect mentioned in a Vietnamese sentence. This model is a
combination of the BERT language model and a neural network along with
four auxiliary sentence construction methods to bring the whole problem
into the form of sentence pair classification.
From the obtained results, I hope that the thesis will provide useful information for future sentiment analysis systems for Vietnamese language.
ii
LỜI CAM ĐOAN
Tôi xin cam đoan rằng, đề tài luận văn tốt nghiệp "Phân tích cảm xúc
dựa trên khía cạnh" là cơng trình nghiên cứu của tơi dưới sự hướng dẫn của
PGS.TS Quản Thành Thơ và TS. Nguyễn Thiên Bình, xuất phát từ nhu cầu
thực tiễn và nguyện vọng tìm hiểu, nghiên cứu của bản thân tôi.
Ngoại trừ kết quả tham khảo từ các cơng trình khác đã ghi rõ trong luận
văn, các nội dung trình bày trong luận văn này là do chính tơi thực hiện và
kết quả của luận văn chưa từng được công bố trước đây dưới bất kì hình thức
nào.
HỌC VIÊN THỰC HIỆN
iii
Mục lục
.
LỜI CÁM ƠN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
i
.
TÓM TẮT LUẬN VĂN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ii
.
LỜI CAM ĐOAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii
Danh sách hình vẽ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vi
Danh sách bảng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vii
Chương 1. GIỚI THIỆU ĐỀ TÀI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.1. Giới thiệu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2. Mục tiêu và phạm vi đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3. Cấu trúc luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
Chương 2. CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN . . .
5
2.1. Sử dụng đặc trưng n-grams và từ điển cảm xúc . . . . . . . . . . .
5
2.2. Mở rộng mơ hình RNN và AdaRNN cho bài tốn Phân tích cảm
xúc dựa trên khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.3. Kết hợp cơ sở kiến thức chung vào LSTM . . . . . . . . . . . . . . . .
10
Chương 3. CƠ SỞ KIẾN THỨC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
3.1. Word Embedding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
3.1.1. Biểu diễn từ bằng vectơ one-hot . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
3.1.2. Kỹ thuật Word2vec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
3.2. Mơ hình BERT (Bidirectional Encoder Representations from
Transformers) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
Chương 4. PHƯƠNG PHÁP ĐỀ XUẤT . . . . . . . . . . . . . . . . . . . . . . .
18
4.1. Mơ tả bài tốn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
4.2. Phương pháp tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
4.3. Mơ hình đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
4.3.1. Xây dựng câu phụ trợ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
4.3.2. Xây dựng mơ hình phân loại với BERT . . . . . . . . . . . . . . . . . . . . .
25
4.3.3. Xử lý kết quả phân loại . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
Chương 5. THÍ NGHIỆM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
5.1. Tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
5.2. Các công cụ và thư viện . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
5.3. Các bước thực thiện . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
5.3.1. Tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
5.3.2. Chuẩn bị dữ liệu cho huấn luyện và đánh giá . . . . . . . . . . . . . . . .
29
5.3.3. Hiện thực mơ hình phân loại cảm xúc . . . . . . . . . . . . . . . . . . . . . . .
33
5.3.4. Huấn luyện và đánh giá mơ hình . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
5.4. Kết quả đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
Chương 6. KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
6.1. Kết quả đạt được . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
6.2. Hạn chế . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
6.3. Hướng phát triển . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
v
Danh sách hình vẽ
2.1
Cấu trúc phân cấp trong PhraseRNN: (a) Cây phụ thuộc, (b)
Cây phụ thuộc cụm, (c) Cây phụ thuộc cụm từ nhị phân phụ
thuộc mục tiêu . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2
Tổng quan kiến trúc . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1
Mơ hình CBOW và Skip-gram . . . . . . . . . . . . . . . . . . 14
3.2
Biểu diễn đầu vào của mơ hình BERT . . . . . . . . . . . . . . 15
3.3
Next Sentence Prediction (NSP) . . . . . . . . . . . . . . . . . 17
4.1
Tổng quan mơ hình phân loại sử dụng BERT và mạng nơron truyền thẳng . . . . . . . . . . . . . . . . . . . . . . . . . . 21
vi
Danh sách bảng
2.1
Độ chính xác của hệ thống cơ sở, một hệ thống phân loại
mọi mẫu vào lớp tích cực, hệ thống dựa trên các luật và hệ
thống sử dụng SVM trên tập huấn luyện và tập đánh giá
. . . .6
2.2
Kết quả đánh giá các phương pháp PhraseRNN . . . . . . . . . 9
5.1
Một ví dụ trong tập dữ liệu . . . . . . . . . . . . . . . . . . . . 29
5.2
Các mẫu huấn luyện mới được xây dựng với phương pháp
QA-M . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.3
Các mẫu huấn luyện mới được xây dựng với phương pháp
NLI-M
5.4
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Các mẫu huấn luyện mới được xây dựng với phương pháp
QA-B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.5
Các mẫu huấn luyện mới được xây dựng với phương pháp
NLI-B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.6
Kết quả đánh giá các mơ hình phân loại cặp câu . . . . . . . . . 35
vii
Chương 1
GIỚI THIỆU ĐỀ TÀI
1.1.
Giới thiệu bài toán
Với sự phát triển của công nghệ và Internet, các loại phương tiện truyền
thông xã hội như mạng xã hội, diễn đàn đã cho phép mọi người không chỉ
chia sẻ thông tin mà cịn bày tỏ quan điểm, thái độ của mình về các sản phẩm,
dịch vụ và các vấn đề xã hội khác. Internet trở thành một nguồn thông tin
vô cùng quý giá và quan trọng.
Ngày nay, mọi người sử dụng nó như một tài liệu tham khảo để đưa ra
quyết định mua sản phẩm hoặc sử dụng dịch vụ. Hơn nữa, loại thông tin này
cũng cho phép các nhà sản xuất và nhà cung cấp dịch vụ nhận được phản hồi
về những hạn chế của sản phẩm của họ và từ đó cải thiện chúng để đáp ứng
tốt hơn nhu cầu của khách hàng. Ngồi ra, nó cũng có thể giúp các cơ quan
chức năng biết được thái độ và ý kiến của người dân đối với các sự kiện xã
hội để từ đó có những điều chỉnh phù hợp.
Phân tích cảm xúc dựa trên khía cạnh (Aspect Based Sentiment Analysis
- ABSA) là một bài toán quan trọng trong xử lý ngơn ngữ tự nhiên. Nó khai
thác ý kiến từ văn bản về các đối tượng cụ thể và các khía cạnh của chúng.
Việc phân tích này có thể cung cấp thơng tin chi tiết có giá trị cho cả người
tiêu dùng và các doanh nghiệp.
1
1.2.
Mục tiêu và phạm vi đề tài
Đề tài này hướng đến việc tìm hiểu các phương pháp giải quyết bài tốn
Phân tích cảm xúc dựa trên khía cạnh và xây dựng một mơ hình Phân tích
cảm xúc dựa trên khía cạnh cho ngôn ngữ tiếng Việt dựa trên các phương
pháp tìm hiểu được.
Từ mục tiêu đó tác giả đề ra các mục tiêu cụ thể như sau:
− Tìm hiểu các cơng trình nghiên cứu liên quan đến bài tốn Phân tích
cảm xúc dựa trên khía cạnh.
− Tìm hiểu các kiến thức về mạng nơ-ron nhân tạo và xử lý ngôn ngữ tự
nhiên phục vụ cho bài tốn Phân tích cảm xúc dựa trên khía cạnh
− Tìm hiểu phương pháp ứng dụng mơ hình BERT [1] huấn luyện trước
cho phân tích cảm xúc dựa trên khía cạnh thơng qua việc xây dựng
câu phụ trợ được trình bày trong nghiên cứu của Chi Sun và cộng sự
[2];
− Xây dựng một mơ hình Phân tích cảm xúc dựa trên khía cạnh cho
ngơn ngữ Tiếng Việt dựa vào các phương pháp đã tìm hiểu được.
2
1.3.
Cấu trúc luận văn
Luận văn được chia làm 7 chương, bao gồm những khái niệm, kiến thức
nền tảng, các công trình nghiên cứu liên quan và mơ tả chi tiết phương pháp
đề xuất để giải quyết bài tốn "Phân tích cảm xúc dựa trên khía cạnh". Trong
Chương 1 (chương hiện tại), tôi giới thiệu khái quát về đề tài luận văn, nêu
rõ mục tiêu và phạm vi đề tài. Chương này giúp cho người đọc có cái nhìn
tồn cảnh về luận văn. Ở những chương sau, tơi trình bày các kiến thức nền
tảng, các cơng trình liên quan đến bài tốn và chi tiết về mơ hình xề xuất
cũng như các thí nghiệm và kết quả đánh giá của mơ hình. Cụ thể nội dung
chính của mỗi chương như sau:
Chương 2: Các cơng trình nghiên cứu liên quan
Trong Chương 2, tơi trình bày khái qt về một số phương pháp tiếp cận
giải quyết bài tốn "Phân tích cảm xúc dựa trên khía cạnh"
Chương 3: Kiến thức nền tảng
Chương 3 trình bày ngắn gọn các kiến thức, công nghệ nền tảng, cùng
một số thư viện và công cụ được sử dụng trong q trình nghiên cứu và hiện
thực mơ hình.
Chương 4: Phương pháp đề xuất
Trong Chương 4, tơi trình bày các u cầu của bài tốn "Phân tích cảm
xúc dựa trên khía cạnh", và đề xuất phương pháp giải quyết bài tốn này.
Chương 5: Hiện thực mơ hình và kết quả thực nghiệm
Chương này trình bày chi tiết về hiện thực của mơ hình, các cơng cụ và
thư viện sử dụng, các bước thực hiện, các phương pháp đánh giá và kết quả
3
thực nghiệm.
Chương 6: Kết luận
Trong chương cuối cùng, tơi tóm tắt kết quả đạt được trong quá trình
làm luận văn, trình bày những đóng góp và hạn chế của luận văn, và đề xuất
hướng phát triển tiếp theo.
4
Chương 2
CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN
QUAN
Các cơng trình nghiên cứu sớm nhất về Phân tích cảm xúc dựa trên khía
cạnh chủ yếu dựa trên việc xây dựng các đặc trưng từ câu đầu vào kết hợp
với một số thông tin về ngữ nghĩa, khái niệm và cấu trúc của các thành phần
trong câu.
2.1.
Sử dụng đặc trưng n-grams và từ điển cảm
xúc
Trong cơng trình nghiên cứu năm 2014 [3] Wagner và cộng sự đã trình
bày phương pháp sử dụng đặc trưng n-grams (với n từ 1 đến 5) kết hợp với
đặc trưng trích xuất từ điểm số chỉ định bởi một từ điển cảm xúc (sentiment
lexicon) để xây dựng các đặc trưng cho câu đầu vào.
Hệ thống phân loại sử dụng học máy có giám sát với SVM để phân loại
một khía cạnh vào một trong bốn lớp. Đặc trưng xây dựng là "word n-grams"
(với n từ 1 tới 5) xung quanh từ chỉ khía cạnh (aspect term) kết hợp với đặc
trưng trích xuất từ điểm số được gán bởi một từ điển cảm xúc (sentiment
lexicon).
Có bốn từ điển cảm xúc được sử dụng, bao gồm:
− MPQA [4] phân loại một từ hoặc một cụm vào các lớp tích cực, tiêu
cực, cả hai hoặc trung tính với mức độ chủ quan mạnh hoặc yếu.
5
Dataset
Laptop
Laptop
Laptop
Laptop
Restaurant
Restaurant
Restaurant
Restaurant
System
Baseline
All positive
Rule-based
Baseline
SVM
All positive
Rule-based
SVM
Training
41.9%
65.4%
72.3%
58.6%
69.5%
72.7%
Test
51.1%
52.1%
67.7%
70.5%
64.3%
64.2%
77.8%
81.0%
Bảng 2.1: Độ chính xác của hệ thống cơ sở, một hệ thống phân loại mọi
mẫu vào lớp tích cực, hệ thống dựa trên các luật và hệ thống sử dụng SVM
trên tập huấn luyện và tập đánh giá
− SentiWordNet [5] đầu ra là nhãn tích cực hoặc tiêu cực cùng với điểm
số chủ quan.
− General Inquirer xác định một từ biểu diễn cảm xúc tích cực hay
tiêu cực
− Bing Liu’s Opinion Lexicon [6] xác định một từ biểu diễn cảm xúc
tích cực hay tiêu cực
Dựa trên kết hợp điểm số của của các từ điển cảm xúc, nhóm tác giả của
cơng trình này trước hết đã xây dựng một hệ thống phân loại dựa trên các
luật (rule-based) để phân loại thái cực cảm xúc của một từ khía cạnh. Từ đó
khám phá thêm nhiều cách khác nhau để biến đổi hệ thống dựa trên các luật
này thành các đặc trưng có thể kết hợp được với các đặc trưng bag-of-n-gram
trong một hệ thống học máy có giám sát sử dụng SVM.
Bảng 2.1 thể hiện độ chính xác huấn luyện và đánh giá của hệ thống cơ
sở, một hệ thống phân loại mọi mẫu là tích cực, hệ thống dựa trên các luật
và hệ thống sử dụng SVM.
6
2.2.
Mở rộng mơ hình RNN và AdaRNN cho bài
tốn Phân tích cảm xúc dựa trên khía cạnh
Năm 2015, Thien Hai Nguyen cùng cộng sự đã đề xuất phương pháp
ứng dụng mạng nơ-ron hồi quy (RNN) [7] để giải quyết bài tốn phân tích
cảm xúc dựa trên khía cạnh. Phương pháp này đã đạt được độ chính xác cao
hơn so với các phương pháp trước đó.
Phương pháp mà nhóm tác giả đề xuất là một mơ hình mở rộng của RNN
và AdaRNN, ý tưởng cơ bản của mơ hình này là làm cho biểu diễn khía cạnh
phong phú hơn bằng cách sử dụng thông tin cú pháp từ cả cây phụ thuộc và
cây cấu thành của câu.
Trong RNN và AdaRNN, cho một câu chứa một khía cạnh, cây phụ
thuộc nhị phân (binary dependency tree) được xây dựng từ cây phụ thuộc
của câu. Về mặt trực quan, nó biểu thị các quan hệ cú pháp liên kết với khía
cạnh. Mỗi từ (lá) hay cụm từ (nút nội) trong cây phụ thuộc nhị phân được
biểu diễn dưới dạng một véc tơ d chiều. Tư nút là đi lên nút gốc, biểu diễn
của một nút cha v được tính tốn bằng cách kết hợp các vectơ biểu diễn của
nút con bên trái (vl ) và nút con bên phải (vl ) sử dụng một hàm toàn cục g
trong RNN:
vl
g(vl , vr ) = W + b
vr
(2.1)
trong đó W ∈ Rd×2d là ma trận hợp (composition matrix) và b ∈ Rd là
độ lệch (bias). Cuối cùng v = f (g(vl ,Vr )) trong đó f là một hàm phi tuyến
ví dụ như hàm tanh.
Thay vì sử dụng một hàm tồn cục g duy nhất, AdaRNN sử dụng n
7
hàm tổng hợp G = {g1 , ..., gn } và lựa chọn chúng dựa trên các thẻ ngôn ngữ
(linguistic tags) và kết hợp các véc-tơ như sau:
n
v = f ( ∑ P(gi |vl , vr , e)gi (vl , vr ))
(2.2)
n=1
Trong mơ hình PhraseRNN, biểu diễn của một khía cạnh sẽ thu được
từ "cây phụ thuộc cụm từ nhị phân phụ thuộc mục tiêu" (target dependent
binary phrase dependency tree) được xây dựng bằng cách kết hợp cây thành
phần (constituent tree) và cây phụ thuộc (dependency tree).
Hình 2.1: Cấu trúc phân cấp trong PhraseRNN: (a) Cây phụ thuộc, (b) Cây
phụ thuộc cụm, (c) Cây phụ thuộc cụm từ nhị phân phụ thuộc mục tiêu
Đầu tiên, các cụm cơ bản được trích xuất từ cây thành phần của câu.
Với một cây phụ thuộc và một danh sách các cụm, một cây phụ thuộc cụm
(phrase dependency tree) được tao ra. Tiếp theo, cây phụ thuộc cụm này sẽ
được biến đổi thành một cây phụ thuộc cụm từ nhị phân phụ thuộc mục tiêu.
Mỗi nốt trong cây nhị phân này được biểu diễn dưới dạng một véc tơ d chiều.
PhraseRNN sử dụng hai loại hàm tổng hợp khác nhau, kết hợp hai loại
hàm này tạo ra bốn mơ hình với kết quả đánh giá như trong bảng 2.2
8
Phương pháp
PhraseRNN-1
PhraseRNN-2
PhraseRNN-3
PhraseRNN-4
Accuracy
64.65
63.94
66.20
65.92
Precision
58.59
62.40
53.88
60.26
Recall
64.65
63.94
66.20
65.92
F-measure
59.67
62.21
59.32
59.80
Bảng 2.2: Kết quả đánh giá các phương pháp PhraseRNN
9
2.3.
Kết hợp cơ sở kiến thức chung vào LSTM
Trong nghiên cứu năm 2018 [8], Yukun Ma và cộng sự đã kết hợp kiến
thức chung hữu ích vào một mạng nơ-ron học sâu để cải thiện hơn nữa kết
quả của mô hình Phân tích cảm xúc dựa trên khía cạnh.
Phương pháp này học cùng lúc target-specific instance attention và global
attention. Đóng góp của phương pháp được trình bày trong nghiên cứu này
bao gồm 3 phần:
1. Đề xuất một mơ hình chú ý phân cấp (hierarchical attention model),
trước hết chú ý đến các mục tiêu và sau đó đến tồn bộ câu.
2. Mở rộng phần tử LSTM cổ điển với các thành phần chịu trách nhiệm
cho sự tích hợp với kiến thức bên ngồi;
3. Kết hợp kiến thức thơng thường vào một mạng nơ-ron học sâu.
Kiến trúc nơ-ron của mơ hình này bao gồm hai thành phần: bộ mã hoá
chuỗi (sequence encoder) và một thành phần chú ý phân cấp (a hierarchical
attention component).
Hình 2.2 minh hoạ cách thức hoạt động của kiến trúc nơ-ron. Cho một
câu s = {w1 , w2 , ..., wL }, đầu tiên một tác vụ tìm kiếm sẽ được thực hiện
để chuyển đổi các từ đầu vào thành các embeddings. Bộ mã hố chuỗi sử
dụng trong mơ hình này dựa trên một mơ hình LSTM hai chiều, biến đổi
embeddings của các từ thành một chuỗi các đầu ra ẩn (hidden output). Thành
phần chú ý sẽ được đặt trên các hidden output. Thành phần chú ý mức mục
tiêu (target-level attention) nhận đầu vào là các hidden output ở vị trí của
các từ chỉ mục tiêu (màu nâu trong hình) và tính tốn véc tơ self-attention
cho các từ này.
Đầu ra của thành phần target-level attention là một biểu diễn của mục
10
Hình 2.2: Tổng quan kiến trúc
tiêu. Sau cùng, biểu diễn mục tiêu cùng với các embeddings khía cạnh được
sử dụng cho việc tính tốn một sentence-level attention, biến đổi cả câu
thành một véc tơ. Véc tơ này được đưa vào bộ phân loại nhiều nhãn để phân
giải thái cực cảm xúc của cặp mục tiêu và khía cạnh trong câu.
Để cải thiện độ chính xác của bộ phân loại cảm xúc, nghiên cứu này còn
sử dụng thêm bộ dữ liệu về kiến thức chung để làm nguồn tri thức đưa vào
bộ mã hoá chuỗi. Cụ thể, nghiên cứu này sử dụng SenticNet một cơ sở kiến
thức chung chứa 50,000 khái niệm liên quan đến một tập hợp các thuộc tính
cảm xúc phong phú. Các thuộc tính cảm xúc này khơng chỉ cung cấp sự biểu
diễn ở cấp độ khái niệm mà còn cung cấp các liên kết ngữ nghĩa với các khía
cạnh và cảm xúc của chúng. Ví dụ, khái niệm ’rotten fish’ (cá ươn) có thuộc
tính "KindOffood" (Loại thực phẩm) có liên hệ trực tiếp với các khía cạnh
như ’restaurant’ (nhà hàng) hay ’food quality’ (chất lượng thực phẩm).
Để tận dụng kiến thức chung về cảm xúc của SenticNet một cách hiệu
quả, các tác giả của nghiên cứu này đã đề xuất một phần mở rộng liên quan
đến cảm xúc của LSTM, được gọi là Sentic LSTM. Sentic LSTM hướng đến
đưa ra các khái niệm với hai vai trò quan trọng: 1) hỗ trợ lọc thông tin từ
bước này sang bước tiếp theo và 2) cung cấp thông tin bổ sung cho ô nhớ.
11
Chương 3
CƠ SỞ KIẾN THỨC
3.1.
Word Embedding
Word Embedding là một phương pháp hiệu quả trong việc biểu diễn từ.
Nó đề xuất rằng một vector biểu diễn từ có thể hàm chứa ngữ nghĩa của các
từ trong các vectơ số, từ đó có thể được xử lý một cách hiệu quả bằng máy
tính. Có nhiều kỹ thuật Word Embedding đã được đề xuất như Word2vec
[9], GloVe [10], fastText [11], ELMO [12] và BERT. Nói chung, một kỹ
thuật word embedding cần thoả mãn các điều kiện sau:
− Chỉ có một biểu diễn duy nhất cho mỗi từ, hai từ khác nhau được biểu
diễn bằng hai vectơ khác nhau.
− Hai từ giống nhau về ngữ nghĩa nên được biểu diễn bằng hai vectơ
tương tự nhau, gần nhau về khoảng cách trong không gian các vectơ.
3.1.1.
Biểu diễn từ bằng vectơ one-hot
Vectơ one-hot một kỹ thuật dùng để mã hoá các mẫu dữ liệu phân loại
thành các vectơ số. Cơ bản một vectơ one-hot là một vectơ nhị phân chứa
các giá trị 0 hoặc 1. Cụ thể, chỉ có một chiều duy nhất của vectơ one- hot có
giá trị là 1, các chiều cịn lại có giá trị 0. Dựa trên kỹ thuật này, tất cả các
từ trong một văn bản có thể được biểu diễn thành các vectơ one-hot với số
chiều bằng số lượng từ vựng của ngơn ngữ.
Mã hố one-hot có thể dùng để chuyển đổi mọi từ trong một từ điển
thành một vectơ số nên nó được sử dụng trong nhiều mơ hình xử lý ngôn
ngữ tự nhiên và học máy, đặc biệt trong các trường hợp kích thước của tập
12
từ vựng là tương đối nhỏ. Kỹ thuật này thoả mãn yêu cầu rằng các từ khác
nhau được biểu diễn bởi các vectơ khác nhau. Tuy nhiên kỹ thuật này vẫn
còn tồn tại một số nhược điểm:
− Khi làm việc với kích thước từ vựng lớn, kỹ thuật này sinh ra các vectơ
thưa với số chiều lớn, hầu hết các chiều của vectơ đều có giá trị 0.
− Kỹ thuật này không biểu diễn được sự khác nhau về mặt ngữ nghĩa
của các từ. Hai vectơ one-hot bất kỳ luôn có khoảng cách
3.1.2.
Kỹ thuật Word2vec
Word2vec là một trong những kỹ thuật phổ biến được sử dụng trong lĩnh
vực Xử lý ngơn ngữ tự nhiên. Nó được cơng bố cơng khai vào năm 2013
bởi một nhóm các nhà nghiên cứu do Tomas Mikolov dẫn đầu. Dựa trên
AutoEncoder [13], Word2vec đã giải quyết các vấn đề liên quan đến ỹ nghĩa
ngữ cảnh của mơ hình AutoEncoder bằng cách chuyển đổi mỗi từ trong kho
văn bản thành một vectơ dựa trên thông tin ngữ cảnh trong kho văn bản đó.
Vì thế mơ hình này có khả năng học hỏi để sinh ra các vectơ giống nhau cho
những từ chia sẻ cùng một thông tin ngữ cảnh. Thông tin ngữ cảnh của một
từ là một cửa sổ bao gồm phần bên trái và phần bên phải của từ đó, được gọi
là các từ ngữ cảnh. Kích thước của cửa sổ này ký hiệu là k, biểu diễn k từ
bên trái và k từ bên phải của từ đang xét.
Hai kỹ thuật huấn luyện chính của Word2vec là CBOW và Skip-gram
− CBOW (Continuous Bag of Words). Ý tưởng của CBOW là nó
tiên đốn một từ dựa trên các từ ngữ cảnh xung quanh từ đó. Cho
một từ wt ở vị trí t trong chuỗi, các từ ngữ cảnh của nó bao gồm
(wt−m , ..., wt−1 , wt+1 , ..., wt+m ). Mơ hình CBOW được biểu diện trong
13
Hình 3.1: Mơ hình CBOW và Skip-gram
Hình 3.1. Trong đó, C là số lượng từ ngữ cảnh, V là kích thước tập từ
vựng, N là số lượng nút của tầng ẩn, N tương đối nhỏ so với V .
Khi được huấn luyện với kho văn bản lớn, ta thu được ma trận W kích
thước V × N, với ma trận này một vectơ one-hot bất kìe với kích thước
1 ×V có thể được biến đổi thành một vectơ kích thước 1 × N.
− Mơ hình Skip-gram. Mơ hình này tương tự như CBOW, tuy nhiên
đầu vào và đầu ra đổi chỗ cho nhau. Đầu ra của Skip-gram là các từ
ngữ cảnh của một từ đầu vào.
14
3.2.
Mơ hình BERT (Bidirectional Encoder Representations from Transformers)
BERT [1] là một mơ hình biểu diễn ngơn ngữ được cơng bố bởi các nhà
nghiên cứu tại Google AI Language. Mơ hình này được sử dụng nhiều trong
lĩnh vực Xử lý ngôn ngữ tự nhiên gần đây.
BERT sử dụng Transformer [14], một cơ chế attention có khả năng học
các mối quan hệ ngữ cảnh giữa các từ trong văn bản. Ở dạng đầy đủ Transformer bao gồm hai cơ chế tách biệt, một encoder đọc vào các văn bản, một
decoder tạo ra các dự đoán. BERT chỉ sử dụng cơ chế encoder của Transformer.
Đầu vào của BERT là một chuỗi các token được embed thành các vectơ
sau đó được xử lý trong mạng nơ-ron. Đầu ra là một chuỗi các vectơ có số
chiều H, mỗi vectơ tương ứng với một token đầu vào ở cùng vị trí.
Hình 3.2: Biểu diễn đầu vào của mơ hình BERT
Có hai kỹ thuật được sử dụng khi huấn luyện BERT:
− Masked LM (MLM)
Trước khi chuỗi các từ được đưa vào BERT, 15% số từ được thay thế
bằng token [MASK]. Sau đó mơ hình BERT sẽ cố gắng phán đoán từ
15