ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
TRẦN UYÊN TRANG
KHAI PHÁ QUAN ĐIỂM VỚI KỸ THUẬT HỌC SÂU
(Opinion mining with deep learning)
LUẬN ÁN TIẾN SĨ KỸ THUẬT
ĐÀ NẴNG – 2023
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
TRẦN UYÊN TRANG
KHAI PHÁ QUAN ĐIỂM VỚI KỸ THUẬT HỌC SÂU
(Opinion mining with deep learning)
Ngành: Khoa học máy tính
Mã sớ: 9.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Cán bộ hướng dẫn:
1. TS. Hoàng Thị Thanh Hà
2. TS. Đặng Hoài Phương
ĐÀ NẴNG – 2023
ii
LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu do tôi thực hiện, dưới sự hướng
dẫn của TS. Hoàng Thị Thanh Hà và TS. Đặng Hoài Phương. Tơi cam đoan các kết quả
nghiên cứu được trình bày trong luận án là trung thực và không sao chép từ bất kỳ cơng
trình nghiên cứu nào khác. Mọi trích dẫn trong luận án đều đề cập đến nguồn gốc xuất
xứ rõ ràng và đầy đủ.
Tác giả
Trần Uyên Trang
iii
MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................III
MỤC LỤC .................................................................................................................... IV
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT.................................................... VII
DANH MỤC BẢNG .................................................................................................... IX
DANH MỤC HÌNH ...................................................................................................... X
PHẦN MỞ ĐẦU ............................................................................................................ 1
1.
TÍNH CẤP THIẾT CỦA LUẬN ÁN ........................................................................... 1
2.
MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU CỦA LUẬN ÁN ...................... 4
3.
CÁC ĐÓNG GÓP CỦA LUẬN ÁN ............................................................................. 5
4.
BỐ CỤC CỦA LUẬN ÁN .......................................................................................... 6
CHƯƠNG 1- TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM VÀ KỸ THUẬT
HỌC SÂU ....................................................................................................................... 9
1.1. KHAI PHÁ QUAN ĐIỂM ......................................................................................... 9
1.2. CÁC CẤP ĐỘ KHAI PHÁ QUAN ĐIỂM .................................................................. 11
1.2.1. Khai phá quan điểm mức tài liệu .............................................................. 12
1.2.2. Khai phá quan điểm mức câu.................................................................... 12
1.2.3. Khai phá quan điểm mức khía cạnh hay mức đặc trưng ......................... 12
1.3. CÁC HƯỚNG NGHIÊN CỨU KHAI PHÁ QUAN ĐIỂM ............................................ 13
1.3.1. Hướng tiếp cận dựa trên ngữ liệu ............................................................. 14
1.3.2. Hướng tiếp cận máy học ............................................................................ 14
1.3.3. Các nghiên cứu liên quan ......................................................................... 16
1.4. MỘT SỐ HẠN CHẾ CỦA CÁC TIẾP CẬN KHAI PHÁ QUAN ĐIỂM HIỆN NAY ......... 24
1.5. HỌC SÂU VÀ NHÓM KỸ THUẬT HỌC SÂU ĐƯỢC SỬ DỤNG TRONG CÁC MƠ HÌNH
KHAI PHÁ QUAN ĐIỂM ĐỀ XUẤT ..................................................................... 30
1.5.1. Học sâu ....................................................................................................... 30
iv
1.5.2. Các kỹ thuật học sâu phổ biến dùng trong xử lý ngôn ngữ tự nhiên và
khai phá quan điểm............................................................................................... 34
1.6. ĐỀ XUẤT NGHIÊN CỨU: KHAI PHÁ QUAN ĐIỂM VỚI KỸ THUẬT HỌC SÂU ........ 46
1.7. KẾT LUẬN CHƯƠNG 1 ........................................................................................ 47
CHƯƠNG 2-TRÍCH RÚT KHÍA CẠNH TRONG KHAI PHÁ QUAN ĐIỂM VỚI
HƯỚNG TIẾP CẬN HỌC SÂU ................................................................................ 49
2.1. TRÍCH RÚT KHÍA CẠNH VỚI HƯỚNG TIẾP CẬN HỌC SÂU .................................. 49
2.2. MƠ HÌNH TRÍCH RÚT KHÍA CẠNH VỚI TIẾP CẬN HỌC SÂU ĐỀ XUẤT................ 54
2.2.1. Mơ hình tích hợp BiGRU-CRF cho trích rút khía cạnh .......................... 55
2.2.2. Mơ hình tích hợp Bi-IndyLSTM-CRF cho trích rút khía cạnh ............... 59
2.3. KẾT QUẢ THỰC NGHIỆM.................................................................................... 64
2.3.1. Tập dữ liệu và công cụ sử dụng trong thực nghiệm ................................ 64
2.3.2. Kết quả thực nghiệm và đánh giá hiệu quả trích rút khía cạnh .............. 65
2.4. KẾT LUẬN CHƯƠNG 2........................................................................................ 67
CHƯƠNG 3-KHAI PHÁ QUAN ĐIỂM MỨC KHÍA CẠNH ĐA TÁC VỤ VỚI
HƯỚNG TIẾP CẬN HỌC SÂU ................................................................................ 68
3.1. KHAI PHÁ QUAN ĐIỂM MỨC KHÍA CẠNH ĐA TÁC VỤ ........................................ 68
3.2. MƠ HÌNH KHAI PHÁ QUAN ĐIỂM MỨC KHÍA CẠNH ĐA TÁC VỤ VỚI TIẾP CẬN
HỌC SÂU ĐỀ XUẤT .......................................................................................... 69
3.2.1. Mơ hình CNN-BiGRU cho trích rút khía cạnh và quan điểm ................. 71
3.2.2. Mơ hình CNN-IOB2 cho trích rút từ mục tiêu ......................................... 76
3.2.3. Mơ hình MABSA cho trích rút và phân loại ba tác vụ tiếp theo: khía
cạnh, thực thể và quan điểm................................................................................. 82
3.3. KẾT QUẢ THỰC NGHIỆM CÁC MƠ HÌNH ............................................................ 89
3.3.1. Tập dữ liệu và công cụ sử dụng trong thực nghiệm ................................ 90
3.3.2. Kết quả thực nghiệm, đánh giá hiệu quả khai phá quan điểm đa tác vụ 91
3.4. KẾT LUẬN CHƯƠNG 3........................................................................................ 97
CHƯƠNG 4-KHAI PHÁ QUAN ĐIỂM MỨC KHÍA CẠNH ĐA TÁC VỤ, ĐA
MIỀN VỚI HƯỚNG TIẾP CẬN HỌC SÂU ............................................................ 99
v
4.1. KHAI PHÁ QUAN ĐIỂM MỨC KHÍA CẠNH ĐA MIỀN.......................................... 101
4.2. MƠ HÌNH KHAI PHÁ QUAN ĐIỂM MỨC KHÍA CẠNH ĐA TÁC VỤ ĐA MIỀN ĐỀ
XUẤT ............................................................................................................. 102
4.2.1. Mơ hình khai phá quan điểm mức khía cạnh đa miền CNN-BiLSTM . 103
4.2.2. Mơ hình khai phá quan điểm mức khía cạnh đa tác vụ, đa miền CNNBiIndyLSTM-Attention ....................................................................................... 110
4.3. KẾT QUẢ THỰC NGHIỆM.................................................................................. 115
4.3.1. Tập dữ liệu và công cụ sử dụng trong thực nghiệm .............................. 116
4.3.2. Kết quả thực nghiệm và đánh giá hiệu quả khai phá quan điểm đa tác vụ
trên đơn miền và đa miền ................................................................................... 117
4.4. KẾT LUẬN CHƯƠNG 4...................................................................................... 124
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................................... 126
KẾT LUẬN ................................................................................................................ 126
HƯỚNG PHÁT TRIỂN ............................................................................................... 132
DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ ........................ 133
TÀI LIỆU THAM KHẢO ........................................................................................ 135
vi
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT
STT
Thuật ngữ
1
Đơn vị tuyến tính được chỉnh
lưu
2
Học máy
3
Học sâu
4
Khai phá quan điểm/Phân tích
cảm xúc
5
Khai phá quan điểm mức tài
liệu
6
Khai phá quan điểm mức câu
7
Khai phá quan điểm mức khía
cạnh/đặc trưng
8
Khai phá quan điểm mức khía
cạnh/đặc trưng đa tác vụ
9
Khai phá quan điểm mức khía
cạnh/đặc trưng đa miền
10 Ma trận đồng xuất hiện
11 Mạng neural hồi quy
12 Mạng neural hồi quy hai
chiều
13 Mạng bộ nhớ ngắn dài
14 Mạng bộ nhớ ngắn dài hai
chiều
15 Mạng bộ nhớ ngắn dài độc lập
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
Tiếng Anh
Rectified Linear Unit
Viết tắt
ReLU
Machine learning
Deep learning
Opinion mining/Sentiment analysis
ML
DL
OM/SA
Document_based sentiment analysis
DBSA
Sentence_based sentiment analysis
Aspect/Feature_based sentiment
analysis
Multitask aspect/feature_based
sentiment analysis
Multidomain aspect/feature_based
sentiment analysis
Co-occurrence matrix
Recurrent Neural Network
Bidirectional Recurrent Neural
Network
Long_Short Term Memory
Bidirectional Long_Short Term
Memory
Independently Long_Short Term
Memory
Mạng bộ nhớ ngắn dài độc lập Bidirectional Independently
hai chiều
Long_Short Term Memory
Mạng đơn vị hồi quy có cổng Gated Recurrent Unit
Mạng đơn vị hồi quy có cổng Bidirectional Gated Recurrent Unit
hai chiều
Mạng neural đệ quy
Recursive Neural Network
Mạng neural tích chập
Convolutional Neural Network
Máy vector hỗ trợ
Support Vector Machine
Mơ hình Markov ẩn
Hidden Markov Models
Phân bổ Dirichlet tiềm ẩn
Latent Dirichlet Allocation
Phân loại miền
Domain classification
Phân loại quan điểm
Sentiment classification
Phân rã đạo hàm
Gradient decay
Phân tích ngữ nghĩa tiềm ẩn
Latent Semantic Analysis
Phân tích ngữ nghĩa tiềm ẩn
Probabilistic Latent Semantic
xác suất
Analysis
Quan điểm
Opinion
Quan điểm tích cực
Positive opinion
Quan điểm tiêu cực
Negative opinion
Quan điểm trung lập
Neutral opinion
SBSA
ABSA
MABSA
RNN
BiRNN
LSTM
BiLSTM
IndyLSTM
BiIndyLSTM
GRU
BiGRU
CNN
SVM
HMM
LDA
LSA
pLSA
vii
33
34
35
36
37
38
39
Quá khớp
Trích rút khía cạnh
Trích rút từ mục tiêu quan
điểm
Trích rút thực thể
Trường ngẫu nhiên có điều
kiện
Triệt tiêu/bùng nổ đạo hàm
Vector toàn cục
Overfitting
Aspect extraction
Opinion target extraction
Entity extraction
Conditional Random Field
CRF
Vanishing/exploding gradient
Global Vector
GloVe
viii
DANH MỤC BẢNG
Bảng 1.1. Các mơ hình khai phá quan điểm dựa trên hướng tiếp cận ngữ liệu nổi bật và hiệu
suất của các mơ hình ................................................................................................................. 26
Bảng 1.2. Các mơ hình khai phá quan điểm dựa trên hướng tiếp cận máy học nổi bật và hiệu
suất của các mô hình ................................................................................................................. 27
Bảng 2.1. Tập dữ liệu SemEval 2014 ....................................................................................... 65
Bảng 2.2. So sánh độ đo F1 trên mơ hình BiGRU-CRF và Bi-IndyLSTM-CRF với các mơ hình
hiện có ....................................................................................................................................... 65
Bảng 3.1. Sử dụng miền Restaurant trong tập dữ liệu SemEval 2016 cho thực nghiệm ......... 90
Bảng 3.2. Kết quả thực nghiệm mơ hình hiện có so với các mơ hình đề xuất của luận án trong
Chương 2 và Chương 3 trên miền Laptop của tập dữ liệu SemEval 2014 ............................... 92
Bảng 3.3. Kết quả thực nghiệm mơ hình hiện có so với các mơ hình đề xuất của luận án trong
Chương 2 và Chương 3 trên miền Restaurant của tập dữ liệu SemEval 2014 ......................... 92
Bảng 3.4. Kết quả thực nghiệm xét trên độ đo F1 và Accuracy của các mơ hình hiện có và mơ
hình CNN-IOB2 trên miền Restaurant của SemEval 2016 ...................................................... 95
Bảng 3.5. Kết quả thực nghiệm mơ hình MABSA đề xuất xét trên các độ đo Precision, Recall,
F1 và Accuracy trên miền Restaurant của tập SemEval 2016 .................................................. 96
Bảng 4.1. Tập dữ liệu huấn luyện gồm các đơn miền Restaurant, Laptop của tập SemEval 2016,
đa miền Laptop_Restaurant, và đa miền Laptop_Restaurant_Hotel ...................................... 117
Bảng 4.2. Trích rút khía cạnh xét trên độ đo Precision, Recall và F1 của hai mơ hình đề xuất so
với các mơ hình hiện có trên miền Laptop và Restaurant....................................................... 118
Bảng 4.3. Kết quả thực nghiệm mơ hình CNN-BiLSTM trên đa miền Laptop_Restaurant .. 120
Bảng 4.4. Kết quả thực nghiệm mơ hình CNN-BiIndyLSTM-Attention trên đa miền
Laptop_Restaurant_Hotel ....................................................................................................... 121
Bảng 4.5. Trích rút khía cạnh xét trên độ đo Precision, Recall và F1 của hai mơ hình đề xuất so
với các mơ hình hiện có trên đơn miền Restaurant, đa miền Laptop_Restaurant và đa miền
Laptop_Restaurant_Hotel ....................................................................................................... 122
Bảng 5.1. Bảng tổng hợp đặc điểm của các mơ hình khai phá quan điểm đề xuất ................ 128
ix
DANH MỤC HÌNH
Hình 1.1. Các cấp độ cụ thể trong khai phá quan điểm............................................................ 12
Hình 1.2. Mơ hình mạng neural đơn giản gồm 1 lớp ẩn .......................................................... 32
Hình 1.3. Mơ hình mạng học sâu gồm 3 lớp ẩn ....................................................................... 33
Hình 1.4. Mạng neural tích chập .............................................................................................. 35
Hình 1.5. Tính tốn với MaxPooling ....................................................................................... 36
Hình 1.6. Mơ hình CNN trong xử lý văn bản .......................................................................... 37
Hình 1.7. Mơ hình mạng RNN và các tính tốn bên trong RNN ............................................. 38
Hình 1.8. Cấu trúc của mơ-đun trong RNN ............................................................................. 40
Hình 1.9. Cấu trúc của mơ-đun trong LSTM ........................................................................... 40
Hình 1.10. Cấu trúc chi tiết của một mơ-đun LSTM ............................................................... 41
Hình 1.11. Cấu trúc mạng BiLSTM ......................................................................................... 42
Hình 1.12. Cấu trúc cơ bản của GRU ...................................................................................... 43
Hình 1.13. Cấu trúc mạng BiGRU ........................................................................................... 44
Hình 1.14. Cấu trúc mạng Bidirectional IndyLSTM ............................................................... 45
Hình 2.1. Quy trình trích rút khía cạnh của mơ hình BiGRU-CRF ......................................... 56
Hình 2.2. Cấu trúc mơ hình BiGRU-CRF cho trích rút khía cạnh trong câu quan điểm ......... 58
Hình 2.3. Quy trình trích rút khía cạnh của mơ hình Bi-IndyLSTM-CRF .............................. 61
Hình 2.4. Cấu trúc mơ hình Bi-IndyLSTM-CRF cho trích rút khía cạnh trong câu quan điểm
.................................................................................................................................................. 63
Hình 2.5. Biểu đồ so sánh độ chính xác F1 của hai mơ hình đề xuất với các mơ hình đã được
đánh giá cao trước đây .............................................................................................................. 66
Hình 3.1. Quy trình trích rút, phân loại khía cạnh và quan điểm của mơ hình CNN-BiGRU . 74
Hình 3.2. Cấu trúc mơ hình CNN-BiGRU cho khai phá quan điểm mức khía cạnh trích rút đồng
thời khía cạnh và quan điểm ..................................................................................................... 75
Hình 3.3. Quy trình trích rút từ mục tiêu của mơ hình CNN-IOB2 ......................................... 79
Hình 3.4. Cấu trúc mơ hình CNN-IOB2 cho trích rút từ mục tiêu........................................... 82
Hình 3.5. Quy trình trích rút, phân loại khía cạnh, thực thể và quan điểm của mơ hình MABSA
.................................................................................................................................................. 86
Hình 3.6. Cấu trúc mơ hình khai phá quan điểm mức khía cạnh đa tác vụ MABSA cho phân
loại khía cạnh, thực thể và quan điểm....................................................................................... 88
x
Hình 3.7. So sánh độ chính xác của tác vụ trích rút khía cạnh xét trên độ đo F1 của các mơ hình
hiện có so với mơ hình CNN-BiGRU đề xuất .......................................................................... 93
Hình 3.8. So sánh độ chính xác của tác vụ phân loại quan điểm xét trên độ đo Accuracy của mơ
hình hiện có so với mơ hình CNN-BiGRU đề xuất .................................................................. 94
Hình 3.9. Biểu đồ so sánh độ chính xác của mơ hình đề xuất với các mơ hình hiện có xét trên
độ đo F1 và Accuracy ............................................................................................................... 96
Hình 3.10. Biểu đồ biểu diễn độ đo Precision, Recall, F1 và Accuracy của mơ hình MABSA đề
xuất............................................................................................................................................ 97
Hình 4.1. Quy trình thực hiện của mơ hình khai phá quan điểm mức khía cạnh đa miền CNNBiLSTM .................................................................................................................................. 106
Hình 4.2. Cấu trúc mơ hình khai phá quan điểm mức khía cạnh đa miền CNN-BiLSTM .... 107
Hình 4.3. Quy trình thực hiện của mơ hình CNN-BiIndyLSTM-Attention ........................... 113
Hình 4.4. Cấu trúc mơ hình khai phá quan điểm mức khía cạnh đa tác vụ đa miền .............. 114
Hình 4.5. Biểu đồ so sánh độ chính xác thực thi tác vụ trích rút khía cạnh của mơ hình CNNBiLSTM đề xuất với các mơ hình hiện có trên miền Restaurant ............................................ 115
Hình 4.6. Biểu đồ so sánh độ chính xác thực thi tác vụ trích rút khía cạnh của mơ hình CNNBiIndyLSTM-Attention đề xuất với các mơ hình hiện có trên miền Restaurant .................... 120
Hình 4.7. Kết quả thực thi mơ hình đa tác vụ CNN-BiIndyLSTM-Attention đề xuất với các độ
đo Precision, Recall, F1 và Accuracy trên đa miền Laptop_Restaurant_Hotel ...................... 122
xi
PHẦN MỞ ĐẦU
1. Tính cấp thiết của luận án
Trong kỷ nguyên bùng nổ thông tin hiện nay, với sự phát triển mạnh mẽ và nhanh
chóng của các nền tảng truyền thông xã hội, thương mại điện tử, người dùng không chỉ
chia sẻ thơng tin mà cịn có thể bày tỏ thái độ, quan điểm cá nhân trực tiếp trên những
nền tảng này. Cụ thể là những bình luận, đánh giá, chia sẻ kinh nghiệm của cộng đồng
đối với các sản phẩm, dịch vụ mà họ đã từng trải nghiệm; các quan điểm của cộng đồng
đới với một chính sách mới hay đới với một nhân vật có tầm ảnh hưởng lớn; và một số
vấn đề khác thông qua mạng xã hội, các diễn đàn, blog cá nhân…Thông tin từ các bình
luận, chia sẻ, quan điểm dạng này đã ảnh hưởng trực tiếp đến suy nghĩ, tâm tư, nguyện
vọng, hành vi của người dùng toàn cầu. Lượng thông tin này đã và đang là một khối dữ
liệu khổng lồ không ngừng tăng lên từng ngày từng giờ một cách khó kiểm soát. Đặc
biệt từ năm 2020 đến nay, do ảnh hưởng của dịch bệnh Covid 19 cùng với những diễn
biến phức tạp của đại dịch, thương mại điện tử đã tăng trưởng ngoạn mục dựa trên lựa
chọn ngày càng nhiều của người tiêu dùng. Đối với các cá nhân thường xuyên mua sắm
trực tuyến, việc tham khảo các bình luận, nhận xét trên mạng đã ảnh hưởng rất lớn đến
quyết định mua hàng của họ. Điều này cho thấy các nền tảng truyền thơng xã hội, thương
mại điện tử…chính là nơi trao đổi thơng tin, đưa ra các bình luận, góp ý cũng như cập
nhật trạng thái người dùng ở khắp mọi nơi liên quan đến mọi vấn đề trong xã hội hiện
đại. Nguồn thông tin khổng lồ này đã trở thành một kho dữ liệu lớn để các cá nhân và tổ
chức sử dụng quan điểm cộng đồng trong tiến trình ra quyết định, hoạch định chiến lược
đới với một sản phẩm hay dịch vụ cụ thể.
Tuy nhiên, các tương tác như chia sẻ, cập nhật, để lại bình luận liên tục được thực
hiện sẽ dẫn đến lượng kích hoạt mới tăng mạnh. Vấn đề này là một tất yếu làm phát sinh
bùng nổ dữ liệu. Việc tìm kiếm và chắt lọc thông tin cần thiết vẫn là một tác vụ khó khăn
vì sự gia tăng khơng ngừng của dữ liệu. Nói một cách cụ thể, vấn đề dữ liệu lớn sẽ đi
kèm vướng mắc, khó khăn trong việc kiểm sốt, tìm kiếm, tổng hợp, phân tích và đánh
giá quan điểm. Do đó, việc sử dụng một hệ thớng khai phá và tổng hợp quan điểm tự
động giữa lớp lớp thông tin phi cấu trúc dạng này là rất cần thiết. Đặc biệt đối với các
nhà hoạch định chiến lược kinh doanh, các doanh nghiệp, các tổ chức chính trị, việc sử
dụng hệ thớng khai phá và tổng hợp quan điểm tự động sẽ giúp họ dễ dàng xác định được
hướng quan điểm chuyên biệt đối với vấn đề họ quan tâm.
Khai phá quan điểm hay phân tích cảm xúc [11][12][16] là lĩnh vực nghiên cứu
về trích rút và phân loại quan điểm, ý kiến, cảm xúc, thái độ, đánh giá chủ quan của
người dùng đối với các thực thể, cá nhân, vấn đề, sự kiện từ nội dung được phát sinh
trong văn bản. Khai phá quan điểm áp dụng cho các nền tảng truyền thông xã hội để
nghiên cứu hành vi và phản ứng của người dùng đối với một sản phẩm, dịch vụ hay một
chính sách cụ thể. Việc phân tích, khai thác ý kiến của người dùng có thể mang lại những
tri thức hữu ích hỗ trợ cho việc tìm hiểu xem cộng đồng sử dụng cảm thấy thế nào về
dịch vụ, sản phẩm, chủ đề, tổ chức, sự kiện hay các nhân vật nổi tiếng…Trên cơ sở này,
các cá nhân và tổ chức có thể sử dụng ý kiến của cộng đồng để ra quyết định. Ngồi ra,
khai phá quan điểm cịn giúp đạt được những mục đích khác nhau như theo dõi được
tâm trạng của cộng đồng liên quan đến các cuộc vận động chính trị, mua bán, giao dịch
thơng minh [5], phép đo độ thoả mãn của khách hàng [72], phán đốn doanh sớ của một
bộ phim [117].
Quan điểm [8][39][53] trong một hệ thống khai phá quan điểm là nhân tố ảnh
hưởng cốt yếu đến hành vi, thái độ của người dùng. Quan điểm đóng vai trị nền tảng
trong tiến trình ra quyết định của cả cá nhân và tổ chức bởi vì quan điểm có sức ảnh
hưởng lớn đến dự định, xu hướng của con người. Khai phá quan điểm cho phép cung
cấp những hiểu biết hữu ích thúc đẩy các quyết định, chiến lược và mục tiêu kinh doanh
hiệu quả. Mục đích chính là hỗ trợ doanh nghiệp đề ra những giải pháp kinh doanh chủ
động; hỗ trợ cá nhân trong tiến trình ra quyết định sử dụng sản phẩm, dịch vụ mà họ
đang quan tâm. Chính vì lý do này mà nhu cầu khai thác năng lực thăm dò và hiểu các
quan điểm một cách tự động ngày càng được quan tâm nghiên cứu [91].
Những nội dung liên quan trong khai phá quan điểm [13][66][71] bao gồm: (1)
phân loại quan điểm, (2) phân loại tính chủ quan, (3) tổng hợp quan điểm, (4) tìm kiếm
và khơi phục quan điểm, (5) phân tích các quan điểm so sánh, (6) thăm dò quan điểm
spam, (7) chất lượng của các bình luận.
2
Hiện nay có hai hướng tiếp cận để khai phá quan điểm [70][120]: hướng tiếp cận
dựa trên từ vựng và hướng tiếp cận dựa trên máy học.
• Hướng tiếp cận dựa trên từ vựng [54][159] sử dụng phương pháp dựa trên
từ điển hoặc dựa trên ngữ liệu để xác định quan điểm. Đến thời điểm hiện
tại đã có nhiều những nghiên cứu sử dụng kỹ thuật thống kê như phân tích
ngữ nghĩa tiềm ẩn LSA [23]; hoặc kỹ thuật ngữ nghĩa như đồng nghĩa và
trái nghĩa.
• Hướng tiếp cận máy học [17] có thể thực hiện phương pháp học giám sát
và học không giám sát để tiến hành phân loại quan điểm. Trong học giám
sát, các bài toán phân loại cây quyết định, phân loại tuyến tính cụ thể là kỹ
thuật máy vector hỗ trợ SVM hoặc mạng neuron, phân loại dựa trên luật,
phân loại xác suất cụ thể là Naïve Bayes, Bayesian Network, Maximum
Entropy được sử dụng [139]. Tuy nhiên các kỹ thuật này thường không
hiệu quả đối với một sớ vấn đề khó nhận biết trong cấu trúc của ngôn ngữ
tự nhiên. Chẳng hạn như phủ định của một cụm từ thể hiện quan điểm tích
cực sẽ hoàn toàn ngược lại với quan điểm ban đầu của nó nhưng nếu chúng
ta không biểu diễn được cấu trúc của câu trên tập đặc trưng một cách hợp
lý thì sẽ không đạt được kết quả. Xét ở mức độ trừu tượng cao hơn thì
những ý chế nhạo hay nghĩa bóng trong một bình luận sẽ là một thử thách
lớn đới với máy tính. Các hướng tiếp cận máy học truyền thống để khai
phá quan điểm đều dựa trên những đặc trưng được thiết kế, tuy nhiên rất
khó xử lý, điều chỉnh các đặc trưng để trích rút thuộc tính được đề cập.
Học sâu [25][26][44][47] là một lĩnh vực mới trong nghiên cứu về máy học được
phát triển từ năm 2006. Học sâu bao gồm một lớp các kỹ thuật và kiến trúc máy học với
khả năng sử dụng nhiều lớp trạng thái xử lý thơng tin khơng tuyến tính [52][61][83].
Dựa vào những kiến trúc và kỹ thuật này để xác định hướng sử dụng phù hợp, chẳng
hạn: tổng hợp, phát sinh, nhận dạng hay phân loại [143]. Ưu thế của học sâu là khả năng
tự học tận dụng nguồn dữ liệu khổng lồ liên tục được cập nhật từ các trang web, các diễn
đàn giúp các mơ hình học sâu càng ngày càng trở nên thông minh hơn, đạt độ chính xác
cao hơn [145][171][172] .
3
Gần đây, các giải thuật học sâu [29][74] đã cho những kết quả khả quan trong xử
lý tín hiệu nói chung và xử lý ngơn ngữ tự nhiên nói riêng. Với tớc độ học nhanh dựa
trên khả năng tích hợp card đồ hoạ và độ chính xác đạt được khá cao nhờ vào lợi thế của
dữ liệu lớn sẵn có, học sâu đang ngày càng được quan tâm nghiên cứu triển khai cho các
bài toán xử lý dữ liệu lớn hiện nay.
Dựa trên nhu cầu tất yếu cần có một hệ thống khai phá, tổng hợp quan điểm tự
động hỗ trợ người dùng và khả năng xử lý tốt của học sâu trên dữ liệu lớn sẵn có hiện
nay, đề tài “Khai phá quan điểm với kỹ thuật học sâu” được thực hiện trong khuôn khổ
luận án tiến sĩ chuyên ngành khoa học máy tính đã được triển khai. Luận án mong ḿn
được đóng góp một phần vào lĩnh vực khai phá, phân tích quan điểm và nghiên cứu
hướng tiếp cận học sâu áp dụng cho khai phá quan điểm.
2. Mục tiêu, đối tượng và phạm vi nghiên cứu của luận án
2.1. Mục tiêu nghiên cứu
Luận án đi sâu tìm hiểu, áp dụng lý thuyết học sâu vào lĩnh vực khai phá quan
điểm. Mục tiêu chung là vận dụng các kỹ thuật học sâu để đề xuất và tinh chỉnh mơ hình
khai phá quan điểm mức khía cạnh nhằm cải tiến độ chính xác, nâng cao hiệu suất, tăng
tính tiện ích của mơ hình. Các mục tiêu cụ thể gồm:
-
Đề xuất trích rút khía cạnh của thực thể với hướng tiếp cận học sâu và mơ hình
khai phá quan điểm thực hiện tác vụ này dựa trên các kỹ thuật học sâu;
-
Đề xuất, mở rộng khả năng trích rút, phân loại các tác vụ chính một cách đồng
thời (đa tác vụ/đa nhiệm) trong một hệ thống khai phá quan điểm dựa trên
mức khía cạnh; và mơ hình khai phá quan điểm mức khía cạnh đa tác vụ thực
hiện trích rút các tác vụ nói trên sử dụng hướng tiếp cận học sâu;
-
Đề xuất xây dựng một tập dữ liệu đa miền dùng cho thực nghiệm được hình
thành trên cơ sở tích hợp các bình luận của người dùng trên các miền khác
nhau; và mơ hình khai phá quan điểm mức khía cạnh đa tác vụ, đa miền sử
dụng hướng tiếp cận học sâu được thực nghiệm trên tập dữ liệu đa miền này.
2.2. Đối tượng nghiên cứu
Luận án tập trung cụ thể vào các đới tượng nghiên cứu sau:
-
Khía cạnh, quan điểm, khai phá và phân tích quan điểm mức khía cạnh.
4
-
Các kỹ thuật học sâu áp dụng cho xử lý ngơn ngữ tự nhiên.
-
Các mơ hình trích rút khía cạnh và khai phá quan điểm mức khía cạnh sử dụng
kỹ thuật học sâu.
2.3. Phạm vi nghiên cứu
Luận án được giới hạn trong phạm vi cụ thể sau:
-
Tập trung vào vấn đề khai phá quan điểm và những thuận lợi cũng như tính
thực tiễn cao của việc trích rút quan điểm của người dùng.
-
Tìm hiểu các giải thuật học sâu áp dụng cho khai phá và phân tích quan điểm
-
Tập trung nghiên cứu về các mạng neural sâu hỗ trợ xử lý ngôn ngữ tự nhiên
và khai phá quan điểm, thế mạnh và khả năng tích hợp với card đồ hoạ để giải
quyết vấn đề tốc độ xử lý trong máy học.
3. Các đóng góp của luận án
Luận án có những đóng góp sau:
-
Xây dựng mơ hình trích rút khía cạnh của thực thể trong khai phá quan điểm
dựa trên hướng tiếp cận học sâu mới với cải tiến về hiệu suất của mơ hình.
-
Xây dựng hệ thớng khai phá quan điểm dựa trên mức khía cạnh đa tác vụ mới
nhằm dự đốn quan điểm người dùng. Hệ thớng thực hiện đồng thời các tác
vụ: trích rút từ mục tiêu, trích rút khía cạnh, phân loại thực thể và xác định
quan điểm thể hiện trên khía cạnh của thực thể trong các bình luận trên một
miền xác định.
-
Xây dựng một tập dữ liệu bình luận đa miền dùng cho thực nghiệm. Tập dữ
liệu này được hình thành từ việc thực hiện trộn ngẫu nhiên các bình luận từ
các miền khác nhau thành một tập dữ liệu hỗn hợp đa miền và triển khai hệ
thống khai phá quan điểm trên tập dữ liệu đa miền này.
-
Xây dựng hệ thống khai phá quan điểm mức khía cạnh đa tác vụ đa miền mới
nhằm dự đốn quan điểm người dùng. Hệ thớng thực hiện đồng thời các tác
vụ: trích rút khía cạnh, phân loại thực thể, phân loại miền và xác định quan
điểm thể hiện trên khía cạnh của thực thể trong các bình luận thuộc tập dữ
liệu đa miền.
5
Cụ thể, các mơ hình khai phá quan điểm mới được nêu ở trên đã được xây dựng
dựa trên cơ chế tích hợp các mạng học sâu:
- Mơ hình khai phá quan điểm BiGRU-CRF và BiIndyLSTM-CRF thực hiện
trích rút khía cạnh trong câu bình luận.
- Mơ hình khai phá quan điểm mức khía cạnh đa tác vụ CNN-BiGRU, CNNIOB2 và MABSA thực hiện trích rút và phân loại đa tác vụ (trích rút từ mục
tiêu, khía cạnh, phân loại thực thể và xác định quan điểm trên mỗi khía cạnh
của thực thể) trên tập dữ liệu đơn miền.
- Mơ hình khai phá quan điểm mức khía cạnh đa tác vụ đa miền CNN-BiLSTM
và CNN-BiIndyLSTM-Attention thực hiện trích rút và phân loại đa tác vụ
trên tập dữ liệu đơn miền và đa miền. Các mơ hình này khi được thực nghiệm
trên các tập dữ liệu đơn miền và đa miền đều đạt hiệu suất cao so với các mơ
hình trước đây chỉ thực nghiệm trên các tập dữ liệu đơn miền.
4. Bố cục của luận án
Trên cơ sở mục tiêu đặt ra, các đối tượng và phạm vi nghiên cứu được giới hạn,
luận án được tổ chức thành ba phần: Phần mở đầu; Phần nội dung và kết quả nghiên cứu,
thực nghiệm; Phần kết luận và hướng phát triển.
•
Phần mở đầu giới thiệu về tính cấp thiết, mục tiêu, đới tượng, phạm vi và các
đóng góp của luận án
•
Phần nội dung và kết quả nghiên cứu được xây dựng thành bốn chương. Phần
này trình bày tổng quan lý thuyết về khai phá quan điểm, các cấp độ khai phá quan điểm,
các kỹ thuật học sâu phổ biến cho xử lý ngôn ngữ tự nhiên và khai phá quan điểm, các
nghiên cứu hiện nay về khai phá quan điểm cũng như những vấn đề còn phải tiếp tục
giải quyết để nâng cao hiệu suất và độ chính xác của nó, từ đó đề xuất nội dung nghiên
cứu của luận án. Cụ thể các chương được giới thiệu khái quát bên dưới:
Chương 1 đi sâu tìm hiểu về lĩnh vực khai phá, phân tích quan điểm, các cấp độ
khai phá quan điểm, học sâu và các kỹ thuật học sâu phổ biến dùng trong xử lý ngôn ngữ
tự nhiên, phương pháp đánh giá hiệu suất của một mơ hình khai phá quan điểm, các
hướng tiếp cận khai phá quan điểm cũng như những nghiên cứu hiện có về lĩnh vực khai
6
phá quan điểm để từ đó xác định được phạm vi nghiên cứu của luận án. Trên cơ sở này,
Chương 1 phác thảo những đề xuất cho mơ hình khai phá quan điểm sẽ được cụ thể hoá
trong các chương tiếp theo.
Chương 2 tập trung vào nghiên cứu trích rút khía cạnh trong khai phá quan điểm
với mơ hình trích rút sử dụng kỹ thuật học sâu. Mơ hình này cho phép trích rút được các
khía cạnh liên quan thực thể được đề cập trong các bình luận. Mơ hình trích rút khía cạnh
dựa trên các mạng học sâu này được so sánh với một sớ mơ hình hiện có cũng thực hiện
cùng một tác vụ trích rút trên hai miền Laptop và Restaurant của cùng một tập dữ liệu
SemEval 2014. Hiệu suất của mơ hình đề xuất trong chương 2 được đánh giá qua tính
chính xác đạt được thể hiện trên độ đo F1.
Chương 3 giới thiệu các tác vụ chính trong khai phá quan điểm bên cạnh tác vụ
trích rút khía cạnh đã được thực hiện trong Chương 2. Song song với đó, Chương 3 cũng
trình bày mơ hình khai phá quan điểm mức khía cạnh đa tác vụ tập trung trích rút và
phân loại các tác vụ chính đã nêu sử dụng các kỹ thuật học sâu tích hợp. Xun śt mơ
hình được xây dựng trong Chương 3 thực hiện các tác vụ này là các mạng học sâu phổ
biến được tích hợp chồng lên nhau đi kèm với một số kỹ thuật nhúng từ và xác định hình
thái từ nhằm mục đích tăng mức độ hiểu ngữ cảnh, hình thái và ngữ nghĩa của từ trong
câu bình luận. Mơ hình khai phá quan điểm đa tác vụ đề xuất khơng chỉ trích rút từng
thành phần riêng lẻ trong nhóm các tác vụ chính đã nêu mà tiến hành trích rút đồng thời
các tác vụ này. Hiệu suất của mơ hình đa tác vụ đề xuất được so sánh với các mơ hình
trước đây chỉ trích rút hoặc phân loại từng thành phần riêng lẻ được thực nghiệm trên
cùng tập dữ liệu; được đánh giá thông qua việc đánh giá độ chính xác đạt được thể hiện
lần lượt trên các độ đo Precision, Recall, F1 và Accuracy.
Chương 4 trình bày mơ hình khai phá quan điểm mức khía cạnh đa tác vụ, đa
miền thực nghiệm trên một tập dữ liệu đa miền với hướng tiếp cận học sâu. Khác với
tiếp cận trong Chương 2 và Chương 3 chỉ thực nghiệm mơ hình trên các tập dữ liệu đơn
miền, mơ hình khai phá quan điểm đa miền được đề cập trong Chương 4 thực nghiệm
trên tập dữ liệu đa miền. Đề xuất này góp phần cung cấp một mơ hình hiệu quả và tương
thích với dữ liệu trên các bình luận thuộc nhiều miền khác nhau. Mơ hình được xây dựng
khẳng định tính thuận tiện, tinh gọn trong trường hợp chỉ cần dùng một mơ hình khai
7
phá quan điểm cho việc trích rút, phân loại khía cạnh, quan điểm…đa tác vụ trên một
tập dữ liệu đa miền sử dụng hướng tiếp cận học sâu mà vẫn đảm bảo độ chính xác tương
đới cao. Tương tự các chương trước, hiệu suất của mơ hình khai phá quan điểm đa tác
vụ, đa miền đề xuất được so sánh với các mơ hình trước đây, được đánh giá cho thấy
tính hiệu quả cao hơn thơng qua độ chính xác đạt được thể hiện trên các độ đo Precision,
Recall, F1 và Accuracy như trong Chương 3. Bên cạnh đó, mơ hình cũng được triển khai
thực nghiệm trên cả dữ liệu đơn miền và đa miền.
•
Phần kết luận và hướng phát triển đúc kết lại những đóng góp của luận án và
hướng nghiên cứu tiếp theo để phát triển luận án.
8
CHƯƠNG 1- TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM VÀ KỸ THUẬT
HỌC SÂU
Chương này tập trung nghiên cứu sự gắn kết giữa lý thuyết học sâu với bài toán
khai phá quan điểm thơng qua việc: (i) tìm hiểu, nghiên cứu lý thuyết khai phá và phân
tích quan điểm, các mức cụ thể trong khai phá quan điểm và những nghiên cứu đã có
trước đây dựa trên các hướng tiếp cận khác nhau cùng với những thuận lợi và hạn chế
của các hướng tiếp cận này để có cơ sở định hướng nghiên cứu cho luận án; (ii) tìm hiểu
các kỹ thuật học sâu phổ biến hiện nay, từ đó xác định những kỹ thuật nào có thể áp dụng
cho trích rút, phân loại quan điểm; (iii) xác định kỹ thuật, hướng tiếp cận khai phá quan
điểm và phương pháp đánh giá mơ hình khai phá quan điểm được sử dụng trong luận án.
Dựa trên cơ sở này, phần cuối chương trình bày các đề xuất cho mơ hình trích rút, khai
phá quan điểm sử dụng học sâu. Các đề xuất này sẽ được thực hiện và trình bày chi tiết
trong các chương tiếp theo của luận án.
1.1.
Khai phá quan điểm
Quan điểm thể hiện thái độ, xúc cảm của chủ thể bày tỏ quan điểm đối với một
sản phẩm, dịch vụ, một nhân tớ cụ thể có tầm ảnh hưởng lớn đới với cộng đồng hay một
chính sách mới tác động đến quyền lợi, nghĩa vụ của toàn xã hội. Quan điểm đóng vai
trị nền tảng trong tiến trình ra quyết định của mỗi cá nhân, tổ chức và được chia thành
hai loại [11][101]: (1) quan điểm chính quy và (2) quan điểm so sánh.
(1) Quan điểm chính quy được chia thành hai loại: quan điểm trực tiếp_được thể
hiện trực tiếp trên thực thể hoặc khía cạnh của thực thể và quan điểm không
trực tiếp_ không thể hiện trực tiếp trên thực thể hoặc trên khía cạnh của thực
thể mà dựa trên những kết quả của nó trên một sớ thực thể khác.
(2) Quan điểm so sánh biểu diễn mối liên quan về độ tương tự hoặc khác nhau
của các thực thể hoặc thể hiện quan điểm của chủ thể nắm giữ quan điểm là
thích khía cạnh này hơn hay khía cạnh kia hơn.
Ngồi ra, khai phá quan điểm cũng có thể phân loại thành: (i) quan điểm hiện hay
(ii) quan điểm ẩn, dựa trên cách quan điểm được thể hiện trong văn bản [12].
9
Quan điểm hiện là một câu chủ quan cung cấp một quan điểm chính quy hay
i.
quan điểm so sánh.
ii.
Quan điểm ẩn là một câu khách quan mang ngụ ý quan điểm chính quy hay
quan điểm so sánh.
Quan điểm được định nghĩa là nhóm năm thành phần (ei, aij, sijkl, hk, tl) [11] với:
- ei : tên của thực thể
- aij: khía cạnh của ei
- sijkl: quan điểm trên khía cạnh aij của thực thể ei
- hk : người nắm giữ quan điểm
- tl : thời gian khi quan điểm được biểu diễn bởi hk
Bất cứ khi nào cần đưa ra một quyết định, người dùng sẽ có khuynh hướng tìm
kiếm những quan điểm của những người đi trước, trải nghiệm trước. Chẳng hạn như các
cá nhân thường tìm kiếm quan điểm từ bạn bè, gia đình, người quen hoặc cộng đồng
mạng. Các tổ chức, doanh nghiệp thường tìm kiếm các quan điểm từ các cuộc khảo sát,
các nhóm tập trung, các cuộc bỏ phiếu, các chuyên gia tư vấn…
Cụ thể khi có một tập tài liệu quan điểm, việc khai phá quan điểm về cơ bản sẽ
lần lượt thực hiện những tác vụ sau:
▪ Rút trích, phân loại thực thể
▪ Rút trích, phân loại khía cạnh
▪ Rút trích, phân loại chủ thể nắm giữ quan điểm
▪ Rút trích, chuẩn hố thời gian
▪ Phân loại quan điểm trên từng khía cạnh là tích cực, tiêu cực hay
trung lập
▪ Phát sinh tất cả các nhóm quan điểm năm thành phần (ei, aij, sijkl, hk,
tl) có xuất hiện trong tập tài liệu dựa trên kết quả thu được từ các công
việc vừa thực hiện.
Ví dụ: “(1) Danang is a beautiful and friendly tourist city. (2) My brother and I
used to travel here. (3) My brother loves smooth white sandy beach stretching his eyes.
(4) I like shimmering bridges in the evening. (5) We tried seafood here, so delicious. (6)
10
However, my brother still complained about traffic in Danang.” (người đăng: Mark, thời
gian: 18/6/2019)
Thực thể được rút trích là:
ei = {“tourist”} (ở Đà Nẵng).
Tiếp theo là rút trích khía cạnh biểu diễn:
aij = {“sandy beach”, “bridges”, “seafood”, “traffic”}.
Tiếp theo tìm kiếm người nắm giữ quan điểm hk trong câu (1), (4) và (5) là {Mark}
và trong câu (3), (5) và (6) là {anh trai của Mark}.
Sau đó xác định thời gian tl khi văn bản này được đưa lên vào ngày 18/6/2019.
Tác vụ tiếp là phân loại quan điểm sijkl: quan điểm là tích cực trong câu (1) về thành phố
du lịch Đà Nẵng. Câu (3) đưa ra một quan điểm tích cực về bãi biển Đà Nẵng. Câu (4)
thể hiện quan điểm tích cực về các cây cầu ở Đà Nẵng. Câu (5) cũng đưa ra một quan
điểm tích cực về hải sản ở Đà Nẵng. Câu (6) thể hiện quan điểm tiêu cực về giao thông
ở Đà Nẵng. Tác vụ cuối cùng là tiến hành phát sinh tất cả các quan điểm dưới dạng nhóm
năm thành phần (ei, aij, sijkl, hk, tl). Như vậy tác vụ này cuối cùng sẽ sinh ra năm quan
điểm là các nhóm năm thành phần:
(tourist, general, positive, Mark, June-18-2019)
(tourist, sandy beach, positive, Mark’s brother, June-18-2019)
(tourist, bridges, positive, Mark, June-18-2019)
(tourist, food_quality, positive, Mark and his brother, June-18-2019)
(tourist, traffic, negative, Mark’s brother, June-18-2019)
Khai phá quan điểm hay phân tích cảm xúc là lĩnh vực nghiên cứu nhằm trích rút
thơng tin về quan điểm, cảm nghĩ, tính chủ quan, sự đánh giá, thái độ, ảnh hưởng, tầm
nhìn, xúc cảm…được diễn tả trong văn bản.
1.2.
Các cấp độ khai phá quan điểm
Theo Bing Liu [11][12], khai phá quan điểm có thể được phân chia thành các cấp
độ/mức khác nhau, được thể hiện ở Hình 1.1.
11
Khai phá quan điểm
mức khía cạnh
Khai phá quan điểm
mức câu
Khai phá quan điểm
mức tài liệu
Hình 1.1. Các cấp độ cụ thể trong khai phá quan điểm
Mỗi cấp độ trong Hình 1.1 sẽ phù hợp với các tiêu chí và yêu cầu khai
phá quan điểm cụ thể trong từng bài toán nhất định.
1.2.1. Khai phá quan điểm mức tài liệu
Trong khai phá quan điểm mức tài liệu, toàn bộ văn bản được phân loại vào một
trong các lớp quan điểm tích cực, tiêu cực hoặc trung lập tuỳ thuộc vào độ phân cực của
thông tin chủ quan được thể hiện trên tài liệu. Cụ thể với một tài liệu bình luận được
người dùng cung cấp, khai phá quan điểm sẽ giúp phát hiện được quan điểm của họ thể
hiện trên toàn bộ nội dung bình luận.
1.2.2. Khai phá quan điểm mức câu
Nếu khai phá quan điểm mức tài liệu tập trung phân loại toàn bộ văn bản vào một
trong ba lớp quan điểm thì khai phá quan điểm mức câu sẽ thực hiện ở phạm vi cụ thể
và chi tiết hơn, đó là tiến hành phân loại quan điểm thể hiện trên mỗi câu bình luận trong
toàn văn bản vào một trong ba lớp tích cực, tiêu cực hoặc trung lập.
1.2.3. Khai phá quan điểm mức khía cạnh hay mức đặc trưng
Khai phá quan điểm mức khía cạnh liên quan đến việc xác định và trích rút những
khía cạnh của sản phẩm từ dữ liệu nguồn và xác định quan điểm bày tỏ trên từng khía
cạnh đó.
Việc khai phá quan điểm ở mức tài liệu hay mức câu không thể hiện quan điểm
tích cực, tiêu cực hay trung lập của người nắm giữ quan điểm đới với từng khía cạnh cụ
thể của thực thể được đề cập trong câu hay tài liệu bình luận. Có thể một tài liệu là tích
cực trên một thực thể khơng có nghĩa rằng người nắm giữ quan điểm có các quan điểm
12
tích cực trên tất cả các khía cạnh của thực thể đó. Tương tự, một tài liệu là tiêu cực khơng
có nghĩa là người nắm giữ quan điểm khơng thích mọi thứ của thực thể. Thực tế thì trong
một tài liệu đánh giá, người nắm giữ quan điểm thường thể hiện cả những quan điểm
tích cực và tiêu cực trên mỗi khía cạnh của thực thể mặc dù ý kiến tổng qt trên thực
thể đó có thể hoặc tích cực hoặc tiêu cực. Như vậy để đạt được đến các quan điểm cụ thể
trên từng khía cạnh chi tiết của thực thể thì cần khai phá quan điểm ở mức khía cạnh.
Khai phá quan điểm dựa trên cơ cấu gồm sáu tác vụ được minh hoạ trong ví dụ ở
mục 1.1 được gọi là khai phá quan điểm dựa trên khía cạnh hay khai phá quan điểm mức
khía cạnh [90][91]. Một mơ hình tổng hợp và khai phá quan điểm mức khía cạnh sẽ đảm
bảo cung cấp một cơng thức hoàn chỉnh, trọn vẹn và chi tiết cho vấn đề khai phá quan
điểm. Mơ hình sẽ xác định những mẫu thơng tin chìa khố nên được khai phá và mơ tả
một q trình tổng hợp quan điểm có cấu trúc được tổng hợp từ những văn bản phi cấu
trúc. Cụ thể mơ hình chỉ khai phá những khía cạnh của sản phẩm, dịch vụ mà người dùng
bày tỏ quan điểm của họ trên đó và xác định những quan điểm này là tích cực hay tiêu
cực.
Mỗi một cấp độ trong ba cấp độ khai phá quan điểm đã nêu trong các mục 1.2.1,
1.2.2 và 1.2.3 có thể hữu dụng trong các ngữ cảnh khác nhau. Việc lựa chọn sử dụng cấp
độ nào phụ thuộc vào yêu cầu và mục tiêu cụ thể của một tác vụ khai phá quan điểm nhất
định. Ví dụ như khai phá quan điểm mức tài liệu có thể phù hợp để phân tích nhanh quan
điểm của một số lượng lớn tài liệu, trong khi khai phá quan điểm mức khía cạnh có thể
hữu ích hơn để hiểu quan điểm đới với mỗi khía cạnh hoặc đối tượng cụ thể trong tài
liệu.
Luận án tập trung vào khai phá quan điểm mức khía cạnh. Đây là cấp độ chi tiết
nhất trong ba cấp độ khai phá quan điểm nhằm giúp hệ thống xác định được quan điểm
cụ thể của người dùng thể hiện trực tiếp trên mỗi khía cạnh trong tài liệu bình luận được
đề cập.
1.3.
Các hướng nghiên cứu khai phá quan điểm
Các hệ thống khai phá quan điểm hiện nay nghiên cứu khả năng phân loại, tổng
hợp, tìm kiếm và khơi phục quan điểm… đều tập trung vào một sớ tác vụ cụ thể như
trích rút khía cạnh của thực thể mà chủ thể bình luận thể hiện quan điểm trên đó; trích
13
rút từ hoặc cụm từ thể hiện quan điểm của chủ thể bình luận; xác định hướng quan điểm
của từ hoặc cụm từ được trích rút từ đó xác định quan điểm của tài liệu, của câu hay cụ
thể là quan điểm trên mỗi khía cạnh được trích rút.
Các hướng tiếp cận chính của đa phần các nghiên cứu trước và gần đây trong khai
phá quan điểm tập trung vào:
•
Hướng tiếp cận dựa trên ngữ liệu: chủ yếu sử dụng nhóm các độ đo với các
mơ hình khác nhau cho khai phá quan điểm.
•
Hướng tiếp cận dựa trên máy học: sử dụng các kỹ thuật phân loại để phân
loại văn bản, xác định quan điểm dựa trên các tập dữ liệu huấn luyện và kiểm tra.
1.3.1. Hướng tiếp cận dựa trên ngữ liệu
Phương pháp này sử dụng từ điển cảm xúc gồm các từ thể hiện quan điểm, cảm
xúc và khớp chúng với dữ liệu trong tài liệu để xác định hướng quan điểm thể hiện trên
dữ liệu đó. Điểm số cảm xúc sẽ được gán cho các từ quan điểm mơ tả mức độ phân loại
cảm xúc là tích cực, tiêu cực hay trung lập của các từ có trong từ điển. Phương pháp này
thuộc vào phân loại không giám sát bởi vì nó khơng địi hỏi những tập dữ liệu huấn luyện
trước đó để phân loại dữ liệu. Trong kỹ thuật không giám sát, việc phân loại được thực
hiện bằng cách so sánh các đặc trưng của một văn bản có sẵn với các từ quan điểm có
giá trị quan điểm đã được xác định trước khi sử dụng trong một kho ngữ liệu quan điểm.
Ngữ liệu quan điểm chứa một danh sách các từ và thành ngữ được sử dụng để diễn đạt
cảm xúc và quan điểm chủ quan của con người. Cụ thể, văn bản cần xác định quan điểm
sẽ được tiến hành phân tích với một ngữ liệu quan điểm nguồn gồm tập hợp các từ tích
cực và tiêu cực. Nếu văn bản chứa nhiều từ thể hiện quan điểm tích cực thì nó là tích
cực, ngược lại, nó là tiêu cực.
1.3.2. Hướng tiếp cận máy học
Hướng tiếp cận này sử dụng các kỹ thuật phân loại để phân loại văn bản, xác định
quan điểm dựa trên các tập huấn luyện và tập kiểm tra. Phương pháp máy học áp dụng
cho khai phá quan điểm chủ yếu thuộc về phân loại có giám sát. Phương thức học có
giám sát cũng chính là minh hoạ cho định nghĩa của máy học cơ bản_có khả năng tự học
dựa trên dữ liệu đưa vào mà không cần phải được lập trình cụ thể.
14