ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
TRẦN UYÊN TRANG
KHAI PHÁ QUAN ĐIỂM VỚI KỸ THUẬT
HỌC SÂU
Ngành : KHOA HỌC MÁY TÍNH
Mã số
: 9480101
TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT
Đà Nẵng - 2023
Cơng trình được hồn thành tại
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Người hướng dẫn khoa học:
1. TS. Hoàng Thị Thanh Hà
2. TS. Đặng Hoài Phương
Phản biện 1: ……………………………………………….
Phản biện 2: ……………………………………………….
Phản biện 3: ……………………………………………….
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp
Trường tại : Trường Đại học Bách khoa
Vào hồi … giờ … ngày … tháng … năm 2023
Có thể tìm hiểu luận án tại:
- Thư viện quốc gia Việt Nam.
- Trung tâm Học liệu & Truyền thông, Đại học Bách Khoa.
3
PHẦN MỞ ĐẦU
1. Tính cấp thiết của luận án
Khai phá quan điểm là lĩnh vực nghiên cứu về trích rút và phân
loại quan điểm từ các bình luận giúp theo dõi được tâm trạng của cộng
đồng liên quan đến mọi lĩnh vực trong đời sống xã hội. Khai phá quan
điểm cung cấp những hiểu biết hữu ích thúc đẩy các quyết định, chiến
lược và mục tiêu kinh doanh hiệu quả nhằm hỗ trợ doanh nghiệp đề ra
những giải pháp kinh doanh chủ động. Chính vì vậy nhu cầu khai thác
năng lực thăm dò và hiểu các quan điểm một cách tự động ngày càng
được quan tâm nghiên cứu. Hiện có hai hướng tiếp cận để khai phá
quan điểm: dựa trên từ vựng và dựa trên máy học. Đề tài “Khai phá
quan điểm với kỹ thuật học sâu” được thực hiện trong khuôn khổ luận
án tiến sĩ chuyên ngành khoa học máy tính đã tận dụng khả năng có
thể học chính xác trên dữ liệu lớn sẵn có với tốc độ học nhanh của học
sâu_một nhánh của máy học với mong muốn được đóng góp một phần
vào lĩnh vực khai phá, phân tích quan điểm hiện nay.
Đối với hướng tiếp cận máy học có thể thực hiện phương pháp
học giám sát và học không giám sát để tiến hành phân loại quan điểm.
Trong học giám sát, các bài toán phân loại cây quyết định, phân loại
tuyến tính được sử dụng. Tuy nhiên các kỹ thuật này thường không
hiệu quả đối với một số vấn đề khó nhận biết trong cấu trúc của ngôn
ngữ viết. Các hướng tiếp cận máy học truyền thống để khai phá quan
điểm đều dựa trên những đặc trưng được thiết kế, tuy nhiên rất khó xử
lý, điều chỉnh các đặc trưng để trích rút thuộc tính được đề cập.
2. Mục tiêu, đối tượng và phạm vi nghiên cứu của luận án
2.1. Mục tiêu nghiên cứu
Mục tiêu chung là vận dụng các kỹ thuật học sâu để đề xuất và
tinh chỉnh các mơ hình khai phá quan điểm mức khía cạnh nhằm cải
tiến độ chính xác, nâng cao hiệu suất, tăng tính tiện ích của mơ hình.
Các mục tiêu cụ thể gồm:
- Đề xuất mơ hình trích rút khía cạnh trong khai phá quan điểm
sử dụng hướng tiếp cận học sâu;
4
- Đề xuất mơ hình khai phá quan điểm mức khía cạnh đa tác
vụ sử dụng hướng tiếp cận học sâu;
- Đề xuất mơ hình khai phá quan điểm mức khía cạnh đa tác
vụ, đa miền với hướng tiếp cận học sâu;
- Xây dựng tập dữ liệu đa miền dùng cho thực nghiệm mơ hình
khai phá quan điểm đã đề xuất.
2.2. Đối tượng nghiên cứu
- Khía cạnh, quan điểm, khai phá và phân tích quan điểm mức
khía cạnh.
- Các kỹ thuật học sâu áp dụng cho xử lý ngôn ngữ tự nhiên.
- Các mơ hình trích rút khía cạnh và khai phá quan điểm mức
khía cạnh sử dụng kỹ thuật học sâu.
2.3. Phạm vi nghiên cứu
- Tập trung vào khai phá quan điểm
- Tìm hiểu các giải thuật học sâu áp dụng cho khai phá và phân
tích quan điểm
3. Các đóng góp của luận án
- Xây dựng mơ hình trích rút khía cạnh của thực thể trong khai
phá quan điểm dựa trên hướng tiếp cận học sâu với cải tiến về hiệu
suất của mơ hình.
- Xây dựng hệ thống khai phá quan điểm mức khía cạnh đa tác
vụ mới nhằm dự đoán quan điểm người dùng. Hệ thống thực hiện đồng
thời các tác vụ: trích rút từ mục tiêu, khía cạnh, thực thể và xác định
quan điểm thể hiện trên khía cạnh của thực thể trong các bình luận trên
một miền xác định.
- Xây dựng một tập dữ liệu bình luận đa miền dùng cho thực
nghiệm.
- Xây dựng hệ thống khai phá quan điểm mức khía cạnh đa tác
vụ đa miền mới nhằm dự đoán quan điểm người dùng. Hệ thống thực
hiện đồng thời các tác vụ: trích rút khía cạnh, phân loại miền và xác
5
định quan điểm thể hiện trên khía cạnh trong các bình luận thuộc tập
dữ liệu đa miền.
4. Phương pháp nghiên cứu
Phương pháp tài liệu và Phương pháp thực nghiệm.
5. Bố cục của luận án
Luận án được tổ chức thành ba phần: Phần mở đầu; Phần nội
dung và kết quả nghiên cứu, thực nghiệm; Phần kết luận và hướng phát
triển.
Phần mở đầu giới thiệu về tính cấp thiết, mục tiêu, đối tượng,
phạm vi và các đóng góp của luận án
Phần nội dung và kết quả nghiên cứu được xây dựng thành
bốn chương:
Chương 1. Tổng quan về khai phá quan điểm và kỹ thuật học
sâu
Chương 2. Trích rút khía cạnh trong khai phá quan điểm với
hướng tiếp cận học sâu
Chương 3. Khai phá quan điểm mức khía cạnh đa tác vụ với
hướng tiếp cận học sâu
Chương 4. Khai phá quan điểm mức khía cạnh đa tác vụ đa
miền với hướng tiếp cận học sâu
Phần kết luận và hướng phát triển đúc kết lại những đóng góp
của luận án và hướng nghiên cứu tiếp theo để phát triển luận án.
6
CHƯƠNG 1-TỔNG QUAN VỀ KHAI PHÁ QUAN
ĐIỂM VÀ KỸ THUẬT HỌC SÂU
1.1.
Khai phá quan điểm
Quan điểm thể hiện thái độ, xúc cảm của chủ thể bày tỏ quan
điểm đối với một sản phẩm, dịch vụ hay một nhân tố cụ thể. Khai phá
quan điểm là lĩnh vực trích rút, phân loại quan điểm người dùng trên
các bình luận một cách tự động. Khai phá quan điểm có thể được phân
chia thành các mức khác nhau
Khai phá quan điểm mức tài liệu
Toàn bộ văn bản được phân loại vào một trong các lớp quan
điểm tích cực, tiêu cực hoặc trung lập tuỳ thuộc vào độ phân cực của
thông tin chủ quan được thể hiện trên tài liệu.
Khai phá quan điểm mức câu
Khai phá quan điểm mức câu sẽ thực hiện ở phạm vi cụ thể và
chi tiết hơn: phân loại quan điểm thể hiện trên mỗi câu bình luận trong
tồn văn bản vào một trong ba lớp tích cực, tiêu cực hoặc trung lập.
Khai phá quan điểm mức khía cạnh
Luận án tập trung vào khai phá quan điểm mức khía cạnh. Đây
là cấp độ chi tiết nhất trong ba cấp độ khai phá quan điểm nhằm giúp
hệ thống xác định được quan điểm cụ thể của người dùng thể hiện trực
tiếp trên mỗi khía cạnh trong tài liệu bình luận được đề cập.
1.2.
Các hướng nghiên cứu khai phá quan điểm
- Hướng tiếp cận dựa trên ngữ liệu_chủ yếu sử dụng nhóm các
độ đo với các mơ hình khác nhau cho khai phá quan điểm.
- Hướng tiếp cận dựa trên máy học_sử dụng các kỹ thuật phân
loại để phân loại văn bản, xác định quan điểm dựa trên các tập dữ liệu
huấn luyện và kiểm tra.
7
1.3.
Một số hạn chế của các tiếp cận khai phá quan điểm hiện
nay
Đối với hướng tiếp cận ngữ liệu: Đòi hỏi kho ngữ liệu từ điển
phải đảm bảo đủ lượng từ quan điểm để có thể so khớp với các từ trong
văn bản cần xác định quan điểm. Bên cạnh đó, độ phân cực quan điểm
của các từ đơi khi phụ thuộc rất lớn vào miền và ngữ cảnh. Mặt khác,
các nghiên cứu dựa trên hướng tiếp cận ngữ liệu sử dụng các độ đo để
xác định mối liên quan và thường chỉ được thực nghiệm trên dữ liệu
tương đối nhỏ, dẫn đến độ chính xác đạt được của mơ hình vẫn chưa
thực sự thuyết phục.
Đối với hướng tiếp cận máy học: Các kỹ thuật máy học đã cho
thấy hiệu suất tốt hơn hẳn so với phương pháp dựa trên ngữ liệu. Giới
hạn lớn nhất của các phương pháp máy học là đòi hỏi tập dữ liệu huấn
luyện phải đủ lớn để đảm bảo hệ thống có thể hoạt động tốt đạt hiệu
suất tối ưu. Tuy nhiên ưu thế của thực trạng hiện nay là dữ liệu lớn
ln có sẵn, chính vì vậy mà việc áp dụng các hướng tiếp cận máy học
cho khai phá quan điểm là hoàn toàn phù hợp nhằm cải thiện hiệu suất,
tăng độ chính xác và tốc độ xử lý của mơ hình.
1.4.
Học sâu và nhóm kỹ thuật học sâu được sử dụng trong các
mơ hình khai phá quan điểm đề xuất
Học sâu
Học sâu bao gồm một lớp các kỹ thuật và kiến trúc máy học
với khả năng sử dụng nhiều lớp trạng thái xử lý thơng tin khơng tuyến
tính. Học sâu đã có những thành cơng quan trọng trong một số ứng
dụng trí tuệ nhân tạo và trong thời gian gần đây đã có thể đưa ra kết
quả với độ chính xác cao do học nguồn dữ liệu khổng lồ và tận dụng
năng lực xử lý mạnh của máy tính.
8
Các kỹ thuật học sâu phổ biến dùng trong xử lý ngôn ngữ
tự nhiên và khai phá quan điểm
1.4.2.1. Mạng neural tích chập CNN
1.4.2.2. Mạng neural hồi quy RNN
1.4.2.3. Mạng bộ nhớ ngắn-dài LSTM
1.4.2.4. Mạng đơn vị hồi quy có cổng GRU
1.4.2.5. Mạng bộ nhớ ngắn-dài hai chiều BiLSTM
1.4.2.6. Mạng bộ nhớ ngắn-dài hai chiều độc lập BiIndyLSTM
1.4.2.7. Cơ chế Attention
1.5.
Đề xuất nghiên cứu: Khai phá quan điểm với kỹ thuật học
sâu
Xuất phát từ những tìm hiểu về các hướng nghiên cứu hiện có
và những thuận lợi cùng với hạn chế của cả hai hướng tiếp cận cho
khai phá quan điểm đã được phân tích ở trên, có thể thấy hướng tiếp
cận máy học mà cụ thể là hướng tiếp cận học sâu thể hiện khả năng
vượt trội về hiệu suất. Chính vì lý do này tơi đề xuất hướng nghiên cứu
mới cho luận án : Khai phá quan điểm với kỹ thuật học sâu.
1.6.
Kết luận chương 1
Chương 1 của luận án tìm hiểu về: khai phá, phân tích quan
điểm và các hướng tiếp cận hiện nay đối với bài toán khai phá quan
điểm; học sâu và các kỹ thuật học sâu hỗ trợ xử lý ngôn ngữ tự nhiên
và phân tích quan điểm từ đó xác định hướng tiếp cận cho hệ thống
khai phá quan điểm mức khía cạnh đề xuất.
9
CHƯƠNG 2-TRÍCH RÚT KHÍA CẠNH TRONG KHAI
PHÁ QUAN ĐIỂM VỚI HƯỚNG TIẾP CẬN HỌC SÂU
2.1. Trích rút khía cạnh với hướng tiếp cận học sâu
Trong chương 2 luận án đề xuất sử dụng hướng tiếp cận học
sâu cho trích rút khía cạnh với hai mơ hình BiGRU-CRF và
BiIndyLSTM-CRF.
2.2. Mơ hình trích rút khía cạnh với tiếp cận học sâu đề xuất
Luận án áp dụng mạng GRU hai chiều kết hợp với CRF trong
mơ hình thứ nhất (mục 2.2.1) và mạng LSTM hai chiều kết hợp với
CRF trong mơ hình thứ hai (mục 2.2.2) để trích rút, phân loại khía
cạnh.
2.2.1.
Mơ hình tích hợp BiGRU-CRF cho trích rút khía cạnh
Chúng tơi đã chọn GRU căn cứ trên một số tính năng vượt trội:
Khả năng tính tốn hiệu quả của GRU so với LSTM với cấu trúc có
hai cổng tương đối đơn giản so với cấu trúc ba cổng của LSTM. Điểm
này giúp cho tốc độ xử lý nhanh hơn và khả năng hiệu chỉnh dễ dàng
hơn. Bên cạnh đó, GRU có thể trích xuất các mẫu ngữ nghĩa ở vị trí xa
so với vị trí của từ đang xét mà khơng cần điều chỉnh tham số khi huấn
luyện mơ hình.
Hình 2.1. Cấu trúc mơ hình BiGRU-CRF
10
2.2.2.
Mơ hình tích hợp Bi-IndyLSTM-CRF cho trích rút khía
cạnh
Nhằm mục đích nghiên cứu, tìm hiểu để xác định kỹ thuật học
sâu nào tối ưu hơn trong trích rút khía cạnh, chúng tơi đã chọn sử dụng
mạng IndyLSTM cho mơ hình thứ hai. Dựa trên những thuận lợi của
IndyLSTM so với RNN, LSTM và GRU khi xây dựng mơ hình có kiến
trúc được phát triển lên nhiều lớp theo chiều sâu, luận án đề xuất mơ
hình Bi-IndyLSTM-CRF.
Hình 2.2. Cấu trúc mơ hình Bi-IndyLSTM-CRF
2.3.
2.3.1.
Kết quả thực nghiệm
Tập dữ liệu sử dụng trong thực nghiệm
Luận án đã sử dụng tập dữ liệu SemEval 2014 với hai miền
Laptop và Restaurant cho thực nghiệm
11
2.3.2.
Kết quả thực nghiệm và đánh giá hiệu quả trích rút khía
cạnh
F1-score của các mơ hình hiện có so với mơ hình BiGRU-CRF và BiIndyLSTM-CRF đề xuất
90.00%
85.00%
84.01%
78.50%
78%
80.00%
75.00%
85%
84%
85.10%
80%
74.55%
70.00%
65.00%
SemEval 2014
ABSA winners
B-LSTM &CRF
Laptop
BiGRU &CRF
Bi-IndyLSTM &CRF
Restaurant
Hình 2.3. Biểu đồ so sánh độ chính xác của hai mơ hình đề
xuất với các mơ hình trước đây
2.4.
Kết luận Chương 2
Chương 2 của luận án tìm hiểu, nghiên cứu các tiếp cận trích
rút khía cạnh hiện có, trên cơ sở đó đề xuất các mơ hình mới thực hiện
trích rút khía cạnh của quan điểm trong khai phá quan điểm dựa trên
tiếp cận học sâu. Kết quả thực nghiệm cho thấy các mơ hình trích rút
khía cạnh đề xuất của luận án đã đạt được độ chính xác tương đối cao
so với các mơ hình trước đây trên cùng tập dữ liệu chuẩn đơn miền.
12
CHƯƠNG 3-KHAI PHÁ QUAN ĐIỂM MỨC KHÍA
CẠNH ĐA TÁC VỤ VỚI HƯỚNG TIẾP CẬN HỌC SÂU
3.1. Khai phá quan điểm mức khía cạnh đa tác vụ
Một hệ thống khai phá quan điểm mức khía cạnh đa tác vụ sẽ
tiến hành thực hiện ít nhất là hai hoặc nhiều các tác vụ chính trong khai
phá quan điểm (trích rút từ mục tiêu, khía cạnh, thực thể, phân loại
quan điểm) một cách đồng thời nhằm đáp ứng được tiêu chí tự động
phân loại, xác định chính xác quan điểm được bày tỏ tương ứng với
khía cạnh nào của thực thể trong bình luận.
Trong Chương 3, luận án sử dụng các kỹ thuật học sâu cơ bản
CNN, BiGRU và BiLSTM cho mơ hình khai phá quan điểm mức khía
cạnh đa tác vụ đề xuất.
3.2. Mơ hình khai phá quan điểm mức khía cạnh đa tác vụ sử dụng
hướng tiếp cận học sâu
3.2.1.
Mơ hình CNN-BiGRU đề xuất cho trích rút khía cạnh và
quan điểm
Mơ hình CNN-BiGRU được thực nghiệm trên tập dữ liệu
SemEval 2014 với hai miền Laptop và Restaurant để trích rút, phân
loại khía cạnh và quan điểm một cách đồng thời.
Hình 3.4. Cấu trúc mơ hình CNN-BiGRU
13
3.2.2.
Mơ hình CNN-IOB2 đề xuất cho trích rút từ mục tiêu
Mơ hình CNN-IOB2 sử dụng lớp IOB2 để gán nhãn cho các
từ nhằm xác định một từ có là từ mục tiêu hay khơng. Mơ hình được
huấn luyện trên tập dữ liệu gán nhãn SemEval 2016 trên miền
Restaurant để trích rút từ mục tiêu trên các bình luận.
Hình 3.5. Cấu trúc mơ hình CNN-IOB2
3.2.3.
Mơ hình MABSA cho trích rút và phân loại ba tác vụ tiếp
theo: khía cạnh, thực thể và quan điểm
Hình 3.6. Cấu trúc mơ hình khai phá quan điểm mức khía cạnh đa
tác vụ MABSA
14
Mơ hình MABSA gồm một BiLSTM tích hợp trên đỉnh của
CNN để phân loại: khía cạnh, thực thể và quan điểm. Mơ hình cũng
được huấn luyện trên tập dữ liệu gán nhãn SemEval 2016 trên miền
Restaurant.
3.3. Kết quả thực nghiệm các mơ hình
3.3.1.
Tập dữ liệu sử dụng trong thực nghiệm
Luận án đã sử dụng tập dữ liệu SemEval 2014 và 2016 với các
đơn miền Laptop và Restaurant cho thực nghiệm.
3.3.2.
Kết quả thực nghiệm, đánh giá hiệu quả khai phá quan
điểm đa tác vụ
3.3.2.1. Kết quả thực nghiệm và đánh giá hiệu suất mơ hình CNNBiGRU
Trích rút khía cạnh trên Laptop và Restaurant với
độ đo F1
100
80
60
40
20
0
SemEval 2014 ABSA
winners
Our previous
BiGRU_CRF
Laptop
Our CNN_BiGRU
Restaurant
Hình 3.7. So sánh độ chính xác của tác vụ trích rút khía cạnh
xét trên độ đo F1 của các mơ hình hiện có so với mơ hình CNNBiGRU đề xuất
15
Phân loại quan điểm giữa mơ hình đề xuất và mơ
hình hiện có trên miền Laptop và Restaurant với độ
đo Accuracy
120
100
80
60
40
20
0
SemEval 2014 ABSA winners
Laptop
Our CNN_BiGRU
Restaurant
Hình 3.8. So sánh độ chính xác của tác vụ phân loại hướng
quan điểm xét trên độ đo Accuracy của mơ hình hiện có so với mơ
hình CNN-BiGRU đề xuất
3.3.2.2. Kết quả thực nghiệm và đánh giá hiệu suất mơ hình CNNIOB2
So sánh hiệu suất của mơ hình đề xuất so với các mơ hình hiện có trên
cùng miền Restaurant với hai độ đo F1 và Accuracy
120
100
80
60
40
20
0
NLANGP(U)
CRF
AUEB
MIN
Opinion target extraction F1_score
DE-CNN
THA&STN
BiDTreeCRF Our CNN-IOB2
model
Opinion target extraction Accuracy_score
Hình 3.9. Biểu đồ so sánh độ chính xác của mơ hình đề xuất
với các mơ hình hiện có xét trên độ đo F1 và Accuracy
16
3.3.2.3. Kết quả thực nghiệm và đánh giá hiệu suất mơ hình đa tác
vụ MABSA
Đánh giá mơ hình MABSA
Accuracy_score
F1_score
Recall_score
Precision_score
88
90
92
Sentiment Polarity classification
94
96
98
100
Aspect classification
Category classification
Hình 3.10. Biểu đồ biểu diễn độ đo Precision, Recall, F1 và
Accuracy của mơ hình MABSA đề xuất
3.4. Kết luận Chương 3
Chương 3 của luận án nghiên cứu hệ thống khai phá quan điểm
mức khía cạnh với các tiếp cận trích rút khía cạnh, thực thể và quan
điểm một cách riêng lẻ trong từng mơ hình hiện có. Dựa trên cơ sở đó,
luận án tập trung đề xuất mơ hình mới thực hiện trích rút, phân loại đa
tác vụ trong khai phá quan điểm mức khía cạnh dựa trên tiếp cận học
sâu nhằm tiết kiệm thời gian thiết kế từng mơ hình riêng lẻ cho mỗi tác
vụ, cải thiện tốc độ xử lý và độ chính xác so với các mơ hình trước
đây. Các mơ hình đề xuất tập trung triển khai: (i) các tác vụ trích rút,
phân loại đồng thời khía cạnh và hướng quan điểm thể hiện trên khía
cạnh; hoặc (ii) trích rút, phân loại đồng thời từ đích quan điểm, khía
cạnh, thực thể và hướng quan điểm thể hiện trên khía cạnh của thực
thể trong tài liệu bình luận.
17
CHƯƠNG 4-KHAI PHÁ QUAN ĐIỂM MỨC KHÍA
CẠNH ĐA TÁC VỤ ĐA MIỀN VỚI HƯỚNG TIẾP CẬN HỌC
SÂU
4.1. Khai phá quan điểm mức khía cạnh đa miền
Việc huấn luyện mơ hình trên một tập dữ liệu bất kỳ gồm nhiều
miền sẽ phát sinh vấn đề liên quan đến hiệu suất của mơ hình ứng với
từng miền. Điều này dẫn đến phát sinh lãng phí tài nguyên khi phải
xây dựng hàng loạt mơ hình khác nhau được triển khai trên các miền
dữ liệu khác nhau nhằm tăng hiệu suất của mơ hình. Chương 4 đề xuất
một tiếp cận khác: xây dựng chỉ một mơ hình dùng chung thực nghiệm
trên tập dữ liệu đa miền.
4.2. Mơ hình khai phá quan điểm mức khía cạnh đa tác vụ đa miền
Luận án áp dụng hướng tiếp cận học sâu cho mơ hình khai phá
quan điểm mức khía cạnh đa tác vụ đa miền và thực nghiệm trên tập
dữ liệu đa miền Laptop_Restaurant và Laptop_Restaurant_Hotel.
4.2.1.
Mơ hình khai phá quan điểm mức khía cạnh đa miền
CNN-BiLSTM
Hình 4.11. Cấu trúc mơ hình khai phá quan điểm mức khía cạnh đa
miền
18
Mơ hình sử dụng cơ chế tích hợp: (i) mạng CNN hỗ trợ khả năng trích
rút tốt các đặc trưng trong tài liệu quan điểm; (ii) mạng BiLSTM hỗ
trợ khả năng học các phụ thuộc dài từ cả hai phía của từ đang xét.
4.2.2.
Mơ hình khai phá quan điểm mức khía cạnh đa tác vụ đa
miền CNN-BiIndyLSTM-Attention
Mơ hình CNN-BiIndyLSTM-Attention được xây dựng trên cơ
sở nhóm các kỹ thuật học sâu bổ trợ cho nhau trong việc học dữ liệu
chuỗi: (i) mạng CNN dùng để trích rút các đặc trưng cục bộ mức cao
trong chuỗi đầu vào; (ii) mạng BiIndyLSTM hỗ trợ khả năng học các
phụ thuộc dài một cách độc lập từ cả hai phía của từ đang xét; (iii) và
kết hợp với cơ chế Attention để bắt được các từ quan trọng hỗ trợ làm
rõ mối liên quan giữa khía cạnh và ngữ cảnh nhằm tăng hiệu suất phân
loại cho mơ hình.
BiIndyLSTM
layer
Hình 4.2. Cấu trúc mơ hình khai phá quan điểm mức khía cạnh đa
tác vụ đa miền
4.3. Kết quả thực nghiệm
4.3.1.
Tập dữ liệu sử dụng trong thực nghiệm
Luận án đã sử dụng tập dữ liệu SemEval 2016 với các đơn
miền Laptop và
Restaurant và hai tập dữ liệu đa miền
Laptop_Restaurant và Laptop_Restaurant_Hotel được xây dựng trên
19
cơ sở trộn các miền với nhau một cách ngẫu nhiên dùng cho thực
nghiệm
4.3.2.
Kết quả thực nghiệm và đánh giá hiệu quả khai phá quan
điểm trên đơn miền
Trích rút khía cạnh với độ đo Precision, Recall và F1 của mơ
hình đề xuất so sánh với các mơ hình hiện có trên cùng miền
Restaurant
100
80
60
40
20
0
NLANGP
AUEB
MIN
Precision
THA & STN
Recall
BiDTree-CRF
Our Proposed
model
F1
Hình 4.3. Biểu đồ so sánh độ chính xác thực thi tác vụ trích rút khía
cạnh của mơ hình đề xuất với các mơ hình hiện có trên miền
Restaurant
4.3.3.
Kết quả thực nghiệm và đánh giá hiệu quả khai phá quan
điểm trên đa miền
Bảng 4.1. Kết quả thực nghiệm mơ hình đề xuất trên đa miền
Laptop_Restaurant xét trên các độ đo Precision, Recall, F1
và Accuracy
Mơ hình
Đa miền Laptop_Restaurant
CNNBiLSTM
đề xuất
Precision
Recall
F1
Accuracy
Phân loại
miền
99.3
99.3
99.3
99.3
20
Trích rút
khía cạnh
83.2
74.6
78.6
78.5
Phân loại
quan
điểm
93.4
92.6
93.2
93
Bảng 4.4. Kết quả thực nghiệm mơ hình đa tác vụ đề xuất trên đa
miền Laptop_Restaurant_Hotel xét trên các độ đo Precision,
Recall, F1 và Accuracy
Mơ hình
Đa miền
Laptop_Restaurant_Hotel
CNNBiIndyLSTMAttention đề Precision Recall
xuất
F1
Accuracy
Phân loại miền
99.5
99.5
99.4
99.4
Trích rút thực
thể
88.5
80.2
85.6
86.2
Trích rút khía
cạnh
86.2
78.8
82.3
83.5
Phân loại quan
điểm
94.6
93.2
94.3
94.1
4.4. Kết luận Chương 4
Trong Chương 4, luận án tập trung đề xuất các mơ hình khai
phá quan điểm mức khía cạnh đa tác vụ đa miền. Mơ hình đa tác vụ đề
xuất được thực nghiệm trên tập dữ liệu đa miền dựa trên tiếp cận học
sâu nhằm: (i) hỗ trợ khả năng làm giàu dữ liệu; (ii) tiết kiệm tài nguyên
và tăng tính tiện ích khi chỉ sử dụng một mơ hình cho dữ liệu thuộc tất
cả các miền khác nhau trong tập dữ liệu; (iii) cải thiện tốc độ xử lý và
độ chính xác so với các mơ hình trước đây.
21
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
1. Kết luận
Các nghiên cứu trên khai phá quan điểm đã và đang phát triển
rất mạnh, thu hút rất nhiều nguồn lực tham gia, kết quả mang về cũng
vô cùng to lớn, và được ứng dụng rộng khắp. Do sự đa dạng về lĩnh
vực ứng dụng, sự khác nhau trong nhu cầu của người dùng và sự phát
triển của công nghệ, việc đề xuất và cải tiến mơ hình khai phá quan
điểm vẫn ln là hướng nghiên cứu chính trong khai phá quan điểm.
Nhiều kỹ thuật, phương pháp thuộc các hướng tiếp cận khác nhau được
sử dụng để xây dựng mơ hình. Trong đó, đa phần các nghiên cứu gần
đây dựa trên hướng tiếp cận máy học mà cụ thể là học sâu chủ yếu thực
hiện các tác vụ trích rút, khai phá quan điểm một cách riêng lẻ trên các
tập dữ liệu đơn miền.
Luận án “Khai phá quan điểm với kỹ thuật học sâu” tập trung
vào việc đề xuất và thử nghiệm các giải pháp nhằm cải thiện hiệu suất,
tăng tính tiện ích của khai phá quan điểm qua việc sử dụng mơ hình
trích rút, phân loại đa tác vụ trên tập dữ liệu đơn miền và đa miền.
Luận án đạt được một số kết quả tóm tắt như sau:
- Xác định được tầm quan trọng của khía cạnh hay đặc trưng
của thực thể, từ đó đề xuất mơ hình trích rút khía cạnh trong khai phá
quan điểm sử dụng hướng tiếp cận học sâu. Với hai mơ hình
BiGRU_CRF và BiIndyLSTM_CRF, luận án đã thực hiện tác vụ trích
rút khía cạnh với hiệu suất cao hơn hẳn các mơ hình trích rút khía cạnh
trước đó lần lượt trên các đơn miền Laptop và Restaurant của tập dữ
liệu SemEval 2014.
- Đề xuất khả năng thực hiện trích rút, phân loại các tác vụ
quan trọng trong khai phá quan điểm một cách đồng thời; và một mơ
hình khai phá quan điểm mức khía cạnh mới với khả năng thực hiện
đa tác vụ sử dụng hướng tiếp cận học sâu. Mơ hình đề xuất đã cải thiện
được tính chính xác của kết quả khai phá quan điểm đồng thời có thể
song song thực hiện đa tác vụ với hiệu suất cao vượt trội trên các đơn
miền Laptop và Restaurant của tập dữ liệu SemEval 2014 và SemEval
2016.
22
- Đề xuất thực nghiệm mơ hình khai phá quan điểm mức khía
cạnh đa tác vụ trên tập dữ liệu đa miền dựa trên tiếp cận học sâu. Mơ
hình đa tác vụ, đa miền đề xuất được triển khai thực nghiệm trên cả
đơn miền và đa miền. Mục đích hướng tới của luận án nhằm tiết kiệm
thời gian thiết kế từng mơ hình riêng lẻ cho mỗi tác vụ trong khai phá
quan điểm đồng thời hỗ trợ khả năng làm giàu dữ liệu, tăng tính tiện
ích và tiết kiệm tài ngun với chỉ một mơ hình được thực nghiệm lần
lượt trên đơn miền Restaurant và trên đa miền Laptop_Restaurant của
tập dữ liệu SemEval 2016 mà vẫn đảm bảo cải thiện tính chính xác của
mơ hình khai phá quan điểm.
- Xây dựng tập dữ liệu đa miền trên cơ sở trộn ngẫu nhiên các
bình luận từ các miền Restaurant và Laptop trên tập dữ liệu chuẩn
SemEval 2016. Tập dữ liệu này đã được dùng cho thực nghiệm để đánh
giá mơ hình khai phá quan điểm mức khía cạnh đa miền nêu trên.
2. Hướng phát triển
- Hoàn thiện tập dữ liệu đa miền mở rộng gồm các bình luận
thuộc nhiều miền khác nhau trên cơ sở phát triển tập dữ liệu đa miền
Laptop_Restaurant và Laptop_Restaurant_Hotel đã xây dựng trong
luận án.
- Đánh giá các mơ hình khai phá quan điểm đề xuất trên tập
dữ liệu đa miền mở rộng để có bức tranh tổng thể về hiệu quả của các
mơ hình đã đề xuất cũng như thấy rõ ảnh hưởng của dữ liệu huấn luyện
lên kết quả khai phá quan điểm.
- Phát triển tập dữ liệu đa miền mở rộng thành tập dữ liệu đa
miền, đa ngơn ngữ gồm các bình luận từ nhiều miền, nhiều ngôn ngữ
khác nhau và công bố tập dữ liệu này dùng làm dữ liệu thực nghiệm
cho các mơ hình khai phá quan điểm tiếp theo.
- Xây dựng mơ hình khai phá quan điểm mức khía cạnh đa tác
vụ, đa miền, đa ngôn ngữ trên cơ sở mô hình khai phá quan điểm mức
khía cạnh đa tác vụ, đa miền đã đề xuất trong luận án nhằm hướng tới
khả năng trích rút, phân tích đa tác vụ trong khai phá quan điểm chỉ
với một mơ hình khai phá quan điểm cho mọi câu bình luận khơng phụ
thuộc miền và không phụ thuộc ngôn ngữ.
23
DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ
[1] Trần Uyên Trang, Hoàng Thị Thanh Hà, Huỳnh Xuân Hiệp, “Dự
đoán hướng ngữ nghĩa của cụm từ trong khai phá quan điểm với
độ đo thơng tin tương hỗ”, Tạp chí Khoa học và Công nghệ - Đại
học Đà Nẵng, Số 3(124).2018, trang 108-112, 2018, ISSN 18591531.
[2] Trang Uyen Tran, Ha Thanh Thi Hoang, Hiep Xuan Huynh,
“Aspect Extraction with Bidirectional GRU and CRF”, The 2019
IEEE-RIVF International Conference on Computing and
Communication Technologies (RIVF), pp. 60-64, Vietnam,
March
20-22,
2019,
ISBN
978-604-84-3998-9.
DOI:10.1109/RIVF.2019.8713663.
[3] Trang Uyen Tran, Ha Thanh Thi Hoang, Hiep Xuan Huynh,
“Bidirectional Independently Long Short-Term Memory and
Conditional Random Field integrated model for Aspect
Extraction in Sentiment Analysis”, Part of the Advances in
Intelligent Systems and Computing book series (AISC,volume
1014), Frontiers in Intelligent Systems and Computing 1014, No.
1014,
pp.
78-88,
Springer
2020.DOI:
/>[4] Trang Uyen Tran, Ha Thanh Thi Hoang, Phuong Hoai Dang,
Michel Riveill, “Multitask Aspect_Based Sentiment Analysis
with Integrated Bidirectional LSTM & CNN Model”,
ICFNDS’20: The 4th International Conference on Future
Networks and Distributed Systems (ICFNDS), Article No. 49, pp.
1-7, St. Petersburg, Russia, November 26-27, 2020, ACM ISBN
978-1-4503-8886-3.
DOI: />[5] Trang Uyen Tran, Ha Thanh Thi Hoang, “Deep Learning in
Aspect-Based Sentiment Analysis”, The 10th Conference on
24
Information Technology and Its Applications (CITA), Danang,
Vietnam, 2021.
[6] Trang Uyen Tran, Ha Thanh Thi Hoang, Phuong Hoai Dang,
Michel Riveill, “Multidomain Supervised Aspect_based
Sentiment Analysis using CNN_Bidirectional LSTM model”,
The 2021 RIVF International Conference on Computing and
Communication Technologies (RIVF), Vietnam, 2021, ISBN 9781-6654-0435-8/21/$31.00
©2021
IEEE.
DOI: />[7] Trang Uyen Tran, Ha Thanh Thi Hoang, Phuong Hoai Dang,
Michel Riveill, “Toward a multitask Aspect_based Sentiment
Analysis model using deep learning”, IAES International Journal
of Artificial Intelligence (IJ-AI), volume 11, issue 2, June 22nd
2022,
ISSN
2252-8938.
DOI: />[8] Trang Uyen Tran, Ha Thanh Thi Hoang, Phuong Hoai Dang,
Michel Riveill, “Aspect_based Sentiment Analysis with Deep
Learning: A Multidomain and Multitask Approach”, Intelligence
of Things: Technologies and Applications – The First
International Conference on Intelligence of Things (ICIT), book
chapter, vol. 148 of the Lecture Notes on Data Engineering and
Communications Technologies series, Springer April 22nd 2022,
DOI: />