Tải bản đầy đủ (.docx) (171 trang)

Khai phá quan điểm với kỹ thuật học sâu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.87 MB, 171 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

TRẦN UYÊN TRANG

KHAI PHÁ QUAN ĐIỂM VỚI KỸ THUẬT HỌC SÂU
(Opinion mining with deep learning)

LUẬN ÁN TIẾN SĨ KỸ THUẬT

ĐÀ NẴNG – 2023


ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

TRẦN UYÊN TRANG

KHAI PHÁ QUAN ĐIỂM VỚI KỸ THUẬT HỌC SÂU
(Opinion mining with deep learning)

Ngành:Khoa học máy tính
Mã sớ:9.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT

Cán bộ hướng dẫn:
1. TS. Hoàng Thị ThanhHà
2. TS. Đặng HoàiPhương

ĐÀ NẴNG – 2023


i


LỜI CAM ĐOAN

Tơi xin cam đoan đây là cơng trình nghiên cứu do tơi thực hiện, dưới sự
hướngdẫncủaTS.HồngThịThanhHàvàTS.ĐặngHồiPhương.Tơicamđoancáckếtquả
nghiêncứuđượctrìnhbàytrongluậnánlàtrungthựcvàkhơngsaochéptừbấtkỳcơng trình nghiên
cứu nào khác. Mọi trích dẫn trong luận án đều đề cập đến nguồn gốc xuất xứ rõ ràng và
đầyđủ.
Tác giả

Trần Uyên Trang

3


MỤC LỤC

LỜICAM ĐOAN........................................................................................................III
MỤCLỤC...................................................................................................................IV
DANH MỤC THUẬT NGỮ VÀ TỪVIẾTTẮT......................................................VII
DANHMỤCBẢNG.....................................................................................................IX
DANHMỤCHÌNH.......................................................................................................X
PHẦNMỞĐẦU.............................................................................................................1
1.

TÍNH CẤP THIẾT CỦALUẬNÁN..................................................................1

2.


MỤC TIÊU,ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU CỦALUẬNÁN. . .4

3.

CÁC ĐÓNG GÓP CỦALUẬNÁN....................................................................5

4.

BỐ CỤC CỦALUẬNÁN...................................................................................6

CHƯƠNG 1- TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM VÀ KỸ THUẬTHỌC
SÂU..................................................................................................................................... 9
1.1. KHAI PHÁQUANĐIỂM...................................................................................9
1.2. CÁC CẤP ĐỘ KHAI PHÁQUANĐIỂM.......................................................11
1.2.1. Khai phá quan điểm mứctàiliệu................................................................12
1.2.2. Khai phá quan điểmmứccâu.....................................................................12
1.2.3. Khai phá quan điểm mức khía cạnh hay mứcđặctrưng...........................12
1.3. CÁC HƯỚNG NGHIÊN CỨU KHAI PHÁQUANĐIỂM.............................13
1.3.1. Hướng tiếp cận dựa trênngữliệu...............................................................14
1.3.2. Hướng tiếp cậnmáyhọc.............................................................................14
1.3.3. Các nghiên cứuliênquan...........................................................................16
1.4. MỘT SỐ HẠN CHẾ CỦA CÁC TIẾP CẬN KHAI PHÁ QUAN
ĐIỂMHIỆNNAY..............................................................................................24
1.5. HỌC SÂU VÀ NHÓM KỸ THUẬT HỌC SÂU ĐƯỢC SỬ DỤNG TRONG CÁC MƠ
HÌNHKHAI PHÁ QUAN ĐIỂMĐỀXUẤT....................................................30


1.5.1. Họcsâu.......................................................................................................30
1.5.2. Các kỹ thuật học sâu phổ biến dùng trong xử lý ngôn ngữ tự nhiên

vàkhai pháquanđiểm
34
1.6. ĐỀ XUẤT NGHIÊN CỨU: KHAI PHÁ QUAN ĐIỂM VỚI KỸ
THUẬTHỌCSÂU.............................................................................................46
1.7. KẾT LUẬNCHƯƠNG1.........................................................................................47
CHƯƠNG 2-TRÍCH RÚT KHÍA CẠNH TRONG KHAI PHÁ QUAN
ĐIỂMVỚIHƯỚNG TIẾP CẬNHỌCSÂU......................................................................49
2.1. TRÍCH RÚT KHÍA CẠNH VỚI HƯỚNG TIẾP CẬNHỌCSÂU................49
2.2. MƠ HÌNH TRÍCH RÚT KHÍA CẠNH VỚI TIẾP CẬN HỌC SÂUĐỀ XUẤT
........................................................................................................................... 54
2.2.1. Mơ hình tích hợp BiGRU-CRF cho trích rútkhíacạnh.............................55
2.2.2. Mơ hình tích hợp Bi-IndyLSTM-CRF cho trích rútkhíacạnh..................59
2.3. KẾT QUẢTHỰCNGHIỆM............................................................................64
2.3.1. Tập dữ liệu và công cụ sử dụng trongthựcnghiệm...................................64
2.3.2. Kết quả thực nghiệm và đánh giá hiệu quả trích rútkhíacạnh.................65
2.4. KẾT LUẬNCHƯƠNG2.........................................................................................67
CHƯƠNG 3-KHAI PHÁ QUAN ĐIỂM MỨC KHÍA CẠNH ĐA TÁC VỤ
VỚIHƯỚNG TIẾP CẬNHỌCSÂU.................................................................................68
3.1. KHAI PHÁ QUAN ĐIỂM MỨC KHÍA CẠNH ĐATÁCVỤ.......................68
3.2. MƠ HÌNH KHAI PHÁ QUAN ĐIỂM MỨC KHÍA CẠNH ĐA TÁC VỤ VỚI TIẾP
CẬNHỌC SÂUĐỀXUẤT...............................................................................69
3.2.1. Mơ hình CNN-BiGRU cho trích rút khía cạnh vàquanđiểm....................71
3.2.2. Mơ hình CNN-IOB2 cho trích rút từmụctiêu...........................................76
3.2.3. Mơ hình MABSA cho trích rút và phân loại ba tác vụ tiếp theo:
khíacạnh, thực thể vàquanđiểm
82
3.3. KẾT QUẢ THỰC NGHIỆM CÁCMƠHÌNH................................................89
3.3.1. Tập dữ liệu và cơng cụ sử dụng trongthựcnghiệm...................................90



3.3.2. Kết quả thực nghiệm, đánh giá hiệu quả khai phá quan điểm đa tác vụ91
3.4. KẾT LUẬNCHƯƠNG3.........................................................................................97
CHƯƠNG 4-KHAI PHÁ QUAN ĐIỂM MỨC KHÍA CẠNH ĐA TÁC VỤ, ĐAMIỀN
VỚI HƯỚNG TIẾP CẬNHỌCSÂU................................................................................99
4.1. KHAI PHÁ QUAN ĐIỂM MỨC KHÍA CẠNHĐAMIỀN..........................101
4.2. MƠ HÌNH KHAI PHÁ QUAN ĐIỂM MỨC KHÍA CẠNH ĐA TÁC VỤ ĐA MIỀN
ĐỀXUẤT......................................................................................................102
4.2.1. Mơ hình khai phá quan điểm mức khía cạnh đa miềnCNN-BiLSTM.103
4.2.2. Mơ hình khai phá quan điểm mức khía cạnh đa tác vụ, đa miền CNNBiIndyLSTM-Attention
110
4.3. KẾT QUẢTHỰCNGHIỆM..........................................................................115
4.3.1. Tập dữ liệu và công cụ sử dụng trongthựcnghiệm.................................116
4.3.2. Kết quả thực nghiệm và đánh giá hiệu quả khai phá quan điểm đa tác
vụtrên đơn miền vàđamiền
117
4.4. KẾT LUẬNCHƯƠNG4.......................................................................................124
KẾT LUẬN VÀ HƯỚNGPHÁTTRIỂN.................................................................126
KẾTLUẬN..............................................................................................................................................126
HƯỚNG PHÁT TRIỂN.......................................................................................132
DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃCÔNGBỐ..........................133
TÀI LIỆUTHAMKHẢO..........................................................................................135


DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT
STT
Thuật ngữ
Đơn vị tuyến tính được chỉnh
1
lưu
2

Học máy
3
Học sâu
4
Khai phá quan điểm/Phân tích
cảm xúc
5
Khai phá quan điểm mức tài
liệu
6
Khai phá quan điểm mức câu
7
Khai phá quan điểm mức khía
cạnh/đặc trưng
8
Khai phá quan điểm mức khía
cạnh/đặc trưng đa tác vụ
9
10
11
12
13
14
15
16
17
18
19
20
21

22
23
24
25
26
27
28
29
30
31
32

Tiếng Anh
Rectified Linear Unit

Viết tắt
ReLU

Machine learning
Deep learning
Opinion mining/Sentiment analysis

ML
DL
OM/SA

Document_based sentiment analysis

DBSA


Sentence_based sentiment analysis
Aspect/Feature_based sentiment
analysis
Multitaska s p e c t /
feature_based
sentiment analysis
Khai phá quan điểm mức khía Multidomain aspect/feature_based
cạnh/đặc trưng đa miền
sentiment analysis
Ma trận đồng xuất hiện
Co-occurrence matrix
Mạng neural hồi quy
Recurrent Neural Network
Mạng neural hồi quy hai
Bidirectional Recurrent Neural
chiều
Network
Mạng bộ nhớ ngắn dài
Long_Short Term Memory
Mạng bộ nhớ ngắn dài hai
Bidirectional Long_Short Term
chiều
Memory
Mạng bộ nhớ ngắn dài độc lập Independently Long_Short Term
Memory
Mạng bộ nhớ ngắn dài độc lập Bidirectional Independently
hai chiều
Long_Short Term Memory
Mạng đơn vị hồi quy có cổng Gated Recurrent Unit
Mạng đơn vị hồi quy có cổng Bidirectional Gated Recurrent Unit

hai chiều
Mạng neural đệ quy
Recursive Neural Network
Mạng neural tích chập
Convolutional Neural Network
Máy vector hỗ trợ
Support Vector Machine
Mơ hình Markov ẩn
Hidden Markov Models
Phân bổ Dirichlet tiềm ẩn
Latent Dirichlet Allocation
Phân loại miền
Domain classification
Phân loại quan điểm
Sentiment classification
Phân rã đạo hàm
Gradient decay
Phân tích ngữ nghĩa tiềm ẩn
Latent Semantic Analysis
Phân tích ngữ nghĩa tiềm ẩn
Probabilistic Latent Semantic
xác suất
Analysis
Quan điểm
Opinion
Quan điểm tích cực
Positive opinion
Quan điểm tiêu cực
Negative opinion
Quan điểm trung lập

Neutral opinion

SBSA
ABSA
MABSA

RNN
BiRNN
LSTM
BiLSTM
IndyLSTM
BiIndyLSTM
GRU
BiGRU
CNN
SVM
HMM
LDA

LSA
pLSA


33
34
35
36
37
38
39


Quá khớp
Trích rút khía cạnh
Trích rút từ mục tiêu quan
điểm
Trích rút thực thể
Trường ngẫu nhiên có điều
kiện
Triệt tiêu/bùng nổ đạo hàm
Vector toàn cục

Overfitting
Aspect extraction
Opinion target extraction
Entity extraction
Conditional Random Field

CRF

Vanishing/exploding gradient
Global Vector

GloVe


DANH MỤC BẢNG
Bảng 1.1.Các mơ hình khai phá quan điểm dựa trên hướng tiếp cận ngữ liệu nổi bật và
hiệusuất của cácmơhình...............................................................................................................26
Bảng 1.2.Các mơ hình khai phá quan điểm dựa trên hướng tiếp cận máy học nổi bật và
hiệusuất của cácmơhình..............................................................................................................27

Bảng 2.1.Tập dữ liệuSemEval2014...........................................................................................65
Bảng2.2.SosánhđộđoF1trênmơhìnhBiGRU-CRFvàBi-IndyLSTM-CRFvớicácmơhìnhhiệncó...65
Bảng 3.1.Sử dụng miền Restaurant trong tập dữ liệu SemEval 2016 chothựcnghiệm..............90
Bảng 3.2.Kết quả thực nghiệm mô hình hiện có so với các mơ hình đề xuất của luận án
trongChương 2 và Chương 3 trên miền Laptop của tập dữ liệuSemEval2014...................................92
Bảng 3.3.Kết quả thực nghiệm mơ hình hiện có so với các mơ hình đề xuất của luận án
trongChương 2 và Chương 3 trên miền Restaurant của tập dữ liệuSemEval2014..............................92
Bảng 3.4.Kết quả thực nghiệm xét trên độ đo F1 và Accuracy của các mơ hình hiện có và
mơhình CNN-IOB2 trên miền Restaurant củaSemEval2016...........................................................95
Bảng 3.5.Kết quả thực nghiệm mơ hình MABSA đề xuất xét trên các độ đo Precision,
Recall,F1 và Accuracy trên miền Restaurant của tậpSemEval2016.................................................96
Bảng4.1.TậpdữliệuhuấnluyệngồmcácđơnmiềnRestaurant,LaptopcủatậpSemEval2016,đa miền
Laptop_Restaurant, và đamiềnLaptop_Restaurant_Hotel..........................................................117
Bảng4.2.TríchrútkhíacạnhxéttrênđộđoPrecision,RecallvàF1củahaimơhìnhđềxuấtsovới các mơ
hình hiện có trên miền LaptopvàRestaurant...............................................................................118
Bảng 4.3.Kết quả thực nghiệm mơ hình CNN-BiLSTM trên đamiềnLaptop_Restaurant.......120
Bảng

4.4.Kết

quả

thực

nghiệm



hình


CNN-BiIndyLSTM-Attention

trên

đa

miềnLaptop_Restaurant_Hotel..................................................................................................121
Bảng4.5.TríchrútkhíacạnhxéttrênđộđoPrecision,RecallvàF1củahaimơhìnhđềxuấtsovới các mơ
hình

hiện



trên

đơn

miền

Restaurant,

đa

miền

Laptop_Restaurant

và đa


miềnLaptop_Restaurant_Hotel..................................................................................................122
Bảng 5.1.Bảng tổng hợp đặc điểm của các mơ hình khai phá quan điểmđềxuất....................128


DANH MỤC HÌNH
Hình 1.1.Các cấp độ cụ thể trong khai pháquanđiểm................................................................12
Hình 1.2.Mơ hình mạng neural đơn giản gồm 1lớpẩn..............................................................32
Hình 1.3.Mơ hình mạng học sâu gồm 3lớpẩn...........................................................................33
Hình 1.4.Mạng neuraltíchchập..................................................................................................35
Hình 1.5.Tính tốnvớiMaxPooling............................................................................................36
Hình 1.6.Mơ hình CNN trong xử lývănbản...............................................................................37
Hình 1.7.Mơ hình mạng RNN và các tính tốn bêntrong RNN.................................................38
Hình 1.8.Cấu trúc của mơ-đuntrongRNN..................................................................................40
Hình 1.9.Cấu trúc của mơ-đuntrongLSTM................................................................................40
Hình 1.10.Cấu trúc chi tiết của mộtmơ-đunLSTM....................................................................41
Hình 1.11.Cấu trúcmạngBiLSTM.............................................................................................42
Hình 1.12.Cấu trúc cơ bảncủaGRU...........................................................................................43
Hình 1.13.Cấu trúcmạngBiGRU...............................................................................................44
Hình 1.14.Cấu trúc mạngBidirectionalIndyLSTM.....................................................................45
Hình 2.1.Quy trình trích rút khía cạnh của mơhìnhBiGRU-CRF..............................................56
Hình 2.2.Cấu trúc mơ hình BiGRU-CRF cho trích rút khía cạnh trong câu quan điểm58
Hình 2.3.Quy trình trích rút khía cạnh của mơhìnhBi-IndyLSTM-CRF..................................61
Hình2.4.CấutrúcmơhìnhBi-IndyLSTM-CRFchotríchrútkhíacạnhtrongcâuquanđiểm
..................................................................................................................................................63
Hình 2.5.Biểu đồ so sánh độ chính xác F1 của hai mơ hình đề xuất với các mơ hình đã
đượcđánh giá caotrướcđây...........................................................................................................66
Hình 3.1.Quy trình trích rút, phân loại khía cạnh và quan điểm của mơ hình CNN-BiGRU .
74Hình3.2.CấutrúcmơhìnhCNN-BiGRUchokhaipháquanđiểmmứckhíacạnhtríchrútđồngthời

khía


cạnh vàquan điểm........................................................................................................................75
Hình 3.3.Quy trình trích rút từ mục tiêu của mơhìnhCNN-IOB2.............................................79
Hình 3.4.Cấu trúc mơ hình CNN-IOB2 cho trích rút từmụctiêu...............................................82
Hình3.5.Quytrìnhtríchrút,phânloạikhíacạnh,thựcthểvàquanđiểmcủamơhìnhMABSA
..................................................................................................................................................86
Hình 3.6.Cấu trúc mơ hình khai phá quan điểm mức khía cạnh đa tác vụ MABSA cho
phânloại khía cạnh, thực thể vàquanđiểm..................................................................................88


Hình3.7.SosánhđộchínhxáccủatácvụtríchrútkhíacạnhxéttrênđộđoF1củacácmơhìnhhiện có so với
mơ hình CNN-BiGRUđềxuất.......................................................................................................93
Hình3.8.SosánhđộchínhxáccủatácvụphânloạiquanđiểmxéttrênđộđoAccuracycủamơhình hiện có so
với mơ hình CNN-BiGRUđềxuất..................................................................................................94
Hình 3.9.Biểu đồ so sánh độ chính xác của mơ hình đề xuất với các mơ hình hiện có xét
trênđộ đo F1vàAccuracy.............................................................................................................96
Hình3.10.BiểuđồbiểudiễnđộđoPrecision,Recall,F1vàAccuracycủamơhìnhMABSAđềxuất..........97
Hình 4.1.Quy trình thực hiện của mơ hình khai phá quan điểm mức khía cạnh đa
miềnCNN-BiLSTM................................................................................................................106
Hình 4.2.Cấu trúc mơ hình khai phá quan điểm mức khía cạnh đamiền CNN-BiLSTM..........107
Hình 4.3.Quy trình thực hiện của mơhìnhCNN-BiIndyLSTM-Attention................................113
Hình 4.4.Cấu trúc mơ hình khai phá quan điểm mức khía cạnh đa tác vụđamiền..................114
Hình 4.5.Biểu đồ so sánh độ chính xác thực thi tác vụ trích rút khía cạnh của mơ hìnhCNNBiLSTM đề xuất với các mơ hình hiện có trênmiềnRestaurant...............................................115
Hình 4.6.Biểu đồ so sánh độ chính xác thực thi tác vụ trích rút khía cạnh của mơ hình CNNBiIndyLSTM-Attention đề xuất với các mơ hình hiện có trênmiềnRestaurant......................120
Hình 4.7.Kết quả thực thi mơ hình đa tác vụ CNN-BiIndyLSTM-Attention đề xuất với các
độđo Precision, Recall, F1 và Accuracy trên đamiềnLaptop_Restaurant_Hotel......................122


PHẦN MỞ ĐẦU
1. Tính cấp thiết của luậnán

Trongkỷngunbùngnổthơngtinhiệnnay,vớisựpháttriểnmạnhmẽvànhanh chóng của các
nền tảng truyền thông xã hội, thương mại điện tử, người dùng khơng chỉ chia sẻ thơng tin mà cịn
có thể bày tỏ thái độ, quan điểm cá nhân trực tiếp trên những nền tảng này. Cụ thể là những bình
luận, đánh giá, chia sẻ kinh nghiệm của cộng đồng đối với các sản phẩm, dịch vụ mà họ đã từng
trải nghiệm; các quan điểm của cộngđồng đối với một chính sách mới hay đới với một nhân vật có tầm ảnh
hưởng lớn; và một số vấn đề khác thông qua mạng xã hội, các diễn đàn, blog cá nhân…Thông tin từ các bình luận, chia sẻ,
quan điểm dạng này đã ảnh hưởng trực tiếp đến suy nghĩ, tâm tư, nguyện vọng, hành vi của người dùng toàn cầu. Lượng
thông tin này đã và đang là một khối dữ liệu khổng lồ không ngừng tăng lên từng ngày từng giờ một cách khó kiểm sốt.
Đặc biệt từ năm 2020 đến nay, do ảnh hưởng của dịch bệnh Covid 19 cùng với những diễn biến phức tạp của đại dịch,
thương mại điện tử đã tăng trưởng ngoạn mục dựa trên lựa chọn ngày càng nhiều của người tiêu dùng. Đối với các cá nhân
thường xuyên mua sắm trực tuyến, việc tham khảo các bình luận, nhận xét trên mạng đã ảnh hưởng rất lớn đến
quyếtđịnhmuahàngcủahọ.Điềunàychothấycácnềntảngtruyềnthơngxãhội,thương mại điện tử…
chính là nơi trao đổi thơng tin, đưa ra các bình luận, góp ý cũng như cập nhật trạng thái người
dùng



khắp

mọi

nơi

liên

quan

đến

mọi


vấn

đề

trong

xã hội

hiện

đại.Nguồnthơngtinkhổnglồnàyđãtrởthànhmộtkhodữliệulớnđểcáccánhânvàtổ
chứcsửdụngquanđiểmcộngđồngtrongtiếntrìnhraquyếtđịnh,hoạchđịnhchiếnlược đới với một
sản phẩm hay dịch vụ cụthể.
Tuynhiên,cáctươngtácnhưchiasẻ,cậpnhật,đểlạibìnhluậnliêntụcđượcthực
hiệnsẽdẫnđếnlượngkíchhoạtmớităngmạnh.Vấnđềnàylàmộttấtyếulàmphátsinh
bùngnổdữliệu.Việctìmkiếmvàchắtlọcthơngtincầnthiếtvẫnlàmộttácvụkhókhăn vì sự gia tăng
khơng ngừng của dữ liệu. Nói một cách cụ thể, vấn đề dữ liệu lớn sẽ đi kèm vướng mắc, khó
khăn

trong

việc

kiểm

sốt,

tìm


kiếm,

tổng

hợp,

phân

tích

và đánh

giáquanđiểm.Dođó,việcsửdụngmộthệthớng khaiphávà tổnghợpquanđiểmtự


động giữa lớp lớp thông tin phi cấu trúc dạng này là rất cần thiết. Đặc biệt đối với các nhà
hoạch định chiến lược kinh doanh, các doanh nghiệp, các tổ chức chính trị, việc sử
dụnghệthớngkhaiphávàtổnghợpquanđiểmtựđộngsẽgiúphọdễdàngxácđịnhđược hướng quan điểm
chun biệt đối với vấn đề họ quantâm.
Khai phá quan điểm hay phân tích cảm xúc[11][12][16]là lĩnh vực nghiên cứu về
trích rút và phân loại quan điểm, ý kiến, cảm xúc, thái độ, đánh giá chủ quan của người
dùng đối với các thực thể, cá nhân, vấn đề, sự kiện từ nội dung được phát sinh trong văn
bản. Khai phá quan điểm áp dụng cho các nền tảng truyền thông xã hội để
nghiêncứuhànhvivàphảnứngcủangườidùngđớivớimộtsảnphẩm,dịchvụhaymột
chínhsáchcụthể.Việcphântích,khaithácýkiếncủangườidùngcóthểmanglạinhững tri thức hữu ích hỗ
trợ cho việc tìm hiểu xem cộng đồng sử dụng cảm thấy thế nào về dịch vụ, sản phẩm, chủ đề, tổ chức,
sự kiện hay các nhân vật nổi tiếng…Trên cơ sởnày,cáccánhânvàtổchứccóthểsửdụngýkiếncủacộngđồngđểraquyết
định.Ngoàira,khaipháquanđiểmcịngiúpđạtđượcnhữngmụcđíchkhácnhaunhưtheodõiđượctâmtrạngcủacộngđồngliênquanđếncác
cuộc vận động chính trị, mua bán, giao dịch thôngminh[5],phép đo độ thoả mãn của khách hàng[72], phán
đốn doanh sớ củamộtbộphim[117].

Quan điểm[8][39][53]trong một hệ thống khai phá quan điểm là nhân tố ảnh hưởng
cốt yếu đến hành vi, thái độ của người dùng. Quan điểm đóng vai trị nền tảng trong tiến
trình ra quyết định của cả cá nhân và tổ chức bởi vì quan điểm có sức ảnh hưởng lớn đến
dự định, xu hướng của con người. Khai phá quan điểm cho phép cung
cấpnhữnghiểubiếthữuíchthúcđẩycácquyếtđịnh,chiếnlượcvàmụctiêukinhdoanh hiệu quả. Mục
đích chính là hỗ trợ doanh nghiệp đề ra những giải pháp kinh doanh chủ động; hỗ trợ cá
nhân trong tiến trình ra quyết định sử dụng sản phẩm, dịch vụ mà họ đang quan tâm. Chính
vì lý do này mà nhu cầu khai thác năng lực thăm dò và hiểu các quan điểm một cách tự
động ngày càng được quan tâm nghiên cứu[91].
Những nội dung liên quan trong khai phá quan điểm[13][66][71]bao gồm: (1) phân
loại quan điểm, (2) phân loại tính chủ quan, (3) tổng hợp quan điểm, (4) tìm kiếm và khơi
phục quan điểm, (5) phân tích các quan điểm so sánh, (6) thăm dị quan điểm spam, (7)
chất lượng của các bình luận.

2


Hiện nay có hai hướng tiếp cận để khai phá quan điểm [70][120]: hướng tiếpcậndựa
trêntừvựngvàhướngtiếpcậndựatrênmáyhọc.
 Hướng tiếp cận dựa trên từ vựng[54][159]sử dụng phương pháp dựatrêntừ
điển hoặc dựa trên ngữ liệu để xác định quan điểm. Đến thời điểm hiện
tạiđãcónhiềunhữngnghiêncứusửdụngkỹthuậtthớngkênhưphântích ngữ nghĩa
tiềm ẩn LSA[23]; hoặc kỹ thuật ngữ nghĩa như đồng nghĩa và tráinghĩa.
 Hướng tiếp cận máy học[17]có thể thực hiện phương pháp học giám sát
và học không giám sát để tiến hành phân loại quan điểm. Trong học giám
sát,cácbàitốnphânloạicâyquyếtđịnh,phânloạituyếntínhcụthểlàkỹ thuật máy
vector hỗ trợ SVM hoặc mạng neuron, phân loại dựa trên luật, phân loại
xác suất cụ thể là Naïve Bayes, Bayesian Network, Maximum Entropy
được sử dụng[139]. Tuy nhiên các kỹ thuật này thường không hiệu quả
đối với một sớ vấn đề khó nhận biết trong cấu trúc của ngơn ngữ

tựnhiên.Chẳnghạnnhưphủđịnhcủamộtcụmtừthểhiệnquanđiểmtích
cựcsẽhoàntoànngượclạivớiquanđiểmbanđầucủanónhưngnếuchúng ta khơng biểu
diễn được cấu trúc của câu trên tập đặc trưng một cách hợp lý thì sẽ không đạt
được kết quả. Xét ở mức độ trừu tượng cao hơn thì những ý chế nhạo hay nghĩa
bóng trong một bình luận sẽ là một thử thách lớn đới với máy tính. Các hướng tiếp
cận máy học truyền thớng để khai phá quan điểm đều dựa trên những đặc trưng
được thiết kế, tuy nhiên rất khó xử lý, điều chỉnh các đặc trưng để trích rút thuộc
tính được đềcập.
Họcsâu[25][26][44][47]làmộtlĩnhvựcmớitrongnghiêncứuvềmáyhọcđược phát triển từ
năm 2006. Học sâu bao gồm một lớp các kỹ thuật và kiến trúc máy họcvớikhảnăngsửdụngnhiềulớptrạng
tháixửlýthơngtinkhơngtuyếntính[52][61][83]. Dựa vào những kiến trúc và kỹ thuật này để xác định
hướng

sử

dụng

phù

hợp,

chẳng

hạn:tổnghợp,phátsinh,nhậndạnghayphânloại[143].Ưuthếcủahọcsâulàkhảnăng
tựhọctậndụngnguồndữliệukhổnglồliêntụcđượccậpnhậttừcáctrangweb,cácdiễn đàn giúp các mơ
hình học sâu càng ngày càng trở nên thơng minh hơn, đạt độ chínhxác cao hơn[145][171][172].


Gần đây, các giải thuật học sâu[29][74]đã cho những kết quả khả quan trongxửlýtín
hiệu nói chung và xử lý ngơn ngữ tự nhiên nói riêng. Với tớc độ học nhanh dựa

trênkhảnăngtíchhợpcardđồhoạvàđộchínhxácđạtđượckhácaonhờvàolợithếcủa
dữliệulớnsẵncó,họcsâuđangngàycàngđượcquantâmnghiêncứutriểnkhaichocác bài tốn xử lý
dữ liệu lớn hiệnnay.
Dựa trên nhu cầu tất yếu cần có một hệ thớng khai phá, tổng hợp quan điểm tự
động hỗ trợ người dùng và khả năng xử lý tốt của học sâu trên dữ liệu lớn sẵn có hiện
nay, đề tài “Khai phá quan điểm với kỹ thuật học sâu” được thực hiện trong khn khổ
luậnántiếnsĩchunngànhkhoahọcmáytínhđãđượctriểnkhai.Luậnánmongḿn được đóng góp
một phần vào lĩnh vực khai phá, phân tích quan điểm và nghiên cứu hướng tiếp cận học
sâu áp dụng cho khai phá quanđiểm.
2. Mụctiêu, đối tượng và phạm vi nghiên cứu của luận án
2.1. Mục tiêu nghiêncứu
Luận án đi sâu tìm hiểu, áp dụng lý thuyết học sâu vào lĩnh vực khai phá quan
điểm.Mụctiêuchunglàvậndụngcáckỹthuậthọcsâuđểđềxuấtvàtinhchỉnhmơhình khai phá quan
điểm mức khía cạnh nhằm cải tiến độ chính xác, nâng cao hiệu suất,tăng tính tiện ích của mơ hình.
Các mục tiêu cụ thể gồm:
-

Đềxuấttríchrútkhíacạnhcủathựcthểvớihướngtiếpcậnhọcsâuvàmơhình khai phá quan
điểm thực hiện tác vụ này dựa trên các kỹ thuật họcsâu;

-

Đềxuất,mởrộngkhảnăngtríchrút,phânloạicáctácvụchínhmộtcáchđồng thời (đa tác
vụ/đa nhiệm) trong một hệ thống khai phá quan điểm dựa trên mức khía cạnh; và mơ
hình khai phá quan điểm mức khía cạnh đa tác vụthực hiện tríchrút các tác vụnói trênsử dụng
hướngtiếpcậnhọcsâu;

-

Đề xuất xây dựng một tập dữ liệu đa miền dùng cho thực nghiệm được hình

thành trên cơ sở tích hợp các bình luận của người dùng trên các miền khác
nhau; và mơ hình khai phá quan điểm mức khía cạnh đa tác vụ, đa miền sử
dụng hướng tiếp cận học sâu được thực nghiệm trên tập dữ liệu đa miềnnày.

2.2. Đối tượng nghiêncứu
Luận án tập trung cụ thể vào các đối tượng nghiên cứu sau:
-

Khía cạnh, quan điểm, khai phá và phân tích quan điểm mức khíacạnh.


-

Các kỹ thuật học sâu áp dụng cho xử lý ngơn ngữ tựnhiên.

-

Cácmơhìnhtríchrútkhíacạnhvàkhaipháquanđiểmmứckhíacạnhsửdụng kỹ thuật
họcsâu.

2.3. Phạm vi nghiêncứu
Luận án được giới hạn trong phạm vi cụ thể sau:
-

Tập trung vào vấn đề khai phá quan điểm và những thuận lợi cũng như tính
thực tiễn cao của việc trích rút quan điểm của ngườidùng.

-

Tìmhiểucácgiảithuậthọcsâpdụngchokhaiphávàphân tíchquanđiểm


-

Tập trung nghiên cứu về các mạng neural sâu hỗ trợ xử lý ngơn ngữ tựnhiên
vàkhaipháquanđiểm,thếmạnhvàkhảnăngtíchhợpvớicardđồhoạđểgiải quyết vấn đề
tớc độ xử lý trong máyhọc.

3. Các đóng góp của luậnán
Luận án có những đóng góp sau:
-

Xây dựng mơ hình trích rút khía cạnh của thực thể trong khai phá quan điểm
dựa trên hướng tiếp cận học sâu mới với cải tiến về hiệu suất của mơhình.

-

Xâydựnghệthớngkhaipháquanđiểmdựatrênmứckhíacạnhđatácvụmới nhằm dự
đốn quan điểm người dùng. Hệ thống thực hiện đồng thời các tác vụ: trích rút từ
mục tiêu, trích rút khía cạnh, phân loại thực thể và xác định quan điểm thể hiện
trên khía cạnh của thực thể trong các bình luận trên một miền xácđịnh.

-

Xây dựng một tập dữ liệu bình luận đa miền dùng cho thực nghiệm. Tập dữ
liệu này được hình thành từ việc thực hiện trộn ngẫu nhiên các bình luận từ
các miền khác nhau thành một tập dữ liệu hỗnhợpđa miền và triển khai hệ
thống khai phá quan điểm trên tập dữ liệu đa miềnnày.

-


Xâydựnghệthớngkhaipháquanđiểmmứckhíacạnhđatácvụđamiềnmới nhằm dự
đốn quan điểm người dùng. Hệ thớng thực hiện đồng thời các tác vụ: trích
rút khía cạnh, phân loại thực thể, phân loại miền và xác định quan điểm thể
hiện trên khía cạnh của thực thể trong các bình luận thuộc tập dữ liệu
đamiền.


Cụ thể, các mơ hình khai phá quan điểm mới được nêu ở trên đã được xây dựng
dựa trên cơ chế tích hợp các mạng học sâu:
- Mơ hình khai phá quan điểm BiGRU-CRF và BiIndyLSTM-CRF thực hiện
trích rút khía cạnh trong câu bìnhluận.
- Mơ hình khai phá quan điểm mức khía cạnh đa tác vụ CNN-BiGRU, CNNIOB2 và MABSA thực hiện trích rút và phân loại đa tác vụ (trích rút từ mục
tiêu, khía cạnh, phân loại thực thể và xác định quan điểm trên mỗi khía cạnh
của thực thể) trên tập dữ liệu đơnmiền.
- MơhìnhkhaipháquanđiểmmứckhíacạnhđatácvụđamiềnCNN-BiLSTM và CNNBiIndyLSTM-Attention thực hiện trích rút và phân loại đa tác vụ
trêntậpdữliệuđơnmiềnvàđamiền.Cácmơhìnhnàykhiđượcthựcnghiệm trên các tập
dữ liệu đơn miền và đa miền đều đạt hiệu suất cao so với cácmơ hình trước đây chỉ
thực nghiệm trên các tập dữ liệu đơnmiền.
4. Bố cục của luậnán
Trên cơ sở mục tiêu đặt ra, các đối tượng và phạm vi nghiên cứu được giới hạn,
luậnánđượctổchứcthànhbaphần:Phầnmởđầu;Phầnnộidungvàkếtquảnghiêncứu,

thực

nghiệm;

Phần kết luận và hướng pháttriển.


Phần mở đầu giới thiệu về tính cấp thiết, mục tiêu, đới tượng, phạm


vivàcácđóng góp của luậnán


Phầnnộidungvàkếtquảnghiêncứuđượcxâydựngthànhbớnchương.Phần

nàytrìnhbàytổngquanlýthuyếtvềkhaipháquanđiểm,cáccấpđộkhaipháquanđiểm, các kỹ thuật
học sâu phổ biến cho xử lý ngôn ngữ tự nhiên và khai phá quan điểm, các nghiên cứu hiện
nay về khai phá quan điểm cũng như những vấn đề còn phải tiếp tục giải quyết để nâng cao
hiệu suất và độ chính xác của nó, từ đó đề xuất nội dung nghiên cứu của luận án. Cụ thể các
chương được giới thiệu khái quát bêndưới:
Chương 1 đi sâu tìm hiểu về lĩnh vực khai phá, phân tích quan điểm, các cấp độ
khaipháquanđiểm,họcsâuvàcáckỹthuậthọcsâuphổbiếndùngtrongxửlýngơnngữ tự nhiên, phương
pháp

đánh

giá

hiệu

suất

của

một



hình


khai

phá

quan

hướngtiếpcậnkhaipháquanđiểmcũngnhưnhữngnghiêncứuhiệncóvềlĩnhvựckhai

điểm,

các


phá quan điểm để từ đó xác định được phạm vi nghiên cứu của luận án. Trên cơ sở này,
Chương 1 phác thảo những đề xuất cho mơ hình khai phá quan điểm sẽ được cụ thểhoá
trong các chương tiếptheo.
Chương 2 tập trung vào nghiên cứu trích rút khía cạnh trong khai phá quan điểm
vớimơhìnhtríchrútsửdụngkỹthuậthọcsâu.

Mơhìnhnàychophéptríchrútđượccác

khíacạnhliênquanthựcthểđượcđềcậptrongcácbìnhluận.Mơhìnhtríchrútkhíacạnh
dựatrêncácmạnghọcsâunàyđượcsosánhvớimộtsớmơhìnhhiệncócũngthựchiện cùng một tác
vụ trích rút trên hai miền Laptop và Restaurant của cùng một tập dữ liệu SemEval 2014.
Hiệu suất của mơ hình đề xuất trong chương 2 được đánh giá qua tính chính xác đạt được
thể hiện trên độ đoF1.
Chương 3 giới thiệu các tác vụ chính trong khai phá quan điểm bên cạnh tác vụ
tríchrútkhíacạnhđãđượcthựchiệntrongChương2.Songsongvớiđó,Chương3cũng trình bày mơ
hình khai phá quan điểm mức khía cạnh đa tác vụ tập trung trích rút và phân loại các tác vụ

chính đã nêu sử dụng các kỹ thuật học sâu tích hợp. Xun śtmơhìnhđượcxâydựngtrongChương3thực
hiện

các

tác

vụ

này

là

các

mạng

học

sâu

phổ

biếnđượctíchhợpchồnglênnhauđikèmvớimộtsớkỹthuậtnhúngtừvàxácđịnhhình thái từ nhằm mục
đích tăng mức độ hiểu ngữ cảnh, hình thái và ngữ nghĩa của từ trong câu bình luận. Mơ hình
khai phá quan điểm đa tác vụ đề xuất khơng chỉ trích rút từng thành phần riêng lẻ trong nhóm
các tác vụ chính đã nêu mà tiến hành trích rút đồngthời các tác vụ này. Hiệu suất của mơ hình đa tác vụ đề
xuất được so sánh với các mô hình trước đây chỉtrích rút hoặc phân loạitừngthành phần riêng lẻ được thực nghiệmtrên cùng
tập dữ liệu; được đánh giá thơng qua việc đánhgiá độchính xác đạt được thể hiện lần lượt trêncác độ đo Precision, Recall, F1
vàAccuracy.

Chương 4 trình bày mơ hình khai phá quan điểm mức khía cạnh đa tác vụ, đa miền
thực nghiệm trên một tập dữ liệu đa miền với hướng tiếp cận học sâu. Khác với tiếp cận
trong Chương 2 và Chương 3 chỉ thực nghiệm mơ hình trên các tập dữ liệu đơnmiền,mơhình
khai

phá

quan

điểm

đa

miền

được

đề

cập

trong

Chương

4

thực

trêntậpdữliệuđamiền.Đềxuấtnàygópphầncungcấpmộtmơhìnhhiệuquảvàtương

thíchvớidữliệutrêncácbìnhluậnthuộcnhiềumiềnkhácnhau.Mơhìnhđượcxâydựng
khẳngđịnhtínhthuậntiện,tinhgọntrongtrườnghợpchỉcầndùngmộtmơhìnhkhai

nghiệm


phá quan điểm cho việc trích rút, phân loại khía cạnh, quan điểm…đa tác vụ trên một
tậpdữliệuđamiềnsửdụnghướngtiếpcậnhọcsâumàvẫnđảmbảođộchínhxáctương đới cao. Tương
tự các chương trước, hiệu suất của mơ hình khai phá quan điểm đa tác vụ, đa miền đề xuất
được

so

sánh

với

các



hình

trước

đây,

được

đánh


giá

cho

thấy

tínhhiệuquảcaohơnthơngquađộchínhxácđạtđượcthểhiệntrêncácđộđoPrecision,
Recall,F1vàAccuracynhưtrongChương3.Bêncạnhđó,mơhìnhcũngđượctriểnkhai thực nghiệm trên
cả dữ liệu đơn miền và đamiền.


Phần kết luận và hướng phát triển đúc kết lại những đóng góp của luận ánvà

hướng nghiên cứu tiếp theo để phát triển luậnán.


CHƯƠNG 1- TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM VÀ KỸ THUẬT
HỌC SÂU
Chương này tập trung nghiên cứu sự gắn kết giữa lý thuyết học sâu với bài toán
khai phá quan điểm thơng qua việc: (i) tìm hiểu, nghiên cứu lý thuyết khai phá và phân
tích quan điểm, các mức cụ thể trong khai phá quan điểm và những nghiên cứu đã có
trước đây dựa trên các hướng tiếp cận khác nhau cùng với những thuận lợi và hạn chế
củacáchướngtiếpcậnnày

đểcócơsởđịnhhướngnghiêncứucholuận

án;(ii)tìmhiểu

cáckỹthuậthọcsâuphổbiếnhiệnnay,từđóxácđịnhnhữngkỹthuậtnàocóthểápdụng cho trích rút, phân

loại

quan

điểm;

(iii)

xác

định

kỹ

thuật,

hướng

tiếp

cận

khai

phá

quan

điểmvàphươngphápđánhgiámơhìnhkhaipháquanđiểmđượcsửdụngtrongluậnán. Dựa trên cơ sở
này, phần ći chương trình bày các đề xuất cho mơ hình trích rút, khai phá quan điểm sử dụng

học sâu. Các đề xuất này sẽ được thực hiện và trình bày chi tiết trong các chương tiếp theo của
luậnán.
1.1.

Khai phá quanđiểm

Quan điểm thể hiện thái độ, xúc cảm của chủ thể bày tỏ quan điểm đới với một
sảnphẩm,dịchvụ,mộtnhântớcụthểcótầmảnhhưởnglớnđớivớicộngđồnghaymột chính sách mới
tác động đến quyền lợi, nghĩa vụ của toàn xã hội. Quan điểm đóng vai trị nền tảng trong tiến
trình ra quyết định của mỗi cá nhân, tổ chức và được chia thành hai loại[11][101]: (1) quan
điểm chính quy và (2) quan điểm sosánh.
(1) Quan điểm chính quy được chia thành hai loại: quan điểm trực tiếp_được thể
hiện trực tiếp trên thực thể hoặc khía cạnh của thực thể và quan điểm không
trực tiếp_ không thể hiện trực tiếp trên thực thể hoặc trên khía cạnh của thực
thể mà dựa trên những kết quả của nó trên một sớ thực thểkhác.
(2) Quan điểm so sánh biểu diễn mối liên quan về độ tương tự hoặc khác nhau
của các thực thể hoặc thể hiện quan điểm của chủ thể nắm giữ quan điểm là
thích khía cạnh này hơn hay khía cạnh kiahơn.
Ngoài ra, khai phá quan điểm cũng có thể phân loại thành: (i) quan điểm hiện hay
(ii) quan điểm ẩn, dựa trên cách quan điểm được thể hiện trong văn bản[12].



×