ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN VĂN TÚ
HỎI ĐÁP TỰ ĐỘNG SỬ DỤNG NHIỀU
NGUỒN TRI THỨC
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội – 2022
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN VĂN TÚ
HỎI ĐÁP TỰ ĐỘNG SỬ DỤNG NHIỀU
NGUỒN TRI THỨC
Chuyên ngành: Hệ thống thông tin
Mã số: 9480104.01
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC
1. PGS.TS. Nguyễn Hà Nam
2. PGS.TS. Lê Anh Cường
Hà Nội – 2022
LÌi cam oan
Tơi xin cam oan ây là cơng trình nghiên c˘u cıa riêng tơi. Các k∏t qu£
˜Ịc vi∏t chung vĨi các tác gi£ khác ∑u ˜Ịc s¸ Áng ˛ cıa Áng tác gi£ tr˜Óc
khi ˜a vào lu™n án. Các k∏t qu£ nêu trong lu™n án là trung th¸c và ch˜a t¯ng
˜Ịc ai cơng bË trong các cơng trình nào khác.
Tác gi£
Nguyπn V´n Tú
i
Lèi cÊm ẽn
Lun ỏn ềc thác hiên tĐi trèng H Cụng nghê - HQG H Nẻi, dểi sá
hểng dđn ca PGS.TS. Nguyπn Hà Nam, PGS.TS. Lê Anh C˜Ìng.
Tơi xin bày t‰ lịng bi∏t Ïn sâu s≠c tĨi th¶y Nguyπn Hà Nam, th¶y Lê Anh
C˜Ìng, nh˙ng ng˜Ìi ã có nh˙ng ‡nh h˜Ĩng giúp tơi thành cơng trong viªc
nghiên c˘u cıa mình. Cỏc thảy cng ó ẻng viờn v chứ bÊo giỳp tơi v˜Ịt qua
nh˙ng khó kh´n ∫ tơi hồn thành ˜Ịc lu™n án này.
Tơi cÙng xin g˚i lÌi c£m Ïn tĨi cỏc Thảy, Cụ thuẻc khoa Cụng nghê thụng
tin, trèng H Cụng nghê, HQGHN, ó tĐo mi iu kiên thun lềi giúp tơi
trong q trình làm nghiên c˘u sinh.
Ci cùng, tơi xin g˚i lÌi c£m Ïn sâu s≠c tĨi gia ình, bĐn bố nẽi ó cho tụi
im táa vng chc tơi có ˜Ịc thành cơng nh˜ ngày hơm nay.
ii
Mˆc lˆc
LÌi cam oan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
i
LÌi c£m Ïn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ii
Thu™t ng˙ và t¯ vi∏t t≠t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vi
Danh sách hình v≥ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vii
Danh sách b£ng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ix
M–
ÜU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ch˜Ïng 1. T NG QUAN Vó Hõ TH»NG HƒI
ÁP . . . . . . . . .
1
12
1.1 TÍng quan v∑ hª thËng h‰i áp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
1.2 Phân lo§i các hª thËng h‰i áp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 H‰i áp d¸a trên cÏ s tri th˘c . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.2 H‰i áp tr¸c quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 H‰i áp cỴng Áng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
14
17
17
1.3 Mẻt sậ hê thậng cQA thụng dng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Yahoo!Answer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.2 StackOverflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.3 Quora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.4 Mẻt sậ cQA ting Viêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
20
21
22
23
1.4 Tình hình nghiên c˘u v∑ cQA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.4.1 Các nghiên c˘u liên quan v∑ tìm ki∏m và x∏p h§ng câu h‰i . . . . . 25
1.4.2 Các nghiên c˘u liên quan v∑ ánh giá Ỵ phù hỊp cıa câu tr£ lÌi 29
1.5 Các ki∏n th˘c cÏ s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.1 T™p nhúng t¯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.2 M§ng nÏ-ron tích ch™p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.3 MĐng bẻ nhể di-ngn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.4 Các Ỵ o phân lo§i và x∏p h§ng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
32
38
40
44
1.6 Các vßn ∑ nghiên c˘u cıa lu™n án . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
1.7 K∏t lu™n ch˜Ïng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
iii
Ch˜Ïng 2. TÌM VÀ XịP HĐNG CÁC CÂU HƒI LIÊN QUAN
49
2.1 GiĨi thiªu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
2.2 Mơ t£ bài tốn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
2.3 Ph˜Ïng pháp ti∏p c™n và ∑ xußt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Mơ hình tìm ki∏m và x∏p h§ng các câu h‰i . . . . . . . . . . . . . . . . . . . . .
2.3.2 Trích rút t¯ (cˆm t¯) khóa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.3 Bi∫u diπn d¸a trên mơ hình word2vec . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.4 Bi∫u diπn d¸a trên lo§i câu h‰i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.5 Bi∫u diπn d¸a trên tính chßt cıa câu h‰i và câu tr£ lÌi . . . . . . . . .
2.3.6 Phân lo§i câu h‰i. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.7 X∏p h§ng câu h‰i. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
50
52
52
56
57
59
60
2.4 Th¸c nghiªm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1 T™p d˙ liªu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.2 Ci t thác nghiêm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.3 K∏t qu£ thác nghiêm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.4 ánh giá các k∏t qu£ thác nghiêm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
60
62
63
65
2.5 K∏t lu™n ch˜Ïng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
Ch˜Ïng 3.
ÁNH GIÁ
À PHÙ H—P C’A CÂU TRÉ LÕI . .
70
3.1 GiĨi thiªu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
3.2 Mơ t£ bài tốn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
3.3 Các ∞c tr˜ng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Các ∞c tr˜ng n-gram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Các ∞c tr˜ng d¸a trên thc tính cıa câu h‰i . . . . . . . . . . . . . . . . .
3.3.3 ∞c tr˜ng d¸a trên thơng tin ng˜Ìi dùng . . . . . . . . . . . . . . . . . . . . . . .
3.3.4 ∞c tr˜ng d¸a trên t™p nhúng t¯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
72
72
73
74
3.4 S˚ dˆng Wikipedia nh˜ nguÁn tài nguyên bên ngoài . . . . . . . . . . . . . . . .
3.4.1 Wikipedia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2 S˚ dˆng Wikipedia cho ánh giá Ỵ phù hỊp cıa câu tr£ lÌi . . . .
75
75
75
3.5 Th¸c nghiªm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1 T™p d˙ liªu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.2 Ci t thác nghiêm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.3 K∏t qu£ thác nghiêm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.4 ánh giá các k∏t qu£ thác nghiêm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
81
82
83
84
3.6 K∏t lu™n ch˜Ïng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
iv
Ch˜Ïng 4. TÍCH H—P NHIóU NGU«N TRI THŸC TRONG MƠ
HÌNH H≈C SÂU
ö
ÁNH GIÁ
À T◊ÃNG T‹ . . . . . . . . . . . .
88
4.1 GiĨi thiªu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
4.2 Mô t£ bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
4.3 Các ph˜Ïng pháp ti∏p c™n và ∑ xußt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.3.1 NguÁn tri th˘c bên ngoài (External Knowledge - EK). . . . . . . . . . . 91
4.3.2 Mụ hỡnh dáa trờn mĐng nẽ-ron tớch ch™p CNN . . . . . . . . . . . . . . . . . 95
4.3.3 Mụ hỡnh dáa trờn mĐng nẽ-ron tớch chp CNN tớch hềp thờm tri thc
100
4.3.4 Mụ hỡnh dáa trờn mĐng BLSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.3.5 Mụ hỡnh dáa trờn mĐng BLSTM tớch hềp thờm tri th˘c . . . . . . . 103
4.3.6 Mơ hình d¸a trên BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.4 Thác nghiêm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Tp d liêu v cỏc ẻ o ỏnh giỏ . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.2 Các th¸c nghiªm trên t™p d˙ liªu SemEval 2016 . . . . . . . . . . . . . . .
4.4.3 Cỏc thác nghiêm trờn tp d liêu Quora. . . . . . . . . . . . . . . . . . . . . . .
4.4.4 So sánh vÓi các k∏t qu£ nghiên c˘u khác . . . . . . . . . . . . . . . . . . . . . .
105
105
107
111
115
4.5 K∏t lu™n ch˜Ïng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
118
KòT LUäN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
119
Danh mˆc cơng trình khoa hÂc cıa tác gi£ liên quan ∏n lu™n án . . .
122
Tài liªu tham kh£o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
v
Thu™t ng˙ và t¯ vi∏t t≠t
T¯ vi∏t t≠t T¯ gËc
BERT
Bidirectional
Encoder
Representations
from
Transformers
BLSTM
Bi-directional Long Short-Term
Memory
CBOW
Continuous Bag-Of-Word
CLEF
Cross Language Evaluation
Forum
CNN
Convolutional Neural Networks
cQA
community Question Answering
IE
Information Extraction
IR
Information Retrieval
KBQA
Knowledge
Base
Question
Answering
LSTM
Long Short-Term Memory
MLP
MultiLayer Perceptron
NLP
Natural Language Processing
QA
Question Answering
RNN
Recurrent Neural Network
SVM
Support Vector Machines
TREC
Text REtrieval Conference
VQA
Visual Question Answering
vi
Gi£i nghỉa - T§m d‡ch
Mơ hình mó húa hai chiu d
liêu t cỏc khậi Transformer
MĐng bẻ nhĨ dài-ng≠n hai
chi∑u
Mơ hình túi t¯ liên tˆc
Diπn àn ánh giỏ a ngụn ng
MĐng nẽ-ron tớch chp
Hi ỏp cẻng ng
Trớch rút thơng tin
Truy hÁi thơng tin
H‰i áp d¸a trên cÏ s tri thc
MĐng bẻ nhể di-ngn
Perceptron nhiu tảng
X l ngụn ng tá nhiờn
Hi ỏp
MĐng nẽ-ron hi quy
Mỏy vộc-tẽ hẩ trề
Hẻi ngh‡ truy hÁi v´n b£n
H‰i áp tr¸c quan
Danh sách hình v≥
1
2
3
ThÌi gian trung bình ∫ ng˜Ìi dùng nh™n ˜Ịc câu tr£ lÌi [75] . . . . 3
SË l˜Òng các câu h‰i và câu h‰i trùng l∞p trên cQA [77] . . . . . . . . 3
Phân bÍ chßt l˜Ịng các câu tr£ lÌi trên Yahoo! Answers [14] . . . . . 4
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
1.11
1.12
1.13
1.14
1.15
1.16
1.17
1.18
1.19
1.20
1.21
Minh hÂa ca mẻt hê thậng KBQA . . . . . . . . . . . . .
Minh hÂa cıa mẻt hê thậng VQA . . . . . . . . . . . . . .
Minh hÂa cıa mẻt hê thậng cQA . . . . . . . . . . . . . .
Minh hÂa cıa hª thËng cQA Quora . . . . . . . . . . . . .
Ví dˆ v∑ bi∫u diπn phân tán t¯ . . . . . . . . . . . . . . .
Ví dˆ v∑ mËi quan hª gi˙a các véc-tÏ . . . . . . . . . . . .
Minh hÂa c˚a sÍ tr˜Ịt trong mơ hình CBOW . . . . . .
Ki∏n trúc chung cıa mơ hình CBOW và Skip-gram . . .
Minh hÂa phép nhân véc-tÏ ¶u vào vĨi ma tr™n trÂng sË
Minh hÂa tích ch™p . . . . . . . . . . . . . . . . . . . . . .
Minh hÂa ki∏n trúc CNN dùng trong phân lo§i câu [103]
Các mụ- un lp ca mĐng RNN cha mẻt tảng . . . . . .
Các mơ- un l∞p cıa m§ng LSTM ch˘a bËn t¶ng . . . . .
˜Ìng i cıa ơ tr§ng thái trong m§ng LSTM . . . . . . .
MỴt cÍng cıa hàm sigmoid trong LSTM . . . . . . . . . .
T¶ng cÍng quên . . . . . . . . . . . . . . . . . . . . . . . .
C™p nh™t giá tr‡ cho ô tr§ng thái . . . . . . . . . . . . . .
Ơ tr§ng thái mĨi . . . . . . . . . . . . . . . . . . . . . . .
i∑u chønh thơng tin ¶u ra thơng qua hàm tanh . . .
Minh hÂa BLSTM ([86]) . . . . . . . . . . . . . . . . . . .
Mơ hình tÍng quát cıa hª thËng QA mà lu™n án x˚ l˛ .
2.1
2.2
2.3
Mơ hình tìm ki∏m và x∏p h§ng các câu h‰i . . . . . . . . . . . . . . . 51
So sánh k∏t qu£ mô hình có và khơng có mơ- un phân lo§i câu hi . 66
So sỏnh ẻ o phõn loĐi (Accuracy ) v ẻ o xp hĐng (M AP )
khi s dng cỏc bẻ phõn loĐi khỏc nhau . . . . . . . . . . . . . . . . . 67
3.1
Mơ hình ánh giá Ỵ phù hỊp cıa câu tr£ lÌi . . . . . . . . . . . . . . 76
vii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
W .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15
17
18
23
34
34
36
36
37
38
39
40
40
41
41
41
42
42
43
43
48
3.2
3.3
Minh hÂa tìm ki∏m tài liªu Wikipedia liên quan . . . . . . . . . . . . 78
So sỏnh kt quÊ ca cỏc thác nghiêm . . . . . . . . . . . . . . . . . . . 85
4.1
4.2
4.3
Quan hª gia d liêu v hiêu suòt ca cỏc mụ hỡnh hÂc máy . . . . .
Mơ hình d¸a trên CNN tính tốn i∫m t˜Ïng Áng gi˙a q ⇤ và qi . . .
Mơ hình d¸a trên CNN tích hỊp thêm tri th˘c tính tốn i∫m
t˜Ïng Áng gi˙a q ⇤ và qi . . . . . . . . . . . . . . . . . . . . . . . . . .
Mơ hình d¸a trên BLSTM tính tốn i∫m t˜Ïng Áng gi˙a q ⇤ v qi .
Minh ha mẻt BLSTM c chuẩi ảu vo . . . . . . . . . . . . . . . .
Mơ hình d¸a trên BLSTM tích hỊp thêm tri th˘c tính tốn i∫m
t˜Ïng Áng gi˙a q ⇤ và qi . . . . . . . . . . . . . . . . . . . . . . . . . .
Mô hình d¸a trên BERT ánh giá i∫m t˜Ïng Áng gi˙a hai câu h‰i
So sánh k∏t qu£ cıa các mơ hình trong nhiêm v tỡm kim v xp
hĐng cỏc cõu hi trong cQA . . . . . . . . . . . . . . . . . . . . . . . .
So sánh k∏t qu£ cıa các mơ hình khác nhau trên t™p d˙ liªu Quora .
4.4
4.5
4.6
4.7
4.8
4.9
viii
89
96
100
102
103
104
106
112
115
Danh sách b£ng
1.1
1.2
1.3
1.4
So sánh gi˙a hª thËng IR và QA . . . . . .
B£ng so sánh gi˙a hª thËng KBQA và cQA
ThËng kê d˙ liªu trên StackOverflow . . . .
Cỏc kt quÊ dá oỏn ca bẻ phõn loĐi . . .
.
.
.
.
13
19
22
44
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
Vớ d v ẻ tẽng tá ng nghæa gi˙a các t¯ . . . . . . . .
Kt quÊ tỡm t cú ẻ tẽng tá ng nghỉa lĨn nhßt . . . .
Ví dˆ v∑ tính toỏn ẻ tẽng tá ng nghổa gia cõu hi v
Vớ dˆ v∑ s¸ bi∫u diπn n-gram t¯ cıa câu h‰i . . . . . . . .
Ví dˆ v∑ tớnh toỏn ẻ tẽng tá dáa trờn mụ hỡnh tỳi t¯ .
Ví dˆ v∑ t™p d˙ liªu SemEval 2016 . . . . . . . . . . . . .
Mẻt sậ thậng kờ trờn tp d liêu SemEval 2016 . . . . . .
Các k∏t qu£ phân loĐi v xp hĐng ca thác nghiêm 1 . .
Cỏc kt quÊ phõn loĐi v xp hĐng ca thác nghiêm 2 . .
Các k∏t qu£ phân lo§i và x∏p h§ng ca thác nghiêm 3 . .
Cỏc kt quÊ phõn loĐi v xp hĐng ca thác nghiêm 4 . .
So sỏnh vÓi các nghiên c˘u khác . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
câu tr£ lÌi
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
55
55
55
58
59
61
62
63
64
64
65
67
3.1
3.2
3.3
72
74
3.8
Ví dˆ v∑ mỴt sË ∞c tr˜ng n-gram . . . . . . . . . . . . . . . . . . . .
Vớ d v ẻ tẽng tá cosine gi˙a câu h‰i và câu tr£ lÌi . . . . . . . .
Vớ d v ẻ tẽng tá d¸a trên s¸ bi∫u diπn véc-tÏ t¯ gi˙a câu h‰i
và các câu tr£ lÌi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Các m®u câu h‰i và câu tr£ lÌi ˜Ịc s˚ dˆng cho câu h‰i ‡nh nghỉa
MỴt sË thËng kê v∑ t™p d˙ liªu . . . . . . . . . . . . . . . . . . . . . .
Ỵ chính xác ca bẻ phõn loĐi SVM khi s dng kt hềp nhi∑u
lo§i ∞c tr˜ng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ỵ chính xác cıa bỴ phân lo§i SVM khi s˚ dˆng thêm thơng tin
t¯ Wikipedia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
So sánh vÓi các nghiên c˘u khác . . . . . . . . . . . . . . . . . . . . .
4.1
4.2
Ví dˆ v mẻt sậ cp cõu hi trong tp d liêu Quora . . . . . . . . . 107
Mẻt sậ thậng kờ v tp d liêu Quora . . . . . . . . . . . . . . . . . . 107
3.4
3.5
3.6
3.7
ix
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
75
77
82
83
84
85
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11
4.12
4.13
4.14
Cỏc tham sậ ca mụ hỡnh dáa trờn mĐng nẽ-ron tích ch™p CNN
Các tham sË cıa mơ hình d¸a trên m§ng BLSTM . . . . . . . .
Các kt quÊ thác nghiêm trờn tp d liêu SemEval 2016 s˚ dˆng
mơ hình d¸a trên CNN . . . . . . . . . . . . . . . . . . . . . . . .
Các kt quÊ thác nghiêm trờn tp d liêu SemEval 2016 s dng
mụ hỡnh dáa trờn mĐng BLSTM . . . . . . . . . . . . . . . . . .
Cỏc kt quÊ thác nghiêm trờn tp d liêu SemEval 2016 s dng
mụ hỡnh dáa trờn BERT . . . . . . . . . . . . . . . . . . . . . . .
Các tham sË cıa mơ hình d¸a trên m§ng nÏ-ron tích ch™p CNN
Các tham sË cıa mơ hỡnh dáa trờn mĐng BLSTM . . . . . . . .
Cỏc kt quÊ thác nghiêm trờn tp d liêu Quora s dng mụ hỡnh
dáa trờn mĐng CNN . . . . . . . . . . . . . . . . . . . . . . . . .
Cỏc kt quÊ thác nghiêm trờn tp d liêu Quora s dng mụ hỡnh
dáa trờn mĐng BLSTM . . . . . . . . . . . . . . . . . . . . . . . .
Cỏc kt quÊ thác nghiêm trờn tp d liêu Quora s dng mụ hỡnh
dáa trờn BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . .
So sánh vÓi các nghiên c˘u khác trên t™p d˙ liªu SemEval 2016
So sánh vĨi các nghiên c˘u khác trên t™p d˙ liªu Quora . . . . .
x
. . . 108
. . . 109
. . . 109
. . . 110
. . . 110
. . . 112
. . . 113
. . . 113
. . . 114
. . . 114
. . . 116
. . . 117
M–
ÜU
1. Tính cßp thi∏t cıa lu™n án
fi t˜ng v∑ xây dáng hê thậng hi ỏp tá ẻng ra èi t nh˙ng n´m 1960.
i∫m chung trong các hª thËng h‰i áp (Question Answering - QA) giai o§n
này là s˚ dˆng cÏ s d liêu ềc thit k băng tay bi cỏc chun gia trong
lỉnh v¸c ˜Ịc chÂn ∫ trích rút câu tr£ lÌi. Giai o§n nh˙ng n´m 1970 - 1980,
có nhi∑u dá ỏn lển hểng n viêc hiu vn bÊn v xõy dáng hê thậng QA
dáa trờn cỏc mụ hỡnh ngụn ng˙ thËng kê. HỴi ngh‡ TREC1 (Text REtrieval
Conference) diπn ra hàng n´m (b≠t ¶u t¯ cuËi nh˙ng n´m 1990) thu hỳt sá
tham gia ca ròt nhiu cỏc nhúm nghiờn cu cng ó gúp phản ròt lển trong
viêc thỳc ây cỏc nghiên c˘u v∑ hª thËng QA. CuËi nh˙ng n´m 1990, World
Wide Web (WWW) ra Ìi và nhanh chóng phát tri∫n bựng n tr thnh mẻt
kho ng liêu khng l. Cỏc nh nghiờn cu v hê thậng QA cng bt ảu khai
thác web nh˜ là mỴt ngn thơng tin h˙u ích cho viªc tìm ki∏m câu tr£ lÌi.
Các kỉ thu™t mĨi ịi h‰i tËc Ỵ cao, kh£ n´ng x˚ l˛ l˜Ịng d liêu web lển ròt
ềc quan tõm. Cựng vểi thèi gian, các câu h‰i cıa ng˜Ìi dùng dành cho các hê
thậng QA ngy cng phc tĐp, ụi khi ngèi dựng ã khơng nh™n ˜Ịc câu tr£
lÌi thích hỊp t¯ các hª thËng QA này. ∫ gi£i quy∏t nh˙ng khó kh´n ny, cỏc
hê thậng hi ỏp dáa trờn cẻng ng (community Question Answering - cQA)
ã ˜Ịc phát tri∫n. Thay vì ph£i trích rút các câu tr£ lÌi t¯ mỴt kho l˜u tr˙
˜Ịc xây d¸ng tr˜Ĩc, các cQA s˚ dˆng các câu tr£ lÌi t¯ các chun gia và cỴng
Áng ng˜Ìi dùng cQA. Khơng nh˙ng v™y, cQA cịn cho phép ng˜Ìi dùng ánh
giá v∑ chßt l˜Ịng cıa các câu tr£ lÌi cÙng nh˜ chÂn câu tr£ lÌi tËt nhßt cho mÈi
câu h‰i. Hiên nay, mẻt sậ hê thậng cQA ó ềc s dng ròt rẻng rói trờn th
1 />
1
giÓi nh˜ StackOverflow2 , WolframAlpha3 , Quora4 . Các cQA này ngày càng tr
lên phÍ bi∏n do ng˜Ìi s˚ dˆng có th∫ g˚i câu h‰i nhi∑u chı ∑ khác nhau, t¯
các câu h‰i s¸ th™t (factoid question) ∏n các câu h‰i ph˘c t§p cÙng nh˜ nh™n
˜Ịc các câu tr£ lÌi chính xác hÏn t¯ các chun gia, ng˜Ìi s˚ dng. Tuy nhiờn,
viêc xõy dáng cỏc hê thậng cQA hiên nay vđn gp nhiu khú khn nh: ngèi
dựng phÊi mòt nhi∑u thÌi gian ∫ nh™n ˜Ịc câu tr£ lÌi, có mỴt sË l˜Ịng lĨn
các câu h‰i trùng l∞p, có nhi∑u câu tr£ lÌi kém chßt l˜Ịng.
1) ThÌi gian ng˜Ìi dùng nh™n ˜Ịc câu tr£ lÌi: Trong các cQA, mÈi khi ngèi
dựng gi mẻt cõu hi, h phÊi mòt vi phỳt th™m chí vài ngày ∫ có th∫ nh™n
˜Ịc câu tr£ lÌi t¯ nh˙ng ng˜Ìi dùng khác. Ngồi ra, do các cõu hi ềc trỡnh
by dểi dĐng ngụn ng tá nhiờn nờn ròt cú th cú nhiu cõu hi tẽng tá ã
˜Ịc h‰i tr˜Ĩc ó. N∏u cQA có th∫ xác ‡nh và tr£ v∑ ˜Ịc danh sách các câu
h‰i t˜Ïng t¸ ã ˜Ịc h‰i tr˜Ĩc ó thì khi ó ng˜Ìi dùng khơng mßt thÌi gian
Ịi câu tr£ lÌi cıa ng˜Ìi khác mà có th∫ tham kh£o câu tr£ lÌi cıa các câu h‰i
t˜Ïng t¸ cho câu h‰i cıa mình. i∑u này khơng chø giúp ng˜Ìi h‰i có th∫ nh™n
˜Ịc câu tr£ lÌi ngay l™p t˘c mà nó cịn giúp hª thËng cQA tránh l˜u tr˙ d˜
th¯a d˙ liªu là các câu h‰i trùng l∞p.
Trong nghiên c˘u cıa Xiaojun Quan và các cẻng sá [75] trờn hẽn 200 nghỡn
cõu hi trong Yahoo!Answers bỏo cỏo răng phÊi mòt trung bỡnh hẽn na giè ∫
ng˜Ìi h‰i nh™n ˜Ịc câu tr£ lÌi ¶u tiên n∏u câu h‰i ˜Ịc ˜a ra vào bi tËi,
và thÌi gian là nhi∑u hÏn gßp ơi n∏u các câu h‰i ˜Ịc ´ng vào bi sáng. Hình
1 cho bi∏t thÌi gian trung bình ∫ ng˜Ìi h‰i nh™n ˜Ịc câu tr£ lÌi ¶u tiên/ th˘
hai khi g˚i câu h‰i vào các kho£ng thÌi gian khác nhau trong ngày trên Yahoo!
Answers [75].
Ngoài ra, trên th¸c t∏, các cQA phÍ bi∏n nh˜ Yahoo!Answers hay StackOverflow sË l˜Ịng các câu h‰i trùng l∞p là rßt lĨn. Hình 2 cho thßy sË l˜Ịng câu h‰i
mÈi n´m, cÙng nh˜ sË l˜Òng câu h‰i trùng l∞p t¯ n´m 2011 ∏n n´m 2016 trên
trang cQA StackOverflow. Viªc các cQA ph£i lu tr mẻt lềng ròt lển cỏc cõu
hi trựng lp d®n ∏n: (1) £nh h˜ng ∏n kh£ n´ng l˜u tr˙ d˙ liªu cıa các cQA,
(2) £nh h˜ng ∏n viªc tr£ lÌi câu h‰i cıa ng˜Ìi dùng, h có th∫ ph£i trÊ lèi lĐi
mẻt cõu hi tẽng tá.
Viêc phỏt hiên ra các câu h‰i trong kho l˜u tr˙ cıa cQA t˜Ïng t¸ vĨi câu h‰i
2 />3
4 />
2
Hình 1: ThÌi gian trung bình ∫ ng˜Ìi dùng nh™n ˜Ịc câu tr£ lÌi [75]
Hình 2: SË l˜Ịng các câu h‰i và câu h‰i trùng l∞p trên cQA [77]
mÓi và xp hĐng cỏc cõu hi ny theo ẻ tẽng tá cıa chúng vĨi câu h‰i mĨi có
th∫ gi£i quy∏t ˜Ịc cỏc vòn nờu trờn. Viêc tỡm kim v xp hĐng cỏc cõu hi
cú th coi nh l mẻt nhiêm v ca viêc ỏnh giỏ ẻ tẽng tá ng nghổa gia
hai cõu hi. õy l mẻt trong nhng vòn th˜Ìng x£y ra nhßt và ã ˜Ịc trình
bày trong nhi∑u nghiên c˘u khác nhau v∑ cQA. Nó liên quan ∏n sá khỏc biêt
trong viêc hỡnh thnh ngụn ng tá nhiờn cıa các câu h‰i. Nh˙ng ng˜Ìi dùng
khác nhau h‰i v∑ cựng mẻt nẻi dung nhng h lĐi trỡnh by cỏc câu h‰i theo
nh˙ng cách khác nhau. i∑u này d®n ∏n viêc nhiu cõu hi mang ng nghổa
tẽng tá nhng lĐi ềc trỡnh by khỏc nhau v t váng.
2) Chòt lềng cıa các câu tr£ lÌi: MỴt trong các thách th˘c lển nhòt khi
xõy dáng cỏc hê thậng QA l lm sao ∫ xác ‡nh ˜Ịc chßt l˜Ịng cıa các câu
tr£ lÌi cho mÈi câu h‰i. Ëi vĨi các hª thËng h‰i áp d¸a trên cÏ s tri th˘c
(Knowledge Base Question Answering - KBQA), chßt l˜Ịng cıa các câu tr£ lÌi
phˆ thuẻc vo viêc xõy dáng kho ng liêu v cỏc kˇ thu™t trích rút câu tr£ lÌi.
Trong khi ó, Ëi vĨi các cQA, do câu tr£ lÌi ˜Ịc g˚i bi ng˜Ìi s˚ dˆng nên
3
chòt lềng ca cỏc cõu trÊ lèi cú sá chờnh lêch ròt lển. Mẩi cõu hi cú th nhn
ềc nhiu câu tr£ lÌi trong ó có nh˙ng câu tr£ lÌi khơng liên quan ho∞c có
ch˘a rßt ít thơng tin liên quan ∏n câu h‰i. Nhiªm vˆ cıa các hª thËng cQA là
ph£i ánh giá ∫ tr£ v∑ cho ng˜Ìi dùng các câu tr£ lÌi chßt l˜Ịng nhßt trong
sË nhi∑u câu tr£ lÌi nh™n ˜Ịc. Trên các cQA, ng˜Ìi tr£ lÌi câu h‰i có th∫ là
các chun gia-nh˙ng ng˜Ìi có chun mơn sâu v∑ lỉnh v¸c ˜Ịc h‰i hay chø là
nh˙ng ng˜Ìi quan tâm ∏n câu h‰i ó. Do ó chßt lềng ca cỏc cõu trÊ lèi cú
sá thay i ròt lÓn.
Trong bài báo cıa Chirag Shah [14], tác gi£ ã thác hiên mẻt nghiờn cu v
chòt lềng ca cỏc cõu tr£ lÌi trên t™p d˙ liªu trích rút t¯ cQA Yahoo! Answers.
T™p d˙ liªu này gÁm 3.248.589 câu h‰i và 16.278.891 câu tr£ lÌi t˜Ïng ˘ng. Các
câu tr£ lÌi này ˜Ịc x∏p h§ng theo các m˘c t¯ 0 ∏n 5 (các câu tr£ lÌi x∏p h§ng
0 là các câu tr£ lÌi khơng ˜Ịc chÂn, các câu tr£ lÌi x∏p h§ng 5 là các câu tr£
lÌi tËt nhßt). Hình 3 cho bi∏t sË l˜Ịng câu tr£ lÌi mÈi m˘c khác nhau.
Hình 3: Phân bÍ chßt l˜Ịng các câu tr£ lÌi trên Yahoo! Answers [14]
T¯ Hình 3 cho thßy sË l˜Ịng các câu tr£ lÌi khơng ˜Ịc chÂn chi∏m t lª rßt
lĨn (84,3%), hay nói cách khác có rßt nhi∑u câu tr£ lÌi cıa ng˜Ìi dùng khơng
liên quan ∏n câu h‰i.
Các cQA hiên nay thèng ỏnh giỏ chòt lềng ca cỏc câu tr£ lÌi thơng qua
nh˙ng thơng tin cung cßp bi ng˜Ìi dùng nh˜ sË l˜Ịng bình chÂn (votes) cho
câu tr£ lÌi, câu tr£ lÌi ˜Ịc ng˜Ìi dùng chÂn là câu tr£ lÌi tËt nhßt ho∞c câu tr£
4
lÌi ˜Ịc ánh giá là tËt n∏u nó ˜Ịc g˚i bi các chuyên gia.
∫ gi£i quy∏t các khó kh´n v∑ thÌi gian chÌ Ịi ∫ ng˜Ìi dùng nh™n ˜Ịc câu
tr£ lÌi, sË l˜Ịng các câu h‰i trùng l∞p cÙng nh˜ chßt l˜Ịng cıa các câu tr£ lÌi
trong các cQA, ã có nhi∑u nghiên c˘u ˜a ra các gi£i pháp:
1) Tìm ki∏m và x∏p h§ng các câu h‰i liên quan ∏n câu h‰i mĨi: Gi£i pháp
tìm ki∏m và x∏p h§ng các câu h‰i trong cÏ s d˙ liªu liên quan ∏n câu h‰i mĨi
khơng chø giúp ng˜Ìi h‰i có th∫ nh™n ˜Ịc câu tr£ lÌi ngày l™p t˘c mà cịn giúp
các cQA tránh l˜u tr˙ d˜ th¯a các câu h‰i trùng lp. Khi ngèi dựng gi mẻt
cõu hi mểi, hê thậng cQA s ỏnh giỏ ẻ tẽng tá ca cõu hi này vĨi các
câu h‰i ã ˜Ịc h‰i tr˜Ĩc ó. Khi tỡm ềc danh sỏch cỏc cõu hi tẽng tá, hê
thậng s≥ s≠p x∏p các câu h‰i này theo Ỵ t˜Ïng t¸ cıa chúng vĨi câu h‰i mĨi
và tr£ v∑ cho ng˜Ìi h‰i danh sách các câu h‰i này và các câu tr£ lÌi cıa chúng.
Khi ó ng˜Ìi h‰i có th∫ tìm thßy câu tr£ lÌi cho câu h‰i cıa mình mà khơng
c¶n chÌ Ịi ng˜Ìi dùng khác g˚i câu tr£ lèi.
Vòn ỏnh giỏ ẻ tẽng tá cú liờn quan ∏n viªc so khĨp ng˙ nghỉa gi˙a
hai câu h‰i. Cho ví dˆ hai câu h‰i sau:
• What is the most populous state in India?
• Which state in India has the highest population?
C£ hai câu h‰i trên v∑ cÏ b£n ∑u h‰i cùng mỴt nỴi dung, t˘c là câu tr£ lÌi
cho câu h‰i này có th∫ phù hỊp vĨi câu h‰i kia v ngềc lĐi.
Phỏt hiên nhng cõu hi nh vy s≥ có nhi∑u lỊi ích: tránh d˜ th¯a, t˘c là
n∏u mẻt ngèi ó trÊ lèi cõu hi mẻt lản, anh ta khụng cản phÊi trÊ lèi lĐi cõu
hi tẽng tá n˙a, Áng thÌi hª thËng cÙng tránh ˜Ịc viªc l˜u tr˙ các câu h‰i
t˜Ïng t¸. Ngồi ra, nó s≥ có lỊi cho ng˜Ìi h‰i, vì n∏u câu h‰i ¶u tiên ã nh™n
˜Ịc các câu tr£ lÌi thì các câu h‰i t˜Ïng t¸ sau ó s≥ có câu tr£ lÌi ngay chính
là các câu tr£ lÌi cıa câu h‰i t˜Ïng t¸ ã ˜Ịc h‰i tr˜Ĩc ó.
G¶n ây, có nhi∑u nghiên c˘u khác nhau ã ˜Ịc ∑ xt ∫ gi£i quy∏t vßn ∑
tìm ki∏m và x∏p h§ng các câu h‰i liên quan ∏n câu h‰i mÓi [56, 68, 72, 73, 97].
Nghiên c˘u ca Florian Kunneman v cỏc cẻng sá [56] phõn tớch tác Ỵng
cıa các b˜Ĩc ti∑n x˚ l˛ (nh˜ bi∏n Íi cỏc t trong cõu hi v ch thèng, loĐi
b dòu cõu, loĐi b cỏc t dng (stop words)) v ẻ tẽng tá ng nghổa ca t
(word2vec, fastText) ậi vểi viêc xỏc nh ẻ tẽng tá gia cỏc cõu hi. Cỏc kt
quÊ thác nghiêm ó chng minh răng cỏc bểc tin x˚ l˛ và bi∫u diπn t¯ d¸a
trên mơ hình word2vec cho hiêu quÊ cao nhòt v im sậ F1.
5
Trong bài báo [68], các tác gi£ ã xây d¸ng mơ hình tÍng hỊp so sánh phân
cßp ∫ truy xt câu h‰i trong cQA. Tr˜Ĩc tiên mÈi câu h‰i ˜Ịc chia tỏch
thnh cỏc cõu (sentence), sau ú h thác hiên so sánh mÂi c∞p câu trong hai
câu h‰i s˚ dˆng mơ hình so sánh m˘c t¯. Các k∏t qu£ th¸c nghiêm trờn bẻ d
liêu SemEval cho thòy mụ hỡnh xuòt trong [68] cho kt quÊ cao hẽn so vểi
mẻt sË mơ hình tr˜Ĩc ó.
Nghiên c˘u cıa Nouha Othman và cỏc cẻng sá [72] xuòt phẽng phỏp dáa
trờn tp nhúng t¯ (word embedding) ∫ n≠m b≠t ˜Ịc thơng tin v∑ ng˙ nghæa
và ng˙ c£nh cıa các câu h‰i, các tỏc giÊ s dng ẻ tẽng tá cosin o Î
t˜Ïng t¸ gi˙a các véc-tÏ câu h‰i. Các tác gi£ ó xõy dáng cỏc thác nghiêm trờn
cÊ tp d liêu ting Anh v ting Arabic v chứ ra răng xt trong [72] cho
k∏t qu£ tËt hÏn so vĨi nhi∑u nghiên c˘u tr˜Ĩc ó.
Trong bài báo [73], các tác gi£ ó xõy dáng cỏc mụ hỡnh dáa trờn mĐng nẽron, s˚ dˆng cách bi∫u diπn dày ∞c cıa d˙ liªu v´n b£n ∫ d¸ ốn s¸ t˜Ïng
Áng v∑ v´n b£n gia cỏc cõu hi cẻng ng. Nghiờn c xuòt mẻt phẽng
phỏp hc sõu dáa trờn kin trỳc mĐng LSTM, ˜Ịc t´ng c˜Ìng vĨi cÏ ch∏ chú
˛ (attention mechanism).
Các nghiên c˘u trên ây ã xây d¸ng nhi∑u mơ hình khác nhau dáa trờn cỏc
thụng tin cung còp bi cõu hi, cõu trÊ lèi nhăm ỏnh giỏ ềc ẻ tẽng tá gi˙a
câu h‰i mÓi vÓi các câu h‰i trong kho l˜u tr ca hê thậng cQA. Viêc ỏnh giỏ
ẻ tẽng tá này có th∫ s˚ dˆng thêm nhi∑u ph˜Ïng pháp bi∫u diπn khác nhau
(nh˜ bi∫u diπn d¸a trên t™p nhúng t¯) cÙng nh˜ bÍ sung thêm thơng tin v∑ lo§i
câu h‰i. Ngồi ra, trong vài n´m g¶n ây các mơ hình hÂc sâu (deep learning)
ã ˜Ịc áp dˆng và cho thßy nhi∑u thành cơng trong lỉnh v¸c x˚ l˛ ngơn ng˙ t¸
nhiên nh˜: mơ hình câu [52], tìm ki∏m thơng tin [82], phân tích ng˙ nghỉa [95],
phân lo§i câu [103]. Trong nghiên c˘u này, lu™n án ã xây d¸ng các mơ hình
hÂc sâu d¸a trên CNN và LSTM cho bài tốn o ẻ tẽng tá gia cỏc cõu hi.
Nghiờn cu tớch hỊp thêm ngn tri th˘c bên ngồi vào mơ hình hc sõu nhăm
giÊi quyt bi toỏn d liêu tha, vận là nh˜Ịc i∫m cË h˙u trong các mơ hình
hÂc sâu.
2) ỏnh giỏ ẻ phự hềp ca cõu trÊ lèi: Chòt lềng ca mẻt hê thậng cQA
ph thuẻc chớnh vo chòt l˜Ịng cıa các câu tr£ lÌi. ∫ có ˜Ịc các cQA tËt,
thu hút ˜Ịc s¸ tham gia cıa nhi∑u chun gia và ng˜Ìi dùng thì y∏u tË quan
trÂng là các câu tr£ lÌi trong cQA ph£i là các câu tr£ lÌi có chßt l˜Ịng. MÈi
6
câu h‰i trong cQA th˜Ìng nh™n ˜Ịc nhi∑u câu tr£ lÌi t¯ ng˜Ìi dùng, hª thËng
cQA khi ó ph£i có kh£ n´ng lÂc ra các câu tr£ lÌi tËt nhßt ∫ tr£ v∑ cho ng˜Ìi
dùng. ∫ xác ‡nh ˜Ịc chßt l˜Ịng cıa các câu tr£ lÌi cho mÈi câu h‰i, gi£i
pháp ∑ ra là ph£i ánh giá ˜Ịc Ỵ phù hỊp cıa mÈi câu tr£ lÌi và ˜a ra cho
ng˜Ìi dùng nh˙ng câu tr£ lÌi có Ỵ chính xác cao nhßt. Hai ph˜Ïng pháp ˜Ịc
s˚ dˆng nhi∑u nhßt ∫ ánh giá Ỵ phù hỊp cıa các câu tr£ lÌi là:
(1)
ánh giỏ dáa trờn thụng tin cung còp bi ngèi dựng [23, 60]: sË l˜Ịng bình
chÂn (votes) cho câu tr£ lÌi, câu tr£ lÌi ˜Ịc chÂn là câu tr£ lÌi tËt nhßt,
câu tr£ lÌi ˜Ịc g˚i bi các chun gia.
(2)
ánh giá s˚ dˆng các kæ thu™t hÂc máy [32, 35, 59, 76, 94, 101]: s˚ dˆng
các kỉ thu™t ∫ trích rút các ∞c tr˜ng, sau ó áp dˆng các ph˜Ïng pháp
hÂc máy trên t™p các ∞c tr˜ng này ∫ phân lo§i câu tr£ lÌi.
Nghiên c˘u cıa Fengshi Jing và Qingpeng Zhang [23] k∏t hỊp thơng tin cỴng
Áng và phân tích v´n bÊn cõu hi v cõu trÊ lèi trong viêc láa chn cõu trÊ lèi
tật nhòt. Cỏc thụng tin cẻng ng bao gÁm sË l˜Ịng bình chÂn, chun mơn,
th©m quy∑n cıa ng˜Ìi tr£ lÌi. Các ∞c tr˜ng thơng dˆng khác s˚ dng trong
phõn tớch chòt lềng l s dng ẻ o ph bin v tẽng tỏc xó hẻi [60], chỉng
hĐn nh sË l˜Ịng cıa câu tr£ lÌi tËt nhßt chÂn bi ng˜Ìi s˚ dˆng, i∫m ánh
giá cho câu tr£ lÌi cıa ngèi s dng, tứ lê chòp nhn ca cõu trÊ lÌi.
Trong nghiên c˘u [35], các tác gi£ ã khám phá mụ hỡnh da trờn mĐng
LSTM cho vòn láa chn câu tr£ lÌi trong cQA. Nghiên c˘u ∑ xt tích hềp
sá chỳ cú giỏm sỏt (supervised attention) vo mĐng LSTM. Cˆ th∫, nghiên
c˘u ã t™n dˆng ng˙ nghæa t¯ váng t bờn ngoi hểng dđn viêc hc cỏc
trng sË cho các c∞p câu h‰i. Mơ hình ∑ xt hc ềc nhiu nghổa hẽn cho
phộp thác hiên tật hÏn mơ hình cÏ b£n.
Nghiên c˘u cıa Lishuang Li và cỏc cẻng sá [59] xuòt khai thỏc mĐng tẽng
tỏc nhiu còp ẻ mÊnh (Multiple Fragment-level Interactive Network - MFIN)
cho nhiêm v ny. MFIN cú th m rẻng khụng gian tỡm kim t còp ẻ t
n còp ẻ phõn oĐn, có lỊi cho viªc thu th™p thêm thơng tin theo ng˙ c£nh.
Trong MFIN, các tác gi£ áp dˆng cÏ ch∏ chú ˛ nhi∑u m˘c Ỵ phân phËi ∫ chÂn
các c∞p phõn oĐn chớnh v Đt ềc nhiu tẽng tỏc còp phõn oĐn. Kt quÊ
th nghiêm chng minh răng mụ hỡnh xuòt trong [59] hiêu quÊ so vểi nhiu
phẽng phỏp hiên cú trờn bẻ d liêu cQA WikiQA v SemEval.
7
Nghiờn cu ca Qunbo Wang v cỏc cẻng sá [76] xuòt mẻt nn tÊng mểi
tớch hềp hc tp tớch các (active learning) v tá hc (self-paced learning) trong
viêc huòn luyên cỏc mụ hỡnh láa chn cõu trÊ lèi sõu. Nghiờn cu xuòt mẻt
phẽng phỏp nh lềng khụng chc chn dáa trờn mĐng thản kinh Bayes
hểng dđn hc tp tớch các v tá hc theo nhp ẻ trong cựng mẻt quỏ trỡnh
lp lĐi ca huòn luyên mụ hỡnh. Cỏc kt quÊ thác nghiêm chng minh phẽng
phỏp ềc xuòt cú th Đt ềc hiêu suòt tật hẽn so vĨi các ph˜Ïng pháp
hÂc t™p tích c¸c sâu khác. HÏn n˙a, ph˜Ïng pháp này có th∫ dπ dàng ˜Ịc m
rỴng cho cỏc nhiêm v khỏc nh truy xuòt thụng tin.
Nghiờn cu ca Zhang v cỏc cẻng sá [101] xõy dáng cỏc mụ hỡnh dáa trờn
mĐng BLSTM (Bidirectional Long Short-Term Memory) v cẽ ch chỳ (attention) cho nhiêm v láa chÂn câu tr£ lÌi trong các cQA. K∏t qu£ nghiên cu bỏo
cỏo răng mụ hỡnh mểi cÊi thiên ẻ chớnh xác 3,8% so vĨi mơ hình m§ng LSTM
truy∑n thËng.
Các nghiên c˘u nói trên mĨi chø khai thác ngn thơng tin h‰i- áp trong các
cQA ∫ ánh giá chßt l˜Ịng cıa các câu tr£ lÌi. Các nghiên c˘u t™p trung vào
viªc xõy dáng cỏc mụ hỡnh ỏnh giỏ ềc ẻ t˜Ïng t¸ gi˙a câu h‰i vĨi câu
tr£ lÌi ho∞c d¸a vào các thơng tin cung cßp bi ng˜Ìi dùng ∫ ánh giá chßt
l˜Ịng cıa các câu tr£ lÌi. Tuy nhiên, chòt lềng ca mẻt cõu trÊ lèi khụng chứ
dáa trờn Ỵ t˜Ïng t¸ cıa nó vĨi câu h‰i cÙng nh˜ dáa trờn cỏc thụng tin cung
còp bi ngèi dựng. Cản tìm ki∏m thêm mỴt ngn thơng tin áng tin c™y nào
ó ∫ ánh giá tính úng ≠n cıa các câu trÊ lèi. Nh vy, vòn ỏnh giỏ ẻ
phự hềp ca cỏc cõu trÊ lèi trong cỏc cQA hiên vđn ch˜a ˜Ịc gi£i quy∏t ¶y
ı. Lu™n án s≥ ti∏p nËi cỏc nghiờn cu trểc ú nhăm giÊi quyt nhng hĐn ch∏
˜Ịc nêu ra trên.
2. Mˆc tiêu cıa lu™n án
Tính cßp thi∏t cıa lu™n án ã ˜Ịc phân tích trên cho phép chúng tơi xác
l™p lu™n án vĨi tên Hi ỏp tá ẻng s dng nhiu ngun tri thc. Mˆc tiêu
cˆ th∫ cıa lu™n án là ∑ xußt các ph˜Ïng pháp d¸a trên hÂc máy và tích hỊp
nhi∑u ngn tri thc nõng cao chòt lềng ca cỏc hê thậng cQA. thác
hiên ềc mc tiờu ny, lun ỏn i vo giÊi quyt cỏc bi toỏn sau:
ã Th nhòt: Nghiên c˘u, ∑ xt ph˜Ïng pháp ∫ tìm ki∏m và x∏p h§ng các
8
câu h‰i trong cÏ s d˙ liªu liên quan ∏n cõu hi mểi.
ã Th hai: Nghiờn cu, xuòt phẽng pháp ∫ ánh giá Ỵ phù hỊp cıa các
câu tr£ lèi trong hê thậng cQA.
ã Th ba: Nghiờn cu, xt ph˜Ïng pháp ∫ tích hỊp thêm ngn tri th˘c
vào mụ hỡnh hc sõu ỏnh giỏ ẻ tẽng tá gi˙a các câu h‰i.
3.
óng góp cıa lu™n án
T¯ các mˆc tiêu và nỴi dung chính ã ∞t ra, lu™n án ó tin hnh thác hiên
v hon thnh. Nhng úng gúp chớnh ca lun ỏn bao gm:
ã
xuòt phẽng phỏp tìm ki∏m và x∏p h§ng các câu h‰i trong cÏ s
d˙ liªu liên quan ∏n câu h‰i mĨi. Ëi vĨi viêc xỏc nh ẻ tẽng tá gia
cỏc cõu hi, lun án ∑ xt ph˜Ïng pháp mĨi ∫ xem xét nhi∑u khía c§nh
khác nhau ∫ hi∫u câu h‰i. Lu™n án s˚ dng nhiu hẽn cỏc khớa cĐnh hiêu
quÊ bao gm tp nhúng t¯ và các lo§i câu h‰i (question category). Lu™n án
s˚ dˆng mơ hình bi∫u diπn t¯ ∫ t§o các véc-tÏ t¯, mơ- un phân lo§i câu
h‰i ∫ xác ‡nh loĐi cho cỏc cõu hi mểi. Sau ú, tòt cÊ các ∞c tr˜ng thu
˜Ịc này ˜Ịc k∏t hỊp l§i và s dng lm ảu vo cho mẻt mụ hỡnh hc
mỏy ∫ nh™n ˜Ịc i∫m sË t˜Ïng t¸ cıa các c∞p câu h‰i và s˚ dˆng i∫m
sË này ∫ x∏p h§ng các câu h‰i. óng góp này ã ˜Ịc cơng bË k y∏u
hỴi th£o qc t∏ Information system Design and Intelligent Applications
(INDIA) n´m 2017 (cơng trình sË 5), t§p chí trong n˜Ĩc T§p chí Khoa hÂc
và Kˇ thu™t - HÂc viên KTQS nm 2015 (cụng trỡnh sậ 1) v tĐp chí quËc
t∏ Indian Journal of Science and Technology n´m 2016 (cụng trỡnh sậ 2).
ã
xuòt phẽng phỏp ỏnh giỏ Ỵ phù hỊp cıa các câu tr£ lÌi. Lu™n
án s˚ dˆng thêm ngn thơng tin t¯ bách khoa tồn th˜ m Wikipedia ∫
ánh giá Ỵ phù hỊp cıa câu tr£ lÌi. Lu™n án xây d¸ng mơ hình mĨi k∏t
hỊp c£ các thơng tin t¯ câu h‰i và câu tr£ lÌi, Áng thÌi khai thác thêm
thơng tin t¯ ngn tri th˘c bên ngồi (wikipedia) ∫ ánh giá Ỵ phù hỊp
cıa các câu tr£ lÌi trong cQA. óng góp này ã ˜Ịc cơng bË k y∏u hỴi
th£o qc t∏ Integrated Uncertainty in Knowledge Modelling and Decision
Making (IUKM) n´m 2016 (cơng trình sË 3) và t§p chí trong n˜Ĩc T§p
9
chí khoa hÂc cơng nghª thơng tin và truy∑n thơng, hÂc viªn Cơng nghª B˜u
chính Viπn thơng n´m 2017 (cơng trỡnh sậ 4).
ã
xuòt ỏp dng phẽng phỏp hc sõu nõng cao hiêu quÊ cho bi toỏn
ỏnh giỏ ẻ t˜Ïng t¸ gi˙a hai câu h‰i. Lu™n án xây d¸ng mơ hình tích
hỊp ngn tri th˘c bên ngồi vào các mụ hỡnh hc sõu ỏnh giỏ ẻ
tẽng tá gia hai câu h‰i (coi mÈi câu h‰i nh˜ là mỴt oĐn vn bÊn ngn).
Lun ỏn xõy dáng cỏc mụ hỡnh dáa trờn mĐng nẽ-ron trớch rỳt cỏc c
trng thụng qua cỏc tảng (layer) ca mĐng v sau ú tớch hỊp các ngn
tri th˘c bên ngồi vào các mơ hình hc sõu ny tng hiêu suòt ca viêc
ỏnh giỏ Î t˜Ïng t¸. Lu™n án cÙng ã nghiên c˘u, xây dáng mụ hỡnh dáa
trờn BERT cho vòn ỏnh giỏ Ỵ t˜Ïng t¸ gi˙a các câu h‰i. Các óng
góp này ã ˜Ịc cơng bË k y∏u hỴi th£o qc t∏ Integrated Uncertainty
in Knowledge Modelling and Decision Making (IUKM) n´m 2018 (cơng
trình sË 6), t§p chí qc t∏ International Journal of Machine Learning and
Computing n´m 2021 (cơng trình sË 7), t§p chí trong n˜Ĩc VNU Journal
of Science: Computer Science and Communication Engineering n´m 2021
(cơng trình sË 8).
Các nỴi dung và k∏t qu£ nghiên c˘u trình bày trong lu™n án (t¯ Ch˜Ïng 2
∏n Ch˜Ïng 4) ã ˜Ịc cơng bË trong 08 cơng trình. Trong ó có 03 bài báo
´ng t§p chí trong n˜Ĩc có ph£n biªn, 02 bài báo ´ng t§p chí qc t∏ và
03 bài báo ´ng trong k yu ca hẻi ngh quậc t cú phÊn biên, ˜Ịc xt b£n
bi nhà xt b£n Springer.
4. BË cˆc cıa lu™n án
Ngồi ph¶n m ¶u và k∏t lu™n, lu™n án ˜Ịc tÍ ch˘c thành 4 ch˜Ïng, vĨi
bË cˆc nh˜ sau:
• Ch˜Ïng 1. Trình bày tÍng quan v∑ hª thËng h‰i
áp, phõn loĐi cỏc hê
thậng hi ỏp, trỡnh by mẻt sậ hª thËng cQA thơng dˆng. Ci ch˜Ïng là
các th£o lu™n v cỏc vòn cũn tn tĐi khi xõy dáng hª thËng cQA cÙng
nh˜ các h˜Ĩng mà lu™n án s≥ tp trung vo giÊi quyt.
ã Chẽng 2. Trỡnh by nẻi dung, k∏t qu£ nghiên c˘u v∑ bài tốn tìm ki∏m
và xp hĐng cỏc cõu hi trong cẽ s d liêu liên quan ∏n câu h‰i mÓi.
10
• Ch˜Ïng 3. Trình bày nỴi dung, k∏t qu£ nghiên c˘u v∑ bài tốn ánh giá
Ỵ phù hỊp cıa câu trÊ lèi.
ã Chẽng 4. Trỡnh by nẻi dung, cỏc kt qu£ nghiên c˘u cıa viªc tích hỊp
ngn tri th˘c bên ngồi vào các mơ hình hÂc sâu ∫ t´ng hiªu quÊ ca
viêc ỏnh giỏ ẻ tẽng tá gia cỏc cõu h‰i.
11
Ch˜Ïng 1
T NG QUAN Vó Hõ TH»NG HƒI
ÁP
Ch˜Ïng này trình bày tÍng quan v∑ nh˙ng vßn ∑ nghiên c˘u cıa lu™n án,
bao gÁm: tÍng quan v∑ hª thËng h‰i áp, phân loĐi cỏc hê thậng hi ỏp, mẻt sậ
hê thậng cQA thơng dˆng cÙng nh˜ phân tích mỴt sË nghiên c˘u liên quan v∑
cQA. MỴt sË ki∏n th˘c cÏ s cÙng ˜Ịc trình bày trong ch˜Ïng này. Ph¶n ci
ch˜Ïng s≥ th£o lun v mẻt sậ vòn cũn tn tĐi khi xõy dáng cỏc hê thậng
cQA m lun ỏn s tp trung gi£i quy∏t và xác ‡nh nỴi dung nghiên c˘u cıa
lu™n án.
1.1 TÍng quan v∑ hª thËng h‰i áp
Trong các hª thËng truy hÁi thơng tin (Information Retrieval - IR) hiªn nay,
ph˜Ïng pháp chung là ng˜Ìi dùng s˚ dˆng t¯/cˆm t¯ khóa ∫ tìm ki∏m thơng
tin. Cho mỴt câu truy vòn, mẻt hê thậng truy hi thụng tin s trÊ v mẻt danh
sỏch cỏc ti liêu cú liờn quan n câu truy vßn mà sau ó ng˜Ìi dùng ph£i Âc
∫ tìm ki∏m các thơng tin thích hỊp. K∏t qu£ tr£ v ca cỏc mỏy tỡm kim (mẻt
loĐi hê thậng tỡm ki∏m thơng tin) th˜Ìng là rßt lĨn có khi lên tĨi hàng nghìn
trang web. Ng˜Ìi s˚ dˆng mn có ˜Ịc thụng tin mỡnh cản phÊi tá duyêt v
c lản lềt qua các trang web ∫ xác ‡nh ˜Ịc thơng tin mình c¶n. i∑u ó
s≥ tËn nhi∑u cơng s˘c và thÌi gian cho viªc tìm ki∏m thơng tin. Ví dˆ, n∏u ng˜Ìi
dùng muËn bi∏t “Ai là ng˜Ìi sáng l™p ra t™p ồn Samsung?”, thì vĨi hª thËng
IR, ng˜Ìi dùng s≥ tìm ềc mẻt danh sỏch cỏc ti liêu liờn quan n cˆm t¯
“ng˜Ìi sáng l™p ra t™p ồn Samsung”. Sau ó, dáa vo danh sỏch ti liêu ny,
ngèi dựng tá dũ tìm câu tr£ lÌi. MỴt ví dˆ khác, mỴt ng˜Ìi khách du l‡ch muËn
tham quan nh˙ng ‡a i∫m du l‡ch tĐi thnh phậ H Nẻi. Nu ngèi ú s dng
12
hª thËng tìm ki∏m thơng tin ∫ tìm cˆm t¯ cỏc a im du lch tĐi H Nẻi thỡ
kt quÊ tr£ v∑ là nh˙ng thơng tin chung chung và c¶n ph£i dị tìm ∫ n≠m ˜Ịc
các thơng tin mà mình c¶n tìm hi∫u; ho∞c mn có ˜Ịc câu tr£ lÌi chính xác
và chi ti∏t, ng˜Ìi khách c¶n tËn kinh phí nhè n sá giỳp ễ ca mẻt dch
v no ó. Ph˜Ïng pháp này khơng th∫ áp ˘ng nhu c¶u cıa ng˜Ìi s˚ dˆng ∫
trích xt các thơng tin nhanh, ảy , hiêu quÊ t mẻt tp hềp lển cỏc ti
liêu iên t, mc dự viêc xõy dáng cỏc hê thËng truy hÁi thơng tin là khơng
q ph˘c t§p. Vì vy, yờu cảu t ra l cản phÊi cú mẻt hê thậng cú khÊ nng
khai thỏc thụng tin mẻt cỏch tr¸c ti∏p hÏn, tìm ki∏m cho ng˜Ìi dùng câu tr£
lÌi ng≠n gÂn, chính xác thay vì mỴt mỴt t™p tài liªu ch˘a thơng tin câu tr£ lÌi,
Áng thÌi £m b£o v∑ m∞t kinh t∏ và thu™n lỊi cho viªc s˚ dng ca ngèi dựng
bòt c hon cÊnh no.
Hê thậng hi ỏp l mẻt kổ thut nhăm mc ớch trÊ v∑ danh sách các câu
tr£ lÌi cho mỴt câu h‰i ềc vit băng ngụn ng tá nhiờn trong mẻt bẻ s˜u t™p
lĨn các tài liªu ho∞c các câu tr£ lÌi ˜Ịc tr£ lÌi bi nh˙ng ng˜Ìi s˚ dˆng khác.
Các hª thËng QA hiªn nay ∑u cho phép bi∫u diπn câu hi dểi dĐng ngụn ng
tá nhiờn v cậ gng trÊ v cỏc cõu trÊ lèi chớnh xỏc nhòt.
Viêc so sỏnh gia mẻt hê thậng truy hi thụng tin thụng thèng và hª thËng
QA ˜Ịc trình bày trong B£ng 1.1. Trong hê thậng truy hi thụng tin, truy vòn
ảu vo ềc th hiên băng ngụn ng truy vòn, v ảu ra bao gm mẻt danh
sỏch cỏc ti liêu ó xp hĐng mà có l≥ có ch˘a các thơng tin liên quan ∏n truy
vßn cıa ng˜Ìi dùng. Ng˜Ìi dùng sau ó s≥ ch‡u trách nhiªm cho viªc Âc các
tài liªu ∫ tìm các thơng tin mà mình mn. Hª thËng QA thì khác vĨi truy hÁi
thơng tin, trong ó ng˜Ìi dùng ˜Ịc phộp gi cõu hi ca mỡnh trác tip n hê
thậng trong ngụn ng tá nhiờn m khụng cản phÊi dch nú sang mẻt sậ cỳ phỏp
truy vòn. Sau ú hê thËng QA s≥ tr£ v∑ các câu tr£ lÌi cho câu h‰i trong các
hình th˘c cıa mỴt câu tr£ lÌi chớnh xỏc. BÊng 1.1 so sỏnh gia mẻt hê thậng
truy hi thụng tin truyn thậng v mẻt hê thậng QA.
BÊng 1.1: So sánh gi˙a hª thËng IR và QA
Hª thËng truy hÁi thơng tin (IR)
Hª thËng h‰i
D˙ liªu vào
Các t¯ khúa trỡnh by dểi dĐng cõu truy vòn
Cõu hi dểi dĐng ngụn ng tá nhiờn
D liêu ra
Danh sỏch cỏc ti liªu liên quan ∏n t¯ khóa
Danh sách các câu tr£ lÌi cho câu h‰i
13
áp (QA)