Tải bản đầy đủ (.doc) (67 trang)

Tóm tắt đa văn bản tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.46 MB, 67 trang )

TRìNG

I HC B CH KHOA H

NáI

LU NV NTH CS
Tõm tt

a v«n b£n ti‚ng Vi»t
CAOM NHH I



Ng nh Khoa håc m¡y tnh

GiÊng viản hữợng dÔn: PGS.TS. Lả Thanh Hữỡng
Viằn: Cổng nghằ thổng tin v Truyãn thổng

H

NáI, 12/2021

Ch kỵ ca GVHD


C¸NG H`A XH¸I CHÕ NGH A VI T NAM
ºc l“p - Tü do - H⁄nh phóc

B NX CNH NCHNHSÛALU NV NTH CS
Hồ v tản tĂc giÊ lun vôn: Cao Mnh HÊi


ã t i lun vôn: Tõm tt a vôn bÊn ting Viằt
Chuyản ng nh: Khoa hồc d liằu
MÂ s SV: CB190206

TĂc giÊ, Ngữới hữợng dÔn khoa hồc v Hi ỗng chĐm lun vôn xĂc nhn tĂc
giÊ Â sòa cha, b sung lun vôn theo biản bÊn hồp Hi ỗng ng y 24/12/2021 vợi
cĂc ni dung sau:
ã B sung cỡ s lỵ thuyt cho ngổn ng ting Viằt v ting Anh.
ã B sung ỵ nghắa thỹc tin cho ã t i.
ã Sòa cĂc lỉi chnh tÊ.

H Ni, ng y
GiĂo viản hữợng dÔn

thĂng

TĂc giÊ lun vôn

CHế TCH HáI

NG

nôm


TILUNVN
1. Thổng tin vã hồc viản
Hồ v tản hồc viản: Cao Mnh HÊi
MÂ hồc viản: CB190206
iằn thoi liản lc: 0981245088

Email:
Lợp: Khoa hồc d liằu (KH)
Khõa: CH2019B
Lun vôn tt nghiằp ÷ỉc thüc hi»n t⁄i: Tr÷íng
⁄i håc B¡ch khoa H Nºi.
Thíi gian l m Lu“n v«n tŁt nghi»p: Tł ng y 01/02/2020
‚n 08/12/2021.
2. Mưc ‰ch nºi dung cıa Lu“n v«n tŁt nghiằp
Tm hiu cĂc k thut Xò lỵ ngổn ng tỹ nhiản v cĂc kin thức vã Hồc mĂy v Hồc
sƠu tł â ¡p döng cho b i to¡n Tâm t›t a vôn bÊn ting Viằt. Kt hổp vợi viằc tm hiu
cĂc phữỡng phĂp tõm tt vôn bÊn truyãn thng t â ÷a ra c¡ch k‚t hỉp ” c£i thi»n º ch
‰nh x¡c cho b i to¡n.
3. C¡c nhi»m vö cö th ca Lun vôn tt nghiằp
- Tm hiu lỵ thuyt Xò lỵ ngổn ng tỹ nhiản, Hồc mĂy v Hồc sƠu.
- Tm hiu cĂch tiãn xò lỵ d liằu v ph÷ìng ph¡p v†c tì hâa dœ li»u.
- T…m hi”u c¡c phữỡng phĂp tõm tt vôn bÊn  ữổc nghiản cứu.
- T…m hi”u c¡ch ¡nh gi¡ º ch‰nh x¡c cho b i toĂn Tõm tt vôn bÊn.
- ã xuĐt mổ hnh k‚t hỉp c¡c ph÷ìng ph¡p ” c£i thi»n º ch‰nh x¡c cıa b i to¡n.
- Thß nghi»m v ¡nh gi¡ kt quÊ trản cĂc phữỡng phĂp  tm hiu.
- Kt lun v hữợng phĂt trin.
4. Lới cam oan ca hồc viản:
Tổi Cao Mnh HÊi cam kt Lun vôn tt nghiằp n y l cổng trnh nghiản cứu ca
bÊn thƠn tổi dữợi sỹ hữợng dÔn ca PGS.TS. Lả Thanh Hữỡng.
CĂc kt quÊ nảu trong Lun vôn tt nghiằp l trung thỹc, khổng phÊi l sao chp to n
vôn ca bĐt ký cỉng tr…nh n o kh¡c.

H Nºi, ng y
th¡ng
n«m
T¡c gi£ Lu“n vôn tt nghiằp


5. XĂc nhn ca giĂo viản hữợng dÔn vã mức ho n th nh ca Lun vôn tt nghiằp v
cho php bÊo vằ:
....................................................................................
....................................................................................
....................................................................................
....................................................................................
....................................................................................
H Ni, ng y
thĂng
nôm
GiĂo viản hữợng dÔn

PGS.TS. Lả Thanh Hữỡng


LIC MèN
Lới u tiản, em xin gòi lới cÊm ỡn ch¥n th nh ‚n c¡c Thƒy, Cỉ gi¡o trong vi»n Cổng
nghằ thổng tin v Truyãn thổng  truyãn tÊi khổng ch l kin thức, k nông m cặn l
nhng nhiằt huy‚t ” em câ th” vœng t¥m trong suŁt thíi gian håc t“p.
Em xin b y tä lỈng bi‚t ìn sƠu sc tợi PGS.TS. Lả Thanh Hữỡng  ch bÊo t“n t…
nh ” em câ th” ho n th nh ữổc Lun vôn. Ngo i ra, em xin gòi lới cÊm ỡn n Viằn
nghiản cứu tr tuằ nhƠn to VinAI Â to iãu kiằn, mổi trữớng sĂng to cho em ho n th
nh tt nhiằm vử Lun vôn ữổc giao.
Cui cịng, em xin gßi líi c£m ìn ‚n gia …nh, v nhœng ng÷íi b⁄n ln ıng hº em
h‚t m…nh trong qu¡ tr…nh ho n thi»n Lu“n v«n.
H¯C VI N


TM T T NáI DUNG LU N V N TăT NGHI P

Mửc tiảu ca khuổn kh Lun vôn tt nghiằp l gi£i quy‚t ÷ỉc b i to¡n tâm t›t a vôn
bÊn sò dửng k thut tõm lữổc cho ngổn ng ting Viằt. Qua quĂ trnh tm hiu
cũng vợi sỹ hữợng dÔn tn tnh ca PGS. TS. Lả Thanh Hữỡng, kt quÊ thu ữổc ca
lun vôn l khÊ quan. BĂo cĂo n y s trnh b y nhng vĐn ã Â tm hiu ữổc v quĂ tr
nh thỹc hiằn Lun vôn tt nghiằp.
Kt quÊ ca Lun vôn tt nghiằp  thò nghiằm ữổc cĂc phữỡng phĂp trản b d liằu
"Duc2007" cho mỉ h…nh tâm t›t a v«n b£n tr‰ch rót v ÷a ra ÷ỉc k‚t qu£ ” so s¡nh
ch§t l÷ỉng cıa cĂc phữỡng phĂp khĂc trản th giợi. Ngo i ra, mt mổ hnh tõm tt a vôn
bÊn tõm lữổc  ữổc ã xuĐt cho b d liằu ting Viằt v kt quÊ thò nghiằm cho thĐy
chĐt lữổng ca mổ hnh ã xuĐt l khÊ quan trản b d liằu ca t¡c gi£ Trƒn Mai Vơ.
Nºi dung ch‰nh cıa Lu“n v«n tŁt nghi»p l tr…nh b y c¡c ph÷ìng ph¡p ” giÊi quyt
vĐn ã trch rút thổng tin quan trồng trong t“p c¡c v«n b£n v sau â tâm t›t l⁄i bng
nhng cƠu t ho n to n mợi. Chi tit B¡o c¡o lu“n v«n tŁt nghi»p s‡ tr…nh b y cĂc vĐn ã
sau:
- Chữỡng 1: M u: t vĐn ã, giợi thiằu b i toĂn tõm tt vôn bÊn.
- Chữỡng 2: Cỡ s lỵ thuyt: trnh b y cĂc kin thức cỡ bÊn  vn dửng trong lun vôn
tt nghiằp.
- Chữỡng 3: Hữợng tip cn v mổ hnh ã xuĐt: trnh b y cĂc hữợng tip cn v ã xuĐt
mổ h…nh cho b i to¡n tâm t›t a v«n b£n theo hữợng tõm lữổc.
- Chữỡng 4: C i t, thò nghi»m v ¡nh gi¡: tr…nh b y v• dœ li»u thò nghiằm v ữa ra
kt quÊ ca cĂc phữỡng phĂp trản b d liằu thò nghiằm.
- Chữỡng 5: Kt lun v hữợng phĂt trin: trnh b y nhng õng gõp, nhng khõ khôn
ca Lun vôn tt nghiằp. T õ ữa ra hữợng phĂt trin cho lun vôn tt nghiằp.
HC VI N


Mửc lửc
1 M
1.1
1.2

1.3
1.4

u
t vĐn ã . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
B i to¡n tâm t›t v«n b£n . . . . . . . . . . . . . . . . . . . . . . . . . . .
ị nghắa thỹc tin ca ã t i . . . . . . . . . . . . . . . . . . . . . . . . . .
nh hữợng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.1 CĂc nghiản cứu liản quan theo hữợng tr‰ch rót . . . . . . . . . . . .
1.4.2 C¡c nghi¶n cøu li¶n quan theo hữợng tõm lữổc . . . . . . . . . . . .
1.4.3 Phữỡng phĂp sò dửng trong • t i . . . . . . . . . . . . . . . . . .
2 Cỡ s lỵ thuyt
2.1 Lỵ thuyt vã ngổn ng . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Ti‚ng Anh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Ti‚ng Vi»t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Mæ h…nh v†c tì hâa dœ li»u . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Mỉ h…nh tói tł . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Mỉ h…nh tói tł sß dưng lữổc ỗ trồng s TF-IDF . . . . . . . . . .
2.2.3 Nhóng tł . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Ph÷ìng ph¡p ¡nh gi¡ . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 º o Rouge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2 Mºt sŁ bi‚n th” cıa º o Rouge . . . . . . . . . . . . . . . . . . .
2.4 Cỡ s lỵ thuyt cho mổ hnh tõm t›t a v«n b£n tr‰ch rót . . . . . . . . . .
2.4.1 K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.2 LexRank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.3 Maximal Marginal Relevance (MMR) . . . . . . . . . . . . . . . . .
2.4.4 Phữỡng phĂp sò dửng trung t¥m . . . . . . . . . . . . . . . . . .
2.5 Cỡ s lỵ thuyt cho b i toĂn tõm tt ỡn vôn bÊn tõm lữổc . . . . . . . . .
2.5.1 Mng nỡron hỗi quy (Recurrent Neural Network - RNN) . . . . . .
2.5.2 Long Short Term Memory (LSTM - Bº nhỵ d i-ng›n h⁄n) . . . . .

2.5.3 Mæ h…nh Sequence to Sequence cì b£n . . . . . . . . . . . . . . . .
2.5.4 Cì ch‚ Attention . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.5 Cì ch‚ Pointing/Copying . . . . . . . . . . . . . . . . . . . . . . . .
2.5.6 Beam Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Hữợng tip cn v mổ hnh ã xuĐt
3.1 Mổ hnh ã xuĐt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Mỉ h…nh tâm t›t a v«n b£n theo hữợng trch rút . . . . . . . . . . . . . .
3.2.1 Hữợng tip cn cho mỉ h…nh tâm t›t a v«n b£n tr‰ch rót . . . . .
3.2.2 K-means sß dưng và tr‰ t÷ìng Łi . . . . . . . . . . . . . . . . . . .
i

1
1
1
3
4
4
5
5
7
7
7
9
10
10
11
12
15
15
16

16
16
19
19
20
21
21
22
25
26
28
30
31
31
32
32
33


3.2.3 K-means k‚t hỉp và tr‰ c¥u trong t i li»u . . . . . . . . . . . . . . .
35
3.2.4 K-means k‚t hæp MMR v Position . . . . . . . . . . . . . . . . . .
36
3.2.5 K-means k‚t hæp Centroid-based, MMR v Position . . . . . . . . .
37
3.3 Mæ h…nh tâm t›t ỡn vôn bÊn theo hữợng tõm lữổc . . . . . . . . . . . . .
38
3.3.1 Hữợng tip cn cho mổ hnh tõm tt ỡn vôn b£n tâm l÷ỉc . . . . .
38
3.3.2 T“n dưng c¡c °c tr÷ng tł t i li»u ƒu v o . . . . . . . . . . . . . .

39
3.4 Quy tr…nh hu§n luy»n mỉ h…nh tõm tt a vôn bÊn theo hữợng tõm lữổc . 41
4 C i °t, thß nghi»m v
¡nh gi¡
44
4.1 Cỉng cư v mỉi tr÷íng c i °t . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Chu'n bà dœ li»u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Bº dœ li»u Duc2007 . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Bº dœ li»u B¡o mỵi . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.3 Bº dœ li»u cıa t¡c gi£ Trƒn Mai Vô . . . . . . . . . . . . . . . . . .
4.2.4 Bº dœ li»u Vims . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Tiãn xò lỵ d liằu v Ănh giĂ mổ hnh tâm t›t . . . . . . . . . . . . . . .
4.4 ¡nh gi¡ ch§t l÷ỉng mỉ h…nh . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1 K‚t qu£ cıa mỉ h…nh tâm t›t a v«n b£n tr‰ch rót tr¶n t“p dœ li»u
Duc2007 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.2 K‚t qu£ cıa mỉ t‰nh tâm t›t a tr‰ch rót tr¶n bº dœ li»u ti‚ng Vi»t
4.4.3 K‚t qu£ cıa mæ h…nh tâm t›t ỡn vôn bÊn tõm lữổc trản b d liằu
BĂo mợi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.4 K‚t qu£ cıa mæ h…nh tâm t›t a vôn bÊn tõm lữổc trản b d liằu
200 clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 Kt lun v hữợng phĂt trin
5.1 Kt lun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Hữợng phĂt trin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44
44
44
45
45
46

46
47
47
49
49
50
53
53
54


Danh s¡ch b£ng
4.1
4.2
4.3
4.4
4.5
4.6

K‚t qu£ cıa mæ h…nh tâm t›t a vôn bÊn trch rút vợi bn kch bÊn[19] . .
Kt qu£ cıa mỉ h…nh tâm t›t tr‰ch rót so vỵi c¡c ph÷ìng ph¡p cì sð[19] . .
K‚t qu£ cıa mºt s phữỡng phĂp trản th giợi[19] . . . . . . . . . . . . . .
K‚t qu£ cıa mỉ h…nh tâm t›t a tr‰ch rót tr¶n t“p 200 clusters v Vims . .
K‚t qu£ cıa mæ hnh tõm tt ỡn tõm lữổc trản tp BĂo mợi . . . . . . .
K‚t qu£ cıa mæ hnh tõm tt a vôn bÊn tõm lữổc trản tp 200 clusters .

iii

48
48

49
49
50
50


Danh sĂch hnh v
1.1 Phữỡng phĂp sò dửng trong ã t i . . . . . . . . . . . . . . . . . . . . . .
2.1 Bag of Words[17] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6
11

2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
2.14
2.15
2.16
3.1


Bag of Word vỵi trång sŁ tf-idf[17] . . . . . . . . . . . . . . . . . . . . . .
Mỉ h…nh CBOW vỵi mºt tł trong ngœ c£nh[29] . . . . . . . . . . . . . . .
Ki‚n tróc CBOW[29] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ki‚n tróc Skip-Gram[29] . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mºt ìn và trong RNN[26] . . . . . . . . . . . . . . . . . . . . . . . . . . .
C§u tróc Cell trong LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . .
Forget gate trong LSTM[23] . . . . . . . . . . . . . . . . . . . . . . . . . .
Input gate trong LSTM[23] . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cell state trong LSTM[23] . . . . . . . . . . . . . . . . . . . . . . . . . . .
Output gate trong LSTM[23] . . . . . . . . . . . . . . . . . . . . . . . . .
Mỉ h…nh seq2seq cì b£n (SOS v EOS l token b›t ƒu v k‚t thóc)[20] . .
LSTM hai chi•u[14] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mæ h…nh seq2seq düa tr¶n cì ch‚ attention[20] . . . . . . . . . . . . . . . .
Mỉ h…nh sß dưng cì ch‚ pointer[13] . . . . . . . . . . . . . . . . . . . . . .
Gi£i thu“t Beam Search[28] . . . . . . . . . . . . . . . . . . . . . . . . . .
Mæ hnh tõm tt a vôn bÊn tõm lữổc . . . . . . . . . . . . . . . . . . . .

12
13
14
14
21
22
23
23
24
24
25
26
27

29
30
32

3.2
3.3
3.4
3.5
3.6
3.7

Mỉ h…nh cì sð cho b i to¡n tâm t›t a tr‰ch rót[19] . . . . . . . . . . . . .
Mổ hnh tõm tt a vôn bÊn sò döng K-means[19] . . . . . . . . . . . . . .
Bi”u di„n v†c tì c¥u sß dưng Word2Vec[17] . . . . . . . . . . . . . . . . . .
Mổ hnh tõm tt a vôn bÊn sò dửng K-means k‚t hæp Position[19] . . . .
Mæ h…nh tâm t›t a tr‰ch rót sß dưng K-means k‚t hỉp MMR v Position[19]
Mỉ h…nh tâm t›t sß dưng K-means k‚t hỉp Centroid-based, MMR v Position[19] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mæ hnh tõm tt ỡn vôn bÊn tõm lữổc cỡ s . . . . . . . . . . . . . . . . .
Mæ h…nh tâm t›t ỡn vôn bÊn tõm lữổc . . . . . . . . . . . . . . . . . . . .
Quy tr…nh ƒy ı cho b i toĂn tõm tt a vôn bÊn tõm lữổc . . . . . . . .
Quy tr…nh hu§n luy»n mổ hnh tõm tt ỡn vôn bÊn tõm lữổc ban ƒu . .
Quy tr…nh hu§n luy»n l⁄i mỉ h…nh tâm tt ỡn vôn bÊn tõm lữổc . . . . . .
Quy tr…nh ¡nh gi¡ to n bº mæ h…nh tõm tt a vôn bÊn tõm lữổc . . . . .

33
34
34
35
36


3.8
3.9
3.10
3.11
3.12
3.13

iv

38
39
40
41
41
42
43


Chữỡng 1
M

u

D liằu trản mng ng y c ng ra tông vợi mt tc chõng mt theo thới gian. Lữổng
d liằu quĂ lợn n y tr nản rĐt khõ kim soĂt v gƠy ra nhng khõ khôn cho mồi ngữới
khi tm ồc nhng thổng tin trản mng. Mồi ngữới cõ xu hữợng tm ồc nhng thổng
tin ngn ngồn những vÔn gi ữổc nhng ỵ chnh. Những vợi viằc d liằu ng y c ng
gia tông, viằc con ngữới tỹ m…nh t⁄o ra c¡c b£n tâm t›t l b§t kh£ thi. V… v“y, vi»c t⁄o ra
mºt mæ h…nh tâm t›t vôn bÊn tỹ ng l mt vĐn ã cĐp thit trong cng ỗng nghiản cứu vã
xò lỵ ngổn ng tỹ nhiản.


1.1

t vĐn

ã

Tõm tt vôn bÊn ang l hữợng nghiản cứu ữổc khĂ nhiãu nh nghiản cứu quan tƠm
v cĂc kt quÊ vã nhng mổ hnh tõm tt vôn bÊn hiằn ti l tữỡng i khÊ quan. Cũng
vợi õ, sỹ phĂt tri”n cıa phƒn cøng ng y c ng m⁄nh m‡ kt hổp vợi lữổng d liằu tông lản
tng phút l m cho vi»c gi£i quy‚t c¡c b i to¡n theo hữợng tip cn mĂy hồc c ng tr nản
d d ng. °c bi»t l vỵi b i to¡n tâm t›t a vôn bÊn tõm lữổc khi m viằc huĐn luyằn mt mổ
hnh tt ặi họi mt lữổng lợn d li»u v y¶u cƒu tŁc º t‰nh to¡n nhanh. V… lỵ do õ,
b i toĂn tõm tt a vôn bÊn theo hữợng tõm lữổc ang rĐt ữổc quan tƠm trong cĂc cng
ỗng hồc thut trản to n th giợi.
Song song vợi õ, hữợng nghiản cứu vã b i toĂn tõm tt vôn bÊn Viằt Nam cặn
khĂ t, c biằt l b i to¡n tâm t›t a v«n b£n tâm lữổc. ThĐy ữổc nhng lổi ch v thỹc
trng nghiản cứu t⁄i Vi»t Nam, em quy‚t ành thüc hi»n vi»c t…m hiu v xƠy dỹng chữỡng
trnh Tõm tt a vôn bÊn tõm lữổc vợi ngổn ng ting Viằt.

1.2

B i toĂn tõm t›t v«n b£n

Tâm t›t v«n b£n l mºt b i to¡n phøc t⁄p
÷ỉc tri”n khai ” bi‚n mºt t“p hỉp c¡c
t i li»u th nh duy nh§t ch¿ mºt t i li»u m ch¿ chøa nhœng nºi dung ch‰nh tł t“p t i li»u
gŁc. Cịng vỵi â, n‚u ch¿ t⁄o ra mºt b£n tâm t›t ng›n v n›m b›t ÷ỉc thæng tin quan
trång cıa (c¡c) t i li»u gŁc l khỉng ı, b£n tâm t›t cƒn ph£i ÷ỉc tâm t›t l⁄i theo óng có
ph¡p, £m b£o ÷ỉc t‰nh trỉi ch£y v óng tr…nh tü thíi gian nh÷ mºt t i liằu c lp.

B i toĂn tõm tt vôn bÊn thữớng ữổc bit n vợi hai hữợng chnh:
ã Tõm tt vôn b£n tr‰ch rót.
1


ã Tõm tt vôn bÊn tõm lữổc.
Tõm tt vôn bÊn tr‰ch rót
Tâm t›t v«n b£n tr‰ch rót (Extractive text summarization) l vi»c lüa chån ch¿ nhœng
c¥u mang thỉng tin quan trång ð t i li»u gŁc ” ÷a v o bÊn tõm tt. Hữợng tip cn
n y  xuĐt hiằn rĐt lƠu trữợc khi lắnh vỹc mĂy hồc phĂt trin m⁄nh m‡ nh÷ hi»n t⁄i, trong
giai o⁄n n y, chı y‚u c¡c nh nghi¶n cøu t“p trung v o vi»c Ănh trồng s cho cĂc cƠu liản
quan n ni dung ch‰nh cıa t i li»u. Mºt trong nhœng ph÷ìng ph¡p truyãn thổng những
li khĂ hiằu quÊ cõ th nhc n nhữ: LexRank[4] hay Maximal Marginal Relevance[2]
(MMR).
Cũng vợi õ, vợi sỹ ph¡t tri”n cıa c¡c mæ h…nh håc m¡y v håc sƠu, b i toĂn tõm tt
vôn bÊn hữợng trch rút cõ th ữa ữổc vã b i toĂn hồc cõ gi¡m s¡t b‹ng c¡ch tr‰ch
chån ra nhœng °c tr÷ng tł t i li»u l m ƒu v o cho vi»c huĐn luyằn cĂc mổ hnh hiằn i.
Sau õ, vợi nhng thứ Â hồc ữổc t tp d liằu huĐn luyằn, mỉ h…nh câ th” o¡n ra
c¥u n o l quan trång trong mºt t i li»u mỵi ” sinh ra b£n tâm t›t cuŁi cịng. Mºt sŁ
ph÷ìng ph¡p kinh i”n trong c¡ch ti‚p c“n n y: Na ve Bayes[39], Support Vector
Machine[40] (SVM),...

Tõm tt vôn bÊn tõm lữổc
Tõm tt vôn bÊn tõm lữổc (Asbtractive text summarization) thữớng ữổc con ngữới
sò dửng, trong â y¶u cƒu ph£i hi”u to n bº nºi dung cıa t i li»u gŁc ” tł â câ th vit li mt
bÊn tõm tt vợi cƠu t ho n to n mợi. Cõ th nõi rng Ơy thỹc sü l mºt
b i to¡n khâ khỉng ch¿ Łi vỵi cĂc hằ thng mĂy tnh m cặn i vợi cÊ con ngữới. Trữợc
khi lắnh vỹc hồc mĂy tr nản mnh m nhữ hiằn nay, cĂc nh nghiản cứu ch yu t“p
trung v o vi»c chån v n†n nºi dung t i li»u gŁc ” gi£i quy‚t b i to¡n n y. Ngo i ra, vợi sỹ
phĂt trin vữổt bc ca cĂc mổ hnh hồc sƠu cũng vợi lữổng d liằu ng y c ng lỵn, c¡c

mỉ h…nh tâm t›t tâm lữổc sò dửng cĂc phữỡng phĂp hồc sƠu cho thĐy nhœng k‚t qu£
ƒy høa hµn cho nhi»m vư tâm t›t vôn bÊn theo hữợng tõm lữổc.
Ngo i hai hữợng tip c“n ch‰nh n y, b i to¡n tâm t›t v«n bÊn cặn ữổc chia th nh hai
mÊng:
ã Tõm tt ỡn vôn bÊn.
ã Tõm tt a vôn bÊn.
Tõm tt

ỡn vôn bÊn (Single Document Summarization)

Tâm t›t ìn v«n b£n l mºt b i to¡n cì sð trong â y¶u cƒu ƒu v o ch vợi mt t i liằu duy
nhĐt v u ra l mºt b£n tâm t›t cho t i li»u ƒu v o n y. ƒu v o cıa mæ hnh tõm tt ỡn
vôn bÊn l khổng cõ giợi hn, câ th” l mºt b i b¡o khoa håc, mºt truy»n ng›n hay th“m ch
‰ l c£ mºt lu“n v«n tŁt nghi»p. B i to¡n tâm t›t ìn v«n b£n l mºt
b i to¡n °c bi»t quan trång ” l m n•n t£ng cho vi»c ph¡t tri”n c¡c mỉ h…nh tâm t›t a
v«n b£n sau n y.
Tâm t›t

a v«n b£n (Multi-Document Summarization)

B i to¡n tâm t›t a v«n b£n l mt b i toĂn nƠng cao hỡn so vợi b i toĂn tõm tt ỡn vôn
bÊn những vÔn ữổc k thła c¡c t‰nh ch§t cì b£n cıa b i to¡n tâm t›t. Vỵi nhœng
2


Æi häi cao tł b£n tâm t›t sinh ra tł mỉ h…nh tâm t›t a v«n b£n l m cho b i toĂn n y tr
nản bĐt khÊ thi ¡p döng v o thüc t‚ cho ‚n khi phƒn cøng m¡y t‰nh, dœ li»u v c¡c mỉ
h…nh håc s¥u tr nản phĂt trin nhữ hiằn ti.
KhĂc vợi tõm tt
ỡn v«n b£n, tâm t›t

a v«n b£n nh“n ƒu v o khỉng ch¿ l mºt
t i li»u ìn m l mºt t“p c¡c t i li»u câ nºi dung li¶n quan ‚n nhau. Mưc ti¶u cıa b i to¡n tâm
t›t a v«n b£n l thu gån t“p t i li»u ƒu v o n y sao cho c¡c nºi dung ch‰nh vÔn phÊi ữổc
gi li. Ngo i ra, bÊn tõm tt cıa mỉ h…nh tâm t›t a v«n b£n cƒn ph£i loi bọ ữổc
nhng thổng tin b chỗng cho gia cĂc t i li»u, cƒn lo⁄i bä i nhœng nºi dung dữ tha
v thm ch cặn yảu cu chnh xĂc vã trnh tỹ thới gian.
Do c im ca hữợng tõm tt tõm lữổc l sinh ra mt bÊn tõm tt gỗm nhng cƠu ho n
to n mợi nản bÊn thƠn hữợng tip cn n y rê r ng gp phÊi nhiãu khâ kh«n hìn khi ¡p dưng
cho b i to¡n tâm tt a vôn bÊn. i vợi ngổn ng Viằt Nam, Ơy l mt ngổn ng tữỡng i
phức tp so vợi ngỉn ngœ phŒ bi‚n nh÷ ti‚ng Anh. B i to¡n tâm t›t a v«n b£n cho ti‚ng
Vi»t c ng trð nản khõ khôn hỡn, xong thỹc t ti Viằt Nam li chữa cõ nhiãu nhng
nghiản cứu liản quan cụng nhữ bº dœ li»u chung cho b i to¡n n y. Nhn thĐy nhng
khõ khôn cũng vợi thỹc trng hiằn ti, cĐp thit phÊi cõ nhng nghiản cứu cho b i to¡n
Tâm t›t a v«n b£n nh‹m ¡p øng thüc ti„n cụng nhữ thu hút sỹ quan tƠm hỡn na ca
cng ỗng nh nghiản cứu vã Xò lỵ ngổn ng tü nhi¶n t⁄i Vi»t Nam. V… v“y, em quy‚t
ành lüa chồn ã t i "Tõm tt a vôn bÊn ting Viằt" theo hữợng tõm lữổc cho nh hữợng
nghiản cứu cho ã t i lun vôn tt nghiằp ca mnh.

1.3

ị nghắa thỹc tin ca

ãti

Ng y nay vợi d liằu dng vôn bÊn ang tông nhanh vợi mt tc chõng mt. Dœ li»u
câ th” ‚n tł c¡c trang b¡o, c¡c b¡o cĂo t cĂc trữớng hồc, cĂc nghiản cứu khoa hồc,... Cũng
vợi õ, nhng thổng tin thữớng chỗng cho nhau quĂ nhiãu gia cĂc vôn bÊn
l m cho viằc lữu tr hay tm kim gp nhiãu khõ khôn. B i toĂn Tõm tt vôn bÊn ang
rĐt ữổc cĂc nh nghiản cứu quan tƠm nhm giÊi quyt cĂc vĐn ã thỹc tin n y.
Tâm t›t v«n b£n l mºt b i to¡n quan trồng trong lắnh vỹc xò lỵ ngổn ng tỹ nhi¶n,

b i to¡n câ th” gióp gi£m thi”u thíi gian v cổng sức ca con ngữới trong nhiãu lắnh vỹc
trong íi sŁng. Mºt sŁ b i to¡n thüc ti„n câ th” ¡p dưng Tâm t›t v«n b£n câ th” k” n nhữ
sau:
ã p dửng Tõm tt vôn bÊn cho b i to¡n Ph¡t hi»n sao ch†p: b i to¡n ph¡t hi»n sao
ch†p s‡ trð n¶n vỉ cịng phøc t⁄p khi khi lữổng vôn bÊn trong kho d liằu tông
lản. Khi m ” ki”m tra xem mºt v«n b£n câ sao chp hay khổng, ta cn kim tra vôn
bÊn õ vợi to n bº t“p v«n b£n trong t“p t i liằu. Viằc l m n y tr nản khổng tững khi
m s vôn bÊn trong kho d liằu quĂ lợn. giÊi quyt vĐn ã n y, b i toĂn tõm tt vôn
bÊn ữổc Ăp dửng nhm chồn lồc ra ch¿ nhœng thỉng tin quan trång trong v«n
b£n. B‹ng vi»c xĂc nh nhng vôn bÊn trong kho lữu tr l tữỡng ỗng vợi vôn bÊn
cn kim tra trũng lp thổng qua c¡c b£n tâm t›t, b i to¡n Ph¡t hi»n sao chp tr
nản khÊ thi cho dũng lữổng vôn bÊn trong kho d liằu ng y c ng tông lản.
ã p dưng Tâm t›t v«n b£n cho b i to¡n Tng hổp thổng tin: hiằn ti cõ rĐt nhiãu trang
bĂo mng cũng vit vã mt sỹ kiằn hay vĐn nn g… â, vi»c tŒng hæp c¡c thæng tin tł
c¡c trang b¡o n y gióp cho ng÷íi dịng câ th” n›m b›t thæng tin mºt c¡c tŒng qu¡t m
khæng cƒn tŁn qu¡ nhi•u thíi gian. Vi»c t…m åc v tŒng hỉp c¡c thỉng tin ch‰nh tł
c¡c trang b¡o khỉng ch¿ Ỉi họi thới gian m cặn l chuyản mổn ca ngữới
3


tâm t›t. Ch‰nh v… v“y, b i to¡n tâm t›t vôn bÊn ữổc Ăp dửng giÊi quyt vĐn ã
n y. LĐy mt v dử, cũng vit vã trn bĂn k‚t AFF Cup 2021 giœa Vi»t Nam v Th¡i
Lan. Mºt b i vit vã chin thut ca thy trặ Park Hang-Seo v mºt b i vi‚t v• chi‚n
thu“t cıa Th¡i Lan, khi â b i to¡n tâm t›t v«n b£n câ nhi»m vư tŒng hỉp l⁄i c£ chi‚n
thu“t cıa Vi»t Nam v ThĂi Lan.
ã p dửng Tõm tt vôn bÊn cho vi»c åc c¡c tin ch‰nh trong ng y: måi ng÷íi c ng ng y
c ng b“n rºn khi‚n cho vi»c tŒng hỉp c¡c tin mỵi trong ng y l vi»c b§t kh£ thi. B‹ng
c¡ch tâm t›t tü ºng c¡c tin tøc trong ng y, måi ng÷íi câ th” n›m bt ữổc to n b tin
mợi ch trong thới gian ôn sĂng.
ã Ngo i ra, Tõm tt vôn bÊn cặn ÷ỉc ¡p dưng v o mºt sŁ b i to¡n thüc ti„n nh÷: tâm

t›t k‚t qu£ t…m ki‚m trong c¡c bº t…m ki‚m (search engine), tâm t›t nºi dung hºi
nghà ho°c cuºc håp, tâm t›t nºi dung video ho°c audio, tâm t›t nºi dung email,...
Th“t v“y, Tâm t›t v«n b£n s‡ l mºt trong nhœng b i to¡n quan trång ” m gióp con
ng÷íi ti‚t ki»m thíi gian v cỉng søc d nh cho vi»c åc hi”u t i li»u. B i to¡n tâm t›t v«n
b£n s‡ c ng ng y c ng thu hút ữổc nhiãu sỹ quan tƠm hỡn na khổng ch i vợi cĂc
nh nghiản cứu m cỈn thu hót c£ c¡c doanh nghi»p. V… khi m lữổng d liằu ng y
c ng tông lản cũng vợi vi»c con ng÷íi ng y c ng b“n rºn hìn th xu hữợng cho sỹ phĂt
trin ca b i toĂn Tõm tt vôn bÊn l iãu khổng th trĂnh khọi.

1.4
1.4.1

nh hữợng
CĂc nghiản cứu liản quan theo hữợng trch rút

Hữợng tip cn trch rút ữổc khĂ ổng Êo cĂc nh nghiản cøu tham gia ph¡t tri”n. a phƒn
trong nhœng nghi¶n cøu vã tõm tt trch rút ãu cõ liản quan n vi»c x‚p h⁄ng c¥u. Nhœng
c¥u câ x‚p h⁄ng c ng cao th… c ng chøa nhi•u thỉng tin quan trång cn ữa
v o bÊn tõm tt. CĂc nghiản cứu liản quan ‚n vi»c x‚p h⁄ng c¥u câ th” k” ‚n nhữ:

ã Trong mt xuĐt bÊn vã tõm tt vôn bÊn dỹa trản ng nghắa mức cƠu[5], mi quan
hằ vã ng nghắa ca cĂc t biu din cũng mt vai trặ ữổc phĂt hiằn bng cĂch sò
dửng WordNet[1].
ã Vợi mt t i liằu  ữổc phƠn tch cú phĂp, nhõm tĂc giÊ[6]  ã xuĐt mt biu thức
dng cƠy xƠy düng mºt mỉ h…nh x‚p h⁄ng c¥u tł t i liằu u v o.
ã LexRank[4]: nhõm tĂc giÊ Â ã xuĐt viằc xƠy dỹng ỗ th trong õ mỉi cƠu tữỡng ứng l
mt nút trản ỗ th v cnh ca ỗ th th hiằn mi liản hằ gia hai cƠu trong ỗ th.
Ngo i nhng cĂch tip cn bng viằc xp hng cƠu, cụng cõ mt s hữợng tip cn mợi
l khĂc:
ã Random: lỹa chồn ngÔu nhiản cĂc cƠu t t i li»u gŁc v o b£n tâm t›t cuŁi cũng.

ã Lead[3]: phữỡng phĂp tõm tt thỹc hiằn theo hai bữợc:
+ Bữợc mt: sp xp tĐt cÊ cĂc cƠu trong tp t i liằu theo trnh tỹ thới gian.
+ Bữợc hai: lỹa chồn cĂc cƠu u tiản l m u ra cho b£n tâm t›t.
4


• DSDR[7]: ph÷ìng ph¡p m trong â lüa chån c¡c cƠu t tp ứng viản bng cĂch tĂi cĐu
trúc tuyn tnh tp cĂc cƠu trong tp t i liằu.
ã PV-DM[8]: phữỡng phĂp m trong õ mổ hnh i tĂi cĐu tróc c¡c t i li»u b‹ng c¡c c¥u
tâm t›t thỉng qua mỉ h…nh m⁄ng nìron, cuŁi cịng cŁ g›ng chån cĂc cƠu tõm tt
giÊm thiu lỉi tĂi cĐu trúc.
ã PV-DBOW[15]: phữỡng phĂp m trong õ lỹa chồn cĂc cƠu tł t“p øng vi¶n ” cŁ g›ng
cüc ti”u hâa lØi t¡i c§u tróc giœa ƒu ra tâm t›t v c¡c t i liằu.

1.4.2

CĂc nghiản cứu liản quan theo hữợng tõm lữổc

Vợi tc phĂt trin nhanh chõng ca cĂc mổ hnh hồc sƠu, cĂc nh nghiản cứu trản
th giợi gn Ơy cõ xu hữợng tp trung hỡn v o b i toĂn tõm tt vôn bÊn tõm lữổc v
nhng thĂch thøc m b i to¡n n y °t ra. Vỵi sü xu§t hi»n cıa c¡c mỉ h…nh th‰ch hỉp
cho c¡c tĂc vử liản quan n xò lỵ ngổn ng tỹ nhiản, c biằt l mổ hnh Seq2seq[20],
 cung cĐp mt hữợng tip cn khÊ thi cho b i toĂn tõm tt vôn bÊn theo hữợng tõm lữổc
(nghắa l chúng khổng bà giỵi h⁄n trong vi»c lüa chån v s›p x‚p li nhng on vôn t
vôn bÊn gc).
Mt s phữỡng phĂp ¢ ÷ỉc ¡p dưng cho b i to¡n tâm t›t vôn bÊn tõm lữổc trản
th giợi cõ th k n nhữ:
ã Neural abstractive summarization[9], Â ln u tiản Ăp dửng c¡c mỉ h…nh m⁄ng
nìron hi»n ⁄i ” tâm t›t v«n bÊn trản b d liằu Duc2004 v t ữổc hiằu su§t ¡ng kinh
ng⁄c v o thíi i”m â. Trong â, nhâm t¡c gi£ ¢ t“p trung v o cì ch‚ attention v ữổc tông

cữớng vợi cĂc b recurrent decoder.
ã Pointer-generator networks[10], mt mổ hnh Seq2seq sò dửng phƠn phi
attention mãm sinh ra mt chuỉi u ra bao gỗm cĂc tł câ trong t i li»u ƒu v o.
• Actor-Critic model[18], sß dưng hai mỉ un Actor v Critic ” sinh ra b£n tâm t›t.
Trong â, Actor l mºt mæ h…nh Seq2seq k‚t hỉp vỵi cì ch‚ attention v pointing õng
vai trong nhữ mt din viản; Critic l mt mổ hnh hồc tông cữớng sò dửng nƠng
cao chĐt lữổng cıa b£n tâm t›t vỵi º o Rouge, âng vai trặ nhữ l mt nh phả bnh.

1.4.3

Phữỡng phĂp sò dửng trong

ãti

B i toĂn a tõm lữổc l mt b i toĂn cn rĐt nhiãu d liằu cõ th xƠy dỹng ữổc mt
mổ hnh end-to-end. Những xƠy dỹng ữổc b d liằu nhữ th ặi họi khổng ch l
thới gian m cặn l kin thức ca ngữới tõm tt. Khỉng ch¿ ð Vi»t Nam, m tr¶n to n th‚ giợi
chữa hã cõ mt b d liằu n o lợn cõ th xƠy dỹng ữổc mt mổ hnh hồc sƠu duy
nhĐt cho b i toĂn tõm tt a vôn bÊn tõm lữổc. Do õ, trong phm vi ã t i n y, mºt mæ h…
nh k‚t hæp cıa hai b i to¡n con l Tâm t›t a tr‰ch rút v Tõm tt ỡn tõm lữổc ữổc ã xuĐt ”
gi£i quy‚t b i to¡n tâm t›t a tâm l÷ỉc nhm khc phửc hn ch do vĐn ã khan him dœ
li»u (h…nh 1.1).
ƒu ti¶n, mºt mỉ h…nh tâm t›t a vôn bÊn trch rút s ữổc ã xuĐt nhm bin t“p
dœ li»u tâm t›t a v«n b£n th nh mºt tp tõm tt ỡn vôn bÊn. Cũng vợi õ, mt mổ hnh
tõm tt ỡn vôn bÊn s ữổc xƠy dỹng trản mt tp d liằu ỡn tõm lữổc lợn (t“p dœ li»u
ìn tâm l÷ỉc l kh¡ phŒ bi‚n). CuŁi cịng, b‹ng c¡ch k‚t hỉp hai mỉ h…nh
5


Tâm t›t a tr‰ch rót v Tâm t›t ìn tâm l÷ỉc ta s‡ thu ÷ỉc mºt mỉ h…nh Tâm t›t a tõm

lữổc trản mt tp d liằu ho n to n nhọ. Cử th:
ã Mổ hnh tõm tt a vôn bÊn trch rút: sò dửng thut toĂn phƠn cửm K-means ”
gom nhâm nhœng c¥u câ cịng °c i”m. Sau â, phữỡng phĂp tn dửng trung tƠm
ca t ữổc sò dưng ” lo⁄i bä i nhœng c¥u khỉng mang thỉng tin. Tip õ, phữỡng
phĂp Maximal Marginal Relevance ữổc sò dửng ” lo⁄i bä sü trịng l°p thỉng tin
giœa c¡c c¥u lüa chån trong b£n tâm t›t ƒu ra. CuŁi còng, tn dửng c trững v tr
ca cĂc cƠu trong t i li»u ” s›p x‚p l⁄i c¡c c¥u trong b£n tâm t›t cuŁi cịng.
• Mỉ h…nh tâm t›t ìn vôn bÊn tõm lữổc: sò dửng mổ hnh Sequence to
Sequence ” håc c¡ch sinh ra b£n tâm t›t tł t i li»u ƒu v o. Sau â, cì ch‚ chó ỵ
(attention) ữổc sò dửng buc mổ hnh chú ỵ hìn v o nhœng tł quan trång tł t i
li»u ƒu v o. Ti‚p â, cì ch‚ sao ch†p (pointing) ÷ỉc sß dưng ” sao ch†p nhœng tł
khỉng thuºc t“p tł i”n trong t i li»u ƒu cho b£n tâm t›t ƒu ra. CuŁi cịng b‹ng vi»c
t“n dưng c¡c °c trững quan trồng ca vôn bÊn u v o l m t«ng t‰nh hi»u qu£ cıa
cì ch‚ Attention.
Trong nºi dung bĂo cĂo Lun vôn n y,
u tiản phn cỡ s lỵ thuyt s
ữổc trnh
b y trong chữỡng 2 phửc vử cho quĂ trnh ã xuĐt cĂc mổ hnh tõm tt vôn bÊn
trong chữỡng 3. Tip theo, cĂc tp d liằu sò dửng Ănh giĂ chĐt lữổng mổ h…nh v
c¡c k‚t qu£ cıa c¡c th‰ nghi»m s‡ ÷ỉc tr…nh b y trong ch÷ìng 4. CuŁi cịng, ” k‚t lun
li nhng g  v chữa l m ữổc trong phm vi ã t i n y s ữổc trnh b y chữỡng 5.

Hnh 1.1: Phữỡng phĂp sò dửng trong• t i

6


Chữỡng 2
Cỡ s lỵ thuyt
CĂc nãn tÊng lỵ thuyt l c biằt quan trồng cõ th xƠy dỹng nản c¡c mỉ h…nh hi»n

⁄i phưc vư cho c¡c nhi»m vư xò lỵ ngổn ng tỹ nhiản. Dữợi Ơy l mt s cỡ s lỵ thuyt
cỡ bÊn xƠy dỹng nản mỉ h…nh tâm t›t v«n b£n trong ph⁄m vi lu“n vôn tt nghiằp.

2.1

Lỵ thuyt vã ngổn ng

Trong lắnh vỹc xò lỵ ngổn ng tỹ nhiản, nhiằm vử Tiãn xò lỵ dœ li»u l mºt b i
to¡n vỉ cịng quan trång nhm nƠng cao chĐt lữổng ca cĂc mổ hnh mĂy håc. Vi»c
t“n dưng nhœng hi”u bi‚t v• m°t ngỉn ngœ hồc nhm xò lỵ cĂc ngổn ng cử th l vổ
cũng quan trồng trong nhng b i toĂn vã xò lỵ ngổn ng. Trong phm vi lun vôn n y,
cỡ s lỵ thuyt cho ting Anh v ting Viằt s ÷ỉc tr…nh b y ” th§y ÷ỉc sü kh¡c nhau
trong viằc tiãn xò lỵ u v o cho d liằu cıa hai ngỉn ngœ.

2.1.1

Ti‚ng Anh

Ti‚ng Anh l b£n ngœ lỵn thứ ba trản th giợi, sau ting Trung Quc v ting TƠy Ban Nha.
Ơy l ngổn ng thứ hai ữổc hồc nhiãu nhĐt v l ngổn ng chnh thức ca gƒn 60 quŁc
gia câ chı quy•n. Ngỉn ngœ n y câ sŁ ng÷íi nâi nh÷ ngỉn ngœ thø hai v ngoi ng lợn
hỡn s ngữới bÊn ng. Ngo i ra, Ơy cụng l ngổn ng ỗng chnh thức ca Liản

Hổp Quc, ca Liản minh chƠu u v ca nhiãu t chøc quŁc t‚ v khu vüc kh¡c[42]. Ti‚ng
Anh l ngæn ngœ bi‚n h…nh (hỈa k‚t), lo⁄i h…nh ngỉn ngœ m x£y ra hi»n t÷ỉng
bi‚n Œi tł ð trong h…nh và (l ỡn v ng phĂp nhọ nhĐt cõ nghắa ca mt ngổn ng),
sỹ bin i n y mang ỵ nghắa ngœ ph¡p. V‰ dư: person (ng÷íi) -> people (måi ng÷íi)
Do õ, ỵ nghắa t vỹng v ỵ nghắa ng phĂp ÷æc dung hæp ð trong tł nh÷ng
khæng th” t¡ch b⁄ch phn n o biu th ỵ nghắa ca t vỹng, phn n o biu th ỵ nghắa
ca ng phĂp[22]. T â, nhœng ngæn ngœ mang lo⁄i h…nh câ °c i”m n y ÷ỉc gåi l

ngỉn ngœ bi‚n h…nh.
” câ c¡i nhn rê hỡn vã ngổn ng ting Anh, viằc trnh b y mºt sŁ °c i”m cıa
ngæn ngœ bi‚n h…nh l cn thit:
ã Ngổn ng bin hnh bao gỗm cĂc phử t (biu hiằn ỵ nghắa ca ng phĂp), cĂc
phử t n y cõ th ỗng thới mang nhiãu ỵ nghắa hoc cĂc phử t khĂc nhau những
vÔn mang cũng mt ỵ nghắa.
+ V dử 1: paint -> painter (-er l phö tŁ).
7


+ V‰ dö 2: expected -> unexpected (-un l phö tŁ).
• Trong ngỉn ngœ bi‚n h…nh, c¡c h…nh và ð trong t cõ sỹ liản hằ cht ch vợi
nhau. Mi li¶n h» ch°t ch‡ n y th” hi»n vi»c ngay cÊ chnh t (biu hiằn ỵ nghắa
t vỹng) cụng khổng th” øng mºt m…nh.
+ V‰ dö, trong ti‚ng Anh, ch‰nh tŁ biol ln ln ph£i câ phư tŁ i k–m:
biology (sinh v“t håc), biologist (nh sinh v“t håc).
• C¡c tł thữớng ữổc bin i hnh thĂi th hiằn ỵ ngh¾a ngœ ph¡p trong ngỉn
ngœ bi‚n h…nh:
+ V‰ dư 1: paint (hi»n t⁄i) -> painted (qu¡ khø).
+ V‰ dö 2: build (hi»n t⁄i) -> built (qu¡ khø).
• Ngo i ra, c¡c ngỉn ngœ bi‚n h…nh câ th” ÷ỉc chia ra th nh nhiãu kiu nhọ l
chuyn dng - phƠn tch v chuy”n d⁄ng - tŒng hæp. C¡c ngæn ngœ tŒng hỉp
c¡c °c i”m l mŁi li¶n h» giœa c¡c tł ÷æc bi”u hi»n b‹ng c¡c d⁄ng thøc cıa tł. Tł â m
trong c¡c ngæn ngœ tŒng hæp câ c¡c c¡ch kh¡c nhau ” di„n ⁄t mŁi quan h» giœa
c¡c tł trong cƠu. Ngữổc li, ngổn ng phƠn tch, mi quan h» giœa c¡c tł
trong c¥u ( óng hìn l trong cưm tł) ÷ỉc th” hi»n khỉng ph£i b‹ng c¡c d⁄ng thøc cıa
c¡c tł m b‹ng c¡c tł phư trỉ v b‹ng và tr‰ cıa c¡c tł[22]. (Ti‚ng Anh thuºc v o tp cĂc
ngổn ng chuyn dng - phƠn tch).
Nhữ vy, trong phm vi lun vôn tt nghiằp, i vợi °c i”m bi‚n h…nh trong ngæn ngœ
cıa ti‚ng Anh, vi»c l§y gŁc tł nh‹m mưc ‰ch gom c¡c tł bi‚n hnh t mt gc t vã mt i

diằn duy nhĐt nh‹m thu gån k‰ch cï tł i”n tł â c£i thi»n tŁc º v k‰ch cï cıa mỉ h…nh.
V‰ dư vã viằc lĐy cĂc gc t cho cĂc t sau:
ã program -> program
• programs -> program
• programmer -> program
• programming -> program
ã programmers -> program
Cũng vợi õ, trong ting Anh, nhng t ch ữổc dũng nhm mửc ch liản kt c¡c tł
ch‰nh ho°c c¡c tł ch¿ nh‹m mưc ‰ch v• m°t ngœ ph¡p chø khỉng âng gâp v• m°t
nºi dung (c¡c tł n y th÷íng ÷ỉc gåi l c¡c tł dłng - stop words) cơng s‡ ÷ỉc bä i ” gi£m k
‰ch cï tł i”n. V‰ dư v• c¡c stop words trong ti‚ng Anh:
• the
• a
• an
• ...

8


2.1.2

Ti‚ng Vi»t

Ti‚ng Vi»t, công gåi l ti‚ng Vi»t Nam hay Vi»t ngœ l ngỉn ngœ cıa ng÷íi Vi»t v
l ngỉn ng chnh thức ti Viằt Nam. Ơy l ting mà Ã ca khoÊng 85% dƠn cữ Viằt
Nam cũng vợi hỡn 4 triằu Viằt kiãu. Ting Viằt cặn l ngổn ng thø hai cıa c¡c d¥n tºc
thi”u sŁ t⁄i Vi»t Nam v l ngỉn ngœ d¥n tºc thi”u sŁ t⁄i Cºng hỈa S†c[43].
Ti‚ng Vi»t l ngỉn ngœ ìn l“p, lo⁄i h…nh ngỉn ngœ m c¡c tł khỉng câ bi‚n Œi v•
m°t h…nh th¡i. H…nh th¡i cıa tł tü nâ khæng ch¿ ra mŁi quan h» giœa c¡c tł ð trong
c¥u, khỉng ch¿ ra chøc n«ng có ph¡p cıa c¡c tł. Qua hnh thĂi, tĐt cÊ cĂc t dữớng

nhữ khổng cõ quan hằ vợi nhau, chúng ứng trong cƠu tữỡng tỹ nhữ ứng biằt lp mt
mnh[22]. T nh nghắa n y, c¡c ngỉn ngœ m mang °c i”m n y ÷ỉc gåi l c¡c ngỉn
ngœ ìn l“p.
” câ c¡i nh…n rª hìn v• ngỉn ngœ ti‚ng Vi»t, vi»c tr…nh b y mºt sŁ °c i”m cıa
ngỉn ngœ ìn l“p l cƒn thit:
ã Trong ngổn ng ỡn lp:
+ T trũng vợi côn t (l loi hnh v mang ỵ nghắa cỡ bÊn ca t).
+ T khổng bin hnh (t khổng ữổc cĐu t⁄o tł ch‰nh tŁ v phö tŁ).
+ C¡c tł trong cƠu ãu " c lp" vợi nhau.
+ T bao giớ cụng l ỡn Ơm (khĂc biằt so vợi ngổn ng bin hnh, t cõ th
ữổc cĐu th nh bi nhiãu ¥m).
• Trong ngỉn ngœ ìn l“p, quan h» ngœ ph¡p v ỵ nghắa ng phĂp ch yu ữổc biu
th qua hữ t (nhng t khổng cõ ỵ nghắa t vỹng m ch cõ ỵ nghắa ng phĂp)
v trt tỹ t. V dử:
+ Dũng hữ t:
Xem - S xem
Xem -

 xem

Xem -

ang xem

+ Dũng trt tỹ t:
Xe p -

p xe

Nữợc nh - Nh nữợc

ã Trong ngổn ng ỡn lp, cĂc t ìn ¥m ti‚t l m th nh h⁄t nh¥n cì b£n cıa tł vüng. Vi»c
k‚t hỉp c¡c h⁄t nh¥n cì b£n n y t⁄o n¶n tł gh†p - mºt th nh phƒn quan trång trong
ngỉn ngœ ìn l“p. V… th‚ ranh giợi cĂc Ơm tit thữớng trũng vợi ranh giợi cĂc hnh
v, hnh v khổng phƠn biằt vợi t v do â ranh giỵi giœa ìn và (tł gh†p) v cưm tł
cơng khâ ph¥n bi»t. V‰ dư:
+ V‰ dư 1: con_ngüa_ ¡/con_ngüa_ ¡
+ V‰ dư 2: con_ngüa/ ¡/con_ngüa_ ¡
• Trong ngổn ng ỡn lp, nhng t cõ ỵ nghắa i tữổng, tnh chĐt, h nh ng,...
khổng phƠn biằt nhau vã mt cĐu trúc ãu ữổc din tÊ bng cĂc t khỉng bi‚n Œi
(khỉng bi‚n h…nh). V‰ dư:
+ ¡ ( ºng tł): h nh ºng ¡ ( ¡ cƒu).
+ ¡ (danh tł): vi¶n ¡.
9


Ngo i ra, ti‚ng Vi»t l ngỉn ngœ câ d§u bao gỗm 6 dĐu (thanh iằu): thanh ngang,
thanh sc, thanh huyãn, thanh ng v thanh họi. Viằc cõ dĐu hay câ thanh cơng l m
cho ti‚ng Vi»t nŒi b“t hìn so vỵi mºt v i ngỉn ngœ kh¡c (ti‚ng Vi»t ÷ỉc cho l câ giai i»u
"nh÷ h¡t" theo líi nh“n xt ca rĐt nhiãu ngữới nữợc ngo i).
Nhữ vy, trong phm vi lun vôn tt nghiằp, i vợi c im ìn l“p trong ngæn ngœ cıa
ti‚ng Vi»t, vi»c x¡c ành tł gh†p trong mºt c¥u l cƒn thi‚t ” gióp mĂy cõ th "hiu" ữổc ni
dung ca cĂc cƠu trong ti‚ng Vi»t. V‰ dư v• vi»c x¡c ành tł gh†p (tĂch
t) trong ting Viằt sò dửng thữ viằn VnCoreNLP[16]: ng Nguy„n Kh›c Chóc ang l m
vi»c t⁄i ⁄i håc QuŁc gia H Nºi. -> ˘ng Nguy„n_Kh›c_Chóc ang l m_vi»c t⁄i ⁄i_håc
QuŁc_gia H _Nºi.
B¶n c⁄nh â, ti‚ng Vi»t l ngỉn ngœ câ d§u xong vi»c °t và tr‰ d§u v o kỵ tỹ n o
trong t thữớng gƠy ra nhiãu sỹ nhm lÔn trong cng ỗng. Thm ch, mt v i b gê khĂc
nhau cõ th t dĐu v tr khĂc nhau cho cũng mt t. V lỵ do õ, viằc chu'n hõa
dĐu vã úng mt v tr trong mt tł l cƒn thi‚t nh‹m gi£m k‰ch cï tł i”n cơng nh÷ c£i
thi»n º ch‰nh x¡c cho mỉ h…nh. V‰ dư:

• hâa v ho¡ -> hâa
• thıy v thu -> thıy
CuŁi cịng, cơng giŁng nh÷ ngỉn ngœ ti‚ng Anh, ti‚ng Vi»t cơng sß dưng c¡c stop
words, tł m khỉng âng gõp vã mt ni dung cho cƠu. V vy, gi£m k‰ch cï tł i”n
th… vi»c lo⁄i bä c¡c tł n y l cƒn thi‚t. V‰ dư v• c¡c stop words trong ti‚ng Vi»t:
• l
• th…
• cıa
• ...

2.2

Mỉ h…nh v†c tì hâa dœ li»u

Tł t“p c¡c tł (hay th÷íng ÷ỉc gồi l cĂc c trững)  tĂch ữổc t tp cĂc cƠu trong t i liằu
u v o, cn ữa v• d⁄ng v†c tì ( ” m¡y t‰nh câ th” hi”u ÷ỉc). Sau â, cƒn khði t⁄o v†c tì
cho mØi cƠu trong tp vôn bÊn u v o ( d i cıa v†c tì phư thuºc v o k‰ch thữợc t in).
Cỡ s lỵ thuyt vã vc tỡ hõa dœ li»u l n•n t£ng quan trång cho b i toĂn tõm tt vôn
bÊn, ba mổ hnh cỡ bÊn ữổc sò dửng trong lun vôn tt nghiằp bao gỗm: mổ h…nh
tói tł[38]; mỉ h…nh tói tł vỵi trång sŁ tf-idf v nhóng tł[44].

2.2.1

Mỉ h…nh tói tł

Mỉ h…nh tói tł[38] (Bag of Words - BoW): mổ hnh cỡ bÊn nhĐt
cho

ữổc xƠy düng


b i to¡n bi‚n ki”u dœ li»u v«n b£n th nh v†c tì. ¥y cơng l mỉ h…nh cì sð m c¡c nh
nghi¶n cøu dịng ” ph¡t tri”n cho c¡c mỉ h…nh phøc t⁄p hìn. Trong â, t i li»u ÷æc bi”u
di„n th nh t“p c¡c tł ºc l“p i cịng tƒn su§t m nâ â xu§t hi»n trong t i li»u.

10


H…nh 2.1: Bag of Words[17]
Trong â, mºt t i li»u ÷ỉc th” hi»n d÷ỵi d⁄ng mºt "tói" m chøa c¡c t ca t i liằu õ (ch
nh v ỵ tững n y nản mổ hnh ữổc gồi l mổ hnh túi t). Nhữ vy, viằc biu
din n y khổng hã quan t¥m ‚n ngœ ph¡p v thø tü cıa c¡c t trong t i liằu những vÔn cõ
th gi ữổc t‰nh a d⁄ng cıa t i li»u.

2.2.2

Mỉ h…nh tói tł sò dửng lữổc

ỗ trồng s TF-IDF

TF-IDF[25] (Term Frequency Inverse Document Frequency): mt phữỡng phĂp
thng kả ữổc bit n rng rÂi nhĐt i vợi cng ỗng hồc thut xĂc nh º quan trång cıa
mºt tł trong o⁄n v«n b£n chøa t õ. GiĂ tr tf-idf tnh ữổc thữớng sò dửng nhữ mt
trồng s trong cĂc nhiằm vử xò lỵ ngổn ng tỹ nhiản. Phữỡng phĂp TF-IDF chuyn i
cĂc t trong vôn bÊn th nh tp cĂc trồng s tf-idf tữỡng øng.
” câ c¡i nh…n chi ti‚t hìn v• c¡ch t‰nh trång sŁ tf-idf, em s‡ tr…nh b y chi ti‚t tłng
th nh phƒn cıa trång sŁ tf-idf:

TF (Term Frequency): tƒn suĐt xuĐt hiằn ca mt t trong vôn bÊn chứa tł â. D„
th§y r‹ng tƒn su§t n y phư thuºc khĂ nhiãu v o d i ca vôn bÊn ang ÷ỉc x†t, v…
th‚ thỉng th÷íng TF th÷íng ÷ỉc t‰nh b‹ng c¡ch l§y tƒn su§t xu§t hi»n cıa tł â v chia

cho d i ca on vôn bÊn nhữ mºt ph÷ìng ph¡p chu'n hâa. Cỉng thøc t‰nh TF:

tf (w) =

f (w; t)
T

Vợi:

+ w : mt t bĐt ký.
+ f (w; t) : bi”u thà tƒn su§t cıa tł w b§t ký trong t i li»u t:
+ T : sŁ lữổng t cõ trong t i liằu ang xt.
ã
ỵ rng TF coi mỉi t ãu quan trồng nhữ nhau, những ta cõ th thĐy rng
khổng phÊi t n o trong vôn bÊn cụng quan trồng nhữ cĂc t dng (stop words): "th…",
"l ", " ", "í",. . . xu§t hiằn khĂ nhiãu những li khổng õng gõp nhiãu n ni dung ca vôn
bÊn. Nhn thĐy nhữổc im n y, nhữ mt phữỡng phĂp bũ tr cho nhng t xuĐt hiằn
nhiãu ln, viằc tông quan trồng ca cĂc t t xuĐt hiằn trong vôn bÊn ữổc giÊi quyt
bng IDF (Inverse Document Frequency).

11



×