TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
LUẬN VĂN THẠC SĨ
Tóm tắt đa văn bản tiếng Việt
CAO MẠNH HẢI
Ngành Khoa học máy tính
Giảng viên hướng dẫn: PGS.TS. Lê Thanh Hương ———————–
Chữ ký của GVHD
Viện: Công nghệ thông tin và Truyền thông
HÀ NỘI, 12/2021
123doc
Mang
Ln
thay vì
h■■ng
l■im■i
s■
cam
tr■
h■u
m■t
k■t
nghi■m
t■im■t
là
s■
cáwebsite
nhân
mang
kho
m■ith■
kinh
m■
l■i
d■n
vi■n
nh■ng
cho
doanh
■■u
kh■ng
ng■■i
quy■n
chia
t■ th■c
dùng,
l■
s■l■i
v■i
và
hi■n
t■t
cơng
h■n
mua
ngh■a
nh■t
2.000.000
ngh■
báncho
tài
v■
hi■n
ng■■i
li■u
c■a
tài
th■
hàng
mình
li■u
dùng.
hi■n
■■u
■
thìt■t
Khi
■■i,
s■p
Vi■t
c■
khách
b■n
t■i,
l■nh
Nam.
ngh■a
online
hàng
v■c:
Táctr■
khơng
v■
tài
phong
thành
chính
c■a
khác
chun
c■a
thành
tíngì
d■ng,
hàng
so
nghi■p,
viên
v■i
tri■u
cơng
c■a
b■n
hồn
nhà
ngh■
123doc
g■c.
bán
h■o,
thơng
B■n
và
hàng
■■
n■p
có
tin,
l■i
cao
th■
ti■n
ngo■i
chuy■n
tính
phóng
vào
ng■,...Khách
trách
tài
giao
to,kho■n
nhi■m
thu
sang
nh■
c■a
■■i
■■n
hàng
tùy123doc,
v■i
v■
ý.
cót■ng
qu■n
th■b■n
d■
ng■■i
lýChào
dàng
s■ dùng.
■■■c
m■ng
tra c■u
M■c
h■■ng
b■n
tàitiêu
li■u
■■n
nh■ng
hàng
m■t
v■i■■u
quy■n
cách
123doc.
c■a
chính
l■i123doc.net
sau
xác,n■p
nhanh
ti■n
tr■
chóng.
trên
thành
website
th■ vi■n tài li■u online l■n nh■t Vi■t Nam, cung c■p nh■ng tài li■u ■■c khơng th■ tìm th■y trên th■ tr■■ng ngo■i tr■ 123doc.net.
Nhi■u event thú v■, event ki■m ti■n thi■t th■c. 123doc luôn luôn t■o c■ h■i gia t■ng thu nh■p online cho t■t c■ các thành viên c■a website.
Mangh■n
Ln
Th■a
Xu■t
Sau
Nhi■u
123doc
Link
khi
h■■ng
phát
thu■n
l■i
event
cam
s■
nh■n
xác
m■t
tr■
t■
h■u
k■t
s■
thú
nghi■m
t■i
th■c
ýxác
n■m
t■■ng
m■t
d■ng
v■,
là
s■
nh■n
s■
website
ra
mang
event
kho
m■i
■■■c
■■i,
1.
t■o
tLink
t■
th■
m■
l■i
c■ng
ki■m
■■ng
d■n
123doc
CH■P
g■i
vi■n
xác
nh■ng
cho
■■u
■■ng
ti■n
v■
th■c
h■
kh■ng
ng■■i
NH■N
■ã
■■a
quy■n
th■ng
thi■t
chia
t■ng
s■
ki■m
dùng,
l■
ch■
CÁC
s■
■■■c
th■c.
s■
l■i
b■■c
v■i
ti■n
và
email
chuy■n
■I■U
t■t
cơng
h■n
mua
123doc
g■i
online
kh■ng
nh■t
b■n
2.000.000
v■
ngh■
bán
KHO■N
sang
b■ng
ln
cho
■■a
■ã
tài
■■nh
hi■n
■■ng
ng■■i
li■u
ph■n
ln
ch■
tài
TH■A
tài
v■
th■
li■u
hàng
t■o
email
li■u
thơng
ky,
dùng.
tríhi■n
THU■N
hi■u
c■
c■a
b■n
■■u
■b■n
tin
t■t
h■i
Khi
■■i,
qu■
mình
vui
Vi■t
xác
c■
■ã
khách
gia
lịng
b■n
nh■t,
minh
trong
l■nh
■■ng
Nam.
t■ng
Chào
■■ng
online
hàng
uy
tài
v■c:
l■nh
thu
Tác
m■ng
ky,
tín
kho■n
tr■
nh■p
nh■p
khơng
b■n
tài
phong
v■c
cao
thành
b■n
chính
vui
email
nh■t.
tài
email
online
oLink
khác
chun
■■n
li■u
lịng
thành
tínb■n
Mong
c■a
xác
gì
cho
d■ng,
và
■■ng
v■i
so
nghi■p,
viên
th■c
kinh
■ã
mình
t■t
123doc.
123doc.net!
v■i
mu■n
cơng
■■ng
nh■p
c■a
c■
doanh
s■
b■n
vàcác
hồn
mang
■■■c
ngh■
123doc
click
email
ký
g■c.
online.
thành
v■i
h■o,
Chúng
vào
l■i
thơng
B■n
g■i
c■a
và
123doc.netLink
CH■P
cho
viên
linkí
Tính
■■
v■
n■p
có
mình
tơi
tin,
c■ng
c■a
cao
■■a
th■
■■n
cung
NH■N
ti■n
ngo■i
và
tính
mình
website.
phóng
■■ng
ch■
th■i
click
vào
c■p
CÁC
ng■,...Khách
trách
xác
trong
email
tài
■i■m
D■ch
vào
xã
to,kho■n
■I■U
th■c
nhi■m
h■i
thu
linkơng
l■nh
b■n
tháng
V■
nh■
m■t
s■
KHO■N
c■a
■ã
v■c
(nh■
■■i
hàng
■■■c
tin
tùy
ngu■n
5/2014;
■■ng
123doc,
tài
v■i
xác
■■■c
ý.
có
li■u
TH■A
g■i
t■ng
minh
th■
tài
ky,
123doc
và
v■
mơ
ngun
b■n
b■n
d■
ng■■i
THU■N
tài
kinh
■■a
t■
dàng
kho■n
s■
vui
v■■t
d■■i
doanh
tri
dùng.
■■■c
ch■
lịng
tra
th■c
m■c
email
■ây)
email
c■u
■■ng
Chào
online.
M■c
h■■ng
q
100.000
cho
tài
b■n
b■n
m■ng
tiêu
báu,
nh■p
li■u
Tính
b■n,
■ã
nh■ng
■ã
hàng
phong
m■t
l■■t
■■n
email
■■ng
b■n
tùy
■■ng
■■u
quy■n
cách
truy
thu■c
■■n
th■i
phú,
c■a
ký
ky,
c■a
c■p
chính
v■i
■i■m
v■i
■a
mình
l■i
b■n
vào
123doc.net
m■i
123doc.netLink
d■ng,
123doc.net!
sau
xác,
các
vui
tháng
vàngày,
n■p
click
lịng
“■i■u
nhanh
giàu
5/2014;
ti■n
s■
vào
■■ng
tr■
giá
Kho■n
Chúng
chóng.
h■u
trên
linkc■a
thành
tr■
xác
123doc
nh■p
2.000.000
website
■■ng
th■c
Th■a
tơi
th■
website.
cung
email
v■■t
s■
vi■n
th■i
Thu■n
■■■c
c■p
c■a
thành
mong
m■c
tài D■ch
v■
li■u
mình
g■i
viên
100.000
mu■n
S■
online
v■
và
V■
■■ng
D■ng
click
■■a
t■o
(nh■
l■■t
l■n
ký,
D■ch
■i■u
vào
ch■
nh■t
■■■c
truy
l■t
link
email
ki■n
V■”
vào
c■p
Vi■t
123doc
mơtop
sau
cho
b■n
m■i
Nam,
t■200
■ây
d■■i
cho
ngày,
■ã
cung
các
các
(sau
■■ng
g■i
■ây)
s■
website
c■p
users
■ây
h■u
ky,
cho
nh■ng
■■■c
có
b■n
2.000.000
b■n,
ph■
thêm
vui
tài
bi■n
tùy
g■i
lịng
thu
li■u
thu■c
t■t
thành
nh■t
nh■p.
■■c
■■ng
T■i
vào
t■i
viên
khơng
t■ng
Chính
nh■p
Vi■t
các
■■ng
th■i
“■i■u
th■
Nam,
vì
email
v■y
■i■m,
ký,
tìm
t■
Kho■n
c■a
l■t
123doc.net
th■y
l■chúng
vào
mình
tìm
trên
Th■a
top
ki■m
và
tơi
th■
200
ra
click
Thu■n
cóthu■c
■■i
tr■■ng
các
th■
vào
nh■m
website
c■p
v■
top
link
ngo■i
S■
3nh■t
■áp
123doc
Google.
D■ng
ph■
tr■
■KTTSDDV
■ng
123doc.net.
bi■n
■ã
D■ch
Nh■n
nhu
g■i
nh■t
c■u
V■”
■■■c
theo
t■i
chia
sau
Vi■t
quy■t
danh
■ây
s■ Nam,
tài
(sau
hi■u
...li■u
t■
■ây
do
ch■t
l■c■ng
■■■c
tìm
l■■ng
ki■m
■■ng
g■i
và
thu■c
t■t
bình
ki■m
T■i
ch■n
top
ti■n
t■ng
3 Google.
là
online.
th■i
website
■i■m,
Nh■n
ki■m
chúng
■■■c
ti■ntơi
online
danh
có th■
hi■u
hi■u
c■p
do
qu■
nh■t
c■ng
và ■KTTSDDV
uy
■■ng
tín nh■t.
bình ch■n
theo quy■t
là website
... ki■m ti■n online hi■u qu■ và uy tín nh■t.
Lnh■n
123doc
Sau
Th■a
Xu■t
khi
h■■ng
phát
thu■n
cam
nh■n
m■t
t■k■t
s■
t■i
ýxác
n■m
t■■ng
d■ng
là
s■
nh■n
website
ra
mang
■■i,
1.
t■o
t■l■i
c■ng
■■ng
d■n
123doc
CH■P
nh■ng
■■u
■■ng
h■
NH■N
■ã
quy■n
th■ng
chia
t■ng
ki■m
CÁC
s■s■
l■i
b■■c
ti■n
vàchuy■n
■I■U
t■t
mua
online
kh■ng
nh■t
bán
KHO■N
sang
b■ng
cho
■■nh
thay
ng■■i
ph■n
tài
TH■A
vìv■
li■u
m■i
thơng
dùng.
tríTHU■N
hi■u
m■t
c■atin
Khi
qu■
mình
cá
xác
khách
nhân
nh■t,
minh
trong
Chào
kinh
hàng
uy
tài
l■nh
m■ng
doanh
tín
kho■n
tr■
v■c
cao
thành
b■n
t■
email
nh■t.
tàith■c
■■n
li■u
thành
b■n
Mong
hi■n
và
v■i
viên
kinh
■ã
123doc.
123doc.net!
mu■n
ngh■a
■■ng
c■a
doanh
mang
123doc
v■
kýonline.
c■a
v■i
Chúng
l■ivà
123doc.netLink
mình
cho
Tính
n■p
tơi
c■ng
thì
■■n
cung
ti■n
s■p
■■ng
th■i
vào
c■p
t■i,
xác
tài
■i■m
D■ch
xã
ngh■a
kho■n
th■c
h■itháng
V■
m■t
s■
v■
c■a
(nh■
■■■c
c■a
ngu■n
5/2014;
123doc,
■■■c
c■a
g■i
tài
123doc
hàng
v■
mơ
ngun
b■n■■a
t■
tri■u
s■
v■■t
d■■i
tri
■■■c
ch■
nhà
th■c
m■c
■ây)
email
bán
h■■ng
q
100.000
cho
hàng
b■n
báu,
b■n,
nh■ng
l■i
■ã
phong
l■■t
chuy■n
tùy
■■ng
quy■n
truy
thu■c
phú,
ky,
c■p
giao
■a
l■i
b■n
vào
m■i
sang
d■ng,
sau
các
vuingày,
n■p
■■n
lịng
“■i■u
giàu
ti■n
s■
■■ng
v■
giá
Kho■n
h■u
qu■n
trên
tr■
nh■p
2.000.000
website
■■ng
Th■a
lý hồn
email
th■i
Thu■n
h■o,
c■a
thành
mong
v■
■■
mình
viên
mu■n
S■
cao
và
■■ng
D■ng
tính
click
t■otrách
ký,
D■ch
■i■u
vàol■t
link
nhi■m
ki■n
V■”
vào
123doc
top
sau
cho
■■i
200
■ây
cho
v■i
■ãcác
các
(sau
g■i
t■ng
website
users
■ây
ng■■i
■■■c
cóph■
dùng.
thêm
bi■n
g■i
thu
M■c
t■t
nh■t
nh■p.
T■i
tiêu
t■i
t■ng
hàng
Chính
Vi■tth■i
■■u
Nam,
vì v■y
■i■m,
c■a
t■123doc.net
l■
123doc.net
chúng
tìm ki■m
tơiracó
tr■
thu■c
■■i
th■
thành
nh■m
c■p
topth■
3nh■t
■áp
Google.
vi■n
■KTTSDDV
■ng
tàiNh■n
nhu
li■uc■u
online
■■■c
theo
chia
l■n
quy■t
danh
s■nh■t
tài
hi■u
...li■u
Vi■t
do
ch■t
Nam,
c■ng
l■■ng
cung
■■ng
và
c■p
bình
ki■m
nh■ng
ch■n
ti■ntài
là
online.
website
li■u ■■cki■m
khơng
ti■n
th■
online
tìm th■y
hi■utrên
qu■th■
và tr■■ng
uy tín nh■t.
ngo■i tr■ 123doc.net.
Ln
Th■a
Xu■t
Sau
Nhi■u
123doc
Mang
thayh■n
khi
vì
h■■ng
phát
thu■n
l■i
event
m■i
cam
s■
nh■n
m■t
tr■
t■
h■u
m■t
k■t
s■
thú
nghi■m
t■i
ýxác
n■m
t■■ng
m■t
d■ng
v■,
là
s■
cá
nh■n
website
ra
nhân
mang
event
kho
m■i
■■i,
1.
t■o
t■
th■
kinh
m■
l■i
c■ng
ki■m
■■ng
d■n
123doc
CH■P
vi■n
nh■ng
cho
doanh
■■u
■■ng
ti■n
h■
kh■ng
ng■■i
NH■N
■ã
quy■n
th■ng
thi■t
chia
t■t■ng
ki■m
th■c
dùng,
l■
CÁC
s■
th■c.
s■
l■i
b■■c
v■i
ti■n
và
hi■n
chuy■n
■I■U
t■t
cơng
h■n
mua
123doc
online
kh■ng
ngh■a
nh■t
2.000.000
ngh■
bán
KHO■N
sang
b■ng
ln
cho
tài
■■nh
v■
hi■n
ng■■i
li■u
ph■n
ln
c■a
tài
TH■A
tài
v■
th■
li■u
hàng
t■o
mình
li■u
thơng
dùng.
tríhi■n
THU■N
hi■u
c■
c■a
■■u
■
thìtin
t■t
h■i
Khi
■■i,
qu■
s■p
mình
Vi■t
xác
c■
khách
gia
b■n
t■i,
nh■t,
minh
trong
l■nh
Nam.
t■ng
Chào
ngh■a
online
hàng
uy
tài
v■c:
l■nh
thu
Tác
m■ng
tín
kho■n
tr■
nh■p
khơng
v■
tài
phong
v■c
cao
thành
b■n
chính
c■a
email
nh■t.
tài
online
khác
chun
■■n
c■a
li■u
thành
tínb■n
Mong
gì
cho
d■ng,
và
hàng
v■i
so
nghi■p,
viên
kinh
■ã
t■t
123doc.
123doc.net!
v■i
mu■n
tri■u
cơng
■■ng
c■a
c■
doanh
b■n
các
hồn
nhà
mang
ngh■
123doc
ký
g■c.
online.
thành
bán
v■i
h■o,
Chúng
l■i
thơng
B■n
và
hàng
123doc.netLink
cho
viên
Tính
■■
n■p
có
tơi
tin,
c■ng
l■i
c■a
cao
th■
■■n
cung
ti■n
ngo■i
chuy■n
tính
website.
phóng
■■ng
th■i
vào
c■p
ng■,...Khách
trách
xác
tài
■i■m
D■ch
giao
xã
to,kho■n
th■c
nhi■m
h■i
thu
sang
tháng
V■
nh■
m■t
s■
c■a
(nh■
■■i
■■n
hàng
■■■c
tùy
ngu■n
5/2014;
123doc,
v■i
v■
■■■c
ý.
cóg■i
t■ng
qu■n
th■
tài
123doc
v■
mơ
ngun
b■n
d■
ng■■i
lý,
■■a
t■
dàng
s■
cơng
v■■t
d■■i
tri
dùng.
■■■c
ch■
tra
th■c
ngh■
m■c
■ây)
email
c■u
M■c
h■■ng
q
hi■n
100.000
cho
tài
b■n
tiêu
báu,
li■u
b■n,
th■
nh■ng
■ã
hàng
phong
m■t
l■■t
hi■n
tùy
■■ng
■■u
quy■n
cách
truy
thu■c
■■i,
phú,
ky,
c■a
c■p
chính
■a
b■n
l■i
b■n
vào
123doc.net
m■i
d■ng,
sau
online
xác,
các
vuingày,
n■p
lịng
“■i■u
nhanh
giàu
khơng
ti■n
s■
■■ng
tr■
giá
Kho■n
chóng.
h■u
trên
khác
thành
tr■
nh■p
2.000.000
website
■■ng
Th■a
gìth■
so
email
vi■n
th■i
v■i
Thu■n
c■a
thành
b■n
mong
tài v■
li■u
mình
g■c.
viên
mu■n
S■
online
và
B■n
■■ng
D■ng
click
t■o
l■n
cóký,
D■ch
■i■u
vào
th■
nh■t
l■t
link
phóng
ki■n
V■”
vào
Vi■t
123doc
top
sau
cho
to,
Nam,
200
thu
■ây
cho
■ã
cung
nh■
các
các
(sau
g■iwebsite
tùy
c■p
users
■ây
ý.nh■ng
■■■c
cóph■
thêm
tài
bi■n
g■i
thu
li■u
t■t
nh■t
nh■p.
■■c
T■it■i
khơng
t■ng
Chính
Vi■tth■i
th■
Nam,
vì v■y
■i■m,
tìm
t■123doc.net
th■y
l■chúng
tìm
trên
ki■m
tơi
th■
racóthu■c
■■i
tr■■ng
th■nh■m
c■p
top
ngo■i
3nh■t
■áp
Google.
tr■
■KTTSDDV
■ng
123doc.net.
Nh■n
nhu c■u
■■■c
theo
chiaquy■t
danh
s■ tài
hi■u
...li■udo
ch■t
c■ng
l■■ng
■■ng
vàbình
ki■mch■n
ti■n là
online.
website ki■m ti■n online hi■u qu■ và uy tín nh■t.
Chia
m■t
u■t
Nhi■u
Mang
Ln
123doc
Th■a
Xu■t
Sau
tri■n
phát
khi
h■n
member
s■
h■■ng
phát
khai
thu■n
l■i
event
s■
cam
nh■n
câu
t■
m■t
tr■
t■
event
h■u
ýk■t
s■
chuy■n
thú
nghi■m
t■i
ýkhơng
t■■ng
xác
n■m
t■■ng
m■t
d■ng
v■,
là
khuy■n
s■
nh■n
website
ra
mang
m■y
event
t■o
kho
thành
m■i
■■i,
1.
t■o
t■
mãi
c■ng
th■
n■i
m■
l■i
c■ng
ki■m
■■ng
d■n
cơng
123doc
CH■P
th■
vi■n
b■t
nh■ng
cho
■■ng
■■u
■■ng
ti■n
trên
n■p
h■
c■a
kh■ng
ng■■i
NH■N
■ã
quy■n
th■ng
123doc
thi■t
chia
ki■m
v■i
c■ng
t■ng
ki■m
dùng,
l■
CÁC
s■
nh■ng
th■c.
ti■n
s■
l■i
b■■c
■■ng
v■i
ti■n
-và
ki■m
chuy■n
■I■U
t■t
cơng
online
h■n
mua
123doc
online
■u
kh■ng
123doc
nh■t
5■ãi
2.000.000
ngh■
bán
KHO■N
tri■u
b■ng
sang
b■ng
ln
cho
c■c
tài
■■nh
■ã
hi■n
ch■
tài
ng■■i
li■u
ph■n
ln
k■
tài
TH■A
xu■t
li■u
tài
v■
v■i
th■
li■u
h■p
hàng
t■o
li■u
thơng
s■c
dùng.
trí
hi■u
7hi■n
THU■N
hi■u
d■n.
tài
c■
c■a
■■u
■■■ng
li■u!
tin
qu■
t■t
h■i
Khi
■■i,
qu■
mình
■■ng
Vi■t
xác
c■
khách
gia
nh■t,
Nghe
trong
b■n
nh■t,
minh
trong
l■nh
Nam.
t■ng
Chào
b■online
có
uy
hàng
danh
l■
uy
tài
v■c:
l■nh
thu
Tác
v■
tín
m■ng
nhé,
tín
kho■n
tr■
sách
cao
nh■p
khó
khơng
tài
phong
v■c
cao
tr■■c
thành
b■n
chính
nh■t.
tin
Top
email
nh■t.
tài
online
khác
nh■ng
chun
■■n
li■u
tiên
thành
danh
tín
Mong
b■n
Mong
gì
cho
d■ng,
và
hãy
v■i
■ây
so
thu
nghi■p,
viên
kinh
■ã
mu■n
t■t
123doc.
123doc.net!
cùng
v■i
mu■n
cao
là
cơng
■■ng
c■a
c■
doanh
b■n
con
nh■t
mang
tìm
các
hồn
mang
ngh■
123doc
s■
ký
g■c.
hi■u
online.
thành
tháng
v■i
l■i
hồn
h■o,
Chúng
l■i
thơng
B■n
thơng
cho
và
123doc.netLink
cho
viên
t■o
tồn
Tính
■■
n■p
có
c■ng
tơi
tin,
c■ng
tin
c■
c■a
cao
th■
chính
■■n
cung
ti■n
ngo■i
v■
h■i
■■ng
tính
website.
phóng
■■ng
Khách
th■i
vào
c■p
xác
gia
ng■,...Khách
trách
xác
xã
tài
t■ng
■i■m
mà
D■ch
xã
to,
hàng
h■i
kho■n
th■c
nhi■m
h■i
BQT
thu
thu
m■t
tháng
V■
có
nh■
m■t
s■
nh■p
123doc
c■a
th■
(nh■
■■i
hàng
ngu■n
■■■c
tùy
ngu■n
5/2014;
123doc,
d■
v■i
online
■■■c
ý.
có
■ã
dàng
tài
g■i
t■ng
th■
tài
thu
123doc
ngun
cho
v■
mơ
ngun
b■n
tra
d■
ng■■i
th■p
t■t
■■a
t■
c■u
dàng
s■
v■■t
tri
d■■i
c■
■■■c
tri
dùng.
■■■c
ch■
tài
th■c
các
tra
th■c
m■c
li■u
■ây)
email
c■u
sau
thành
q
M■c
h■■ng
q
m■t
100.000
cho
■■t
tài
báu,
b■n
tiêu
báu,
viên
li■u
cách
b■n,
t■ng
nh■ng
phong
■ã
hàng
phong
c■a
m■t
l■■t
chính
tùy
■■ng
k■t
■■u
website.
phú,
quy■n
cách
truy
thu■c
phú,
doanh
xác,
ky,
c■a
c■p
■a
chính
■a
nhanh
l■i
b■n
vào
d■ng,
thu
123doc.net
m■i
d■ng,
sau
xác,
các
vui
tháng
chóng.
ngày,
n■p
giàu
lịng
“■i■u
nhanh
giàu
11
ti■n
giá
s■
■■ng
tr■
giá
uy
Kho■n
chóng.
h■u
tr■
trên
tín
thành
tr■
nh■p
■■ng
cao
2.000.000
website
■■ng
Th■a
th■
nh■t.
email
th■i
vi■n
th■i
Thu■n
Mong
mong
c■a
thành
mong
tài v■
li■u
mình
mu■n
mu■n
viên
mu■n
S■
online
và
■■ng
D■ng
mang
t■o
click
t■o
l■n
■i■u
ký,
D■ch
■i■u
vào
l■i
nh■t
l■t
cho
link
ki■n
ki■n
V■”
vào
Vi■t
c■ng
123doc
cho
top
sau
cho
Nam,
■■ng
cho
200
■ây
cho
■ã
cung
các
các
các
(sau
g■i
xãusers
website
h■i
c■p
users
■ây
m■t
nh■ng
có
■■■c
cóph■
thêm
ngu■n
thêm
tài
bi■n
g■i
thu
thu
li■u
tài
t■t
nh■p.
nh■t
nh■p.
ngun
■■c
T■it■i
Chính
khơng
t■ng
Chính
Vi■t
tri th■c
th■i
vìth■
Nam,
vìv■y
v■y
q
■i■m,
tìm
123doc.net
t■123doc.net
báu,
th■y
l■chúng
tìm
phong
trên
ki■m
tơi
ra
th■
ra
phú,
có
■■i
thu■c
■■i
tr■■ng
th■
■Sau
nh■m
nh■m
c■p
top
ngo■i
h■n
■áp
3nh■t
■áp
Google.
m■t
■ng
tr■
■KTTSDDV
■ng
123doc.net.
n■m
nhu
Nh■n
nhuc■u
rac■u
■■i,
■■■c
chia
theo
chia
123doc
s■
quy■t
danh
s■tàitài
hi■u
li■u
■ã
...li■u
t■ng
ch■t
do
ch■t
c■ng
b■■c
l■■ng
l■■ng
■■ng
kh■ng
vàvàki■m
bình
ki■m
■■nh
ch■n
ti■n
ti■n
v■
online.
là
online.
tríwebsite
c■a mình
ki■m
trong
ti■nl■nh
online
v■c
hi■u
tài li■u
qu■và
vàkinh
uy tín
doanh
nh■t.online
Nhi■u
Mang
Ln
123doc
Th■a
Xu■t
Sau
khi
h■n
h■■ng
phát
thu■n
l■i
event
s■
cam
nh■n
m■t
tr■
t■
h■u
k■t
s■
thú
nghi■m
t■i
ýxác
n■m
t■■ng
m■t
d■ng
v■,
là
s■
nh■n
website
ra
mang
event
kho
m■i
■■i,
1.
t■o
t■
th■
m■
l■i
c■ng
ki■m
■■ng
d■n
123doc
CH■P
vi■n
nh■ng
cho
■■u
■■ng
ti■n
h■
kh■ng
ng■■i
NH■N
■ã
quy■n
th■ng
thi■t
chia
t■ng
ki■m
dùng,
l■
CÁC
s■
th■c.
s■
l■i
b■■c
v■i
ti■n
vàchuy■n
■I■U
t■t
cơng
h■n
mua
123doc
online
kh■ng
nh■t
2.000.000
ngh■
bán
KHO■N
sang
b■ng
ln
cho
tài
■■nh
hi■n
ng■■i
li■u
ph■n
ln
tài
TH■A
tài
v■
th■
li■u
hàng
t■o
li■u
thơng
dùng.
tríhi■n
THU■N
hi■u
c■
c■a
■■u
■ tin
t■t
h■i
Khi
■■i,
qu■
mình
Vi■t
xác
c■
khách
gia
b■n
nh■t,
minh
trong
l■nh
Nam.
t■ng
Chào
online
hàng
uy
tài
v■c:
l■nh
thu
Tác
m■ng
tín
kho■n
tr■
nh■p
khơng
tài
phong
v■c
cao
thành
b■n
chính
email
nh■t.
tài
online
khác
chun
■■n
li■u
thành
tínb■n
Mong
gì
cho
d■ng,
và
v■i
so
nghi■p,
viên
kinh
■ã
t■t
123doc.
123doc.net!
v■i
mu■n
cơng
■■ng
c■a
c■
doanh
b■n
các
hồn
mang
ngh■
123doc
ký
g■c.
online.
thành
v■i
h■o,
Chúng
l■i
thơng
B■n
và
123doc.netLink
cho
viên
Tính
■■
n■p
có
tơi
tin,
c■ng
c■a
cao
th■
■■n
cung
ti■n
ngo■i
tính
website.
phóng
■■ng
th■i
c■p
thay
ng■,...Khách
trách
xác
■i■m
D■ch
xã
to,
vì th■c
nhi■m
m■i
h■i
thutháng
V■
nh■
m■t
s■(nh■
■■i
hàng
■■■c
tùy
ngu■n
5/2014;
cáv■i
nhân
■■■c
ý.
cóg■i
t■ng
th■
tài
123doc
kinh
v■
mơ
ngun
d■
ng■■i
doanh
■■a
t■
dàng
v■■t
d■■i
tri
dùng.
ch■
t■
tra
th■c
m■c
■ây)
th■c
email
c■u
M■c
q
100.000
cho
tài
hi■n
b■n
tiêu
báu,
li■u
b■n,
ngh■a
■ã
hàng
phong
m■t
l■■t
tùy
■■ng
■■u
cách
truy
v■
thu■c
phú,
ky,
c■a
c■a
c■p
chính
■a
b■n
vào
mình
123doc.net
m■i
d■ng,
xác,
các
vuingày,
thì
lịng
“■i■u
nhanh
giàu
s■p
s■
■■ng
tr■
giá
t■i,
Kho■n
chóng.
h■u
thành
tr■
ngh■a
nh■p
2.000.000
■■ng
Th■a
th■
email
v■vi■n
th■i
Thu■n
c■a
c■a
thành
mong
tài
c■a
v■
li■u
mình
viên
hàng
mu■n
S■
online
và
■■ng
D■ng
tri■u
click
t■o
l■n
ký,
D■ch
■i■u
vào
nhà
nh■t
l■t
link
bán
ki■n
V■”
vào
Vi■t
123doc
hàng
top
sau
cho
Nam,
200
l■i
■ây
cho
■ã
chuy■n
cung
các
các
(sau
g■iwebsite
c■p
users
■ây
giao
nh■ng
■■■c
cósang
ph■
thêm
tài
bi■n
g■i
■■n
thu
li■u
t■t
nh■t
v■
nh■p.
■■c
T■i
qu■n
t■i
khơng
t■ng
Chính
Vi■t
lý th■i
quy■n
th■
Nam,
vì v■y
■i■m,
tìm
l■i
t■123doc.net
th■y
l■
sau
chúng
tìm
trên
n■p
ki■m
tơi
th■
ti■n
racóthu■c
■■i
tr■■ng
trên
th■nh■m
c■p
website
top
ngo■i
3nh■t
■áp
Google.
tr■
■KTTSDDV
■ng
123doc.net.
Nh■n
nhu c■u
■■■c
theo
chiaquy■t
danh
s■ tài
hi■u
...li■udo
ch■t
c■ng
l■■ng
■■ng
vàbình
ki■mch■n
ti■n là
online.
website ki■m ti■n online hi■u qu■ và uy tín nh■t.
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
———————————————
BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn: Cao Mạnh Hải
Đề tài luận văn: Tóm tắt đa văn bản tiếng Việt
Chuyên ngành: Khoa học dữ liệu
Mã số SV: CB190206
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận
tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày 24/12/2021
với các nội dung sau:
• Bổ sung cơ sở lý thuyết cho ngơn ngữ tiếng Việt và tiếng Anh.
• Bổ sung ý nghĩa thực tiễn cho đề tài.
• Sửa các lỗi chính tả.
Hà Nội, ngày
Giáo viên hướng dẫn
tháng
năm
Tác giả luận văn
CHỦ TỊCH HỘI ĐỒNG
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
ĐỀ TÀI LUẬN VĂN
1. Thông tin về học viên
Họ và tên học viên: Cao Mạnh Hải
Mã học viên: CB190206
Điện thoại liên lạc: 0981245088
Email:
Lớp: Khoa học dữ liệu (KH)
Khóa: CH2019B
Luận văn tốt nghiệp được thực hiện tại: Trường Đại học Bách khoa Hà Nội.
Thời gian làm Luận văn tốt nghiệp: Từ ngày 01/02/2020 đến 08/12/2021.
2. Mục đích nội dung của Luận văn tốt nghiệp
Tìm hiểu các kỹ thuật Xử lý ngôn ngữ tự nhiên và các kiến thức về Học máy và Học
sâu từ đó áp dụng cho bài tốn Tóm tắt đa văn bản tiếng Việt. Kết hợp với việc tìm
hiểu các phương pháp tóm tắt văn bản truyền thống từ đó đưa ra cách kết hợp để
cải thiện độ chính xác cho bài tốn.
3. Các nhiệm vụ cụ thể của Luận văn tốt nghiệp
- Tìm hiểu lý thuyết Xử lý ngôn ngữ tự nhiên, Học máy và Học sâu.
- Tìm hiểu cách tiền xử lý dữ liệu và phương pháp véc tơ hóa dữ liệu.
- Tìm hiểu các phương pháp tóm tắt văn bản đã được nghiên cứu.
- Tìm hiểu cách đánh giá độ chính xác cho bài tốn Tóm tắt văn bản.
- Đề xuất mơ hình kết hợp các phương pháp để cải thiện độ chính xác của bài toán.
- Thử nghiệm và đánh giá kết quả trên các phương pháp đã tìm hiểu.
- Kết luận và hướng phát triển.
4. Lời cam đoan của học viên:
Tôi – Cao Mạnh Hải – cam kết Luận văn tốt nghiệp này là cơng trình nghiên cứu của
bản thân tơi dưới sự hướng dẫn của PGS.TS. Lê Thanh Hương.
Các kết quả nêu trong Luận văn tốt nghiệp là trung thực, không phải là sao chép
tồn văn của bất kỳ cơng trình nào khác.
Hà Nội, ngày
tháng
năm
Tác giả Luận văn tốt nghiệp
5. Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của Luận văn tốt nghiệp
và cho phép bảo vệ:
....................................................................................
....................................................................................
....................................................................................
....................................................................................
....................................................................................
Hà Nội, ngày
tháng
năm
Giáo viên hướng dẫn
PGS.TS. Lê Thanh Hương
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
LỜI CẢM ƠN
Lời đầu tiên, em xin gửi lời cảm ơn chân thành đến các Thầy, Cô giáo trong viện
Công nghệ thông tin và Truyền thông đã truyền tải không chỉ là kiến thức, kỹ năng
mà còn là những nhiệt huyết để em có thể vững tâm trong suốt thời gian học tập.
Em xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Lê Thanh Hương đã chỉ bảo tận
tình để em có thể hồn thành được Luận văn. Ngồi ra, em xin gửi lời cảm ơn đến
Viện nghiên cứu trí tuệ nhân tạo VinAI đã tạo điều kiện, mơi trường sáng tạo cho em
hoàn thành tốt nhiệm vụ Luận văn được giao.
Cuối cùng, em xin gửi lời cảm ơn đến gia đình, và những người bạn ln ủng hộ
em hết mình trong q trình hồn thiện Luận văn.
HỌC VIÊN
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
TÓM TẮT NỘI DUNG LUẬN VĂN TỐT NGHIỆP
Mục tiêu của khuôn khổ Luận văn tốt nghiệp là giải quyết được bài tốn tóm tắt đa
văn bản sử dụng kỹ thuật tóm lược cho ngơn ngữ tiếng Việt. Qua q trình tìm hiểu cùng
với sự hướng dẫn tận tình của PGS. TS. Lê Thanh Hương, kết quả thu được của luận
văn là khả quan. Báo cáo này sẽ trình bày những vấn đề đã tìm hiểu được và quá trình
thực hiện Luận văn tốt nghiệp.
Kết quả của Luận văn tốt nghiệp đã thử nghiệm được các phương pháp trên bộ dữ
liệu "Duc2007" cho mơ hình tóm tắt đa văn bản trích rút và đưa ra được kết quả để so
sánh chất lượng của các phương pháp khác trên thế giới. Ngoài ra, một mơ hình tóm tắt
đa văn bản tóm lược đã được đề xuất cho bộ dữ liệu tiếng Việt và kết quả thử nghiệm
cho thấy chất lượng của mô hình đề xuất là khả quan trên bộ dữ liệu của tác giả Trần
Mai Vũ.
Nội dung chính của Luận văn tốt nghiệp là trình bày các phương pháp để giải quyết
vấn đề trích rút thơng tin quan trọng trong tập các văn bản và sau đó tóm tắt lại bằng
những câu từ hoàn toàn mới. Chi tiết Báo cáo luận văn tốt nghiệp sẽ trình bày các vấn
đề sau:
- Chương 1: Mở đầu: đặt vấn đề, giới thiệu bài toán tóm tắt văn bản.
- Chương 2: Cơ sở lý thuyết: trình bày các kiến thức cơ bản đã vận dụng trong luận
văn tốt nghiệp.
- Chương 3: Hướng tiếp cận và mơ hình đề xuất: trình bày các hướng tiếp cận và đề
xuất mơ hình cho bài tốn tóm tắt đa văn bản theo hướng tóm lược.
- Chương 4: Cài đặt, thử nghiệm và đánh giá: trình bày về dữ liệu thử nghiệm và
đưa ra kết quả của các phương pháp trên bộ dữ liệu thử nghiệm.
- Chương 5: Kết luận và hướng phát triển: trình bày những đóng góp, những khó
khăn của Luận văn tốt nghiệp. Từ đó đưa ra hướng phát triển cho luận văn tốt nghiệp.
HỌC VIÊN
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
Mục lục
1 Mở
1.1
1.2
1.3
1.4
đầu
Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . .
Bài tốn tóm tắt văn bản . . . . . . . . . . . . . . . .
Ý nghĩa thực tiễn của đề tài . . . . . . . . . . . . . . .
Định hướng . . . . . . . . . . . . . . . . . . . . . . . .
1.4.1 Các nghiên cứu liên quan theo hướng trích rút .
1.4.2 Các nghiên cứu liên quan theo hướng tóm lược .
1.4.3 Phương pháp sử dụng trong đề tài . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
3
4
4
5
5
2 Cơ sở lý thuyết
2.1 Lý thuyết về ngôn ngữ . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Tiếng Anh . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Mơ hình véc tơ hóa dữ liệu . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Mơ hình túi từ . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Mô hình túi từ sử dụng lược đồ trọng số TF-IDF . . . . .
2.2.3 Nhúng từ . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Phương pháp đánh giá . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Độ đo Rouge . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2 Một số biến thể của độ đo Rouge . . . . . . . . . . . . . .
2.4 Cơ sở lý thuyết cho mơ hình tóm tắt đa văn bản trích rút . . . . .
2.4.1 K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.2 LexRank . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.3 Maximal Marginal Relevance (MMR) . . . . . . . . . . . .
2.4.4 Phương pháp sử dụng độ trung tâm . . . . . . . . . . . . .
2.5 Cơ sở lý thuyết cho bài tốn tóm tắt đơn văn bản tóm lược . . . .
2.5.1 Mạng nơron hồi quy (Recurrent Neural Network - RNN) .
2.5.2 Long Short Term Memory (LSTM - Bộ nhớ dài-ngắn hạn)
2.5.3 Mơ hình Sequence to Sequence cơ bản . . . . . . . . . . .
2.5.4 Cơ chế Attention . . . . . . . . . . . . . . . . . . . . . . .
2.5.5 Cơ chế Pointing/Copying . . . . . . . . . . . . . . . . . . .
2.5.6 Beam Search . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
7
9
10
10
11
12
15
15
16
16
16
19
19
20
21
21
22
25
26
28
30
.
.
.
.
31
31
32
32
33
3 Hướng tiếp cận và mơ hình đề xuất
3.1 Mơ hình đề xuất . . . . . . . . . . . . . . . . . . . . .
3.2 Mô hình tóm tắt đa văn bản theo hướng trích rút . . .
3.2.1 Hướng tiếp cận cho mơ hình tóm tắt đa văn bản
3.2.2 K-means sử dụng vị trí tương đối . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . .
. . .
trích
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . .
. . .
rút
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
i
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
.
.
.
.
.
.
.
35
36
37
38
38
39
41
4 Cài đặt, thử nghiệm và đánh giá
4.1 Công cụ và môi trường cài đặt . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Chuẩn bị dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Bộ dữ liệu Duc2007 . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Bộ dữ liệu Báo mới . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.3 Bộ dữ liệu của tác giả Trần Mai Vũ . . . . . . . . . . . . . . . . . .
4.2.4 Bộ dữ liệu Vims . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Tiền xử lý dữ liệu và đánh giá mơ hình tóm tắt . . . . . . . . . . . . . . .
4.4 Đánh giá chất lượng mơ hình . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Kết quả của mơ hình tóm tắt đa văn bản trích rút trên tập dữ liệu
Duc2007 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.2 Kết quả của mô tính tóm tắt đa trích rút trên bộ dữ liệu tiếng Việt
4.4.3 Kết quả của mơ hình tóm tắt đơn văn bản tóm lược trên bộ dữ liệu
Báo mới . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.4 Kết quả của mơ hình tóm tắt đa văn bản tóm lược trên bộ dữ liệu
200 clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
44
44
44
45
45
46
46
47
3.3
3.4
3.2.3 K-means kết hợp vị trí câu trong tài liệu . . . . . . . . . . . . . .
3.2.4 K-means kết hợp MMR và Position . . . . . . . . . . . . . . . . .
3.2.5 K-means kết hợp Centroid-based, MMR và Position . . . . . . . .
Mơ hình tóm tắt đơn văn bản theo hướng tóm lược . . . . . . . . . . . .
3.3.1 Hướng tiếp cận cho mơ hình tóm tắt đơn văn bản tóm lược . . . .
3.3.2 Tận dụng các đặc trưng từ tài liệu đầu vào . . . . . . . . . . . . .
Quy trình huấn luyện mơ hình tóm tắt đa văn bản theo hướng tóm lược
47
49
49
50
5 Kết luận và hướng phát triển
53
5.1 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2 Hướng phát triển . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
Danh sách bảng
4.1
4.2
4.3
4.4
4.5
4.6
Kết
Kết
Kết
Kết
Kết
Kết
quả
quả
quả
quả
quả
quả
của
của
của
của
của
của
mơ hình tóm tắt đa văn bản trích rút với bốn kịch bản[19] .
mơ hình tóm tắt trích rút so với các phương pháp cơ sở[19] .
một số phương pháp trên thế giới[19] . . . . . . . . . . . . .
mơ hình tóm tắt đa trích rút trên tập 200 clusters và Vims .
mơ hình tóm tắt đơn tóm lược trên tập Báo mới . . . . . .
mơ hình tóm tắt đa văn bản tóm lược trên tập 200 clusters
.
.
.
.
.
.
48
48
49
49
50
50
iii
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
Danh sách hình vẽ
1.1
Phương pháp sử dụng trong đề tài
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
2.14
2.15
2.16
Bag of Words[17] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bag of Word với trọng số tf-idf[17] . . . . . . . . . . . . . . . . . . . .
Mơ hình CBOW với một từ trong ngữ cảnh[29] . . . . . . . . . . . . .
Kiến trúc CBOW[29] . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kiến trúc Skip-Gram[29] . . . . . . . . . . . . . . . . . . . . . . . . . .
Một đơn vị trong RNN[26] . . . . . . . . . . . . . . . . . . . . . . . . .
Cấu trúc Cell trong LSTM . . . . . . . . . . . . . . . . . . . . . . . . .
Forget gate trong LSTM[23] . . . . . . . . . . . . . . . . . . . . . . . .
Input gate trong LSTM[23] . . . . . . . . . . . . . . . . . . . . . . . . .
Cell state trong LSTM[23] . . . . . . . . . . . . . . . . . . . . . . . . .
Output gate trong LSTM[23] . . . . . . . . . . . . . . . . . . . . . . .
Mơ hình seq2seq cơ bản (SOS và EOS là token bắt đầu và kết thúc)[20]
LSTM hai chiều[14] . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mơ hình seq2seq dựa trên cơ chế attention[20] . . . . . . . . . . . . . .
Mô hình sử dụng cơ chế pointer[13] . . . . . . . . . . . . . . . . . . . .
Giải thuật Beam Search[28] . . . . . . . . . . . . . . . . . . . . . . . .
3.1
3.2
3.3
3.4
3.5
3.6
3.7
Mơ hình tóm tắt đa văn bản tóm lược . . . . . . . . . . . . . . . . . . . .
Mơ hình cơ sở cho bài tốn tóm tắt đa trích rút[19] . . . . . . . . . . . . .
Mơ hình tóm tắt đa văn bản sử dụng K-means[19] . . . . . . . . . . . . . .
Biểu diễn véc tơ câu sử dụng Word2Vec[17] . . . . . . . . . . . . . . . . . .
Mơ hình tóm tắt đa văn bản sử dụng K-means kết hợp Position[19] . . . .
Mơ hình tóm tắt đa trích rút sử dụng K-means kết hợp MMR và Position[19]
Mơ hình tóm tắt sử dụng K-means kết hợp Centroid-based, MMR và Position[19] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mơ hình tóm tắt đơn văn bản tóm lược cơ sở . . . . . . . . . . . . . . . . .
Mơ hình tóm tắt đơn văn bản tóm lược . . . . . . . . . . . . . . . . . . . .
Quy trình đầy đủ cho bài tốn tóm tắt đa văn bản tóm lược . . . . . . . .
Quy trình huấn luyện mơ hình tóm tắt đơn văn bản tóm lược ban đầu . .
Quy trình huấn luyện lại mơ hình tóm tắt đơn văn bản tóm lược . . . . . .
Quy trình đánh giá tồn bộ mơ hình tóm tắt đa văn bản tóm lược . . . . .
3.8
3.9
3.10
3.11
3.12
3.13
. . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
11
12
13
14
14
21
22
23
23
24
24
25
26
27
29
30
32
33
34
34
35
36
38
39
40
41
41
42
43
iv
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
Chương 1
Mở đầu
Dữ liệu trên mạng ngày càng ra tăng với một tốc độ chóng mặt theo thời gian. Lượng
dữ liệu q lớn này trở nên rất khó kiểm sốt và gây ra những khó khăn cho mọi người
khi tìm đọc những thơng tin trên mạng. Mọi người có xu hướng tìm đọc những thơng tin
ngắn ngọn nhưng vẫn giữ được những ý chính. Nhưng với việc dữ liệu ngày càng gia tăng,
việc con người tự mình tạo ra các bản tóm tắt là bất khả thi. Vì vậy, việc tạo ra một mơ
hình tóm tắt văn bản tự động là một vấn đề cấp thiết trong cộng đồng nghiên cứu về xử
lý ngơn ngữ tự nhiên.
1.1
Đặt vấn đề
Tóm tắt văn bản đang là hướng nghiên cứu được khá nhiều nhà nghiên cứu quan tâm
và các kết quả về những mơ hình tóm tắt văn bản hiện tại là tương đối khả quan. Cùng
với đó, sự phát triển của phần cứng ngày càng mạnh mẽ kết hợp với lượng dữ liệu tăng
lên từng phút làm cho việc giải quyết các bài toán theo hướng tiếp cận máy học càng trở
nên dễ dàng. Đặc biệt là với bài tốn tóm tắt đa văn bản tóm lược khi mà việc huấn luyện
một mơ hình đủ tốt địi hỏi một lượng lớn dữ liệu và u cầu tốc độ tính tốn nhanh.
Vì lý do đó, bài tốn tóm tắt đa văn bản theo hướng tóm lược đang rất được quan tâm
trong các cộng đồng học thuật trên tồn thế giới.
Song song với đó, hướng nghiên cứu về bài tốn tóm tắt văn bản ở Việt Nam cịn
khá ít, đặc biệt là bài tốn tóm tắt đa văn bản tóm lược. Thấy được những lợi ích và
thực trạng nghiên cứu tại Việt Nam, em quyết định thực hiện việc tìm hiểu và xây dựng
chương trình Tóm tắt đa văn bản tóm lược với ngơn ngữ tiếng Việt.
1.2
Bài tốn tóm tắt văn bản
Tóm tắt văn bản là một bài toán phức tạp được triển khai để biến một tập hợp các
tài liệu thành duy nhất chỉ một tài liệu mà chỉ chứa những nội dung chính từ tập tài liệu
gốc. Cùng với đó, nếu chỉ tạo ra một bản tóm tắt ngắn và nắm bắt được thông tin quan
trọng của (các) tài liệu gốc là khơng đủ, bản tóm tắt cần phải được tóm tắt lại theo đúng
cú pháp, đảm bảo được tính trơi chảy và đúng trình tự thời gian như một tài liệu độc
lập.
Bài tốn tóm tắt văn bản thường được biết đến với hai hướng chính:
• Tóm tắt văn bản trích rút.
1
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
• Tóm tắt văn bản tóm lược.
Tóm tắt văn bản trích rút
Tóm tắt văn bản trích rút (Extractive text summarization) là việc lựa chọn chỉ những
câu mang thông tin quan trọng ở tài liệu gốc để đưa vào bản tóm tắt. Hướng tiếp cận
này đã xuất hiện rất lâu trước khi lĩnh vực máy học phát triển mạnh mẽ như hiện tại,
trong giai đoạn này, chủ yếu các nhà nghiên cứu tập trung vào việc đánh trọng số cho
các câu liên quan đến nội dung chính của tài liệu. Một trong những phương pháp truyền
thông nhưng lại khá hiệu quả có thể nhắc đến như: LexRank[4] hay Maximal Marginal
Relevance[2] (MMR).
Cùng với đó, với sự phát triển của các mơ hình học máy và học sâu, bài tốn tóm tắt
văn bản hướng trích rút có thể đưa được về bài tốn học có giám sát bằng cách trích chọn
ra những đặc trưng từ tài liệu làm đầu vào cho việc huấn luyện các mơ hình hiện đại. Sau
đó, với những thứ đã học được từ tập dữ liệu huấn luyện, mô hình có thể đốn ra câu nào
là quan trọng trong một tài liệu mới để sinh ra bản tóm tắt cuối cùng. Một số phương
pháp kinh điển trong cách tiếp cn ny: Naăve Bayes[39], Support Vector Machine[40]
(SVM),...
Túm tt vn bn tóm lược
Tóm tắt văn bản tóm lược (Asbtractive text summarization) thường được con người
sử dụng, trong đó yêu cầu phải hiểu toàn bộ nội dung của tài liệu gốc để từ đó có thể
viết lại một bản tóm tắt với câu từ hồn tồn mới. Có thể nói rằng đây thực sự là một
bài tốn khó khơng chỉ đối với các hệ thống máy tính mà cịn đối với cả con người. Trước
khi lĩnh vực học máy trở nên mạnh mẽ như hiện nay, các nhà nghiên cứu chủ yếu tập
trung vào việc chọn và nén nội dung tài liệu gốc để giải quyết bài tốn này. Ngồi ra, với
sự phát triển vượt bậc của các mơ hình học sâu cùng với lượng dữ liệu ngày càng lớn, các
mơ hình tóm tắt tóm lược sử dụng các phương pháp học sâu cho thấy những kết quả đầy
hứa hẹn cho nhiệm vụ tóm tắt văn bản theo hướng tóm lược.
Ngồi hai hướng tiếp cận chính này, bài tốn tóm tắt văn bản cịn được chia thành
hai mảng:
• Tóm tắt đơn văn bản.
• Tóm tắt đa văn bản.
Tóm tắt đơn văn bản (Single Document Summarization)
Tóm tắt đơn văn bản là một bài tốn cơ sở trong đó u cầu đầu vào chỉ với một tài
liệu duy nhất và đầu ra là một bản tóm tắt cho tài liệu đầu vào này. Đầu vào của mơ hình
tóm tắt đơn văn bản là khơng có giới hạn, có thể là một bài báo khoa học, một truyện
ngắn hay thậm chí là cả một luận văn tốt nghiệp. Bài tốn tóm tắt đơn văn bản là một
bài toán đặc biệt quan trọng để làm nền tảng cho việc phát triển các mơ hình tóm tắt đa
văn bản sau này.
Tóm tắt đa văn bản (Multi-Document Summarization)
Bài tốn tóm tắt đa văn bản là một bài tốn nâng cao hơn so với bài tốn tóm tắt đơn
văn bản nhưng vẫn được kế thừa các tính chất cơ bản của bài tốn tóm tắt. Với những
2
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
địi hỏi cao từ bản tóm tắt sinh ra từ mơ hình tóm tắt đa văn bản làm cho bài toán này
trở nên bất khả thi để áp dụng vào thực tế cho đến khi phần cứng máy tính, dữ liệu và
các mơ hình học sâu trở nên phát triển như hiện tại.
Khác với tóm tắt đơn văn bản, tóm tắt đa văn bản nhận đầu vào không chỉ là một
tài liệu đơn mà là một tập các tài liệu có nội dung liên quan đến nhau. Mục tiêu của bài
tốn tóm tắt đa văn bản là thu gọn tập tài liệu đầu vào này sao cho các nội dung chính
vẫn phải được giữ lại. Ngồi ra, bản tóm tắt của mơ hình tóm tắt đa văn bản cần phải
loại bỏ được những thông tin bị chồng chéo giữa các tài liệu, cần loại bỏ đi những nội
dung dư thừa và thậm chí cịn u cầu chính xác về trình tự thời gian.
Do đặc điểm của hướng tóm tắt tóm lược là sinh ra một bản tóm tắt gồm những câu
hoàn toàn mới nên bản thân hướng tiếp cận này rõ ràng gặp phải nhiều khó khăn hơn
khi áp dụng cho bài tốn tóm tắt đa văn bản. Đối với ngôn ngữ Việt Nam, đây là một
ngôn ngữ tương đối phức tạp so với ngôn ngữ phổ biến như tiếng Anh. Bài tốn tóm tắt
đa văn bản cho tiếng Việt càng trở nên khó khăn hơn, xong thực tế tại Việt Nam lại chưa
có nhiều những nghiên cứu liên quan cũng như bộ dữ liệu chung cho bài toán này. Nhận
thấy những khó khăn cùng với thực trạng hiện tại, cấp thiết phải có những nghiên cứu
cho bài tốn Tóm tắt đa văn bản nhằm đáp ứng thực tiễn cũng như để thu hút sự quan
tâm hơn nữa của cộng đồng nhà nghiên cứu về Xử lý ngôn ngữ tự nhiên tại Việt Nam.
Vì vậy, em quyết định lựa chọn đề tài "Tóm tắt đa văn bản tiếng Việt" theo hướng
tóm lược cho định hướng nghiên cứu cho đề tài luận văn tốt nghiệp của mình.
1.3
Ý nghĩa thực tiễn của đề tài
Ngày nay với dữ liệu dạng văn bản đang tăng nhanh với một tốc độ chóng mặt. Dữ
liệu có thể đến từ các trang báo, các báo cáo từ các trường học, các nghiên cứu khoa
học,... Cùng với đó, những thông tin thường chồng chéo nhau quá nhiều giữa các văn bản
làm cho việc lưu trữ hay tìm kiếm gặp nhiều khó khăn. Bài tốn Tóm tắt văn bản đang
rất được các nhà nghiên cứu quan tâm nhằm giải quyết các vấn đề thực tiễn này.
Tóm tắt văn bản là một bài toán quan trọng trong lĩnh vực xử lý ngơn ngữ tự nhiên,
bài tốn có thể giúp giảm thiểu thời gian và công sức của con người trong nhiều lĩnh vực
trong đời sống. Một số bài toán thực tiễn có thể áp dụng Tóm tắt văn bản có thể kể đến
như sau:
• Áp dụng Tóm tắt văn bản cho bài toán Phát hiện sao chép: bài toán phát hiện sao
chép sẽ trở nên vô cùng phức tạp khi khối lượng văn bản trong kho dữ liệu tăng lên.
Khi mà để kiểm tra xem một văn bản có sao chép hay khơng, ta cần kiểm tra văn
bản đó với toàn bộ tập văn bản trong tập tài liệu. Việc làm này trở nên không tưởng
khi mà số văn bản trong kho dữ liệu quá lớn. Để giải quyết vấn đề này, bài tốn tóm
tắt văn bản được áp dụng nhằm chọn lọc ra chỉ những thông tin quan trọng trong
văn bản. Bằng việc xác định những văn bản trong kho lưu trữ là tương đồng với văn
bản cần kiểm tra trùng lặp thơng qua các bản tóm tắt, bài toán Phát hiện sao chép
trở nên khả thi cho dùng lượng văn bản trong kho dữ liệu ngày càng tăng lên.
• Áp dụng Tóm tắt văn bản cho bài tốn Tổng hợp thơng tin: hiện tại có rất nhiều
trang báo mạng cùng viết về một sự kiện hay vấn nạn gì đó, việc tổng hợp các thơng
tin từ các trang báo này giúp cho người dùng có thể nắm bắt thông tin một các tổng
quát mà không cần tốn quá nhiều thời gian. Việc tìm đọc và tổng hợp các thơng tin
chính từ các trang báo khơng chỉ địi hỏi thời gian mà cịn là chun mơn của người
3
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
tóm tắt. Chính vì vậy, bài tốn tóm tắt văn bản được áp dụng để giải quyết vấn đề
này. Lấy một ví dụ, cùng viết về trận bán kết AFF Cup 2021 giữa Việt Nam và Thái
Lan. Một bài viết về chiến thuật của thầy trò Park Hang-Seo và một bài viết về chiến
thuật của Thái Lan, khi đó bài tốn tóm tắt văn bản có nhiệm vụ tổng hợp lại cả
chiến thuật của Việt Nam và Thái Lan.
• Áp dụng Tóm tắt văn bản cho việc đọc các tin chính trong ngày: mọi người càng ngày
càng bận rộn khiến cho việc tổng hợp các tin mới trong ngày là việc bất khả thi. Bằng
cách tóm tắt tự động các tin tức trong ngày, mọi người có thể nắm bắt được tồn bộ
tin mới chỉ trong thời gian ăn sáng.
• Ngồi ra, Tóm tắt văn bản cịn được áp dụng vào một số bài tốn thực tiễn như: tóm
tắt kết quả tìm kiếm trong các bộ tìm kiếm (search engine), tóm tắt nội dung hội
nghị hoặc cuộc họp, tóm tắt nội dung video hoặc audio, tóm tắt nội dung email,...
Thật vậy, Tóm tắt văn bản sẽ là một trong những bài toán quan trọng để mà giúp
con người tiết kiệm thời gian và công sức dành cho việc đọc hiểu tài liệu. Bài tốn tóm
tắt văn bản sẽ càng ngày càng thu hút được nhiều sự quan tâm hơn nữa khơng chỉ đối với
các nhà nghiên cứu mà cịn thu hút cả các doanh nghiệp. Vì khi mà lượng dữ liệu ngày
càng tăng lên cùng với việc con người ngày càng bận rộn hơn thì xu hướng cho sự phát
triển của bài tốn Tóm tắt văn bản là điều khơng thể tránh khỏi.
1.4
1.4.1
Định hướng
Các nghiên cứu liên quan theo hướng trích rút
Hướng tiếp cận trích rút được khá đơng đảo các nhà nghiên cứu tham gia phát triển.
Đa phần trong những nghiên cứu về tóm tắt trích rút đều có liên quan đến việc xếp hạng
câu. Những câu có xếp hạng càng cao thì càng chứa nhiều thơng tin quan trọng cần đưa
vào bản tóm tắt. Các nghiên cứu liên quan đến việc xếp hạng câu có thể kể đến như:
• Trong một xuất bản về tóm tắt văn bản dựa trên ngữ nghĩa mức câu[5], mối quan
hệ về ngữ nghĩa của các từ biểu diễn cùng một vai trò được phát hiện bằng cách sử
dụng WordNet[1].
• Với một tài liệu đã được phân tích cú pháp, nhóm tác giả[6] đã đề xuất một biểu thức
dạng cây để xây dựng một mơ hình xếp hạng câu từ tài liệu đầu vào.
• LexRank[4]: nhóm tác giả đã đề xuất việc xây dựng đồ thị trong đó mỗi câu tương
ứng là một nút trên đồ thị và cạnh của đồ thị thể hiện mối liên hệ giữa hai câu trong
đồ thị.
Ngoài những cách tiếp cận bằng việc xếp hạng câu, cũng có một số hướng tiếp cận
mới lạ khác:
• Random: lựa chọn ngẫu nhiên các câu từ tài liệu gốc vào bản tóm tắt cuối cùng.
• Lead[3]: phương pháp tóm tắt thực hiện theo hai bước:
+ Bước một: sắp xếp tất cả các câu trong tập tài liệu theo trình tự thời gian.
+ Bước hai: lựa chọn các câu đầu tiên làm đầu ra cho bản tóm tắt.
4
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
• DSDR[7]: phương pháp mà trong đó lựa chọn các câu từ tập ứng viên bằng cách tái
cấu trúc tuyến tính tập các câu trong tập tài liệu.
• PV-DM[8]: phương pháp mà trong đó mơ hình đi tái cấu trúc các tài liệu bằng các
câu tóm tắt thơng qua mơ hình mạng nơron, cuối cùng cố gắng chọn các câu tóm tắt
để giảm thiểu lỗi tái cấu trúc.
• PV-DBOW[15]: phương pháp mà trong đó lựa chọn các câu từ tập ứng viên để cố
gắng cực tiểu hóa lỗi tái cấu trúc giữa đầu ra tóm tắt và các tài liệu.
1.4.2
Các nghiên cứu liên quan theo hướng tóm lược
Với tốc độ phát triển nhanh chóng của các mơ hình học sâu, các nhà nghiên cứu trên
thế giới gần đây có xu hướng tập trung hơn vào bài tốn tóm tắt văn bản tóm lược vì
những thách thức mà bài tốn này đặt ra. Với sự xuất hiện của các mơ hình thích hợp
cho các tác vụ liên quan đến xử lý ngơn ngữ tự nhiên, đặc biệt là mơ hình Seq2seq[20],
đã cung cấp một hướng tiếp cận khả thi cho bài tốn tóm tắt văn bản theo hướng tóm
lược (nghĩa là chúng không bị giới hạn trong việc lựa chọn và sắp xếp lại những đoạn văn
từ văn bản gốc).
Một số phương pháp đã được áp dụng cho bài tốn tóm tắt văn bản tóm lược trên
thế giới có thể kể đến như:
• Neural abstractive summarization[9], đã lần đầu tiên áp dụng các mơ hình mạng
nơron hiện đại để tóm tắt văn bản trên bộ dữ liệu Duc2004 và đạt được hiệu suất
đáng kinh ngạc vào thời điểm đó. Trong đó, nhóm tác giả đã tập trung vào cơ chế
attention và được tăng cường với các bộ recurrent decoder.
• Pointer-generator networks[10], một mơ hình Seq2seq sử dụng phân phối attention
mềm để sinh ra một chuỗi đầu ra bao gồm các từ có trong tài liệu đầu vào.
• Actor-Critic model[18], sử dụng hai mô đun Actor và Critic để sinh ra bản tóm
tắt. Trong đó, Actor là một mơ hình Seq2seq kết hợp với cơ chế attention và pointing
đóng vai trong như một diễn viên; Critic là một mơ hình học tăng cường sử dụng để
nâng cao chất lượng của bản tóm tắt với độ đo Rouge, đóng vai trị như là một nhà
phê bình.
1.4.3
Phương pháp sử dụng trong đề tài
Bài tốn đa tóm lược là một bài tốn cần rất nhiều dữ liệu để có thể xây dựng được
một mơ hình end-to-end. Nhưng để xây dựng được bộ dữ liệu như thế địi hỏi khơng chỉ
là thời gian mà cịn là kiến thức của người tóm tắt. Khơng chỉ ở Việt Nam, mà trên tồn
thế giới chưa hề có một bộ dữ liệu nào đủ lớn để có thể xây dựng được một mơ hình học
sâu duy nhất cho bài tốn tóm tắt đa văn bản tóm lược. Do đó, trong phạm vi đề tài này,
một mơ hình kết hợp của hai bài tốn con là Tóm tắt đa trích rút và Tóm tắt đơn tóm
lược được đề xuất để giải quyết bài tốn tóm tắt đa tóm lược nhằm khắc phục hạn chế
do vấn đề khan hiếm dữ liệu (hình 1.1).
Đầu tiên, một mơ hình tóm tắt đa văn bản trích rút sẽ được đề xuất nhằm biến tập
dữ liệu tóm tắt đa văn bản thành một tập tóm tắt đơn văn bản. Cùng với đó, một mơ
hình tóm tắt đơn văn bản sẽ được xây dựng trên một tập dữ liệu đơn tóm lược đủ lớn
(tập dữ liệu đơn tóm lược là khá phổ biến). Cuối cùng, bằng cách kết hợp hai mơ hình
5
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
Tóm tắt đa trích rút và Tóm tắt đơn tóm lược ta sẽ thu được một mơ hình Tóm tắt đa
tóm lược trên một tập dữ liệu hồn tồn nhỏ. Cụ thể:
• Mơ hình tóm tắt đa văn bản trích rút: sử dụng thuật tốn phân cụm K-means để
gom nhóm những câu có cùng đặc điểm. Sau đó, phương pháp tận dụng độ trung tâm
của từ được sử dụng để loại bỏ đi những câu không mang thông tin. Tiếp đó, phương
pháp Maximal Marginal Relevance được sử dụng để loại bỏ sự trùng lặp thông tin
giữa các câu lựa chọn trong bản tóm tắt đầu ra. Cuối cùng, tận dụng đặc trưng vị trí
của các câu trong tài liệu để sắp xếp lại các câu trong bản tóm tắt cuối cùng.
• Mơ hình tóm tắt đơn văn bản tóm lược: sử dụng mơ hình Sequence to Sequence để
học cách sinh ra bản tóm tắt từ tài liệu đầu vào. Sau đó, cơ chế chú ý (attention)
được sử dụng để buộc mơ hình chú ý hơn vào những từ quan trọng từ tài liệu đầu
vào. Tiếp đó, cơ chế sao chép (pointing) được sử dụng để sao chép những từ không
thuộc tập từ điển trong tài liệu đầu cho bản tóm tắt đầu ra. Cuối cùng bằng việc tận
dụng các đặc trưng quan trọng của văn bản đầu vào để làm tăng tính hiệu quả của
cơ chế Attention.
Trong nội dung báo cáo Luận văn này, đầu tiên phần cơ sở lý thuyết sẽ được trình
bày trong chương 2 để phục vụ cho q trình đề xuất các mơ hình tóm tắt văn bản trong
chương 3. Tiếp theo, các tập dữ liệu sử dụng để đánh giá chất lượng mơ hình và các
kết quả của các thí nghiệm sẽ được trình bày trong chương 4. Cuối cùng, để kết luận lại
những gì đã và chưa làm được trong phạm vi đề tài này sẽ được trình bày ở chương 5.
Hình 1.1: Phương pháp sử dụng trong đề tài
6
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
Chương 2
Cơ sở lý thuyết
Các nền tảng lý thuyết là đặc biệt quan trọng để có thể xây dựng nên các mơ hình
hiện đại phục vụ cho các nhiệm vụ xử lý ngôn ngữ tự nhiên. Dưới đây là một số cơ sở
lý thuyết cơ bản để xây dựng nên mơ hình tóm tắt văn bản trong phạm vi luận văn tốt
nghiệp.
2.1
Lý thuyết về ngôn ngữ
Trong lĩnh vực xử lý ngôn ngữ tự nhiên, nhiệm vụ Tiền xử lý dữ liệu là một bài tốn
vơ cùng quan trọng nhằm nâng cao chất lượng của các mơ hình máy học. Việc tận dụng
những hiểu biết về mặt ngôn ngữ học nhằm xử lý các ngôn ngữ cụ thể là vô cùng quan
trọng trong những bài tốn về xử lý ngơn ngữ. Trong phạm vi luận văn này, cơ sở lý
thuyết cho tiếng Anh và tiếng Việt sẽ được trình bày để thấy được sự khác nhau trong
việc tiền xử lý đầu vào cho dữ liệu của hai ngôn ngữ.
2.1.1
Tiếng Anh
Tiếng Anh là bản ngữ lớn thứ ba trên thế giới, sau tiếng Trung Quốc và tiếng Tây Ban
Nha. Đây là ngôn ngữ thứ hai được học nhiều nhất và là ngôn ngữ chính thức của gần
60 quốc gia có chủ quyền. Ngơn ngữ này có số người nói như ngơn ngữ thứ hai và ngoại
ngữ lớn hơn số người bản ngữ. Ngồi ra, đây cũng là ngơn ngữ đồng chính thức của Liên
Hợp Quốc, của Liên minh châu Âu và của nhiều tổ chức quốc tế và khu vực khác[42].
Tiếng Anh là ngơn ngữ biến hình (hịa kết), loại hình ngơn ngữ mà xảy ra hiện tượng
biến đổi từ ở trong hình vị (là đơn vị ngữ pháp nhỏ nhất có nghĩa của một ngôn ngữ), sự
biến đổi này mang ý nghĩa ngữ pháp. Ví dụ: person (người) -> people (mọi người)
Do đó, ý nghĩa từ vựng và ý nghĩa ngữ pháp được dung hợp ở trong từ nhưng không
thể tách bạch phần nào biểu thị ý nghĩa của từ vựng, phần nào biểu thị ý nghĩa của ngữ
pháp[22]. Từ đó, những ngơn ngữ mang loại hình có đặc điểm này được gọi là ngơn ngữ
biến hình.
Để có cái nhìn rõ hơn về ngơn ngữ tiếng Anh, việc trình bày một số đặc điểm của
ngơn ngữ biến hình là cần thiết:
• Ngơn ngữ biến hình bao gồm các phụ tố (biểu hiện ý nghĩa của ngữ pháp), các phụ
tố này có thể đồng thời mang nhiều ý nghĩa hoặc các phụ tố khác nhau nhưng vẫn
mang cùng một ý nghĩa.
+ Ví dụ 1: paint -> painter (-er là phụ tố).
7
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
+ Ví dụ 2: expected -> unexpected (-un là phụ tố).
• Trong ngơn ngữ biến hình, các hình vị ở trong từ có sự liên hệ chặt chẽ với nhau. Mối
liên hệ chặt chẽ này thể hiện việc ngay cả chính tố (biểu hiện ý nghĩa từ vựng) cũng
khơng thể đứng một mình.
+ Ví dụ, trong tiếng Anh, chính tố biol ln ln phải có phụ tố đi kèm: biology
(sinh vật học), biologist (nhà sinh vật học).
• Các từ thường được biến đổi hình thái để thể hiện ý nghĩa ngữ pháp trong ngơn ngữ
biến hình:
+ Ví dụ 1: paint (hiện tại) -> painted (quá khứ).
+ Ví dụ 2: build (hiện tại) -> built (q khứ).
• Ngồi ra, các ngơn ngữ biến hình có thể được chia ra thành nhiều kiểu nhỏ là chuyển
dạng - phân tích và chuyển dạng - tổng hợp. Các ngôn ngữ tổng hợp các đặc điểm là
mối liên hệ giữa các từ được biểu hiện bằng các dạng thức của từ. Từ đó mà trong
các ngơn ngữ tổng hợp có các cách khác nhau để diễn đạt mối quan hệ giữa các từ
trong câu. Ngược lại, ở ngơn ngữ phân tích, mối quan hệ giữa các từ trong câu (đúng
hơn là trong cụm từ) được thể hiện không phải bằng các dạng thức của các từ mà
bằng các từ phụ trợ và bằng vị trí của các từ[22]. (Tiếng Anh thuộc vào tập các ngôn
ngữ chuyển dạng - phân tích).
Như vậy, trong phạm vi luận văn tốt nghiệp, đối với đặc điểm biến hình trong ngôn
ngữ của tiếng Anh, việc lấy gốc từ nhằm mục đích gom các từ biến hình từ một gốc từ
về một đại diện duy nhất nhằm thu gọn kích cỡ từ điển từ đó cải thiện tốc độ và kích cỡ
của mơ hình. Ví dụ về việc lấy các gốc từ cho các từ sau:
• program -> program
• programs -> program
• programmer -> program
• programming -> program
• programmers -> program
Cùng với đó, trong tiếng Anh, những từ chỉ được dùng nhằm mục đích liên kết các từ
chính hoặc các từ chỉ nhằm mục đích về mặt ngữ pháp chứ khơng đóng góp về mặt nội
dung (các từ này thường được gọi là các từ dừng - stop words) cũng sẽ được bỏ đi để
giảm kích cỡ từ điển. Ví dụ về các stop words trong tiếng Anh:
• the
• a
• an
• ...
8
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
2.1.2
Tiếng Việt
Tiếng Việt, cũng gọi là tiếng Việt Nam hay Việt ngữ là ngôn ngữ của người Việt và
là ngôn ngữ chính thức tại Việt Nam. Đây là tiếng mẹ đẻ của khoảng 85% dân cư Việt
Nam cùng với hơn 4 triệu Việt kiều. Tiếng Việt cịn là ngơn ngữ thứ hai của các dân tộc
thiểu số tại Việt Nam và là ngôn ngữ dân tộc thiểu số tại Cộng hịa Séc[43].
Tiếng Việt là ngơn ngữ đơn lập, loại hình ngơn ngữ mà các từ khơng có biến đổi về
mặt hình thái. Hình thái của từ tự nó khơng chỉ ra mối quan hệ giữa các từ ở trong câu,
không chỉ ra chức năng cú pháp của các từ. Qua hình thái, tất cả các từ dường như khơng
có quan hệ với nhau, chúng đứng ở trong câu tương tự như đứng biệt lập một mình[22].
Từ định nghĩa này, các ngôn ngữ mà mang đặc điểm này được gọi là các ngơn ngữ đơn
lập.
Để có cái nhìn rõ hơn về ngơn ngữ tiếng Việt, việc trình bày một số đặc điểm của
ngơn ngữ đơn lập là cần thiết:
• Trong ngơn ngữ đơn lập:
+ Từ trùng với căn tố (là loại hình vị mang ý nghĩa cơ bản của từ).
+ Từ khơng biến hình (từ khơng được cấu tạo từ chính tố và phụ tố).
+ Các từ trong câu đều "độc lập" với nhau.
+ Từ bao giờ cũng là đơn âm (khác biệt so với ngơn ngữ biến hình, từ có thể
được cấu thành bởi nhiều âm).
• Trong ngơn ngữ đơn lập, quan hệ ngữ pháp và ý nghĩa ngữ pháp chủ yếu được biểu
thị qua hư từ (những từ không có ý nghĩa từ vựng mà chỉ có ý nghĩa ngữ pháp) và
trật tự từ. Ví dụ:
+ Dùng hư từ:
− Xem - Sẽ xem
− Xem - Đã xem
− Xem - Đang xem
+ Dùng trật tự từ:
− Xe đạp - Đạp xe
− Nước nhà - Nhà nước
• Trong ngơn ngữ đơn lập, các từ đơn âm tiết làm thành hạt nhân cơ bản của từ vựng.
Việc kết hợp các hạt nhân cơ bản này tạo nên từ ghép - một thành phần quan trọng
trong ngơn ngữ đơn lập. Vì thế ranh giới các âm tiết thường trùng với ranh giới các
hình vị, hình vị khơng phân biệt với từ và do đó ranh giới giữa đơn vị (từ ghép) và
cụm từ cũng khó phân biệt. Ví dụ:
+ Ví dụ 1: con_ngựa_đá/con_ngựa_đá
+ Ví dụ 2: con_ngựa/đá/con_ngựa_đá
• Trong ngơn ngữ đơn lập, những từ có ý nghĩa đối tượng, tính chất, hành động,...
khơng phân biệt nhau về mặt cấu trúc đều được diễn tả bằng các từ khơng biến đổi
(khơng biến hình). Ví dụ:
+ Đá (động từ): hành động đá (đá cầu).
+ Đá (danh từ): viên đá.
9
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
Ngồi ra, tiếng Việt là ngơn ngữ có dấu bao gồm 6 dấu (thanh điệu): thanh ngang,
thanh sắc, thanh huyền, thanh ngã và thanh hỏi. Việc có dấu hay có thanh cũng làm cho
tiếng Việt nổi bật hơn so với một vài ngôn ngữ khác (tiếng Việt được cho là có giai điệu
"như hát" theo lời nhận xét của rất nhiều người nước ngoài).
Như vậy, trong phạm vi luận văn tốt nghiệp, đối với đặc điểm đơn lập trong ngôn
ngữ của tiếng Việt, việc xác định từ ghép trong một câu là cần thiết để giúp máy có thể
"hiểu" được nội dung của các câu trong tiếng Việt. Ví dụ về việc xác định từ ghép (tách
từ) trong tiếng Việt sử dụng thư viện VnCoreNLP[16]: Ông Nguyễn Khắc Chúc đang làm
việc tại Đại học Quốc gia Hà Nội. -> Ông Nguyễn_Khắc_Chúc đang làm_việc tại
Đại_học Quốc_gia Hà_Nội.
Bên cạnh đó, tiếng Việt là ngơn ngữ có dấu xong việc đặt vị trí dấu vào ký tự nào
trong từ thường gây ra nhiều sự nhầm lẫn trong cộng đồng. Thậm chí, một vài bộ gõ
khác nhau có thể đặt dấu ở vị trí khác nhau cho cùng một từ. Vì lý do đó, việc chuẩn hóa
dấu về đúng một vị trí trong một từ là cần thiết nhằm giảm kích cỡ từ điển cũng như cải
thiện độ chính xác cho mơ hình. Ví dụ:
• hóa và hố -> hóa
• thủy và thuỷ -> thủy
Cuối cùng, cũng giống như ngôn ngữ tiếng Anh, tiếng Việt cũng sử dụng các stop
words, từ mà khơng đóng góp về mặt nội dung cho câu. Vì vậy, để giảm kích cỡ từ điển
thì việc loại bỏ các từ này là cần thiết. Ví dụ về các stop words trong tiếng Việt:
• là
• thì
• của
• ...
2.2
Mơ hình véc tơ hóa dữ liệu
Từ tập các từ (hay thường được gọi là các đặc trưng) đã tách được từ tập các câu
trong tài liệu đầu vào, cần đưa về dạng véc tơ (để máy tính có thể hiểu được). Sau đó,
cần khởi tạo véc tơ cho mỗi câu trong tập văn bản đầu vào (độ dài của véc tơ phụ thuộc
vào kích thước từ điển).
Cơ sở lý thuyết về véc tơ hóa dữ liệu là nền tảng quan trọng cho bài tốn tóm tắt văn
bản, ba mơ hình cơ bản được sử dụng trong luận văn tốt nghiệp bao gồm: mô hình túi
từ[38]; mơ hình túi từ với trọng số tf-idf và nhúng từ[44].
2.2.1
Mơ hình túi từ
Mơ hình túi từ[38] (Bag of Words - BoW): mơ hình cơ bản nhất được xây dựng cho
bài toán biến kiểu dữ liệu văn bản thành véc tơ. Đây cũng là mơ hình cơ sở mà các nhà
nghiên cứu dùng để phát triển cho các mơ hình phức tạp hơn. Trong đó, tài liệu được
biểu diễn thành tập các từ độc lập đi cùng tần suất mà nó đó xuất hiện trong tài liệu.
10
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
Hình 2.1: Bag of Words[17]
Trong đó, một tài liệu được thể hiện dưới dạng một "túi" mà chứa các từ của tài liệu
đó (chính vì ý tưởng này nên mơ hình được gọi là mơ hình túi từ). Như vậy, việc biểu
diễn này không hề quan tâm đến ngữ pháp và thứ tự của các từ trong tài liệu nhưng vẫn
có thể giữ được tính đa dạng của tài liệu.
2.2.2
Mơ hình túi từ sử dụng lược đồ trọng số TF-IDF
TF-IDF[25] (Term Frequency – Inverse Document Frequency): một phương pháp thống
kê được biết đến rộng rãi nhất đối với cộng đồng học thuật để xác định độ quan trọng
của một từ trong đoạn văn bản chứa từ đó. Giá trị tf-idf tính được thường sử dụng như
một trọng số trong các nhiệm vụ xử lý ngôn ngữ tự nhiên. Phương pháp TF-IDF chuyển
đổi các từ trong văn bản thành tập các trọng số tf-idf tương ứng.
Để có cái nhìn chi tiết hơn về cách tính trọng số tf-idf, em sẽ trình bày chi tiết từng
thành phần của trọng số tf-idf:
•
TF (Term Frequency): tần suất xuất hiện của một từ trong văn bản chứa từ đó.
Dễ thấy rằng tần suất này phụ thuộc khá nhiều vào độ dài của văn bản đang được xét,
vì thế thơng thường TF thường được tính bằng cách lấy tần suất xuất hiện của từ đó và
chia cho độ dài của đoạn văn bản như một phương pháp chuẩn hóa. Cơng thức tính TF:
tf (w) =
f (w, t)
T
Với:
+ w : một từ bất kỳ.
+ f (w, t) : biểu thị tần suất của từ w bất kỳ trong tài liệu t.
+ T : số lượng từ có trong tài liệu đang xét.
•
Để ý rằng TF coi mỗi từ đều quan trọng như nhau, nhưng ta có thể thấy rằng
không phải từ nào trong văn bản cũng quan trọng như các từ dừng (stop words): "thì",
"là", "à", "ờ",. . . xuất hiện khá nhiều nhưng lại khơng đóng góp nhiều đến nội dung của
văn bản. Nhận thấy nhược điểm này, như một phương pháp bù trừ cho những từ xuất
hiện nhiều lần, việc tăng độ quan trọng của các từ ít xuất hiện trong văn bản được giải
quyết bằng IDF (Inverse Document Frequency).
11
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
Cơng thức tính IDF:
idf (w) = log
N
|w∈D:w∈d|
Với:
•
+ N : số văn bản.
+ |w ∈ D : w ∈ d| : số tài liệu trong D có chứa từ w.
Như vậy, tf-idf được tính theo cơng thức:
tf − idf = tf (w) × idf (w)
Dựa trên mơ hình Bag of Words (đã trình bày ở mục 2.1.1), mơ hình sử dụng tf-idf
tận dụng độ quan trọng của từ trong văn bản bằng các sử dụng trọng số tf-idf. Như vây,
tài liệu sẽ được biểu diễn thành tập các từ đi cùng với trọng số tf-idf tương ứng của chúng
trong tài liệu.
Hình 2.2: Bag of Word với trọng số tf-idf[17]
2.2.3
Nhúng từ
Sơ lược về Nhúng từ
Nhúng từ[44] (Word embedding): phương pháp mang tính đột phá trong việc véc tơ
hóa dữ liệu. Nó là một phương pháp giúp biến một từ thành một véc tơ đại diện dày đặc
cho nó (một cải tiến so với mơ hình BoW mà chỉ sử dụng tần suất xuất hiện của từ làm
cho các biểu diễn véc tơ thường lớn nhưng lại thưa thớt với hầu hết các giá trị trong véc
tơ bằng 0).
Nhúng từ được xây dựng với một khối lượng tài liệu rất lớn để học được cách biểu
diễn lại các từ dưới dạng một véc tơ dày đặc với độ dài được khởi tạo từ trước. Việc sử
dụng phương pháp biểu diễn Word embedding so với các phương pháp truyền thống là
12
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
một trong những đột phá làm cho độ chính xác tăng lên đáng kể cho các nhiệm vụ như
phân tích biểu cảm thể hiện trong văn bản, nhận dạng thực thể, tóm tắt văn bản,. . .
Trong phạm vi luận văn này, em tập trung vào một phương pháp học từ nhúng khá
nổi tiếng là Word2Vec[27].
Word2Vec
Word2Vec[27]: được công bố từ một nhóm nhà nghiên cứu do Tomas Mikolov dẫn đầu
và thậm chí phương pháp này đã được cấp bằng sáng chế. Thuật tốn của phương pháp
sau đó được cộng đồng nghiên cứu phân tích và giải thích. Trong đó, hai kỹ thuật được
sử dụng trong Word2Vec để học cách nhúng từ là: Skip-Gram[29] và Continuous Bag of
Words[29] (CBOW).
•
Continuous Bag of Words[29]: lấy ngữ cảnh của một từ làm đầu vào để
dự đốn ra từ tiếp theo. Như vậy, mơ hình học cách biểu diễn từ bằng cách dự đoán từ
hiện tại dựa trên các từ trước nó. Xét ví dụ với câu sau: "Tơi có một ngày tuyệt_vời".
Xét đầu vào là từ "ngày", khi đó, mơ hình cố gắng đốn ra từ "tuyệt vời" bằng
cách sử dụng đầu vào là từ "ngày". Chi tiết, mơ hình biến từ "ngày" thành một véc tơ
one hot và tính tốn lỗi đầu ra của mơ hình với véc tơ one hot của từ "tuyệt_vời". Trong
khi mơ hình cố gắng cực tiểu hóa lỗi của từ "tuyệt_vời" và từ do mơ hình sinh ra thì mơ
hình cũng học được cách biểu diễn véc tơ của từ "tuyệt_vời".
Kiến trúc thực tế của mơ hình được thể hiện qua hình 2.3.
Hình 2.3: Mơ hình CBOW với một từ trong ngữ cảnh[29]
Trong đó:
+ Đầu vào là một véc tơ được mã hóa dưới dạng one hot và có kích thước là V ;
Lớp ẩn (hay cịn gọi là hidden layer) chứa N nơron; đầu ra là một véc tơ có kích thước là
V.
+ WV ×N biểu thị một ma trận có trọng số ánh xạ đầu vào tới lớp ẩn, trong đó,
V × N là chiều của ma trận W.
0
+ WN ×V biểu thị một ma trận có trọng số với số chiều là N × V (ánh xạ các
lớp ẩn tới lớp đầu ra).
Từ lý thuyết này, rõ ràng mơ hình cũng có thể nhận nhiều từ đầu vào để đoán ra
từ mục tiêu, ý tưởng này được mơ tả trong hình 2.4.
13
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
Hình 2.4: Kiến trúc CBOW[29]
Mơ hình trong hình 2.4 bao gồm ngữ cảnh của C từ, như vậy khi muốn tính tốn
các đầu vào lớp ẩn, mơ hình lấy trung bình véc tơ của C từ.
•
Skip-Gram[29]: khác với mơ hình CBOW, Skip-Gram học nhúng từ bằng
cách đoán ra các từ có liên quan đến một từ đầu vào.
Hình 2.5: Kiến trúc Skip-Gram[29]
14
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
Từ hình 2.5 ta thấy, mơ hình nhận một từ đầu vào và dự đoán ra nhiều từ đầu ra.
Qua các thử nghiệm thực tế, người ta nhận thấy rằng mơ hình Skip-Gram hoạt
động tốt hơn đối với những từ hiếm gặp, cịn mơ hình CBOW hoạt động tốt hơn đối với
những từ phổ biến.
2.3
2.3.1
Phương pháp đánh giá
Độ đo Rouge
ROUGE[33] (Recall-Oriented Understudy for Gisting Evaluation): độ đo được sử dụng
phổ biến cho việc đánh giá chất lượng bản tóm tắt, việc sử dụng một độ đo phổ biến
giúp cho cộng đồng nhà nghiên cứu dễ dàng so sánh mơ hình đề xuất của họ với các nhà
nghiên cứu khác trên cùng một bộ dữ liệu. Vì vậy trong phạm vi luận văn tốt nghiệp, em
sử dụng độ đo ROUGE để kiểm tra chất lượng của các mơ hình tóm tắt em thử nghiệm.
Để đánh giá một bản tóm tắt được tạo tự động, một bản tóm tắt được tạo thủ công
bởi con người được lấy làm mục tiêu để các hệ thống tự động hướng tới. Một bản tóm tắt
hệ thống (sinh ra từ máy tính) là tốt khi nội dung của nó là tương đồng với bản tóm tắt
tham chiếu (tạo bởi con người). Từ đó, Rouge được xây dựng như một cơng cụ để đánh
giá xem bản tóm tắt hệ thống có khớp với bản tóm tắt tham chiếu hay không.
Để hiểu rõ hơn về độ đo Rouge, xét ví dụ:
+ Bản tóm tắt hệ thống (system summary) được sinh ra từ mơ hình tóm tắt
văn bản tự động:
"con_mèo được tìm_thấy ở dưới cái_bàn"
+ Bản tóm tắt tham chiếu (reference summary) được tạo ra bởi con người:
"con_mèo ở dưới cái_bàn"
Tổng số từ chồng chéo giữa bản tóm tắt hệ thống và bản tóm tắt tham chiếu là 4. Tuy
nhiên, điều này chưa nói lên được gì nhiều rằng bản tóm tắt hệ thống có tốt hay khơng.
Vì vậy, để có được một đánh giá tốt, việc tính tốn Precision[34] và Recall[34] qua các từ
chồng chéo được sử dụng trong độ đo Rouge.
•
Recall
Recall trong ngữ cảnh này thể hiện rằng hệ thống đã nắm bắt được bao nhiêu nội
dung từ bản tóm tắt được tạo bởi con người. Cách tính Recall:
Recall =
number_of _overlapping_words
total_words_in_ref erence_summary
Với ví dụ về con mèo đã cho:
Recall =
4
4
= 1.0
Như vậy, toàn bộ số từ trong bản tóm tắt của con người đã được hệ thống viết lại.
Điều này có vẻ là tốt cho một hệ thống tóm tắt văn bản, tuy nhiên, điều này lại chưa chỉ
ra được khía cạnh khác về chất lượng của bản tóm tắt hệ thống. Xét trường hợp bản tóm
tắt hệ thống rất dài, viết lại đa phần nội dung của tài liệu gốc. Nhưng phần lớn các từ
còn lại trong bản tóm tắt hệ thống lại khơng có trong bản tóm tắt tham chiếu. Với lý do
đó, ta cần sử dụng Precision.
•
Precision
Precison ở đây có thể giải thích rằng, có bao nhiêu từ có trong bản tóm tắt được
tạo bởi hệ thống là cần thiết. Cách tính Precision:
15
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
P recison =
number_of _overlapping_words
total_words_in_system_summary
Với ví dụ về con mèo đã cho:
P recison =
4
6
≈ 0.67
•
F1-Score
Với hai tiêu chí về Precison và Recall đã trình bày, độ đo Rouge sử dụng một chỉ
số khác gọi là F1-Score[36]. F1-Score là một thước đo giúp việc đánh giá công bằng hơn
giữa Precision và Recall.
F1-Score được tính tốn theo cơng thức:
F 1 − Score = 2 ×
precison×recall
precision+recall
Xét ví dụ đã lấy ở trên, giá trị F1-Score sẽ là:
F 1 − Score = 2 ×
2.3.2
0.67×1
0.67+1
≈ 0.8024
Một số biến thể của độ đo Rouge
Rouge-N và Rouge-L là hai biến thể được sử dụng phổ biến trong bài tốn tóm tắt
văn bản nhằm so sánh giữa bản tóm tắt hệ thống và bản tóm tắt tham chiếu.
• Rouge-N: sử dụng đơn từ, hai từ, ba từ hoặc n từ chồng chéo.
• Rouge-L: dựa trên LCS[37] (Longest Common Subsequence) để tìm ra các chuỗi
chung dài nhất.
+ Ví dụ, LCS của hai chuỗi "C D E" và "C E D" là cả "C D" và "C E".
2.4
2.4.1
Cơ sở lý thuyết cho mơ hình tóm tắt đa văn bản
trích rút
K-means
Đầu tiên, trước khi bắt đầu với K-means[31], một số thuật ngữ cần được làm rõ:
• Bài tốn phân cụm (clustering): đầu vào là một tập {x1 , . . . , xN } khơng có nhãn; đầu
ra {y1 , . . . , yN } là các nhãn của tập đầu vào.
• Cụm (cluster): là một tập các điểm xi có cùng nhãn yj với nhau. Trong đó, các điểm
trong cùng một nhãn có tính chất giống nhau.
16
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep