TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
LUẬN VĂN THẠC SĨ
Mang l■i tr■ nghi■m m■i m■ cho ng■■i dùng, công ngh■ hi■n th■ hi■n ■■i, b■n online khơng khác gì so v■i b■n g■c. B■n có th■ phóng to, thu nh■ tùy ý.
Kết hợp giữa mơ hình chủ đề và mơ hình
được huấn luyện trước cho bài tốn tóm
tắt văn bản
TRỊNH TIẾN ĐẠT
Ngành Khoa học máy tính
Giảng viên hướng dẫn:
PGS. TS. Phạm Văn Hải
Trường:
Công nghệ thông tin và truyền thông
Chữ ký của GVHD
HÀ NỘI, 10/2022
123doc
Xu■t
Sau
Nhi■u
h■n
phát
event
s■
m■t
t■
h■u
thú
ýn■m
t■■ng
m■t
v■,raevent
kho
■■i,
t■oth■
c■ng
ki■m
123doc
vi■n
■■ng
ti■n
kh■ng
■ãthi■t
t■ng
ki■m
l■
th■c.
b■■c
v■i
ti■nh■n
123doc
online
kh■ng
2.000.000
b■ng
ln
■■nh
ln
tàitài
v■
li■u
t■o
li■u
tríhi■u
c■
c■a
■ t■t
h■i
qu■
mình
c■
gianh■t,
trong
l■nh
t■nguy
v■c:
l■nh
thu
tínnh■p
tài
v■c
cao
chính
nh■t.
tài
online
li■u
tínMong
cho
d■ng,
và kinh
t■t
mu■n
cơng
c■
doanh
các
mang
ngh■
online.
thành
l■i
thơng
cho
viên
Tính
tin,
c■ng
c■a
■■n
ngo■i
website.
■■ng
th■i
ng■,...Khách
■i■m
xã h■itháng
m■thàng
ngu■n
5/2014;
có th■
tài
123doc
ngun
d■ dàng
v■■t
tri tra
th■c
m■c
c■u
q
100.000
tàibáu,
li■uphong
m■t
l■■t cách
truy
phú,c■p
chính
■am■i
d■ng,
xác,
ngày,
nhanh
giàus■
giá
chóng.
h■u
tr■ 2.000.000
■■ng th■ithành
mongviên
mu■n
■■ng
t■oký,
■i■u
l■t ki■n
vào top
cho200
chocác
cácwebsite
users cóph■
thêm
bi■n
thunh■t
nh■p.
t■iChính
Vi■t Nam,
vì v■yt■123doc.net
l■ tìm ki■m
ra thu■c
■■i nh■m
top 3■áp
Google.
■ng Nh■n
nhu c■u
■■■c
chiadanh
s■ tài
hi■u
li■udo
ch■t
c■ng
l■■ng
■■ng
vàbình
ki■mch■n
ti■n là
online.
website ki■m ti■n online hi■u qu■ và uy tín nh■t.
Nhi■u
123doc
Sau
Th■a
khi
thu■n
event
s■
cam
nh■n
h■u
k■t
s■
thú
xác
m■t
d■ng
v■,
s■
nh■n
mang
event
kho
1. t■
th■
l■i
ki■m
■■ng
CH■P
vi■n
nh■ng
ti■n
h■
kh■ng
NH■N
quy■n
th■ng
thi■tl■
CÁC
th■c.
s■
l■i
v■ichuy■n
■I■U
t■t
h■n
123doc
nh■t
2.000.000
KHO■N
sang
ln
cho ng■■i
ph■n
ln
TH■A
tàit■o
li■u
thơng
dùng.
THU■N
c■
■ tin
t■t
h■i
Khixác
c■
khách
giaminh
l■nh
t■ng
Chào
hàng
tài
v■c:
thu
m■ng
kho■n
tr■
nh■p
tài thành
b■n
chính
email
online
■■n
thành
tínb■n
cho
d■ng,
v■i
viên
■ã
t■t
123doc.
123doc.net!
cơng
■■ng
c■a
c■ các
ngh■
123doc
kýthành
v■i
Chúng
thơng
và
123doc.netLink
viên
n■p
tơi
tin,
c■a
cung
ti■n
ngo■i
website.
vào
c■p
ng■,...Khách
xác
tài
D■ch
kho■n
th■c
V■
s■
c■a
(nh■
hàng
■■■c
123doc,
■■■c
cóg■i
th■v■
mơ
b■n
d■■■a
t■
dàng
s■
d■■i
■■■c
ch■
tra■ây)
email
c■u
h■■ng
cho
tài
b■n
li■u
b■n,
nh■ng
■ã
m■t
tùy
■■ng
quy■n
cách
thu■c
ky,
chính
l■i
b■n
vàosau
xác,
các
vuin■p
lịng
“■i■u
nhanh
ti■n
■■ng
Kho■n
chóng.
trên
nh■p
website
Th■a
email
Thu■n
c■a v■
mình
S■vàD■ng
click D■ch
vào link
V■”
123doc
sau ■ây
■ã (sau
g■i ■ây ■■■c g■i t■t T■i t■ng th■i ■i■m, chúng tơi có th■ c■p nh■t ■KTTSDDV theo quy■t ...
Nhi■u
Mang
Ln
123doc
Th■a
Xu■t
Sau
khi
h■n
h■■ng
phát
thu■n
l■i
event
s■
cam
nh■n
m■t
tr■
t■
h■u
k■t
s■
thú
nghi■m
t■i
ýxác
n■m
t■■ng
m■t
d■ng
v■,
là
s■
nh■n
website
ra
mang
event
kho
m■i
■■i,
1.
t■o
t■
th■
m■
l■i
c■ng
ki■m
■■ng
d■n
123doc
CH■P
vi■n
nh■ng
cho
■■u
■■ng
ti■n
h■
kh■ng
ng■■i
NH■N
■ã
quy■n
th■ng
thi■t
chia
t■ng
ki■m
dùng,
l■
CÁC
s■
th■c.
s■
l■i
b■■c
v■i
ti■n
vàchuy■n
■I■U
t■t
cơng
h■n
mua
123doc
online
kh■ng
nh■t
2.000.000
ngh■
bán
KHO■N
sang
b■ng
ln
cho
tài
■■nh
hi■n
ng■■i
li■u
ph■n
ln
tài
TH■A
tài
v■
th■
li■u
hàng
t■o
li■u
thơng
dùng.
tríhi■n
THU■N
hi■u
c■
c■a
■■u
■ tin
t■t
h■i
Khi
■■i,
qu■
mình
Vi■t
xác
c■
khách
gia
b■n
nh■t,
minh
trong
l■nh
Nam.
t■ng
Chào
online
hàng
uy
tài
v■c:
l■nh
thu
Tác
m■ng
tín
kho■n
tr■
nh■p
khơng
tài
phong
v■c
cao
thành
b■n
chính
email
nh■t.
tài
online
khác
chun
■■n
li■u
thành
tínb■n
Mong
gì
cho
d■ng,
và
v■i
so
nghi■p,
viên
kinh
■ã
t■t
123doc.
123doc.net!
v■i
mu■n
cơng
■■ng
c■a
c■
doanh
b■n
các
hồn
mang
ngh■
123doc
ký
g■c.
online.
thành
v■i
h■o,
Chúng
l■i
thơng
B■n
và
123doc.netLink
cho
viên
Tính
■■
n■p
có
tơi
tin,
c■ng
c■a
cao
th■
■■n
cung
ti■n
ngo■i
tính
website.
phóng
■■ng
th■i
vào
c■p
ng■,...Khách
trách
xác
tài
■i■m
D■ch
xã
to,kho■n
th■c
nhi■m
h■i
thutháng
V■
nh■
m■t
s■
c■a
(nh■
■■i
hàng
■■■c
tùy
ngu■n
5/2014;
123doc,
v■i
■■■c
ý.
cóg■i
t■ng
th■
tài
123doc
v■
mơ
ngun
b■n
d■
ng■■i
■■a
t■
dàng
s■
v■■t
d■■i
tri
dùng.
■■■c
ch■
tra
th■c
m■c
■ây)
email
c■u
M■c
h■■ng
q
100.000
cho
tài
b■n
tiêu
báu,
li■u
b■n,
nh■ng
■ã
hàng
phong
m■t
l■■t
tùy
■■ng
■■u
quy■n
cách
truy
thu■c
phú,
ky,
c■a
c■p
chính
■a
l■i
b■n
vào
123doc.net
m■i
d■ng,
sau
xác,
các
vuingày,
n■p
lịng
“■i■u
nhanh
giàu
ti■n
s■
■■ng
tr■
giá
Kho■n
chóng.
h■u
trên
thành
tr■
nh■p
2.000.000
website
■■ng
Th■a
th■
email
vi■n
th■i
Thu■n
c■a
thành
mong
tài v■
li■u
mình
viên
mu■n
S■
online
và
■■ng
D■ng
click
t■o
l■n
ký,
D■ch
■i■u
vào
nh■t
l■t
link
ki■n
V■”
vào
Vi■t
123doc
top
sau
cho
Nam,
200
■ây
cho
■ã
cung
các
các
(sau
g■iwebsite
c■p
users
■âynh■ng
■■■c
cóph■
thêm
tài
bi■n
g■i
thu
li■u
t■t
nh■t
nh■p.
■■c
T■it■i
khơng
t■ng
Chính
Vi■tth■i
th■
Nam,
vì v■y
■i■m,
tìm
t■123doc.net
th■y
l■chúng
tìm
trên
ki■m
tơi
th■
racóthu■c
■■i
tr■■ng
th■nh■m
c■p
top
ngo■i
3nh■t
■áp
Google.
tr■
■KTTSDDV
■ng
123doc.net.
Nh■n
nhu c■u
■■■c
theo
chiaquy■t
danh
s■ tài
hi■u
...li■udo
ch■t
c■ng
l■■ng
■■ng
vàbình
ki■mch■n
ti■n là
online.
website ki■m ti■n online hi■u qu■ và uy tín nh■t.
Mangh■n
Ln
123doc
Th■a
Xu■t
Sau
Nhi■u
khi
h■■ng
phát
thu■n
l■i
event
s■
cam
nh■n
m■t
tr■
t■
h■u
k■t
s■
thú
nghi■m
t■i
ýxác
n■m
t■■ng
m■t
d■ng
v■,
là
s■
nh■n
website
ra
mang
event
kho
m■i
■■i,
1.
t■o
t■
th■
m■
l■i
c■ng
ki■m
■■ng
d■n
123doc
CH■P
vi■n
nh■ng
cho
■■u
■■ng
ti■n
h■
kh■ng
ng■■i
NH■N
■ã
quy■n
th■ng
thi■t
chia
t■ng
ki■m
dùng,
l■
CÁC
s■
th■c.
s■
l■i
b■■c
v■i
ti■n
vàchuy■n
■I■U
t■t
cơng
h■n
mua
123doc
online
kh■ng
nh■t
2.000.000
ngh■
bán
KHO■N
sang
b■ng
ln
cho
tài
■■nh
hi■n
ng■■i
li■u
ph■n
ln
tài
TH■A
tài
v■
th■
li■u
hàng
t■o
li■u
thơng
dùng.
tríhi■n
THU■N
hi■u
c■
c■a
■■u
■ tin
t■t
h■i
Khi
■■i,
qu■
mình
Vi■t
xác
c■
khách
gia
b■n
nh■t,
minh
trong
l■nh
Nam.
t■ng
Chào
online
hàng
uy
tài
v■c:
l■nh
thu
Tác
m■ng
tín
kho■n
tr■
nh■p
khơng
tài
phong
v■c
cao
thành
b■n
chính
email
nh■t.
tài
online
khác
chun
■■n
li■u
thành
tínb■n
Mong
gì
cho
d■ng,
và
v■i
so
nghi■p,
viên
kinh
■ã
t■t
123doc.
123doc.net!
v■i
mu■n
cơng
■■ng
c■a
c■
doanh
b■n
các
hồn
mang
ngh■
123doc
ký
g■c.
online.
thành
v■i
h■o,
Chúng
l■i
thơng
B■n
và
123doc.netLink
cho
viên
Tính
■■
n■p
có
tơi
tin,
c■ng
c■a
cao
th■
■■n
cung
ti■n
ngo■i
tính
website.
phóng
■■ng
th■i
vào
c■p
ng■,...Khách
trách
xác
tài
■i■m
D■ch
xã
to,kho■n
th■c
nhi■m
h■i
thutháng
V■
nh■
m■t
s■
c■a
(nh■
■■i
hàng
■■■c
tùy
ngu■n
5/2014;
123doc,
v■i
■■■c
ý.
cóg■i
t■ng
th■
tài
123doc
v■
mơ
ngun
b■n
d■
ng■■i
■■a
t■
dàng
s■
v■■t
d■■i
tri
dùng.
■■■c
ch■
tra
th■c
m■c
■ây)
email
c■u
M■c
h■■ng
q
100.000
cho
tài
b■n
tiêu
báu,
li■u
b■n,
nh■ng
■ã
hàng
phong
m■t
l■■t
tùy
■■ng
■■u
quy■n
cách
truy
thu■c
phú,
ky,
c■a
c■p
chính
■a
l■i
b■n
vào
123doc.net
m■i
d■ng,
sau
xác,
các
vuingày,
n■p
lịng
“■i■u
nhanh
giàu
ti■n
s■
■■ng
tr■
giá
Kho■n
chóng.
h■u
trên
thành
tr■
nh■p
2.000.000
website
■■ng
Th■a
th■
email
vi■n
th■i
Thu■n
c■a
thành
mong
tài v■
li■u
mình
viên
mu■n
S■
online
và
■■ng
D■ng
click
t■o
l■n
ký,
D■ch
■i■u
vào
nh■t
l■t
link
ki■n
V■”
vào
Vi■t
123doc
top
sau
cho
Nam,
200
■ây
cho
■ã
cung
các
các
(sau
g■iwebsite
c■p
users
■âynh■ng
■■■c
cóph■
thêm
tài
bi■n
g■i
thu
li■u
t■t
nh■t
nh■p.
■■c
T■it■i
khơng
t■ng
Chính
Vi■tth■i
th■
Nam,
vì v■y
■i■m,
tìm
t■123doc.net
th■y
l■chúng
tìm
trên
ki■m
tơi
th■
racóthu■c
■■i
tr■■ng
th■nh■m
c■p
top
ngo■i
3nh■t
■áp
Google.
tr■
■KTTSDDV
■ng
123doc.net.
Nh■n
nhu c■u
■■■c
theo
chiaquy■t
danh
s■ tài
hi■u
...li■udo
ch■t
c■ng
l■■ng
■■ng
vàbình
ki■mch■n
ti■n là
online.
website ki■m ti■n online hi■u qu■ và uy tín nh■t.
Lnh■n
123doc
Th■a
Xu■t
Sau
khi
h■■ng
phát
thu■n
cam
nh■n
m■t
t■k■t
s■
t■i
ýxác
n■m
t■■ng
d■ng
là
s■
nh■n
website
ra
mang
■■i,
1.
t■o
t■l■i
c■ng
■■ng
d■n
123doc
CH■P
nh■ng
■■u
■■ng
h■
NH■N
■ã
quy■n
th■ng
chia
t■ng
ki■m
CÁC
s■s■
l■i
b■■c
ti■n
vàchuy■n
■I■U
t■t
mua
online
kh■ng
nh■t
bán
KHO■N
sang
b■ng
cho
tài
■■nh
ng■■i
li■u
ph■n
tài
TH■A
v■
li■u
hàng
thơng
dùng.
tríTHU■N
hi■u
c■a
■■u
tin
Khi
qu■
mình
Vi■t
xác
khách
nh■t,
minh
trong
Nam.
Chào
hàng
uy
tài
l■nh
Tác
m■ng
tín
kho■n
tr■
phong
v■c
cao
thành
b■n
email
nh■t.
tàichun
■■n
li■u
thành
b■n
Mong
và
v■i
nghi■p,
viên
kinh
■ã
123doc.
123doc.net!
mu■n
■■ng
c■a
doanh
hồn
mang
123doc
kýonline.
v■i
h■o,
Chúng
l■ivà
123doc.netLink
cho
Tính
■■
n■p
tơi
c■ng
cao
■■n
cung
ti■n
tính
■■ng
th■i
vào
c■p
trách
xác
tài
■i■m
D■ch
xãkho■n
th■c
nhi■m
h■itháng
V■
m■t
s■
c■a
(nh■
■■i
■■■c
ngu■n
5/2014;
123doc,
v■i
■■■c
g■i
t■ng
tài
123doc
v■
mơ
ngun
b■n
ng■■i
■■a
t■s■
v■■t
d■■i
tri
dùng.
■■■c
ch■
th■c
m■c
■ây)
email
M■c
h■■ng
q
100.000
cho
b■n
tiêu
báu,
b■n,
nh■ng
■ã
hàng
phong
l■■t
tùy
■■ng
■■u
quy■n
truy
thu■c
phú,
ky,
c■a
c■p
■a
l■i
b■n
vào
123doc.net
m■i
d■ng,
sau
các
vuingày,
n■p
lịng
“■i■u
giàu
ti■n
s■
■■ng
tr■
giá
Kho■n
h■u
trên
thành
tr■
nh■p
2.000.000
website
■■ng
Th■a
th■
email
vi■n
th■i
Thu■n
c■a
thành
mong
tài v■
li■u
mình
viên
mu■n
S■
online
và
■■ng
D■ng
click
t■o
l■n
ký,
D■ch
■i■u
vào
nh■t
l■t
link
ki■n
V■”
vào
Vi■t
123doc
top
sau
cho
Nam,
200
■ây
cho
■ã
cung
các
các
(sau
g■iwebsite
c■p
users
■âynh■ng
■■■c
cóph■
thêm
tài
bi■n
g■i
thu
li■u
t■t
nh■t
nh■p.
■■c
T■it■i
khơng
t■ng
Chính
Vi■tth■i
th■
Nam,
vì v■y
■i■m,
tìm
t■123doc.net
th■y
l■chúng
tìm
trên
ki■m
tơi
th■
racóthu■c
■■i
tr■■ng
th■nh■m
c■p
top
ngo■i
3nh■t
■áp
Google.
tr■
■KTTSDDV
■ng
123doc.net.
Nh■n
nhu c■u
■■■c
theo
chiaquy■t
danh
s■ tài
hi■u
...li■udo
ch■t
c■ng
l■■ng
■■ng
vàbình
ki■mch■n
ti■n là
online.
website ki■m ti■n online hi■u qu■ và uy tín nh■t.
Lnh■n
Th■a
Xu■t
Sau
Nhi■u
123doc
Mang
khi
h■■ng
phát
thu■n
l■i
event
cam
s■
nh■n
m■t
tr■
t■
h■u
k■t
s■
thú
nghi■m
t■i
ýxác
n■m
t■■ng
m■t
d■ng
v■,
là
s■
nh■n
website
ra
mang
event
kho
m■i
■■i,
1.
t■o
t■
th■
m■
l■i
c■ng
ki■m
■■ng
d■n
123doc
CH■P
vi■n
nh■ng
cho
■■u
■■ng
ti■n
h■
kh■ng
ng■■i
NH■N
■ã
quy■n
th■ng
thi■t
chia
t■ng
ki■m
dùng,
l■
CÁC
s■
th■c.
s■
l■i
b■■c
v■i
ti■n
vàchuy■n
■I■U
t■t
cơng
h■n
mua
123doc
online
kh■ng
nh■t
2.000.000
ngh■
bán
KHO■N
sang
b■ng
ln
cho
tài
■■nh
hi■n
ng■■i
li■u
ph■n
ln
tài
TH■A
tài
v■
th■
li■u
hàng
t■o
li■u
thơng
dùng.
tríhi■n
THU■N
hi■u
c■
c■a
■■u
■ tin
t■t
h■i
Khi
■■i,
qu■
mình
Vi■t
xác
c■
khách
gia
b■n
nh■t,
minh
trong
l■nh
Nam.
t■ng
Chào
online
hàng
uy
tài
v■c:
l■nh
thu
Tác
m■ng
tín
kho■n
tr■
nh■p
khơng
tài
phong
v■c
cao
thành
b■n
chính
email
nh■t.
tài
online
khác
chun
■■n
li■u
thành
tínb■n
Mong
gì
cho
d■ng,
và
v■i
so
nghi■p,
viên
kinh
■ã
t■t
123doc.
123doc.net!
v■i
mu■n
cơng
■■ng
c■a
c■
doanh
b■n
các
hồn
mang
ngh■
123doc
ký
g■c.
online.
thành
v■i
h■o,
Chúng
l■i
thơng
B■n
và
123doc.netLink
cho
viên
Tính
■■
n■p
có
tơi
tin,
c■ng
c■a
cao
th■
■■n
cung
ti■n
ngo■i
tính
website.
phóng
■■ng
th■i
vào
c■p
ng■,...Khách
trách
xác
tài
■i■m
D■ch
xã
to,kho■n
th■c
nhi■m
h■i
thutháng
V■
nh■
m■t
s■
c■a
(nh■
■■i
hàng
■■■c
tùy
ngu■n
5/2014;
123doc,
v■i
■■■c
ý.
cóg■i
t■ng
th■
tài
123doc
v■
mơ
ngun
b■n
d■
ng■■i
■■a
t■
dàng
s■
v■■t
d■■i
tri
dùng.
■■■c
ch■
tra
th■c
m■c
■ây)
email
c■u
M■c
h■■ng
q
100.000
cho
tài
b■n
tiêu
báu,
li■u
b■n,
nh■ng
■ã
hàng
phong
m■t
l■■t
tùy
■■ng
■■u
quy■n
cách
truy
thu■c
phú,
ky,
c■a
c■p
chính
■a
l■i
b■n
vào
123doc.net
m■i
d■ng,
sau
xác,
các
vuingày,
n■p
lịng
“■i■u
nhanh
giàu
ti■n
s■
■■ng
tr■
giá
Kho■n
chóng.
h■u
trên
thành
tr■
nh■p
2.000.000
website
■■ng
Th■a
th■
email
vi■n
th■i
Thu■n
c■a
thành
mong
tài v■
li■u
mình
viên
mu■n
S■
online
và
■■ng
D■ng
click
t■o
l■n
ký,
D■ch
■i■u
vào
nh■t
l■t
link
ki■n
V■”
vào
Vi■t
123doc
top
sau
cho
Nam,
200
■ây
cho
■ã
cung
các
các
(sau
g■iwebsite
c■p
users
■âynh■ng
■■■c
cóph■
thêm
tài
bi■n
g■i
thu
li■u
t■t
nh■t
nh■p.
■■c
T■it■i
khơng
t■ng
Chính
Vi■tth■i
th■
Nam,
vì v■y
■i■m,
tìm
t■123doc.net
th■y
l■chúng
tìm
trên
ki■m
tơi
th■
racóthu■c
■■i
tr■■ng
th■nh■m
c■p
top
ngo■i
3nh■t
■áp
Google.
tr■
■KTTSDDV
■ng
123doc.net.
Nh■n
nhu c■u
■■■c
theo
chiaquy■t
danh
s■ tài
hi■u
...li■udo
ch■t
c■ng
l■■ng
■■ng
vàbình
ki■mch■n
ti■n là
online.
website ki■m ti■n online hi■u qu■ và uy tín nh■t.
Vi■c
■■ng
Thành
s■
u■t
Nhi■u
Mang
Ln
123doc
Th■a
Xu■t
Sau
h■u
phát
khi
h■n
b■n
h■■ng
phát
thu■n
l■i
ýevent
viên
s■
cam
nh■n
r■ng
m■t
t■
m■t
tr■
s■
t■
h■u
s■
ýk■t
s■
thú
kho
nghi■m
t■i
ýd■ng
n■u
t■■ng
xác
n■m
ph■i
t■■ng
m■t
d■ng
v■,
là
s■
th■
nh■n
Thành
website
ra
ho■c
mang
th■c
event
t■o
kho
vi■n
m■i
■■i,
1.
t■o
t■
c■ng
th■
viên
■■ng
hi■n
m■
l■i
kh■ng
c■ng
ki■m
■■ng
d■n
123doc
CH■P
vi■n
nh■ng
ti■p
cho
theo
■■ng
■■u
ký
■■ng
ti■n
h■
l■
kh■ng
ng■■i
t■c
NH■N
s■
■ã
■úng
v■i
quy■n
th■ng
thi■t
chia
ki■m
d■ng
t■ng
s■
ki■m
h■n
dùng,
l■
các
CÁC
s■
d■ng
th■c.
ti■n
s■
l■i
b■■c
các
v■i
ti■n
2.000.000
và
ch■
chuy■n
■I■U
t■t
cơng
online
h■n
D■ch
mua
123doc
d■ch
online
kh■ng
d■n
nh■t
2.000.000
ngh■
bán
KHO■N
v■
b■ng
V■
■■■c
sang
tài
b■ng
ln
cho
tài
■■nh
c■a123doc.net
sau
li■u
hi■n
tài
ng■■i
li■u
ph■n
ln
tài
niêm
TH■A
khi
■
li■u
tài
v■
th■
li■u
hàng
t■t
t■o
■KTTSDDV
li■u
thơng
dùng.
trí
y■t
hi■u
hi■n
THU■N
c■
hi■u
c■
c■a
■■u
■
ho■c
l■nh
tin
qu■
■■ng
t■t
h■i
Khi
■■i,
qu■
mình
Vi■t
xác
c■
khách
gia
các
v■c:
nh■t,
■■■c
b■n
nh■t,
ngh■a
minh
trong
l■nh
Nam.
t■ng
Chào
quy
tài
online
uy
hàng
uy
c■p
tài
v■c:
■■nh
chính
l■nh
thu
Tác
tín
v■i
m■ng
tín
kho■n
tr■
cao
nh■t,
nh■p
khơng
tài
vi■c
phong
v■c
cao
tín
áp
thành
b■n
chính
nh■t.
d■ng,
d■ng
email
nh■t.
tài
b■n
vi■c
online
khác
chun
■■n
li■u
thành
tín
Mong
■ã
■ó
cho
b■n
cơng
Mong
gì
cho
d■ng,
và
v■i
■■ng
có
so
các
nghi■p,
viên
ki
kinh
■ã
mu■n
t■t
ngh■
123doc.
123doc.net!
ngh■a
v■i
mu■n
123doc
cơng
d■ch
■■n■
■■ng
c■a
c■
cwebsite.
ýdoanh
b■n
v■i
thơng
mang
các
hồn
mang
là
ngh■
123doc
v■
ký
v■■t
g■c.
các
■■a
Thàn
online.
thành
■ó
v■i■ng
v■i
l■i
tin,
h■o,
Chúng
Chún
■i■u
l■i
thơng
B■n
ch■
m■c
có
cho
ngo■i
và
là
123doc.netLink
chogun
cho
viên
Tính
■■
website
th■
mơ
n■p
kho■n
email
có
c■ng
tơi
tin,
ky,
100.000
c■ng
c■a
cao
ng■,...Khách
t■
■■■c
th■
■■n
cung
ti■n
b■n
ngo■i
d■■i
b■n
■■ng
tính
c■a
ki■m
website.
phóng
■■ng
trith■i
vào
c■p
vui
l■■t
niêm
th■c
ng■,...Khách
■ã
trách
n■ây)
xác
lịng
xã
ti■n
tài
■i■m
khơng
D■ch
xã
to,
■■ng
truy
y■t
q
h■i
kho■n
th■c
hànnh
nhi■m
h■i
cho
thu
■■ng
online
c■p
theo
m■t
báu,
tháng
V■
■■ng
ky,
nh■
m■t
b■n,
s■
c■a
xác,
m■i
(nh■
■■i
nh■p
hi■u
hàng
t■ng
ngu■n
b■n
phong
■■■c
tùy
ngu■n
5/2014;
ýtùy
123doc,
nhanh
v■i
Mong
ngày,
vui
■■■c
qu■
ý.
email
th■i
có
thu■c
phú,
tài
g■i
t■ng
lịng
th■
tài
123doc
và
s■
■i■m.
mu■n
ngun
chóng.
c■a
v■
mơ
ngun
b■n
■a
vào
uy
d■
■■ng
ng■■i
h■u
■■a
t■
tín
d■ng,
mình
dàng
các
s■
man
T■t
v■■t
tri
2.000.000
d■■i
nh■t.
nh■p
tri
dùng.
■■■c
ch■
th■c
“■i■u
c■
và
ngun
tra
th■c
giàu
m■c
■ây)
click
các
email
c■u
email
q
M■c
h■■ng
giá
Kho■n
q
100.000
thành
ocho
vào
tri
tài
báu,
tr■
b■nn
b■n
c■a
tiêu
báu,
th■c
li■u
b■n,
link
■■ng
nh■ng
Th■a
viên
phong
■ã
hàng
mình
phong
viên
m■t
l■■t
q
123doc
tùy
■■ng
■■ng
th■i
Thu■n
■■u
c■a
báo
và
phú,
quy■n
cách
truy
thu■c
phú,
click
mong
■ã
ky,
các
ký,
website.
c■a
c■p
■a
chính
v■
■a
l■i
b■n
g■i
vào
l■t
vào
users
d■ng,
123doc.net
m■i
S■
mu■n
d■ng,
sau
vào
xác,
các
link
vui
D■ng
ngày,
có
n■p
giàu
top
lịng
“■i■u
123doc
nhanh
t■o
giàu
thêm
200
ti■n
D■ch
giá
s■
■■ng
■i■u
tr■
giá
Kho■n
thu
chóng.
các
h■u
tr■
■ã
trên
thành
tr■
V■”
ki■n
nh■p.
nh■p
■■ng
g■i
website
2.000.000
website
■■ng
Th■a
sau
th■
cho
email
Chính
th■i
■ây
vi■n
th■i
ph■
Thu■n
chomong
c■a
thành
vì
(sau
mong
các
tài
bi■n
v■y
v■
li■u
mình
users
mu■n
■ây
viên
nh■t
mu■n
S■
123doc.net
online
và
■■■c
■■ng
có
D■ng
t■i
t■o
click
t■o
thêm
l■n
Vi■t
■i■u
g■i
ký,
D■ch
■i■u
vào
ra
nh■t
thu
Nam,
l■t
t■t
■■i
link
ki■n
nh■p.
ki■n
V■”
vào
T■i
Vi■t
123doc
nh■m
t■
cho
top
sau
cho
t■ng
l■
Nam,
Chính
cho
200
tìm
■ây
■áp
cho
■ã
th■i
cung
các
ki■m
các
vìcác
(sau
g■i
■ng
v■y
■i■m,
users
website
c■p
users
thu■c
■ây
nhu
123doc.net
nh■ng
có
chúng
c■u
■■■c
có
top
ph■
thêm
thêm
chia
3tơi
tài
bi■n
Google.
g■i
thu
ra
có
thu
li■u
s■
■■i
t■t
nh■p.
th■
nh■t
nh■p.
tài
■■c
T■i
Nh■n
nh■m
li■u
c■p
t■i
Chính
khơng
t■ng
Chính
ch■t
nh■t
Vi■t
■■■c
■áp
th■i
vìth■
l■■ng
Nam,
■KTTSDDV
vì■ng
v■y
v■y
danh
■i■m,
tìm
123doc.net
nhu
t■
và
123doc.net
th■y
hi■u
l■
ki■m
chúng
c■u
tìm
trên
theo
do
chia
ki■m
ti■n
c■ng
tơi
ra
th■
quy■t
ra
s■
có
■■i
online.
thu■c
■■i
tr■■ng
■■ng
th■
tài...
nh■m
nh■m
li■u
c■p
top
bình
ngo■i
ch■t
■áp
3nh■t
■áp
Google.
ch■n
l■■ng
■ng
tr■
■KTTSDDV
■ng
123doc.net.
lànhu
Nh■n
nhu
website
vàc■u
ki■m
c■u
■■■c
chia
theo
ki■m
chia
ti■n
s■
quy■t
danh
s■
online.
ti■n
tàitài
hi■u
li■u
online
...li■uch■t
do
ch■t
hi■u
c■ng
l■■ng
l■■ng
qu■
■■ng
vàvàki■m
uy
bình
ki■m
tín ch■n
ti■n
nh■t.
ti■nonline.
là
online.
website ki■m ti■n online hi■u qu■ và uy tín nh■t.
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn : Trịnh Tiến Đạt
Đề tài luận văn: Kết hợp giữa mô hình chủ đề và mơ hình được huấn luyện
trước cho bài tốn tóm tắt văn bản.
Chun ngành: Khoa học máy tính
Mã số SV: 20202653M
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác
nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày
29/10/2022 với các nội dung sau:
1. Cấu trúc lại các mục của luận văn: bỏ tên chương tại phần GIỚI THIỆU và
KẾT LUẬN; chỉnh sửa cách đánh chỉ mục tại phần 3.3
2. Bổ sung và chỉnh sửa nội dung CHƯƠNG 1. GIỚI THIỆU:
- Thêm các trích dẫn cần thiết trong phần này.
3. Bổ sung và chỉnh sửa nội dung trong CHƯƠNG 2. CƠ SỞ LÝ THUYẾT:
- Cấu trúc lại các hướng tiếp cận.
- Giải thích chi tiết vai trị của TF-IDF trong tóm tắt văn bản.
- Bổ sung lý thuyết Cơ chế Tập trung và Cơ chế Tự Tập trung (Self
Attention).
- Bổ sung lý thuyết về Transformer.
4. Bổ sung và chỉnh sửa nội dung trong CHƯƠNG 3. MÔ HÌNH ĐỀ XUẤT:
- Bổ sung lý thuyết và minh họa về PEGASUS.
- Bổ sung lý thuyết và mô tả chi tiết hình minh họa về CombinedTM.
- Mơ tả chi tiết cách kết hợp và tinh chỉnh PEGASUS.
- Vẽ lại kiến trúc mơ hình đề xuất, bổ sung các thành phần kết hợp trước
khi sinh ra bản tóm tắt.
- Cấu trúc lại phần 3.3.3 Mơ hình chủ đề và hàm mất mát của mơ hình
chủ đề.
- Bổ sung giải thích về các phép biến đổi tuyến tính.
- Bổ sung thơng tin về hàm mất mát tổng thể của mơ hình đề xuất.
5. Bổ sung và chỉnh sửa nội dung trong CHƯƠNG 4. THỰC NGHIỆM VÀ
ĐÁNH GIÁ:
- Bổ sung mô tả về tập dữ liệu trong 4.1.
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
-
Bổ sung thêm các tham số quan trọng trong 4.2.
Giải thích tường minh phần 4.3.4.
Bổ sung thêm lý do chỉ tinh chỉnh 2 siêu tham số 𝐾 và 𝛼.
Ngày 16 tháng 11 năm 2022
Giáo viên hướng dẫn
Tác giả luận văn
CHỦ TỊCH HỘI ĐỒNG
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
ĐỀ TÀI LUẬN VĂN
Biểu mẫu của Đề tài/Luận văn tốt nghiệp theo qui định của Viện, tuy nhiên cần
đảm bảo giáo viên giao đề tài ký và ghi rõ họ và tên.
Trường hợp có 2 giáo viên hướng dẫn thì sẽ cùng ký tên.
Giáo viên hướng dẫn
Ký và ghi rõ họ tên
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
LỜI CAM ĐOAN
Tôi – Trịnh Tiến Đạt - cam kết luận văn này là cơng trình nghiên cứu của bản thân
tôi, dưới sự hướng dẫn của PGS.TS. Phạm Văn Hải. Các kết quả công bố trong
báo cáo này là trung thực, không phải là sao chép của bất kỳ một cá nhân, hoặc tổ
chức đã được công bố nào khác. Tất cả các trích dẫn được tham chiếu rõ ràng.
Ngày 12 tháng 10 năm 2022
Tác giả luận văn
Trịnh Tiến Đạt
Xác nhận của người hướng dẫn
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
LỜI CẢM ƠN
Lời đầu tiên, em xin được gửi lời cảm ơn chân thành đến các thầy giáo, cô giáo
thuộc Trường Cơng nghệ Thơng tin và Truyền thơng nói riêng và thầy giáo, cô
giáo thuộc trường Đại học Bách khoa Hà Nội nói chung đã dạy dỗ, truyền đạt kiến
thức và tạo điều kiện cho em trong suốt quá trình học tập tại trường.
Đặc biệt, em xin gửi lời cảm ơn sâu sắc nhất đến thầy hướng dẫn PGS. TS. Phạm
Văn Hải, giảng viên bộ môn Hệ thống Thông Tin, dưới sự quan tâm, giúp đỡ,
hướng dẫn tận tình của thầy em đã tích lũy được nhiều kiến thức về chuyên môn,
đồng thời thầy luôn tạo điều kiện cho em trong suốt q trình làm luận văn. Những
thời điểm khó khăn nhất, thầy luôn giúp đỡ và động viên để em hoàn thiện những
nghiên cứu của luận văn.
Em cũng xin được gửi lời cảm ơn đến gia đình, người thân, bạn bè và đồng nghiệp
đã luôn động viên tinh thần, chia sẻ và giúp đỡ em rất nhiều trong học tập và trong
cuộc sống.
Do vốn kiến thức còn hạn chế, luận văn khơng thể tránh khỏi những thiếu sót,
khiếm khuyết, kính mong q thầy cơ xem xét và góp ý để luận văn của em được
hoàn thiện hơn.
Em xin chân thành cảm ơn!
Học viên: Trịnh Tiến Đạt, 20202653M, khoá 2020B, lớp 20BKHMT
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
TÓM TẮT NỘI DUNG LUẬN VĂN
Ngày nay, cùng với sự phát triển mạnh mẽ của công nghệ thông tin và mạng
internet, chúng ta phải đối mặt với sự bùng nổ dữ liệu, trong đó một phần khơng
hề nhỏ là dữ liệu dưới dạng văn bản được tạo ra với những mục đích khác nhau.
Dữ liệu văn bản thì ngày càng lớn và cập nhật liên tục, tuy nhiên khả năng tiếp thu
của con người lại có hạn. Do đó, nhu cầu về việc tổng hợp, rút gọn thông tin cốt
lõi với mỗi văn bản là vô cùng cấp thiết. Bài tốn Tóm tắt văn bản được nghiên
cứu để giải quyết vấn đề này, nó là q trình tóm lược thơng tin quan trọng nhất
rồi sau đó tạo ra một bản tóm tắt ngắn gọn cho một hoặc một tập văn bản. Trong
Tóm tắt văn bản, tóm tắt hướng tóm lược được cho là kỹ thuật khó nhất vì nó
khơng những địi hỏi phải hiểu về ngơn ngữ nói chung mà còn phải hiểu ngữ nghĩa
bên trong văn bản rồi sau đó sinh ra bản tóm tắt gần gũi nhất với văn bản mà con
người tạo ra, trong bản tóm tắt này có thể chứa những từ khơng xuất hiện trong
văn bản gốc. Việc kết hợp các kỹ thuật xử lý ngơn ngữ tự nhiên khác nhau cho bài
tốn tóm tắt hướng tóm lược giúp cho mơ hình có thể hiểu văn bản ở nhiều khía
cạnh khác nhau, từ đó đưa ra bản tóm tắt vừa phù hợp với ngữ pháp vừa phù hợp
với ngữ cảnh trong văn bản. Từ ý tưởng trên, luận văn đề xuất một phương pháp
kết hợp giữa mơ hình chủ đề và mơ hình được đào tạo trước cho bài tốn Tóm tắt
văn bản. Để kiểm chứng hiệu quả của phương pháp này, luận văn đã thực hiện một
số các thực nghiệm và sử dụng độ đo ROUGE để đánh giá. Trong các thực nghiệm
đó, phương pháp kết hợp có điểm ROUGE vượt trội hơn các mơ hình được đào
tạo trước và mơ hình theo hướng kết hợp mơ hình chủ đề và mơ hình được đào tạo
trước khác. Điều này cho thấy cách kết hợp được đề xuất trong luận văn đã hoạt
động hiệu quả và bổ sung ngữ nghĩa cho mơ hình được đào tạo trước một cách đầy
đủ hơn so với các phương pháp kết hợp trước đây.
HỌC VIÊN
Ký và ghi rõ họ tên
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
MỤC LỤC
GIỚI THIỆU ........................................................................................................ 1
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT ................................................................... 5
1.1
Bài tốn tóm tắt văn bản ............................................................................ 5
Tổng quan về bài tốn tóm tắt văn bản ...................................... 5
Phân loại bài tốn tóm tắt văn bản ............................................. 7
Các hướng tiếp cận bài tốn tóm tắt văn bản ........................... 11
1.2
Phương pháp tóm tắt văn bản hướng tóm lược ........................................ 24
1.3
Mơ hình chủ đề trong tóm tắt văn bản hướng tóm lược .......................... 25
1.4
Phương pháp đánh giá mơ hình ............................................................... 27
Phương pháp đánh giá bên trong ............................................. 27
Phương pháp đánh giá bên ngồi ............................................. 30
CHƯƠNG 2. MƠ HÌNH ĐỀ XUẤT ................................................................. 32
2.1
Phát biểu bài toán ..................................................................................... 32
2.2
Hướng tiếp cận bài toán ........................................................................... 32
Mơ hình được đào tạo trước PEGASUS .................................. 32
Mơ hình chủ đề CombinedTM................................................. 33
Phương pháp kết hợp ............................................................... 35
2.3
Mơ hình đề xuất ....................................................................................... 35
Biểu diễn dữ liệu đầu vào ........................................................ 36
Phần mã hóa ............................................................................. 36
Mơ hình chủ đề ........................................................................ 36
Phần giải mã (Decoder) ........................................................... 36
Các biến đổi tuyến tính ............................................................ 37
Quá trình huấn luyện và suy diễn ............................................ 37
CHƯƠNG 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................................ 38
3.1
Bộ dữ liệu thực nghiệm............................................................................ 38
Bộ dữ liệu CNN/DM ................................................................ 38
Bộ dữ liệu XSum ..................................................................... 39
3.2
Mơi trường và tham số cài đặt mơ hình ................................................... 39
3.3
Q trình thực nghiệm ............................................................................. 40
Thực nghiệm mơ hình .............................................................. 40
Thực nghiệm đánh giá siêu tham số ........................................ 41
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
Thực nghiệm với lượng dữ liệu hạn chế .................................. 42
Thực nghiệm đánh giá cấu trúc đầu vào TM ........................... 42
Đánh giá ảnh hưởng của mơ hình được huấn luyện trước ....... 42
Thực nghiệm mơ phỏng kết quả tóm tắt .................................. 43
3.4
Đánh giá kết quả thực nghiệm ................................................................. 44
KẾT LUẬN ......................................................................................................... 45
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
DANH MỤC HÌNH VẼ
Hình 1.1 Tổng quan các cách phân loại bài tốn tóm tắt văn bản ......................... 7
Hình 1.2 Kiến trúc của hệ thống tóm tắt hướng trích chọn ................................... 8
Hình 1.3 Kiến trúc của hệ thống tóm tắt hướng tóm lược ..................................... 9
Hình 1.4 Kiến trúc của hệ thống tóm tắt hướng kết hợp...................................... 10
Hình 1.5 Đường phân tách tuyến tính sử dụng Máy vectơ hỗ trợ ....................... 15
Hình 1.6 Minh họa mơ hình chuỗi sang chuỗi ..................................................... 16
Hình 1.7 Kiến trúc của RNN ............................................................................... 17
Hình 1.8 Kiến trúc ơ nhớ của LSTM ................................................................... 18
Hình 1.9 Cơ chế Tập trung được giới thiệu trong [34] ........................................ 20
Hình 1.10 Kiến trúc tổng quan của mơ hình Transformer ................................... 21
Hình 1.11 Tầng Tập trung đa đầu trong Transformer.......................................... 22
Hình 1.12 Tổng quan phân loại đánh giá mơ hình............................................... 27
Hình 2.1 Kiến trúc cơ bản của mơ hình PEGASUS ............................................ 33
Hình 2.2 Cấu trúc của mơ hình chủ đề CombinedTM ......................................... 34
Hình 2.3 Kiến trúc tổng thể của mơ hình đề xuất ................................................ 35
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
DANH MỤC BẢNG
Bảng 3.1 Thống kê chi tiết lượng dữ liệu các bộ dữ liệu ..................................... 38
Bảng 3.2 Một số tham số quan trọng của mơ hình được huấn luyện trước ......... 40
Bảng 3.3 Kết quả thực nghiệm trên bộ dữ liệu CNN/DM ................................... 40
Bảng 3.4 Kết quả thực nghiệm trên bộ dữ liệu XSum ......................................... 41
Bảng 3.5 Kết quả thực nghiệm đánh giá hệ số 𝛼 ................................................. 41
Bảng 3.6 Thực nghiệm đánh giá hệ số K ............................................................. 41
Bảng 3.7 Kết quả thực nghiệm 4 kích thước tập huấn luyện trên CNN/DM....... 42
Bảng 3.8 Kết quả thực nghiệm cắt bỏ đầu vào TM ............................................. 42
Bảng 3.9 Thực nghiệm đánh giá ảnh hưởng của mơ hình được đào tạo trước .... 43
Bảng 3.10 Kết quả thực nghiệm tóm tắt thực tế .................................................. 43
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
DANH MỤC TỪ VIẾT TẮT
ATS
Automatic Text Summarization: Tóm tắt văn bản tự động
NLP
Natural Language Processing – Xử lý ngôn ngữ tự nhiên
TF-IDF
Term Frequency – Inverse Document Frequency: tần suất
thuật ngữ - nghịch đảo tần suất văn bản
NB
Naïve Bayes: một thuật toán Học máy
ROUGE
Recall-Oriented Understudy for Gisting Evaluation: độ đo
đánh giá mơ hình tóm tắt văn bản
CNN/DM
CNN/Daily Mail: tên bộ dữ liệu về báo chí trên hai trang
web CNN và Daily Mail
XSum
Extreme Summarization: tên bộ dữ liệu về tóm tắt văn bản
BOW
Bag-of-Word: túi từ
DL
Deep Learning: Học sâu
GNN
Graph Neural Network: mạng nơ-ron đồ thị
SVM
Support Vector Machine: máy vector hỗ trợ
seq2seq
Sequence to Sequence: mơ hình chuỗi sang chuỗi
RNN
Recurrent Neural Networks: mạng nơ-ron hồi tiếp
LSTM
Long Short-term Memory: mạng bộ nhớ dài-ngắn
CNN
Convolutional Neural Network: mạng nơ-ron tích chập
TA
Topic Assistant
VAE
Bộ mã hóa tự động biến đổi (Variational AutoEncoder)
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
GIỚI THIỆU
Đặt vấn đề
Ngày nay, cùng với sự phát triển mạnh mẽ của công nghệ thông tin, khả năng lưu
trữ và mạng internet, con người đang phải đối mặt với sự bùng nổ thông tin và dữ
liệu. Việc sở hữu một lượng lớn dữ liệu trong tay là lợi thế nhưng cũng là thử thách
của con người. Dữ liệu ngày nay được coi là ‘dầu mỏ’ của nền kinh tế số. Sở hữu
và biết cách khai thác dữ liệu mang đến những lợi ích to lớn cho doanh nghiệp
hoặc các tổ chức. Ngược lại, khai thác không đúng cách sẽ gây lãng phí tài nguyên
và nhân lực. Theo International Data Corporation (IDC)1 dự đoán, tổng lượng dữ
liệu kỹ thuật số lưu hành hàng năm trên khắp thế giới sẽ tăng từ 4,4 Zettabytes vào
năm 2013 và lên đến 180 Zettabytes vào năm 2025. Đây là lượng dữ liệu khổng
lồ, ẩn chứa nhiều thơng tin vơ cùng hữu ích mà chúng ta cần tìm hiểu và phân tích.
Để hiểu, phân tích và trích xuất thơng tin ẩn từ các tập dữ liệu lớn như vậy, các
nhà khoa học đã đề xuất kỹ thuật khai phá dữ liệu. Khai phá dữ liệu là một q
trình phân tích dữ liệu theo các mức độ khác nhau, đồng thời phân loại và khám
phá các mơ hình và mối tương quan giữa các dữ liệu. Khai phá dữ liệu tập trung
vào dữ liệu có cấu trúc như: dữ liệu quan hệ, giao dịch và kho dữ liệu. Tuy nhiên,
phần lớn dữ liệu có sẵn hiện nay nằm trong cơ sở dữ liệu khơng có cấu trúc: dữ
liệu văn bản, tài liệu từ nhiều nguồn khác nhau như: sách, trang web, thư viện kỹ
thuật số, phương tiện truyền thông xã hội, v.v. Hầu hết các cơ sở dữ liệu văn bản
đều ở định dạng bán cấu trúc. Các kỹ thuật truy xuất thơng tin điển hình khơng đủ
khả năng trích xuất thơng tin mong muốn từ những nguồn tài liệu trên. Để giải
quyết vấn đề này, các phương pháp khai phá dữ liệu áp dụng cho dữ liệu dạng văn
bản cần được tích hợp với các kỹ thuật truy xuất thông tin khác phù hợp với cấu
trúc văn bản. Từ đó lấy ra các thơng tin chính trong tài liệu, sau đó đánh giá và
diễn giải đầu ra. Kỹ thuật này có tên gọi là Khai phá văn bản.
Theo Wikipedia2, Khai phá văn bản là một q trình xử lý và trích xuất thơng tin
nằm trong văn bản, quá trình này là một phần của việc phân tích văn bản trong
khai phá dữ liệu. Mục tiêu chính của các cơng cụ và kỹ thuật khai phá văn bản là
nắm bắt mối quan hệ giữa các dữ liệu. Khai phá văn bản đặc biệt hữu ích khi người
dùng cần tìm thơng tin mới. Khai phá văn bản có hai giai đoạn hoạt động: tinh
chỉnh nội dung và chắt lọc kiến thức. Trong quá trình tinh chỉnh nội dung, tài liệu
được chuyển thành dạng trung gian được xác định trước và giai đoạn chắt lọc kiến
thức sẽ tổng hợp thơng tin từ dạng trung gian đó. Khai phá văn bản được chia thành
các bài toán nhỏ hơn bao gồm: phân loại, phân cụm, trích xuất thực thể, truy xuất
thơng tin, tóm tắt văn bản, trích xuất chủ đề, v.v.
Luận văn này tập trung vào bài tốn tóm tắt văn bản, đây là một trong những kỹ
thuật quan trọng của khai phá văn bản. Tóm tắt văn bản là q trình trích xuất
thơng tin quan trọng nhất, sau đó tạo ra bản tóm tắt cho một hoặc một tập văn bản
tương ứng. Một bản tóm tắt tốt có thể giúp người dùng tiếp nhận thông tin một
1
2
/> />
1
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
cách dễ dàng, nhanh chóng nhưng vẫn đảm bảo đầy đủ thơng tin chính của văn bản
gốc. Trong tóm tắt văn bản, tóm tắt theo hướng tóm lược được cho là kỹ thuật khó
nhất [1]. Mơ hình tóm tắt theo hướng tóm lược khơng những phải hiểu về ngơn
ngữ nói chung mà còn phải hiểu ngữ nghĩa bên trong văn bản cần tóm tắt. Từ đó
sinh ra bản tóm tắt tương đương với bản tóm tắt do con người viết ra. Bản tóm tắt
này có thể chứa những từ khơng xuất hiện trong văn bản gốc. Việc kết hợp các kỹ
thuật Xử lý ngơn ngữ tự nhiên cho bài tốn tóm tắt tóm lược giúp mơ hình có thể
hiểu văn bản ở nhiều khía cạnh khác nhau, từ đó đưa ra bản tóm tắt vừa phù hợp
với ngữ pháp vừa phù hợp với ngữ cảnh trong văn bản.
Thời gian gần đây, xuất hiện một hướng nghiên cứu rất được quan tâm trong cộng
đồng Xử lý ngôn ngữ tự nhiên (NLP) tên là Tăng cường tri thức cho vấn đề sinh
văn bản [2]. Nó được tạo ra với mục đích củng cố tri thức cho các mơ hình sinh
văn bản nói chung, từ đó cải thiện hiệu suất của mơ hình tổng thể. Hướng nghiên
cứu này đã tạo ra những đột phá đáng kể trong vấn đề sinh văn bản nói chung và
tóm tắt văn bản nói riêng. Các nghiên cứu đi theo hướng này đã cân nhắc việc kết
hợp (i) tri thức nội bộ được nhúng trong văn bản đầu vào và (ii) tri thức bên ngoài
từ các nguồn bên ngoài như cơ sở tri thức và đồ thị tri thức vào hệ thống sinh văn
bản. Thách thức của hướng tiếp cận này là làm sao để thu được những tri thức hữu
ích liên quan đến dữ liệu đầu vào, và làm sao để tận dụng hiệu quả những tri thức
đó. Có rất nhiều phương pháp khám phá tri thức đã được nghiên cứu như: vận dụng
chủ đề, từ khóa, đồ thị tri thức,… Tuy nhiên, phương pháp vận dụng chủ đề trong
việc tăng cường thơng tin ngữ cảnh tồn cục của văn bản cho hiệu quả rõ rệt trong
cải thiện chất lượng mơ hình cũng như sự đa dạng trong phương pháp thực thi.
Từ những lý do trên, đề tài luận văn được đặt ra với hy vọng cung cấp cái nhìn
tổng quan về hướng nghiên cứu ứng dụng mơ hình chủ đề cho việc cải thiện chất
lượng mơ hình tóm tắt văn bản theo hướng tóm lược, cũng như đề xuất mơ hình
mới kế thừa và cải tiến từ những phương pháp kể trên. Mơ hình đề xuất trong luận
văn là sự kết hợp giữa mơ hình chủ đề và mơ hình được đào tạo trước giải quyết
bài tốn tóm tắt văn bản theo hướng tóm lược. Đầu vào của mơ hình chủ đề là sự
kết hợp giữa dữ liệu gốc và thành phần đầu ra của bộ mã hố trong mơ hình được
huấn luyện trước. Sau đó, kết hợp đầu ra của mơ hình chủ đề với đầu ra của phần
giải mã để tạo ra bản tóm tắt của mơ hình tổng thể.
Mục đích của luận văn
Mục đích chính của luận văn là tìm hiểu, nghiên cứu và đề xuất mơ hình tóm tắt
văn bản theo hướng tóm lược bằng phương pháp kết hợp mơ hình chủ đề và mơ
hình được huấn luyện trước.
Mục đích cụ thể và kết quả luận văn hồn thành như sau:
• Xác định ý nghĩa thực tiễn và ứng dụng của bài tốn tóm tắt văn bản nói
chung cũng như tóm tắt theo hướng tóm lược nói riêng.
• Tìm hiểu, khảo sát các hướng nghiên cứu liên quan đến ứng dụng mô hình
chủ đề cho việc cải tiến mơ hình tóm tắt văn bản theo hướng tóm lược.
2
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
• Đề xuất mơ hình tóm tắt văn bản theo hướng tóm lược dựa trên việc kết hợp
mơ hình chủ đề và mơ hình được huấn luyện trước.
• Thực nghiệm mơ hình trên hai bộ dữ liệu nổi tiếng cho bài tốn tóm tắt văn
bản.
• Đánh giá các kết quả thực nghiệm.
Mơ hình đề xuất trong luận văn được thực nghiệm trên 2 bộ dữ liệu bao gồm bộ
CNN/Daily Mail và XSum – hai bộ dữ liệu rất phổ biến trong các nghiên cứu về
bài tốn tóm tắt văn bản trên thế giới. Luận văn đề xuất hướng tiếp cận kết hợp
sử dụng mơ hình chủ đề để bổ sung thơng tin về ngữ cảnh trong văn bản cho mơ
hình được huấn luyện trước, qua đó cải thiện chất lượng bản tóm tắt đầu ra của
mơ hình. Mơ hình đề xuất được đánh giá thông qua điểm ROUGE – điểm số dựa
trên n-gram để đánh giá sự tương quan giữa bản tóm tắt đầu ra của mơ hình và
tập dữ liệu đánh giá – cho ra các kết quả cải tiến so với các phương pháp nghiên
cứu trước đây.
Đối tượng nghiên cứu
Đối tượng nghiên cứu của luận văn là bài tốn tóm tắt hướng tóm lược và việc áp
dụng mơ hình chủ đề kết hợp với mơ hình được huấn luyện trước cho bài tốn tóm
tắt hướng tóm lược.
Phạm vi nghiên cứu
Trong thực tế, bài tốn tóm tắt văn bản có tính ứng dụng rất cao. Ví dụ như: tóm
tắt tin tức, tóm tắt sách, tóm tắt văn bản pháp luật,… Từ các nhu cầu thực tế của
con người, luận văn sẽ đi tìm hiểu tổng quan về bài tốn tóm tắt văn bản (mục đích,
ý nghĩa, động lực và ứng dụng thực tế của bài tốn tóm tắt văn bản). Sau đó đi sâu
hơn vào nghiên cứu tóm tắt hướng tóm lược và phương pháp ứng dụng mơ hình
chủ đề cho bài tốn tóm tắt hướng tóm lược. Tiếp đến, luận văn đề xuất hướng tiếp
cận mới dựa trên việc kết hợp mơ hình chủ đề và mơ hình được huấn luyện trước
để giải quyết bài tốn tóm tắt hướng tóm lược. Từ đó, tiến hành thực nghiệm đánh
giá mơ hình trên hai bộ dữ liệu là CNN/DM và XSum (chi tiết hai bộ dữ liệu này
sẽ được trình bày ở phần sau của luận văn). Ngoài ra, luận văn tiến hành các thực
nghiệm khác để xác định mức độ ảnh hưởng của mơ hình chủ đề đến mơ hình được
huấn luyện trước trong bài tốn tóm tắt hướng tóm lược.
Nội dung luận văn
Nội dung của luận văn chia làm 5 chương:
Chương 1. Giới thiệu: giới thiệu lý do lựa chọn đề tài, mục đích, đối tượng
và phạm vi nghiên cứu của luận văn.
Chương 2. Cơ sở lý thuyết: giới thiệu tổng quan về bài tốn tóm tắt văn bản,
tiếp cận bài tốn tóm tắt theo hướng tóm lược và kỹ thuật sử dụng mơ hình chủ đề
3
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
trong bài tốn tóm tắt văn bản hướng tóm lược, cuối cùng là các phương pháp đánh
giá mơ hình tóm tắt.
Chương 3. Mơ hình đề xuất: đề xuất mơ hình kết hợp giữa mơ hình chủ đề
và mơ hình được huấn luyện trước để giải quyết bài tốn tóm tắt hướng tóm lược.
Chương 4. Thực nghiệm và đánh giá: trình bày các thực nghiệm mơ hình
đề xuất trên hai bộ dữ liệu CNN/DM và XSum, sau đó rút ra đánh giá về các kết
quả thực nghiệm trên.
Chương 5. Kết luận: đưa ra các kết luận chung về các kết quả đạt được của
luận văn, sau đó đưa ra hướng phát triển trong tương lai của đề tài.
4
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT
1.1 Bài tốn tóm tắt văn bản
Tổng quan về bài tốn tóm tắt văn bản
Tóm tắt văn bản (hay gọi đầy đủ hơn là Tóm tắt văn bản tự động) là tác vụ tự động
sinh ra một bản tóm tắt của một tài liệu văn bản bằng cách trích xuất thơng tin quan
trọng nhất từ tài liệu đó. Trong xã hội ngày nay, chúng ta phải đối mặt với một
lượng lớn dữ liệu hàng ngày, việc tự động truy xuất những phần nổi bật nhất của
văn bản bằng máy tính có thể giúp con người tổng hợp, tiếp nhận thơng tin một
cách nhanh chóng và chính xác nhất. Đối với con người, ta có thể dễ dàng hiểu
được ý nghĩa của một văn bản và lập một bản tóm tắt mạch lạc bằng cách sử dụng
từ ngữ của mình, tuy nhiên tốc độ xử lý của con người so với tốc độ sản sinh dữ
liệu thì kém hơn rất nhiều. Đối với máy móc, nhiệm vụ này trở nên khó khăn, vì
chúng khó có thể hiểu được nội dung của văn bản theo nhiều khía cạnh khác nhau,
tuy nhiên khả năng xử lý của máy móc thì cực kỳ linh hoạt và nhanh chóng. Do
đó, hướng nghiên cứu về bài tốn tóm tắt văn bản tự động được quan tâm chú ý
đến như một lẽ tất yếu để tận dụng hết năng lực tính tốn của máy móc và giúp
con người có thể thu nhận thông tin một cách dễ dàng hơn.
Tuy nhiên, không phải chỉ khi bùng nổ thông tin trong thời kỳ internet phát triển
mạnh mẽ như vài thập kỷ gần đây thì tóm tắt văn bản mới được chú ý đến, bài toán
này đã được quan tâm từ năm 1958 trong một nghiên cứu của Hans Peter Luhn tại
IBM [3], trong đó, tác giả đã trình bày phương pháp tóm tắt cho các bài báo kỹ
thuật thông qua việc sử dụng các phương pháp thống kê tần suất và phân bố của
các từ trong văn bản để đánh trọng số cho các câu trong văn bản, rồi từ đó chọn ra
những câu có trọng số và hợp chúng lại để tạo thành văn bản tóm tắt. Các hướng
tiếp cận của các cơng trình nghiên cứu sơ khai thường dựa trên tần số hoặc dựa
trên các luật. Vào những năm 1990, với sự ra đời của các kỹ thuật Học máy trong
Xử lý ngôn ngữ tự nhiên (NLP), một loạt bài báo đã được đề xuất sử dụng các
phương pháp dựa trên thống kê hoặc đồ thị để tạo ra các bản tóm tắt tài liệu đã thu
hút nhiều sự chú ý như là [4, 5]. Các cơng trình nghiên cứu trong thời điểm này
hầu như tập trung vào việc trích xuất nguyên văn các câu hơn là tạo ra một câu
mới, tuy nhiên có thể điều đó sẽ thay đổi trong tương lai do gần đây đã có nhiều
nghiên cứu bắt đầu chuyển hướng sang việc tạo ra những câu văn mới gần với văn
bản do con người tạo ra.
Gần đây, với sự phát triển mạnh mẽ của các kỹ thuật Học sâu, rất nhiều các cơng
trình nghiên cứu về tóm tắt văn bản đặc biệt là tóm tắt hướng tóm lược đã sử dụng
kỹ thuật này và đạt được kết quả vượt trội so với các kỹ thuật cổ điển. Tuy nhiên,
kỹ thuật này cũng gặp một số vấn đề chung đã được trình bày trong [6] như sau:
• Độ dài chuỗi đầu vào: các phương pháp dựa trên mạng nơ-ron hiện nay
chưa có khả năng đọc hết các văn bản dài do các vấn đề về bùng nổ bộ nhớ.
5
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
• Thông tin dư thừa: Đây là một trong những nhược điểm chính của các
phương pháp tiếp cận tóm tắt hiện có, trong đó bản tóm tắt chứa các từ được
lặp đi lặp lại nhiều lần.
• Lựa chọn bản tóm tắt đầu ra: ở giai đoạn giải mã, mơ hình sinh ra một phân
phối xác suất để dự đoán từ tiếp theo; có nhiều cách để dự đốn từ tiếp theo,
có thể thực hiện tìm kiếm tham lam (greedy search), trong đó mỗi lần từ có
xác suất cao nhất được chọn, hoặc sử dụng các thuật tốn tìm kiếm chùm
(beam search) mà trong đó một cây các kết quả được tạo ra thông qua việc
lựa chọn một dãy các từ có xác suất cao nhất.
• u cầu về khả năng tính tốn: càng ngày các mơ hình Học sâu càng sâu
hơn, nhiều lớp ẩn hơn do đó cũng cần bộ nhớ cũng như tài ngun tính tốn
ngày càng cao hơn.
• Dữ liệu số học: vì kho từ vựng được sử dụng để đào tạo mơ hình tóm tắt bị
hạn chế (chỉ chứa các thuật ngữ phổ biến nhất), đây là một vấn đề rất khó
giải quyết triệt để vì thơng tin được trình bày trong một số văn bản cần phải
có số liệu chính xác ví dụ như văn bản thống kê, văn bản y tế…
• Lựa chọn trình tách token: Vai trị của trình tách token là chuyển đổi một
văn bản thành một danh sách các token (có thể các từ, cụm từ,… tùy thuộc
vào mỗi bài toán). Tùy thuộc vào mỗi trình tách token, chỉ những từ quan
trọng nhất được giữ lại, điều này có thể ảnh hưởng đến chất lượng của các
bản tóm tắt được sinh ra.
Tóm tắt văn bản là một bài tốn khó trong NLP, tuy nhiên nó lại có tính ứng dụng
rất cao trong cuộc sống. Trong [1] đã chỉ ra một số những ứng dụng thực tế của
tóm tắt văn bản:
• Tóm tắt tin tức: Hệ thống Newsblaster [7] được sinh ra với mục đích thu
thập tự động, phân cụm, phân loại và tóm tắt tin tức của một số trang tin
tức, qua đó giúp người đọc dễ dàng tra cứu và tìm kiếm tin tức mà họ mong
muốn.
• Tóm tắt sách: một bản tóm tắt sách có thể giúp người đọc hiểu sơ lược về
nội dung cuốn sách và cân nhắc xem cuốn sách đó có phù hợp với mình hay
khơng, tuy nhiên hầu hết các nghiên cứu tập trung vào tóm tắt tài liệu ngắn.
Trong [8] nhóm tác giả đã giải quyết các vấn đề của việc tóm tắt sách và
giới thiệu một tiêu chuẩn cụ thể cho việc tóm tắt sách.
• Tóm tắt email: email thuộc dạng văn bản theo miền, chúng khơng có cấu
trúc cụ thể và khơng phải lúc nào cũng được hình thành tốt về mặt cú pháp.
Trong [9], nhóm tác giả đã đề xuất một hệ thống tóm tắt văn bản kết hợp
các kỹ thuật ngơn ngữ với các thuật tốn máy học để trích xuất các cụm
danh từ để tạo ra một bản tóm tắt các thơng điệp email.
• Tóm tắt văn bản pháp lý: Trong [10], nhóm tác giả đã đề xuất hệ thống tóm
tắt văn bản và hệ thống tra cứu văn bản quy phạm pháp luật tự động nhằm
tiết kiệm thời gian của các chuyên gia pháp lý. Nhiệm vụ tóm tắt xác định
các vai trị tu từ trình bày các câu của một văn bản án lệ. Nhiệm vụ tìm kiếm
6
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
xác định các trường hợp liên quan trong quá khứ dựa trên truy vấn pháp lý
đã cho. Hệ thống kết hợp sử dụng các kỹ thuật khác nhau như kỹ thuật đối
sánh từ khóa hoặc cụm từ khóa và kỹ thuật dựa trên trường hợp.
• Tóm tắt bài báo khoa học: Bài báo khoa học là tài liệu có cấu trúc tốt có
một số đặc điểm chung như vị trí có thể đốn trước của các mục trong tài
liệu, từ gợi ý và cấu trúc giống như mẫu. Đây là một trong những ứng dụng
phổ biến, được quan tâm nghiên cứu nhiều nhất trong bài tốn tóm tắt văn
bản. Tiêu biểu có thể kể đến như: [11] đề xuất một trình tóm tắt để trích
xuất các vấn đề từ một bài báo nghiên cứu, sau đó sử dụng nó để tìm các
bài báo liên quan.
Phân loại bài tốn tóm tắt văn bản
Hình 1.1 Tổng quan các cách phân loại bài tốn tóm tắt văn bản
Có rất nhiều cách được sử dụng để phân loại bài tốn tóm tắt văn bản, tuy nhiên
tất cả đều chỉ mang tính chất tương đối, phụ thuộc vào nhiều yếu tố khác nhau.
Hình 1.1 mơ tả tổng quan về các cách phân loại bài toán tóm tắt văn bản. Trong
phần này, luận văn sẽ liệt kê những phương pháp phân loại bài toán phổ biến nhất.
1.1.2.1. Dựa trên phương pháp sinh bản tóm tắt
Phân loại dựa trên phương pháp sinh bản tóm tắt của mơ hình là một trong những
cách phân loại phổ biến nhất cho bài tốn tóm tắt văn bản. Trong nghiên cứu [1],
các tác giả đã dựa trên yếu tố này để phân bài tốn thành 3 loại đó là: tóm tắt hướng
trích chọn, tóm tắt hướng tóm lược và tóm tắt hướng kết hợp.
a) Tóm tắt hướng trích chọn
7
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
Phương pháp tóm tắt văn bản hướng trích chọn thực hiện đánh trọng số cho các
thành phần quan trọng trong văn bản gốc (có thể là câu hoặc cụm từ), sau đó chọn
những phần quan trọng nhất để kết hợp lại thành một bản tóm tắt. Đầu ra của mơ
hình là phiên bản được nén và sắp xếp lại của đầu vào, các từ ngữ gốc được giữ
nguyên. Phương pháp này là hướng giải quyết sơ khai nhất và đã xuất hiện từ
những nghiên cứu đầu tiên về tóm tắt văn bản [3]. Hình 1.2 biểu diễn kiến trúc
tổng quan của một hệ thống tóm tắt văn bản hướng trích chọn.
Hình 1.2 Kiến trúc của hệ thống tóm tắt hướng trích chọn
Các bước xử lý như sau:
• Tiền xử lý: loại bỏ từ dừng (stopword), chuẩn hóa văn bản,…
• Xử lý: đầu tiên tạo một biểu diễn văn bản (ví dụ Túi từ - BOW, biểu diễn
đồ thị [12],…); sau đó sử dụng một phương pháp để đánh trọng số cho các
câu trong văn bản; rồi cuối cùng trích chọn các câu có trọng số cao nhất.
• Hậu xử lý: đổi chỗ các câu, thay thế đại từ, thay thế biểu thức thời gian
tương đối bằng ngày tháng thực tế.
Tóm tắt hướng trích chọn nhanh và đơn giản hơn so với các cách cịn lại, ngồi ra
hướng tiếp cận này dẫn đến độ chính xác cao hơn vì trích xuất trực tiếp các câu để
người đọc đọc bản tóm tắt với các thuật ngữ chính xác tồn tại trong văn bản gốc.
Tuy nhiên tóm tắt hướng trích chọn khác rất xa so với văn bản do con người tạo
ra, do đó khó có thể sử dụng trong các ứng dụng thực tế trong cuộc sống.
b) Tóm tắt hướng tóm lược
So với tóm tắt hướng trích chọn, tóm tắt hướng tóm lược gặp nhiều thử thách hơn
vì nó địi hỏi hiểu văn bản đầu vào và sinh ra bản tóm tắt hoàn toàn mới một cách
hợp lý cả về mặt ý nghĩa lẫn ngữ pháp, trong bản tóm tắt này có thể chứa những từ
không xuất hiện trong văn bản gốc. Một bản tóm tắt hướng tóm lược tốt địi hỏi
khả năng biểu diễn thông tin ở dạng mạch lạc, dễ đọc và đúng ngữ pháp, điều đó
đơi khi cũng là thách thức đối với chính con người khi muốn tóm tắt ý chính của
8
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
một văn bản nào đó. Tóm tắt văn bản hướng tóm lược sẽ được tập trung nghiên
cứu trong phạm vi luận văn này. Hình 1.3 biểu diễn kiến trúc tổng quan của một
hệ thống tóm tắt văn bản hướng tóm lược. Nó bao gồm các tác vụ tiền xử lý, hậu
xử lý và các tác vụ xử lý bao gồm:
• Tạo một biểu diễn trung gian cho văn bản: xây dựng biểu diễn ngữ nghĩa
nội bộ cho văn bản
• Sinh văn bản tóm tắt: tạo bản tóm tắt bằng các kỹ thuật NLP
Hình 1.3 Kiến trúc của hệ thống tóm tắt hướng tóm lược
Theo như [1] đã trình bày, ưu điểm của phương pháp này là nó tạo ra các bản tóm
tắt tốt hơn với các từ khác nhau khơng thuộc văn bản gốc bằng cách sử dụng các
từ ngữ linh hoạt hơn dựa trên cách diễn giải, nén hoặc kết hợp; bản tóm tắt được
tạo ra gần với bản tóm tắt thủ cơng do con người tạo ra hơn; các phương pháp
hướng tóm lược có thể rút gọn văn bản và cô đọng thông tin hơn nữa khi so sánh
với các phương pháp khác.
Tuy nhiên, trong thực tế, việc tạo ra một bản tóm tắt hướng tóm lược chất lượng
cao là rất khó. Cách tiếp cận hướng tóm lược cần phải nắm bắt được tồn bộ các
thơng tin có trong văn bản đầu vào để tạo ra các câu mới vừa hợp lý về ngữ pháp,
vừa đúng về ngữ cảnh văn bản. Điểm yếu của hầu hết các trình tóm tắt hướng tóm
lược đó là việc tạo ra các từ lặp đi lặp lại và không thể xử lý các từ ngoài tập từ
vựng một cách hợp lý nhất.
Trong phạm vi nghiên cứu, luận văn sẽ tập trung nghiên cứu và đề xuất phương
pháp giải quyết bài tốn tóm tắt hướng tóm lược này.
c) Tóm tắt hướng kết hợp
Phương pháp tóm tắt hướng kết hợp là phương pháp kết hợp cả hướng tiếp cận
trích chọn và tóm lược. Kiến trúc điển hình của một trình tóm tắt văn bản kết hợp
được thể hiện trong Hình 1.4. Trong [13] đã trình bày phương pháp này gồm các
giai đoạn tiền xử lý, hậu xử lý và các tác vụ xử lý bao gồm:
• Tóm tắt hướng trích chọn: trích xuất các câu quan trọng từ văn bản đầu vào
9
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
• Tóm tắt hướng tóm lược: tạo bản tóm tắt cuối cùng bằng cách áp dụng các
phương pháp và kỹ thuật hướng tóm lược trên các câu được trích xuất từ
giai đoạn đầu.
Ưu điểm của phương pháp này là kết hợp các ưu điểm của cả phương pháp kể trên.
Cả hai các phương pháp tiếp cận bổ sung cho nhau và hiệu suất tổng hợp được cải
thiện đáng kể [14].
Tuy nhiên, nhược điểm của phương pháp này là hệ thống tạo ra bản tóm tắt kém
chất lượng hơn so với cách tiếp cận hướng tóm lược thuần túy vì bản tóm tắt sinh
ra phụ thuộc vào các phần trích chọn thay vì văn bản gốc.
Hình 1.4 Kiến trúc của hệ thống tóm tắt hướng kết hợp
1.1.2.2. Dựa trên kích thước đầu vào
Dựa trên kích thước đầu vào của mơ hình có thể chia bài tốn thành hai loại đó là
tóm tắt đơn văn bản và tóm tắt đa văn bản. Khi mà tóm tắt đơn văn bản chỉ cần xử
lý một văn bản đơn, thì tóm tắt đa văn bản phải tóm gọn ý của nhiều văn bản có
liên quan đến nhau cùng một lúc và tạo ra bản tóm tắt là tổng hợp các thành phần
chính của tất cả các văn bản đó.
Theo [15], bài tốn tóm tắt đa văn bản là một bài tốn khó, có độ phức tạp cao hơn
so với tóm tắt đơn văn bản rất nhiều. Thách thức chủ yếu đến từ việc có thể có sự
nhập nhằng ngữ nghĩa trong nội dung của các văn bản trong cùng tập văn bản hay
trình tự thời gian được trình bày trong mỗi một văn bản là khác nhau, vì vậy để
đưa ra một kết quả tóm tắt tốt sẽ vơ cùng khó khăn.
Bài tốn tóm tắt đa văn bản có rất nhiều ứng dụng thực tế như: tóm tắt các báo cáo
liên quan đến một sự kiện, tóm tắt các cụm dữ liệu được trả về từ quá trình phân
cụm trên máy tìm kiếm,... Hướng nghiên cứu ứng dụng bài tốn tóm tắt đa văn bản
vào việc xây dựng hệ thống hỏi đáp tự động đang là hướng nghiên cứu chính của
cộng đồng nghiên cứu tóm tắt văn bản những năm gần đây. Nhiều nghiên cứu cho
thấy rằng, việc sử dụng phương pháp tóm tắt đa văn bản dựa vào câu truy vấn để
10
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
đưa ra một văn bản tóm tắt theo yêu cầu của người dùng đã đạt được nhiều kết quả
khả quan, nó cũng thể hiện đây là một hướng tiếp cận đúng đắn ứng dụng trong
việc xây dựng các mơ hình hỏi đáp tự động.
1.1.2.3. Dựa trên mục đích tóm tắt
Theo mục đích tóm tắt thì có hai cách để phân loại bài tốn này.
• Nếu dựa vào mục đích của người dùng: có thể chia thành tóm tắt chung và
tóm tắt theo truy vấn. Tóm tắt chung chính là tìm ra đoạn tóm tắt đại diện
cho tồn bộ văn bản, cịn tóm tắt trên cơ sở truy vấn là sinh ra bản tóm tắt
dựa trên những truy vấn được người dùng hoặc hệ thống định sẵn, loại tóm
tắt này thường được sử dụng trong q trình tóm tắt các kết quả trả về từ
máy tìm kiếm.
• Nếu dựa vào mục đích sử dụng bản tóm tắt: có thể chia thành tóm tắt chỉ
định và tóm tắt thơng tin. Tóm tắt chỉ định không chứa nội dung thông tin
mà chỉ chứa mơ tả chung về tài liệu gốc, ví dụ như mục đích, phạm vi và
phương pháp nghiên cứu của tài liệu gốc. Điều này có thể hữu ích để quyết
định xem có nên tham khảo tài liệu gốc hay khơng. Tương tự như tóm tắt
chung ở cách phân loại trên, tóm tắt thơng tin đưa ra bản tóm tắt cho tồn
bộ văn bản đầu vào. Sau khi đọc tóm tắt chỉ định, người ta có thể biết nội
dung của văn bản, trong khi đó khi đọc bản tóm tắt thơng tin, người ta có
thể mơ tả lại nội dung của văn bản đầu vào. Các bản tóm tắt chỉ định được
sử dụng cho các tài liệu ít cấu trúc hơn như thư, báo cáo, v.v. và các bản
tóm tắt thơng tin được sử dụng cho các tài liệu khác.
1.1.2.4. Các cách phân loại khác
Dựa vào một số tiêu chí khác nhau, có thể phân loại bài tốn tóm tắt văn bản theo
các cách khác nhau. Một số cách phân loại sau đây thường ít được sử dụng hơn so
với các cách được trình bày ở phía trên.
• Dựa vào thuật tốn tóm tắt được sử dụng, có thể chia bài tốn thành tóm tắt
có giám sát và tóm tắt khơng giám sát.
• Dựa trên ngơn ngữ đầu vào cũng có thể chia bài tốn thành tóm tắt đơn ngơn
ngữ và tóm tắt đa ngơn ngữ.
• Dựa trên miền dữ liệu đầu vào cũng có thể chia bài tốn thành tóm tắt chung
và tóm tắt theo miền cụ thể (ví dụ như giáo dục, giao thơng,…)
Các hướng tiếp cận bài tốn tóm tắt văn bản
Trong phần này, luận văn sẽ giới thiệu sơ lược các hướng tiếp cận được áp dụng
phổ biến cho bài tốn tóm tắt văn bản nói chung.
1.1.3.1. Hướng tiếp cận dựa vào thống kê
Phương pháp dựa vào thống kê đã được sử dụng trong tóm tắt văn bản từ những
cơng trình nghiên cứu đầu tiên. Mục tiêu chung của hướng tiếp cận này là sử dụng
các phương pháp thống kê để đánh trọng số cho các phần trong văn bản.
a) Phương pháp sử dụng TF
11
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
Những nghiên cứu về tóm tắt văn bản sơ khai ví dụ như [3] đã sử dụng tần suất
thuật ngữ (Term Frequency – TF) để làm căn cứ xác định trọng số cho các từ trong
văn bản, TF được định nghĩa là số lần một thuật ngữ xuất hiện trong một tài liệu
và được tính theo cơng thức sau:
𝑓!,#
𝑇𝐹 (𝑡, 𝑑 ) =
PT 1.1
∑! ! ∈# 𝑓! ! ,#
trong đó, 𝑇𝐹 (𝑡, 𝑑 ) là tần suất thuật ngữ 𝑡 trong văn bản 𝑑, 𝑓!,# là số lần xuất hiện
thuật ngữ𝑡 trong văn bản 𝑑.
Tác giả đã giả thiết rằng những từ quan trọng nhất được lặp lại thường xuyên nhất
trong một văn bản hay nói cách khác là có điểm số TF cao nhất và các câu có chứa
các từ quan trọng là các câu quan trọng và có thể sử dụng để tóm tắt văn bản. Tác
giả đã tạo ra một tập các từ quan trọng và tính điểm mỗi câu là tổng điểm số của
các từ quan trọng có trong câu đó, sau đó các câu có điểm số cao nhất được trích
xuất để tạo ra bản tóm tắt.
Tuy nhiên, phương pháp này gặp một vấn đề đó là có thể có những thuật ngữ xuất
hiện rất nhiều nhưng khơng đại diện cho chủ đề chính của tài liệu. Từ đó, nghiên
cứu [3] cũng đề xuất phương án sử dụng ngưỡng trọng số lớn nhất để đảm bảo
rằng thuật ngữ có trọng số nằm dưới một ngưỡng nhất định, điều đó có nghĩa là
một từ xuất hiện q thường xun sẽ bị loại bỏ khi tính tốn điểm số cho câu.
b) Phương pháp sử dụng TF-IDF
Nghịch đảo tần suất văn bản (Inverse Document Frequency – IDF) được giới thiệu
từ năm 1972 bởi [16]. IDF làm giảm trọng số của các thuật ngữ thường xuyên xuất
hiện trong tập tài liệu và tăng trọng số của các thuật ngữ hiếm khi xuất hiện. Lý do
được đưa ra là những thuật ngữ xuất hiện quá nhiều không mang nhiều đặc trưng
để có thể khai thác và ngược lại, những từ hiếm khi xuất hiện hơn sẽ là đặc trưng
của tài liệu chứa nó. IDF của thuật ngữ 𝑡 trong tập tài liệu 𝐷 được tính theo cơng
thức sau:
|𝐷|
PT 1.2
𝐼𝐷𝐹 (𝑡, 𝐷 ) = 𝑙𝑜𝑔
|{𝑑 ∈ 𝐷: 𝑡 ∈ 𝐷}| + 1
trong đó |𝐷| là tổng số tài liệu trong tập tài liệu 𝐷, |{𝑑 ∈ 𝐷: 𝑡 ∈ 𝐷}|là số tài liệu
trong tập 𝐷 mà có chứa thuật ngữ t.
Nghiên cứu [17] đã đề xuất sử dụng 𝑇𝐹 − 𝐼𝐷𝐹 là tích của hai điểm số trên để làm
căn cứ xác định trọng số cho các thành phần trong văn bản thay thế cho TF, phương
pháp này đã khắc phục được nhược điểm lớn nhất của phương pháp sử dụng TF
như đã trình bày ở trên. 𝑇𝐹 − 𝐼𝐷𝐹 được tính theo PT 1.3.
PT 1.3
𝑇𝐹 − 𝐼𝐷𝐹 (𝑡, 𝑑, 𝐷 ) = 𝑇𝐹 (𝑡, 𝑑 ) ∗ 𝐼𝐷𝐹(𝑡, 𝐷)
Trọng số 𝑇𝐹 − 𝐼𝐷𝐹 của một từ là một chỉ số tương đối tốt để đánh giá mức độ
quan trọng của từ đó trong một tập các tài liệu và nó vẫn cịn được sử dụng cho
các phương pháp có hướng tiếp cận phức tạp hơn sau này, ví dụ như [5, 18].
12
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
1.1.3.2. Hướng tiếp cận dựa vào đồ thị
Hướng tiếp cận dựa trên đồ thị là một phương pháp khá phổ biến trong việc đánh
trọng số và xếp hạng câu cho bài tốn tóm tắt văn bản. Các thuật tốn dựa trên đồ
thị truyền thống coi câu là BOW và chỉ lấy thông tin cú pháp và bỏ qua thông tin
ngữ nghĩa, với ý tưởng cơ bản là câu đó xứng đáng được điểm cao hơn nếu nó
được liên kết với nhiều câu hơn, điểm số tỉ lệ thuận với số câu liên kết với nó.
Phương pháp này thể hiện văn bản như là một đồ thị liên thông, các câu tạo thành
các đỉnh và các cạnh giữa các đỉnh biểu diễn mối quan hệ giữa hai câu. Phương
pháp này có một điểm yếu đó là mức độ quan trọng của các từ trong tài liệu thay
đổi tùy theo ngữ cảnh của chúng nhưng phương pháp dựa trên biểu đồ coi trọng số
của mỗi từ là bằng nhau.
LexRank [5] và TextRank [4] là hai thuật toán phổ biến trong hướng tiếp cận dựa
trên đồ thị. Cả hai thuật toán này đều được tinh chỉnh từ thuật toán PageRank [19]
để phù hợp hơn cho việc đánh trọng số các câu trong văn bản. LexRank [5] sử
dụng độ tương đồng Cosine đề xây dựng đồ thị có trọng số trong đó các nút có
trọng số nhỏ hơn một ngưỡng nhất định sẽ bị loại bỏ. Với TextRank [4], một đồ
thị vô hướng được xây dựng từ văn bản đầu vào, trong đó mỗi câu đại diện cho
một nút và cung giữa hai nút được tính trọng số bởi sự giống nhau của chúng. Để
đánh trọng số cho câu 𝑖 dựa trên các lân cận của nó, phải thực hiện đệ quy theo PT
1.4 cho đến khi hội tụ, trong đó 𝑑 là hệ số tắt dần (thường được chọn là 0.85).
𝑊𝑆(𝑉& ) = (1 − 𝑑) +
PT 1.4
𝑤'&
𝑑 ∗ @
𝑊𝑆(𝑉' )
)$ ∈./()# ) ∑)" ∈*+!()# ) 𝑤'(
Trong đó: 𝐼𝑛(𝑉& ) và 𝑂𝑢𝑡(𝑉& ) là tập những cạnh đi đến và đi ra khỏi 𝑉& và
𝑤&' =
EF𝑤( /𝑤( ∈ 𝑆& , 𝑤( ∈ 𝑆' HE
log(|𝑆& |) + 𝑙𝑜𝑔LE𝑆' EM
PT 1.5
TextRank [4] và LexRank [5] khai thác các mối quan hệ giữa các câu để đánh trọng
số cho chúng, với giả định rằng chúng có mức ảnh hưởng trên toàn văn bản là như
nhau. Điều này có thể chấp nhận được trong tóm tắt đơn văn bản, nhưng trong tóm
tắt đa văn bản, một văn bản có thể quan trọng hơn những văn bản khác và do đó
các câu của nó phải được ưu tiên hơn những tài liệu khác. Để khắc phục nhược
điểm trên, [20] đã đề xuất thêm mối quan hệ giữa câu với tài liệu vào quy trình xếp
hạng dựa trên đồ thị. Ngoài tác động của văn bản lên các câu, tác giả lập luận rằng
ngay cả các câu trong cùng một văn bản cũng không được xử lý thống nhất, mà
điểm số cịn bị ảnh hưởng bởi vị trí của câu và khoảng cách của câu đó đến trọng
tâm của văn bản.
Gần đây, cùng với sự phát triển mạnh mẽ của Học sâu (DL), các hướng tiếp cận
dựa trên Mạng nơ-ron đồ thị (Graph Neural Network - GNN) cũng rất được quan
tâm nghiên cứu. Trong [21], nhóm tác giả đã đề xuất ra một GNN đã kênh MultiGraS cho bài tốn tóm tắt hướng trích chọn. Kiến trúc mạng trên đã mơ hình hịa
13
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep