TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
LUẬN VĂN THẠC SĨ
Mang l■i tr■ nghi■m m■i m■ cho ng■■i dùng, công ngh■ hi■n th■ hi■n ■■i, b■n online khơng khác gì so v■i b■n g■c. B■n có th■ phóng to, thu nh■ tùy ý.
Tổng hợp tiếng Việt có cảm xúc bằng học máy
LÊ TRỌNG AN
Ngành: Khoa học máy tính
Giảng viên hướng dẫn: TS. Nguyễn Hồng Quang
Viện:
Công nghệ Thông tin và Truyền thông
HÀ NỘI, 2021
123doc
Xu■t
Sau
Nhi■u
h■n
phát
event
s■
m■t
t■
h■u
thú
ýn■m
t■■ng
m■t
v■,raevent
kho
■■i,
t■oth■
c■ng
ki■m
123doc
vi■n
■■ng
ti■n
kh■ng
■ãthi■t
t■ng
ki■m
l■
th■c.
b■■c
v■i
ti■nh■n
123doc
online
kh■ng
2.000.000
b■ng
ln
■■nh
ln
tàitài
v■
li■u
t■o
li■u
tríhi■u
c■
c■a
■ t■t
h■i
qu■
mình
c■
gianh■t,
trong
l■nh
t■nguy
v■c:
l■nh
thu
tínnh■p
tài
v■c
cao
chính
nh■t.
tài
online
li■u
tínMong
cho
d■ng,
và kinh
t■t
mu■n
cơng
c■
doanh
các
mang
ngh■
online.
thành
l■i
thơng
cho
viên
Tính
tin,
c■ng
c■a
■■n
ngo■i
website.
■■ng
th■i
ng■,...Khách
■i■m
xã h■itháng
m■thàng
ngu■n
5/2014;
có th■
tài
123doc
ngun
d■ dàng
v■■t
tri tra
th■c
m■c
c■u
q
100.000
tàibáu,
li■uphong
m■t
l■■t cách
truy
phú,c■p
chính
■am■i
d■ng,
xác,
ngày,
nhanh
giàus■
giá
chóng.
h■u
tr■ 2.000.000
■■ng th■ithành
mongviên
mu■n
■■ng
t■oký,
■i■u
l■t ki■n
vào top
cho200
chocác
cácwebsite
users cóph■
thêm
bi■n
thunh■t
nh■p.
t■iChính
Vi■t Nam,
vì v■yt■123doc.net
l■ tìm ki■m
ra thu■c
■■i nh■m
top 3■áp
Google.
■ng Nh■n
nhu c■u
■■■c
chiadanh
s■ tài
hi■u
li■udo
ch■t
c■ng
l■■ng
■■ng
vàbình
ki■mch■n
ti■n là
online.
website ki■m ti■n online hi■u qu■ và uy tín nh■t.
Nhi■u
123doc
Sau
Th■a
khi
thu■n
event
s■
cam
nh■n
h■u
k■t
s■
thú
xác
m■t
d■ng
v■,
s■
nh■n
mang
event
kho
1. t■
th■
l■i
ki■m
■■ng
CH■P
vi■n
nh■ng
ti■n
h■
kh■ng
NH■N
quy■n
th■ng
thi■tl■
CÁC
th■c.
s■
l■i
v■ichuy■n
■I■U
t■t
h■n
123doc
nh■t
2.000.000
KHO■N
sang
ln
cho ng■■i
ph■n
ln
TH■A
tàit■o
li■u
thơng
dùng.
THU■N
c■
■ tin
t■t
h■i
Khixác
c■
khách
giaminh
l■nh
t■ng
Chào
hàng
tài
v■c:
thu
m■ng
kho■n
tr■
nh■p
tài thành
b■n
chính
email
online
■■n
thành
tínb■n
cho
d■ng,
v■i
viên
■ã
t■t
123doc.
123doc.net!
cơng
■■ng
c■a
c■ các
ngh■
123doc
kýthành
v■i
Chúng
thơng
và
123doc.netLink
viên
n■p
tơi
tin,
c■a
cung
ti■n
ngo■i
website.
vào
c■p
ng■,...Khách
xác
tài
D■ch
kho■n
th■c
V■
s■
c■a
(nh■
hàng
■■■c
123doc,
■■■c
cóg■i
th■v■
mơ
b■n
d■■■a
t■
dàng
s■
d■■i
■■■c
ch■
tra■ây)
email
c■u
h■■ng
cho
tài
b■n
li■u
b■n,
nh■ng
■ã
m■t
tùy
■■ng
quy■n
cách
thu■c
ky,
chính
l■i
b■n
vàosau
xác,
các
vuin■p
lịng
“■i■u
nhanh
ti■n
■■ng
Kho■n
chóng.
trên
nh■p
website
Th■a
email
Thu■n
c■a v■
mình
S■vàD■ng
click D■ch
vào link
V■”
123doc
sau ■ây
■ã (sau
g■i ■ây ■■■c g■i t■t T■i t■ng th■i ■i■m, chúng tơi có th■ c■p nh■t ■KTTSDDV theo quy■t ...
Nhi■u
Mang
Ln
123doc
Th■a
Xu■t
Sau
khi
h■n
h■■ng
phát
thu■n
l■i
event
s■
cam
nh■n
m■t
tr■
t■
h■u
k■t
s■
thú
nghi■m
t■i
ýxác
n■m
t■■ng
m■t
d■ng
v■,
là
s■
nh■n
website
ra
mang
event
kho
m■i
■■i,
1.
t■o
t■
th■
m■
l■i
c■ng
ki■m
■■ng
d■n
123doc
CH■P
vi■n
nh■ng
cho
■■u
■■ng
ti■n
h■
kh■ng
ng■■i
NH■N
■ã
quy■n
th■ng
thi■t
chia
t■ng
ki■m
dùng,
l■
CÁC
s■
th■c.
s■
l■i
b■■c
v■i
ti■n
vàchuy■n
■I■U
t■t
cơng
h■n
mua
123doc
online
kh■ng
nh■t
2.000.000
ngh■
bán
KHO■N
sang
b■ng
ln
cho
tài
■■nh
hi■n
ng■■i
li■u
ph■n
ln
tài
TH■A
tài
v■
th■
li■u
hàng
t■o
li■u
thơng
dùng.
tríhi■n
THU■N
hi■u
c■
c■a
■■u
■ tin
t■t
h■i
Khi
■■i,
qu■
mình
Vi■t
xác
c■
khách
gia
b■n
nh■t,
minh
trong
l■nh
Nam.
t■ng
Chào
online
hàng
uy
tài
v■c:
l■nh
thu
Tác
m■ng
tín
kho■n
tr■
nh■p
khơng
tài
phong
v■c
cao
thành
b■n
chính
email
nh■t.
tài
online
khác
chun
■■n
li■u
thành
tínb■n
Mong
gì
cho
d■ng,
và
v■i
so
nghi■p,
viên
kinh
■ã
t■t
123doc.
123doc.net!
v■i
mu■n
cơng
■■ng
c■a
c■
doanh
b■n
các
hồn
mang
ngh■
123doc
ký
g■c.
online.
thành
v■i
h■o,
Chúng
l■i
thơng
B■n
và
123doc.netLink
cho
viên
Tính
■■
n■p
có
tơi
tin,
c■ng
c■a
cao
th■
■■n
cung
ti■n
ngo■i
tính
website.
phóng
■■ng
th■i
vào
c■p
ng■,...Khách
trách
xác
tài
■i■m
D■ch
xã
to,kho■n
th■c
nhi■m
h■i
thutháng
V■
nh■
m■t
s■
c■a
(nh■
■■i
hàng
■■■c
tùy
ngu■n
5/2014;
123doc,
v■i
■■■c
ý.
cóg■i
t■ng
th■
tài
123doc
v■
mơ
ngun
b■n
d■
ng■■i
■■a
t■
dàng
s■
v■■t
d■■i
tri
dùng.
■■■c
ch■
tra
th■c
m■c
■ây)
email
c■u
M■c
h■■ng
q
100.000
cho
tài
b■n
tiêu
báu,
li■u
b■n,
nh■ng
■ã
hàng
phong
m■t
l■■t
tùy
■■ng
■■u
quy■n
cách
truy
thu■c
phú,
ky,
c■a
c■p
chính
■a
l■i
b■n
vào
123doc.net
m■i
d■ng,
sau
xác,
các
vuingày,
n■p
lịng
“■i■u
nhanh
giàu
ti■n
s■
■■ng
tr■
giá
Kho■n
chóng.
h■u
trên
thành
tr■
nh■p
2.000.000
website
■■ng
Th■a
th■
email
vi■n
th■i
Thu■n
c■a
thành
mong
tài v■
li■u
mình
viên
mu■n
S■
online
và
■■ng
D■ng
click
t■o
l■n
ký,
D■ch
■i■u
vào
nh■t
l■t
link
ki■n
V■”
vào
Vi■t
123doc
top
sau
cho
Nam,
200
■ây
cho
■ã
cung
các
các
(sau
g■iwebsite
c■p
users
■âynh■ng
■■■c
cóph■
thêm
tài
bi■n
g■i
thu
li■u
t■t
nh■t
nh■p.
■■c
T■it■i
khơng
t■ng
Chính
Vi■tth■i
th■
Nam,
vì v■y
■i■m,
tìm
t■123doc.net
th■y
l■chúng
tìm
trên
ki■m
tơi
th■
racóthu■c
■■i
tr■■ng
th■nh■m
c■p
top
ngo■i
3nh■t
■áp
Google.
tr■
■KTTSDDV
■ng
123doc.net.
Nh■n
nhu c■u
■■■c
theo
chiaquy■t
danh
s■ tài
hi■u
...li■udo
ch■t
c■ng
l■■ng
■■ng
vàbình
ki■mch■n
ti■n là
online.
website ki■m ti■n online hi■u qu■ và uy tín nh■t.
Mangh■n
Ln
123doc
Th■a
Xu■t
Sau
Nhi■u
khi
h■■ng
phát
thu■n
l■i
event
s■
cam
nh■n
m■t
tr■
t■
h■u
k■t
s■
thú
nghi■m
t■i
ýxác
n■m
t■■ng
m■t
d■ng
v■,
là
s■
nh■n
website
ra
mang
event
kho
m■i
■■i,
1.
t■o
t■
th■
m■
l■i
c■ng
ki■m
■■ng
d■n
123doc
CH■P
vi■n
nh■ng
cho
■■u
■■ng
ti■n
h■
kh■ng
ng■■i
NH■N
■ã
quy■n
th■ng
thi■t
chia
t■ng
ki■m
dùng,
l■
CÁC
s■
th■c.
s■
l■i
b■■c
v■i
ti■n
vàchuy■n
■I■U
t■t
cơng
h■n
mua
123doc
online
kh■ng
nh■t
2.000.000
ngh■
bán
KHO■N
sang
b■ng
ln
cho
tài
■■nh
hi■n
ng■■i
li■u
ph■n
ln
tài
TH■A
tài
v■
th■
li■u
hàng
t■o
li■u
thơng
dùng.
tríhi■n
THU■N
hi■u
c■
c■a
■■u
■ tin
t■t
h■i
Khi
■■i,
qu■
mình
Vi■t
xác
c■
khách
gia
b■n
nh■t,
minh
trong
l■nh
Nam.
t■ng
Chào
online
hàng
uy
tài
v■c:
l■nh
thu
Tác
m■ng
tín
kho■n
tr■
nh■p
khơng
tài
phong
v■c
cao
thành
b■n
chính
email
nh■t.
tài
online
khác
chun
■■n
li■u
thành
tínb■n
Mong
gì
cho
d■ng,
và
v■i
so
nghi■p,
viên
kinh
■ã
t■t
123doc.
123doc.net!
v■i
mu■n
cơng
■■ng
c■a
c■
doanh
b■n
các
hồn
mang
ngh■
123doc
ký
g■c.
online.
thành
v■i
h■o,
Chúng
l■i
thơng
B■n
và
123doc.netLink
cho
viên
Tính
■■
n■p
có
tơi
tin,
c■ng
c■a
cao
th■
■■n
cung
ti■n
ngo■i
tính
website.
phóng
■■ng
th■i
vào
c■p
ng■,...Khách
trách
xác
tài
■i■m
D■ch
xã
to,kho■n
th■c
nhi■m
h■i
thutháng
V■
nh■
m■t
s■
c■a
(nh■
■■i
hàng
■■■c
tùy
ngu■n
5/2014;
123doc,
v■i
■■■c
ý.
cóg■i
t■ng
th■
tài
123doc
v■
mơ
ngun
b■n
d■
ng■■i
■■a
t■
dàng
s■
v■■t
d■■i
tri
dùng.
■■■c
ch■
tra
th■c
m■c
■ây)
email
c■u
M■c
h■■ng
q
100.000
cho
tài
b■n
tiêu
báu,
li■u
b■n,
nh■ng
■ã
hàng
phong
m■t
l■■t
tùy
■■ng
■■u
quy■n
cách
truy
thu■c
phú,
ky,
c■a
c■p
chính
■a
l■i
b■n
vào
123doc.net
m■i
d■ng,
sau
xác,
các
vuingày,
n■p
lịng
“■i■u
nhanh
giàu
ti■n
s■
■■ng
tr■
giá
Kho■n
chóng.
h■u
trên
thành
tr■
nh■p
2.000.000
website
■■ng
Th■a
th■
email
vi■n
th■i
Thu■n
c■a
thành
mong
tài v■
li■u
mình
viên
mu■n
S■
online
và
■■ng
D■ng
click
t■o
l■n
ký,
D■ch
■i■u
vào
nh■t
l■t
link
ki■n
V■”
vào
Vi■t
123doc
top
sau
cho
Nam,
200
■ây
cho
■ã
cung
các
các
(sau
g■iwebsite
c■p
users
■âynh■ng
■■■c
cóph■
thêm
tài
bi■n
g■i
thu
li■u
t■t
nh■t
nh■p.
■■c
T■it■i
khơng
t■ng
Chính
Vi■tth■i
th■
Nam,
vì v■y
■i■m,
tìm
t■123doc.net
th■y
l■chúng
tìm
trên
ki■m
tơi
th■
racóthu■c
■■i
tr■■ng
th■nh■m
c■p
top
ngo■i
3nh■t
■áp
Google.
tr■
■KTTSDDV
■ng
123doc.net.
Nh■n
nhu c■u
■■■c
theo
chiaquy■t
danh
s■ tài
hi■u
...li■udo
ch■t
c■ng
l■■ng
■■ng
vàbình
ki■mch■n
ti■n là
online.
website ki■m ti■n online hi■u qu■ và uy tín nh■t.
Lnh■n
123doc
Th■a
Xu■t
Sau
khi
h■■ng
phát
thu■n
cam
nh■n
m■t
t■k■t
s■
t■i
ýxác
n■m
t■■ng
d■ng
là
s■
nh■n
website
ra
mang
■■i,
1.
t■o
t■l■i
c■ng
■■ng
d■n
123doc
CH■P
nh■ng
■■u
■■ng
h■
NH■N
■ã
quy■n
th■ng
chia
t■ng
ki■m
CÁC
s■s■
l■i
b■■c
ti■n
vàchuy■n
■I■U
t■t
mua
online
kh■ng
nh■t
bán
KHO■N
sang
b■ng
cho
tài
■■nh
ng■■i
li■u
ph■n
tài
TH■A
v■
li■u
hàng
thơng
dùng.
tríTHU■N
hi■u
c■a
■■u
tin
Khi
qu■
mình
Vi■t
xác
khách
nh■t,
minh
trong
Nam.
Chào
hàng
uy
tài
l■nh
Tác
m■ng
tín
kho■n
tr■
phong
v■c
cao
thành
b■n
email
nh■t.
tàichun
■■n
li■u
thành
b■n
Mong
và
v■i
nghi■p,
viên
kinh
■ã
123doc.
123doc.net!
mu■n
■■ng
c■a
doanh
hồn
mang
123doc
kýonline.
v■i
h■o,
Chúng
l■ivà
123doc.netLink
cho
Tính
■■
n■p
tơi
c■ng
cao
■■n
cung
ti■n
tính
■■ng
th■i
vào
c■p
trách
xác
tài
■i■m
D■ch
xãkho■n
th■c
nhi■m
h■itháng
V■
m■t
s■
c■a
(nh■
■■i
■■■c
ngu■n
5/2014;
123doc,
v■i
■■■c
g■i
t■ng
tài
123doc
v■
mơ
ngun
b■n
ng■■i
■■a
t■s■
v■■t
d■■i
tri
dùng.
■■■c
ch■
th■c
m■c
■ây)
email
M■c
h■■ng
q
100.000
cho
b■n
tiêu
báu,
b■n,
nh■ng
■ã
hàng
phong
l■■t
tùy
■■ng
■■u
quy■n
truy
thu■c
phú,
ky,
c■a
c■p
■a
l■i
b■n
vào
123doc.net
m■i
d■ng,
sau
các
vuingày,
n■p
lịng
“■i■u
giàu
ti■n
s■
■■ng
tr■
giá
Kho■n
h■u
trên
thành
tr■
nh■p
2.000.000
website
■■ng
Th■a
th■
email
vi■n
th■i
Thu■n
c■a
thành
mong
tài v■
li■u
mình
viên
mu■n
S■
online
và
■■ng
D■ng
click
t■o
l■n
ký,
D■ch
■i■u
vào
nh■t
l■t
link
ki■n
V■”
vào
Vi■t
123doc
top
sau
cho
Nam,
200
■ây
cho
■ã
cung
các
các
(sau
g■iwebsite
c■p
users
■âynh■ng
■■■c
cóph■
thêm
tài
bi■n
g■i
thu
li■u
t■t
nh■t
nh■p.
■■c
T■it■i
khơng
t■ng
Chính
Vi■tth■i
th■
Nam,
vì v■y
■i■m,
tìm
t■123doc.net
th■y
l■chúng
tìm
trên
ki■m
tơi
th■
racóthu■c
■■i
tr■■ng
th■nh■m
c■p
top
ngo■i
3nh■t
■áp
Google.
tr■
■KTTSDDV
■ng
123doc.net.
Nh■n
nhu c■u
■■■c
theo
chiaquy■t
danh
s■ tài
hi■u
...li■udo
ch■t
c■ng
l■■ng
■■ng
vàbình
ki■mch■n
ti■n là
online.
website ki■m ti■n online hi■u qu■ và uy tín nh■t.
Lnh■n
Th■a
Xu■t
Sau
Nhi■u
123doc
Mang
khi
h■■ng
phát
thu■n
l■i
event
cam
s■
nh■n
m■t
tr■
t■
h■u
k■t
s■
thú
nghi■m
t■i
ýxác
n■m
t■■ng
m■t
d■ng
v■,
là
s■
nh■n
website
ra
mang
event
kho
m■i
■■i,
1.
t■o
t■
th■
m■
l■i
c■ng
ki■m
■■ng
d■n
123doc
CH■P
vi■n
nh■ng
cho
■■u
■■ng
ti■n
h■
kh■ng
ng■■i
NH■N
■ã
quy■n
th■ng
thi■t
chia
t■ng
ki■m
dùng,
l■
CÁC
s■
th■c.
s■
l■i
b■■c
v■i
ti■n
vàchuy■n
■I■U
t■t
cơng
h■n
mua
123doc
online
kh■ng
nh■t
2.000.000
ngh■
bán
KHO■N
sang
b■ng
ln
cho
tài
■■nh
hi■n
ng■■i
li■u
ph■n
ln
tài
TH■A
tài
v■
th■
li■u
hàng
t■o
li■u
thơng
dùng.
tríhi■n
THU■N
hi■u
c■
c■a
■■u
■ tin
t■t
h■i
Khi
■■i,
qu■
mình
Vi■t
xác
c■
khách
gia
b■n
nh■t,
minh
trong
l■nh
Nam.
t■ng
Chào
online
hàng
uy
tài
v■c:
l■nh
thu
Tác
m■ng
tín
kho■n
tr■
nh■p
khơng
tài
phong
v■c
cao
thành
b■n
chính
email
nh■t.
tài
online
khác
chun
■■n
li■u
thành
tínb■n
Mong
gì
cho
d■ng,
và
v■i
so
nghi■p,
viên
kinh
■ã
t■t
123doc.
123doc.net!
v■i
mu■n
cơng
■■ng
c■a
c■
doanh
b■n
các
hồn
mang
ngh■
123doc
ký
g■c.
online.
thành
v■i
h■o,
Chúng
l■i
thơng
B■n
và
123doc.netLink
cho
viên
Tính
■■
n■p
có
tơi
tin,
c■ng
c■a
cao
th■
■■n
cung
ti■n
ngo■i
tính
website.
phóng
■■ng
th■i
vào
c■p
ng■,...Khách
trách
xác
tài
■i■m
D■ch
xã
to,kho■n
th■c
nhi■m
h■i
thutháng
V■
nh■
m■t
s■
c■a
(nh■
■■i
hàng
■■■c
tùy
ngu■n
5/2014;
123doc,
v■i
■■■c
ý.
cóg■i
t■ng
th■
tài
123doc
v■
mơ
ngun
b■n
d■
ng■■i
■■a
t■
dàng
s■
v■■t
d■■i
tri
dùng.
■■■c
ch■
tra
th■c
m■c
■ây)
email
c■u
M■c
h■■ng
q
100.000
cho
tài
b■n
tiêu
báu,
li■u
b■n,
nh■ng
■ã
hàng
phong
m■t
l■■t
tùy
■■ng
■■u
quy■n
cách
truy
thu■c
phú,
ky,
c■a
c■p
chính
■a
l■i
b■n
vào
123doc.net
m■i
d■ng,
sau
xác,
các
vuingày,
n■p
lịng
“■i■u
nhanh
giàu
ti■n
s■
■■ng
tr■
giá
Kho■n
chóng.
h■u
trên
thành
tr■
nh■p
2.000.000
website
■■ng
Th■a
th■
email
vi■n
th■i
Thu■n
c■a
thành
mong
tài v■
li■u
mình
viên
mu■n
S■
online
và
■■ng
D■ng
click
t■o
l■n
ký,
D■ch
■i■u
vào
nh■t
l■t
link
ki■n
V■”
vào
Vi■t
123doc
top
sau
cho
Nam,
200
■ây
cho
■ã
cung
các
các
(sau
g■iwebsite
c■p
users
■âynh■ng
■■■c
cóph■
thêm
tài
bi■n
g■i
thu
li■u
t■t
nh■t
nh■p.
■■c
T■it■i
khơng
t■ng
Chính
Vi■tth■i
th■
Nam,
vì v■y
■i■m,
tìm
t■123doc.net
th■y
l■chúng
tìm
trên
ki■m
tơi
th■
racóthu■c
■■i
tr■■ng
th■nh■m
c■p
top
ngo■i
3nh■t
■áp
Google.
tr■
■KTTSDDV
■ng
123doc.net.
Nh■n
nhu c■u
■■■c
theo
chiaquy■t
danh
s■ tài
hi■u
...li■udo
ch■t
c■ng
l■■ng
■■ng
vàbình
ki■mch■n
ti■n là
online.
website ki■m ti■n online hi■u qu■ và uy tín nh■t.
Vi■c
■■ng
Thành
s■
u■t
Nhi■u
Mang
Ln
123doc
Th■a
Xu■t
Sau
h■u
phát
khi
h■n
b■n
h■■ng
phát
thu■n
l■i
ýevent
viên
s■
cam
nh■n
r■ng
m■t
t■
m■t
tr■
s■
t■
h■u
s■
ýk■t
s■
thú
kho
nghi■m
t■i
ýd■ng
n■u
t■■ng
xác
n■m
ph■i
t■■ng
m■t
d■ng
v■,
là
s■
th■
nh■n
Thành
website
ra
ho■c
mang
th■c
event
t■o
kho
vi■n
m■i
■■i,
1.
t■o
t■
c■ng
th■
viên
■■ng
hi■n
m■
l■i
kh■ng
c■ng
ki■m
■■ng
d■n
123doc
CH■P
vi■n
nh■ng
ti■p
cho
theo
■■ng
■■u
ký
■■ng
ti■n
h■
l■
kh■ng
ng■■i
t■c
NH■N
s■
■ã
■úng
v■i
quy■n
th■ng
thi■t
chia
ki■m
d■ng
t■ng
s■
ki■m
h■n
dùng,
l■
các
CÁC
s■
d■ng
th■c.
ti■n
s■
l■i
b■■c
các
v■i
ti■n
2.000.000
và
ch■
chuy■n
■I■U
t■t
cơng
online
h■n
D■ch
mua
123doc
d■ch
online
kh■ng
d■n
nh■t
2.000.000
ngh■
bán
KHO■N
v■
b■ng
V■
■■■c
sang
tài
b■ng
ln
cho
tài
■■nh
c■a123doc.net
sau
li■u
hi■n
tài
ng■■i
li■u
ph■n
ln
tài
niêm
TH■A
khi
■
li■u
tài
v■
th■
li■u
hàng
t■t
t■o
■KTTSDDV
li■u
thơng
dùng.
trí
y■t
hi■u
hi■n
THU■N
c■
hi■u
c■
c■a
■■u
■
ho■c
l■nh
tin
qu■
■■ng
t■t
h■i
Khi
■■i,
qu■
mình
Vi■t
xác
c■
khách
gia
các
v■c:
nh■t,
■■■c
b■n
nh■t,
ngh■a
minh
trong
l■nh
Nam.
t■ng
Chào
quy
tài
online
uy
hàng
uy
c■p
tài
v■c:
■■nh
chính
l■nh
thu
Tác
tín
v■i
m■ng
tín
kho■n
tr■
cao
nh■t,
nh■p
khơng
tài
vi■c
phong
v■c
cao
tín
áp
thành
b■n
chính
nh■t.
d■ng,
d■ng
email
nh■t.
tài
b■n
vi■c
online
khác
chun
■■n
li■u
thành
tín
Mong
■ã
■ó
cho
b■n
cơng
Mong
gì
cho
d■ng,
và
v■i
■■ng
có
so
các
nghi■p,
viên
ki
kinh
■ã
mu■n
t■t
ngh■
123doc.
123doc.net!
ngh■a
v■i
mu■n
123doc
cơng
d■ch
■■n■
■■ng
c■a
c■
cwebsite.
ýdoanh
b■n
v■i
thơng
mang
các
hồn
mang
là
ngh■
123doc
v■
ký
v■■t
g■c.
các
■■a
Thàn
online.
thành
■ó
v■i■ng
v■i
l■i
tin,
h■o,
Chúng
Chún
■i■u
l■i
thơng
B■n
ch■
m■c
có
cho
ngo■i
và
là
123doc.netLink
chogun
cho
viên
Tính
■■
website
th■
mơ
n■p
kho■n
email
có
c■ng
tơi
tin,
ky,
100.000
c■ng
c■a
cao
ng■,...Khách
t■
■■■c
th■
■■n
cung
ti■n
b■n
ngo■i
d■■i
b■n
■■ng
tính
c■a
ki■m
website.
phóng
■■ng
trith■i
vào
c■p
vui
l■■t
niêm
th■c
ng■,...Khách
■ã
trách
n■ây)
xác
lịng
xã
ti■n
tài
■i■m
khơng
D■ch
xã
to,
■■ng
truy
y■t
q
h■i
kho■n
th■c
hànnh
nhi■m
h■i
cho
thu
■■ng
online
c■p
theo
m■t
báu,
tháng
V■
■■ng
ky,
nh■
m■t
b■n,
s■
c■a
xác,
m■i
(nh■
■■i
nh■p
hi■u
hàng
t■ng
ngu■n
b■n
phong
■■■c
tùy
ngu■n
5/2014;
ýtùy
123doc,
nhanh
v■i
Mong
ngày,
vui
■■■c
qu■
ý.
email
th■i
có
thu■c
phú,
tài
g■i
t■ng
lịng
th■
tài
123doc
và
s■
■i■m.
mu■n
ngun
chóng.
c■a
v■
mơ
ngun
b■n
■a
vào
uy
d■
■■ng
ng■■i
h■u
■■a
t■
tín
d■ng,
mình
dàng
các
s■
man
T■t
v■■t
tri
2.000.000
d■■i
nh■t.
nh■p
tri
dùng.
■■■c
ch■
th■c
“■i■u
c■
và
ngun
tra
th■c
giàu
m■c
■ây)
click
các
email
c■u
email
q
M■c
h■■ng
giá
Kho■n
q
100.000
thành
ocho
vào
tri
tài
báu,
tr■
b■nn
b■n
c■a
tiêu
báu,
th■c
li■u
b■n,
link
■■ng
nh■ng
Th■a
viên
phong
■ã
hàng
mình
phong
viên
m■t
l■■t
q
123doc
tùy
■■ng
■■ng
th■i
Thu■n
■■u
c■a
báo
và
phú,
quy■n
cách
truy
thu■c
phú,
click
mong
■ã
ky,
các
ký,
website.
c■a
c■p
■a
chính
v■
■a
l■i
b■n
g■i
vào
l■t
vào
users
d■ng,
123doc.net
m■i
S■
mu■n
d■ng,
sau
vào
xác,
các
link
vui
D■ng
ngày,
có
n■p
giàu
top
lịng
“■i■u
123doc
nhanh
t■o
giàu
thêm
200
ti■n
D■ch
giá
s■
■■ng
■i■u
tr■
giá
Kho■n
thu
chóng.
các
h■u
tr■
■ã
trên
thành
tr■
V■”
ki■n
nh■p.
nh■p
■■ng
g■i
website
2.000.000
website
■■ng
Th■a
sau
th■
cho
email
Chính
th■i
■ây
vi■n
th■i
ph■
Thu■n
chomong
c■a
thành
vì
(sau
mong
các
tài
bi■n
v■y
v■
li■u
mình
users
mu■n
■ây
viên
nh■t
mu■n
S■
123doc.net
online
và
■■■c
■■ng
có
D■ng
t■i
t■o
click
t■o
thêm
l■n
Vi■t
■i■u
g■i
ký,
D■ch
■i■u
vào
ra
nh■t
thu
Nam,
l■t
t■t
■■i
link
ki■n
nh■p.
ki■n
V■”
vào
T■i
Vi■t
123doc
nh■m
t■
cho
top
sau
cho
t■ng
l■
Nam,
Chính
cho
200
tìm
■ây
■áp
cho
■ã
th■i
cung
các
ki■m
các
vìcác
(sau
g■i
■ng
v■y
■i■m,
users
website
c■p
users
thu■c
■ây
nhu
123doc.net
nh■ng
có
chúng
c■u
■■■c
có
top
ph■
thêm
thêm
chia
3tơi
tài
bi■n
Google.
g■i
thu
ra
có
thu
li■u
s■
■■i
t■t
nh■p.
th■
nh■t
nh■p.
tài
■■c
T■i
Nh■n
nh■m
li■u
c■p
t■i
Chính
khơng
t■ng
Chính
ch■t
nh■t
Vi■t
■■■c
■áp
th■i
vìth■
l■■ng
Nam,
■KTTSDDV
vì■ng
v■y
v■y
danh
■i■m,
tìm
123doc.net
nhu
t■
và
123doc.net
th■y
hi■u
l■
ki■m
chúng
c■u
tìm
trên
theo
do
chia
ki■m
ti■n
c■ng
tơi
ra
th■
quy■t
ra
s■
có
■■i
online.
thu■c
■■i
tr■■ng
■■ng
th■
tài...
nh■m
nh■m
li■u
c■p
top
bình
ngo■i
ch■t
■áp
3nh■t
■áp
Google.
ch■n
l■■ng
■ng
tr■
■KTTSDDV
■ng
123doc.net.
lànhu
Nh■n
nhu
website
vàc■u
ki■m
c■u
■■■c
chia
theo
ki■m
chia
ti■n
s■
quy■t
danh
s■
online.
ti■n
tàitài
hi■u
li■u
online
...li■uch■t
do
ch■t
hi■u
c■ng
l■■ng
l■■ng
qu■
■■ng
vàvàki■m
uy
bình
ki■m
tín ch■n
ti■n
nh■t.
ti■nonline.
là
online.
website ki■m ti■n online hi■u qu■ và uy tín nh■t.
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
LUẬN VĂN THẠC SĨ
Tổng hợp tiếng Việt có cảm xúc bằng học máy
LÊ TRỌNG AN
Ngành: Khoa học máy tính
Giảng viên hướng dẫn: TS. Nguyễn Hồng Quang
Chữ ký của GVHD
Viện:
Công nghệ Thông tin và Truyền thông
HÀ NỘI, 2021
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn: Lê Trọng An
Đề tài luận văn: Tổng hợp tiếng Việt có cảm xúc bằng học máy
Chuyên ngành: Khoa học dữ liệu
Mã số SV: CA190038
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận
tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày
24/12/2021 với các nội dung sau:
1. Sửa Chương 1: Thêm phần 1.3.2.2 và sửa đổi phần 1.3.2.3 để thể hiện
rõ hơn một số nghiên cứu trên thế giới về chuyển đổi cảm xúc.
2. Sửa Chương 2:
- Phần 2.5: Cập nhật các hình vẽ về quá trình huấn luyện, tổng hợp của toàn
bộ kiến trúc và từng module nhỏ.
- Phần 2.7.6: Thí nghiệm 05: Giải thích miền khơng gian Z và giải thích chi
tiết hơn về phần thực hiện của thí nghiệm chuyển đổi cảm xúc.
3. Sửa Chương 3:
- Phần 3.2.1: Các kết quả đánh giá chưa thực sữ chặt chẽ, các kết quả bất
thường chưa được giảm thích kỹ. Tác giả đã tìm thấy sai sót trong q trình tổng
hợp dữ liệu và có vẽ lại các bảng và hình ảnh.
- Phần 3.3: Xóa bỏ nhận xét bằng văn bản để nói mơ hình khơng bị overfit
do chưa đủ dẫn chứng kỹ thuật.
- Sau khi sửa: Nội dung luận án gồm 4 chương chính là:
• Chương 1: Cơ sở lý thuyết và các cơng trình nghiên cứu
• Chương 2: Tổng hợp tiếng Việt có cảm xúc
• Chương 3: Đánh giá kết quả tổng hợp
• Chương 4: Kết luận và định hướng phát triển
Ngày 12 tháng 1 năm 2022
Giáo viên hướng dẫn
Tác giả luận văn
CHỦ TỊCH HỘI ĐỒNG
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
ĐỀ TÀI LUẬN VĂN
Mã đề tài: 19AKHDL-KH04
Theo QĐ số 1536 Hiệu trưởng trường ĐHBK Hà Nội ký ngày 19 tháng 9 năm
2019
1. Họ và tên học viên: Lê Trọng An
SHHV: CA190038
2. Chuyên ngành: Khoa học máy tính
Lớp: 19AKHDL
3. Cán bộ hướng dẫn: TS. Nguyễn Hồng Quang
4. Đơn vị: Viện Công nghệ Thông tin và Truyền thông, Trường Đại học Bách
Khoa Hà Nội
5. Tên đề tài (tiếng Việt): Tổng hợp tiếng Việt có cảm xúc bằng học máy.
6. Tên đề tài (tiếng Anh): Synthesize Vietnamese with emotions by machine
learning.
Hà Nội, ngày 08 tháng 12 năm 2021
Giáo viên hướng dẫn
Ký và ghi rõ họ tên
TS. Nguyễn Hồng Quang
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
LỜI CAM ĐOAN
Tôi xin cam kết luận văn tốt nghiệp là cơng trình nghiên cứu của bản thân tơi
dưới sự hướng dẫn của TS. Nguyễn Hồng Quang.
Các kết quả nêu trong luận văn tốt nghiệp là trung thực, không phải là sao
chép tồn văn của bất kỳ cơng trình nào khác.
Hà Nội, ngày 08 tháng 12 năm 2021
Tác giả luận văn
Lê Trọng An
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
LỜI NĨI ĐẦU
Lời nói là một phương tiện giao tiếp bằng ngơn ngữ, là cơng cụ cơ bản nhất
của lồi người giúp ta có thể giao tiếp, bộc lộ cảm xúc, suy nghĩ, trao đổi kinh
nghiệm và thông tin. Xã hội và công nghệ ngày càng phát triển, các loại máy
móc được phát minh để thay thế sức lao động cho con người ngày càng nhiều
khiến cho nhu cầu giao tiếp giữa người và máy móc cũng ngày càng tăng lên. Do
đó xử lý tiếng nói trở thành một trong những lĩnh vực quan trọng và được quan
tâm.
Một lời nói được coi là truyền đạt hiệu quả khi thể hiện được nội dung của
từ ngữ và cảm xúc của người nói. Vì vậy, việc đưa ngữ điệu và cảm xúc vào
tiếng nói tổng hợp sẽ có những đóng góp quan trọng trong việc nâng cao hiệu
quả giao tiếp giữa người và máy. Trong những năm gần đây, các hệ thống tổng
hợp tiếng Việt đã đạt được rất nhiều thành tựu đáng ghi nhận. Tuy nhiên, việc
đưa cảm xúc vào câu nói tổng hợp cịn gặp nhiều khó khăn. Sử dụng các cách
tiếp cận truyền thống và thay đổi dữ liệu huấn luyện có hiệu quả trong việc làm
dữ liệu có cảm xúc hơn nhưng không mang lại sự tự nhiên trong tiếng nói, thêm
vào đó lại vơ cùng tốn kém về chi phí và cơng sức chuẩn bị. Hơn nữa, khả năng
mở rộng nếu thêm các cảm xúc, phong cách nói mới cũng gặp nhiều hạn chế.
Nhận thức được vấn đề này, tác giả đã tiến hành nghiên cứu đề tài “Tổng hợp
tiếng Việt có cảm xúc bằng học máy” nhằm tìm ra và đề xuất một phương pháp
có hiệu quả hơn trong việc xử lý tiếng Việt tổng hợp.
Bài nghiên cứu hướng tới 3 mục tiêu chính: Thứ nhất, hệ thống hóa lại
những kiến thức cơ bản về tổng hợp tiếng nói, sơ lược các phương pháp và kết
quả của các nghiên cứu nội bật cùng đề tài đã có. Thứ hai, tác giả thơng qua
nghiên cứu, tìm hiều, thử nghiệm để đề xuất ra phương pháp tổng hợp tiếng nói
có cảm xúc hiệu quả. Cuối cùng, từ những kết quả thực nghiệm thu được, tác giả
sẽ đánh giá hiệu quả của mơ hình và đề xuất phương hướng phát triển trong
tương lai.
Đề tài được thực hiện dựa trên phương pháp nghiên cứu tổng hợp cơ sở lý
thuyết của các mơ hình tổng hợp tiếng nói nói chung và tiếng Việt nói riêng, kết
hợp với phương pháp thực nghiệm để tìm ra mơ hình học máy phù hợp, huấn
luyện cho bộ tổng hợp dựa trên dữ liệu tiếng Việt có cảm xúc của bộ dữ liệu đã
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
đươc chuẩn hóa. Sau đó xây dựng cơng cụ đánh giá chất lượng tiếng nói tổng
hợp và đề xuất phương hướng phát triển.
Kết cấu của đề tài bao gồm 04 chương:
• Chương 1: Cơ sở lý thuyết và các cơng trình nghiên cứu liên quan
• Chương 2: Tổng hợp tiếng Việt có cảm xúc
• Chương 3: Đánh giá kết quả tổng hợp
• Chương 4: Kết luận
Đóng góp chính của nghiên cứu này được tóm tắt như sau:
1. Chứng minh khả năng xây dựng mơ hình hiệu quả trong việc tối thiểu chi
phí xây dựng bộ dữ liệu âm thanh mới (AnSpeech).
2. Giới thiệu một kiến trúc mơ hình tổng hợp tiếng Việt trần thuật có kết
quả tốt.
3. Đề xuất một phương pháp chuyển đổi cảm xúc cho tiếng Việt thay vì xây
dựng từng mơ hình cho từng cảm xúc – một hướng đi rất tốn kém chi phí thời
gian và nguồn lực.
4. Đề xuất phương pháp đánh giá kết quả tiếng nói tổng hợp.
Do hạn chế về thời gian thực hiện và kiến thức chuyên ngành, nghiên cứu
không tránh khỏi các thiếu sót, rất mong nhận được phản hồi và góp ý từ phía
thầy cơ.
Cuối cùng, em xin gửi lời cảm ơn tới toàn thể hội đồng, các thầy giáo, cô
giáo Viện Công nghệ thông tin và Truyền thông, những thầy cô giáo nghiên cứu
sinh của Lab 802, những người đã dìu dắt em trong những ngày đầu em nghiên
cứu về xử lý tiếng nói. Em xin gửi lời cảm ơn chân thành đến thầy Nguyễn Hồng
Quang và thầy Lê Xuân Thành đã đưa em đến với lĩnh vực xử lý tiếng nói và
hướng dẫn em tìm hiểu về tổng hợp tiếng Việt. Hai thầy đã luôn hướng dẫn, chỉ
bảo tận tình cho em những kiến thức và kỹ năng cần thiết để nghiên cứu về lĩnh
vực này. Cảm ơn thầy đã cho em niềm tin và động lực để hoàn thành giấc mơ
được trở thành Thạc sĩ Trường Đại học Bách khoa Hà Nội.
Em xin chân thành cảm ơn!
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
MỤC LỤC
MỤC LỤC ........................................................................................................... i
DANH MỤC BẢNG .......................................................................................... vi
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ ..................................... vii
CHƯƠNG 1.
CƠ SỞ LÝ THUYẾT VÀ CÁC CƠNG TRÌNH NGHIÊN CỨU 1
1.1.
Giới thiệu chung. ...................................................................................... 1
1.2.
Sơ bộ nghiên cứu về các phương pháp truyền thống ................................. 1
1.2.1. Tổng hợp tiếng nói .................................................................................... 1
1.2.2. Lựa chọn Vocoder .................................................................................... 3
1.2.3. Tổng hợp tiếng Việt có cảm xúc ............................................................... 3
1.3.
Các nghiên cứu trên thế giới ..................................................................... 4
1.3.1. Tổng hợp tiếng nói .................................................................................... 4
1.3.2. Tổng hợp tiếng nói có cảm xúc ................................................................. 5
1.4.
Các nghiên cứu đã công bố trong tiếng Việt ............................................ 11
1.4.1. HMM-based TTS for hanoi Vietnamese: Issues in design and evaluation.11
1.4.2. Development of Vietnamese Speech Synthesis System using Deep Neural
Networks. .......................................................................................................... 12
1.4.3. Alternative Vietnamese Speech Synthesis with Phoneme Structure. ....... 13
1.4.4. Vietnamese Speech Synthesis with End-to-end Model. ........................... 14
1.4.5. Tổng hợp tiếng Việt có cảm xúc với các chất giọng khác nhau và có biểu
lộ cảm xúc. ........................................................................................................ 16
1.5.
Các bộ dữ liệu được công bố ................................................................... 16
1.5.1. Bộ dữ liệu cảm xúc nước ngoài ............................................................... 17
1.5.2. Bộ dữ liệu cảm xúc trong nước ............................................................... 17
1.6.
Các đề xuất giải quyết cho bài toán tổng hợp tiếng Việt có cảm xúc ....... 18
CHƯƠNG 2.
TỔNG HỢP TIẾNG VIỆT CÓ CẢM XÚC ............................. 19
i
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
2.1.
Dữ liệu ................................................................................................... 19
2.1.1. Bộ dữ liệu AnSpeech .............................................................................. 19
2.1.2. Tổng hợp ................................................................................................ 20
2.2.
Mơ hình đề xuất ..................................................................................... 21
2.3.
Tiền xử lý ............................................................................................... 22
2.4.
Huấn luyện mơ hình tổng hợp tiếng nói .................................................. 23
2.4.1. Quy trình huấn luyện .............................................................................. 23
2.4.2. Biến thể của Tacotron 2 .......................................................................... 23
2.4.3. Flowtron ................................................................................................. 25
2.5.
Biến đổi phong cách, cảm xúc của tiếng nói ........................................... 27
2.5.1. Sơ đồ q trình tạo tiếng nói bình thường ............................................... 27
2.5.2. Sơ đồ q trình tạo tiếng nói cảm xúc ..................................................... 28
2.5.3. Q trình hoạt động ................................................................................ 28
2.6.
Huấn luyện mơ hình ............................................................................... 29
2.7.
Thiết kế thử nghiệm ............................................................................... 30
2.7.1. Tổng quan .............................................................................................. 30
2.7.2. Thí nghiệm 01 – Mơ hình M1 ................................................................. 31
2.7.3. Thí nghiệm 02 – Mơ hình M2 ................................................................. 32
2.7.4. Thí nghiệm 03 – Mơ hình M3 ................................................................. 32
2.7.5. Thí nghiệm 04 – Mơ hình M4 ................................................................. 33
2.7.6. Thí nghiệm 05 – Chuyển đổi cảm xúc .................................................... 33
2.7.7. Thí nghiệm 06 – Đánh giá phần cứng ..................................................... 35
2.7.8. Tổng kết ................................................................................................. 35
CHƯƠNG 3.
ĐÁNH GIÁ KẾT QUẢ TỔNG HỢP ...................................... 36
3.1.
Công cụ đánh giá .................................................................................... 36
3.2.
Tổng hợp kết quả đánh giá ..................................................................... 37
ii
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
3.2.1. Thang đo Mean Opinion Score (MOS).................................................... 37
3.2.2. Trực quan hóa dữ liệu bằng T-distributed Stochastic Neighbor Embedding48
3.3.
Thảo luận ................................................................................................ 51
CHƯƠNG 4.
KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN ..................... 54
4.1.
Kết luận .................................................................................................. 54
4.2.
Định hướng phát triển ............................................................................. 55
DANH MỤC TÀI LIỆU THAM KHẢO ........................................................... 56
iii
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
DANH MỤC HÌNH ẢNH
Hình 1. 1 Ví dụ minh hóa biến đổi văn bản đầu vào theo mức âm vị và mức ký tự14
Hình 2. 1: Histogram số lượng từ trong bộ ngữ liệu AnSpeech ......................... 20
Hình 2. 2: Kiến thức mơ hình tổng hợp tiếng Việt được đề xuất ......................... 21
Hình 2. 3: Tiền xử lý dữ liệu âm thanh và transcripts ......................................... 22
Hình 2. 4: Quy trình huấn luyện mơ hình tổng hợp tiếng Việt trần thuật được đề
xuất .................................................................................................................... 23
Hình 2. 5: Kiến trúc mơ hình Tacotron2 chỉnh sửa ............................................. 24
Hình 2. 6: Sơ đồ kiến trúc Flowtron ................................................................... 25
Hình 2. 7: Sơ đồ khởi tạo tiếng nói cảm xúc bình thường ................................... 27
Hình 2. 8: Q trình chuyển đổi cảm xúc trong tiếng Việt .................................. 28
Hình 2. 9: Các thí nghiệm nhóm 1 và luồng lưu trữ ............................................ 31
Hình 2. 10: Ví dụ minh họa q trình chuyển đổi Z............................................ 33
Hình 3. 1: Màn hình chính và hướng dẫn khảo sát.............................................. 37
Hình 3. 2: Màn hình thực hiện khảo sát. ............................................................. 37
Hình 3. 3: So sánh giữa các câu trong và ngoài tệp huấn luyện của cảm xúc BT
của người đánh giá Nữ ....................................................................................... 43
Hình 3. 4: So sánh giữa các câu trong và ngoài tệp huấn luyện của cảm xúc Buồn
của người đánh giá Nữ ....................................................................................... 43
Hình 3. 5 So sánh giữa các câu trong và ngoài tệp huấn luyện của cảm xúc Vui
của người đánh giá Nữ ....................................................................................... 44
Hình 3. 6 So sánh giữa các câu trong và ngoài tệp huấn luyện của cảm xúc BT
của người đánh giá Nam .................................................................................... 44
Hình 3. 7 So sánh giữa các câu trong và ngoài tệp huấn luyện của cảm xúc Buồn
của người đánh giá Nam .................................................................................... 45
Hình 3. 8 So sánh giữa các câu trong và ngoài tập huấn luyện của cảm xúc Vui
của người đánh giá Nam .................................................................................... 45
Hình 3. 9 MOS trung bình của 3 cảm xúc với 2 phương diện của người đánh giá
Nam ................................................................................................................... 46
iv
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
Hình 3. 10 MOS trung bình của 3 cảm xúc trên 2 phương diện của người đánh
giá Nữ ............................................................................................................... 46
Hình 3. 11 Đồ thị phân bố các giá trị trên miền Z theo 3 cảm xúc của nghệ sĩ
N.N.T ................................................................................................................ 48
Hình 3. 12 Đồ thị phân bố các giá trị trên miền Z theo 3 cảm xúc của nghệ sĩ
N.Đ.T ................................................................................................................ 49
Hình 3. 13 Đồ thị tSNE- biểu diễn phân bổ trên miền Z của các câu tổng hợp
trần thuật, các câu cảm xúc buồn huấn luyện và câu tổng hợp cảm xúc Buồn ... 49
Hình 3. 14 Đồ thị tSNE- biểu diễn phân bổ trên miền Z của các câu tổng hợp trần
thuật, các câu cảm xúc vui huấn luyện và câu tổng hợp cảm xúc Vui ................ 50
Hình 3. 15 Đồ thị tSNE- biểu diễn phân bổ trên miền Z của tất cả các câu tổng
hợp, âm thanh của nghệ sĩ N.N.T, nghệ sĩ N.Đ.T trong 3 cảm xúc khác nhau .... 51
v
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
DANH MỤC BẢNG
Bảng 1-1. Thang đo MOS của hệ thống GST-Tacotron2 trên ngôn ngữ Hàn quốc 5
Bảng 1-2. Tham số ABX giữa mơ hình GST và mơ hình đề xuất ......................... 7
Bảng 1-3. Subject preference (%) và p-values của GST với Tacotron làm cơ sở. . 8
Bảng 1-4. Tổng hợp điểm số đánh giá chủ quan và khách quan của mơ hình đề
xuất với mơ hình cơ bản ....................................................................................... 9
Bảng 1-5. So sánh điểm MOS của: DeepEST, VAW-GAN-EVE và câu thực tế 10
Bảng 1-6. Độ méo phổ của DeepEST trong giọng nam, nữ với 3 cảm xúc ......... 10
Bảng 1-7. Thang đo MOS của âm thanh tự nhiên, HMM-Vted và NUUSHoaSung ............................................................................................................ 12
Bảng 1-8. Bảng so sánh mức độ dễ hiểu giữa hệ thống VTed và âm thanh tự
nhiên .................................................................................................................. 12
Bảng 1-9 .Kết quả đánh giá chủ quan và khách quan của mơ hình đề xuất ......... 13
Bảng 1-10. 3 đội đạt giải cao nhất trong hội nghị VLSP 2019 ............................ 13
Bảng 1-11. Thang đo MOS của hệ thống đề xuất so với mơ hình ban đầu .......... 14
Bảng 1-12. So sánh Tacotron2 + WaveGlow với GT trong tiếng Việt ................ 15
Bảng 1-13. Ma trận nhầm lẫn tổng hợp cả giọng nam và giọng nữ cho 15 câu ... 16
Bảng 2-1. Top 10 từ phổ biến nhất trong bộ từ điển ........................................... 20
Bảng 2-2. So sánh thông tin cơ bản giữa các môi trường sử dụng ...................... 29
Bảng 2-3. Tổng hợp thời gian huấn luyện của từng mơ hình .............................. 35
Bảng 3-1. Đánh giá chất lượng âm thanh của 3 cảm xúc với 30 bạn nam ........... 39
Bảng 3-2. Đánh giá chất lượng âm thanh của 3 cảm xúc với 30 bạn nữ .............. 39
Bảng 3-3. Đánh giá mức độ biểu đạt cảm xúc của 03 cảm xúc với 30 bạn nam .. 41
Bảng 3-4. Đánh giá mức độ biểu đạt cảm xúc của 03 cảm xúc với 30 bạn nữ ..... 42
Bảng 3-5 Kết quả đánh giá MOS với tiêu chí độ tự nhiên và dễ hiểu của các câu
tiếng nói ..............................................................................................................47
Bảng 3. 6 Kết quả đánh giá MOS với tiêu chí mức độ biểu đạt cảm xúc của các
câu tiếng nói..........................................................................................................48
vi
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ
Chữ viết tắt
Viết đầy đủ
End-to-end
Pitch
Prosody
API
BAP
Batch-norm
DNN
F0
F0 RMSE
Application
Programming
Interface
Distortion of band
aperiodicities
Batch
Normalisation
Deep Neural
Network
Fundamental
Frequency
Root mean
squared error in
log F0
FC
Fully Connected
FFE
GMM
Attention
F0 Frame Error
Gaussian mixture
model Attention
Global Style
Token
Hidden Markov
Model
Instance
Normalisation
Phân kỳ
Kullback-Leibler
Long short-term
memory
Mel Cepstral
Distortion
GST
HMM
Instancenorm
KL
LSTM
MCD
MFCC
Mel frequency
cepstral
coefficients
Ý nghĩa
Quy trình hệ thống hồn chỉnh, hoạt động từ
đầu đến cuối; thường không cần sự trợ giúp từ
bên thứ ba
Cao độ
Những yếu tố như ngữ điệu, trọng âm, nhịp
điệu và phong cách trong câu nói
Root mean squared error in log F0
Phương pháp chuẩn hoá theo batch (hàng loạt)
Mạng thần sinh sâu
Tần số cơ bản
Lớp kết nối với mỗi node được kết nối với tất
cả các node trong lớp trước
Mạng chú ý dựa trên GMM
Mã biểu diễn phong cách tồn cục
Mơ hình Markov ẩn
Phương pháp chuẩn hố theo instance
Phép đo sự khác biệt giữa một phân phối xác
suất với phần còn lại
Kiến trúc mạng neural nhân tạo được lặp lại
Thang đo sự khác biệt, độ cong vênh giữa hai
mel cepstral
Các hệ số cepstral trích xuất từ âm thanh dựa
trên bộ lọc mel trên phổ
vii
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
MOS
MSE
ReLU
RL
SER
SoTA
t-SNE
TTS
VAE
GAN
Mean Opinion
Score
Mean Square
Error
Rectified Linear
Unit
Reinforcement
Learning
Speech Emotion
Recognition
State-of-the-Art
T-distributed
Stochastic
Neighbor
Embedding
Text-To-Speech
Variational
AutoEncoder
Generative
adversarial
networks
Điểm ý kiến trung bình
Sai số tồn phương trung bình
Hàm kích hoạt phi tuyến lọc các giá trị nhỏ hơn
0
Phương pháp học tăng cường
Mơ hình nhận dạng cảm xúc trong tiếng nói
Hiện đại nhất thời điểm hiện tại
Phương pháp trực quan hoá dữ liệu nhiều chiều
bằng cách giảm mỗi điểm dữ liệu xuống thành
hai hoặc ba chiều
Chuyển đổi văn bản thành tiếng nói
Mạng tự động lựa chọn đặc trưng thơng qua
q trình học khơng giám sát
Hệ thống mạng khởi tạo dựa trên sự tự hoàn
thiện lẫn nhau của hai mạng đối lập
viii
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
CHƯƠNG 1.
CƠ SỞ LÝ THUYẾT VÀ
CÁC CƠNG TRÌNH NGHIÊN CỨU.
1.1.
Giới thiệu chung.
Chuyển đổi văn bản thành giọng nói hay tổng hợp tiếng nói là kỹ thuật biến
đổi văn bản đầu vào thành tín hiệu tiếng nói theo miền thời gian, nhằm mục đích
tổng hợp văn bản đã cho thành giọng nói tự nhiên, dễ hiểu. Nó là một chủ đề
nghiên cứu đã được thực hiện khá sớm. Cộng đồng xử lý tiếng nói rất to lớn,
thường xuyên đưa ra các công bố chất lượng cao. Khi tham gia các nghiên cứu này
địi hỏi kiến thức về ngơn ngữ, khởi tạo giong nói của con người và liên quan đến
nhiều lĩnh vực bao gồm ngôn ngữ học, âm học, xử lý tín hiệu số và học máy. Hiện
nay, trên thế giới, lĩnh vực xử lý tiếng nói nói chung và hệ thống tổng hợp tiếng
nói nói riêng đã đạt được nhiều thành tựu đáng kể trong hầu hết các ngôn ngữ.
Cùng với đó, nhiều sản phẩm hữu ích là thành quả nghiên cứu đã được ứng dụng
sâu rộng trong thực tế. Tại Việt Nam, xử lý ngôn ngữ đã và đang được rất nhiều sự
quan tâm, nghiên cứu, phát triển, trong đó có tổng hợp tiếng Việt có cảm xúc. Có
một điều chắc chắn rằng, hệ thống tổng hợp tiếng Việt có cảm xúc sẽ chỉ được làm
tốt bởi những con người Việt - những người sử dụng hằng ngày.
Ngày nay, với sự phát triển mạnh mẽ của học sâu và trí tuệ nhân tạo, TTS
dựa trên mạng neural đã cải thiện đáng kể chất lượng của giọng nói tổng hợp trần
thuật và giọng nói tổng hợp có cảm xúc [1].
Cảm xúc là một hiện tượng phức tạp của con người và rất khó khăn trong
việc định nghĩa trực tiếp. Trong một câu nói, có rất nhiều cách thể hiện cảm xúc
khác nhau thông qua cử chỉ, nét mặt, ánh mắt, ngữ điệu,… Do đó với cùng một
câu nói, cùng một người nói cũng có thể được biểu đạt thành các cảm xúc khác
nhau. Không những thế, cảm xúc của con người thường xuyên trộn lẫn và khó để
phân biệt rạch ròi. Phần lớn các nghiên cứu sẽ giới hạn trong một số trạng thái cảm
xúc nhất định, mang tính biểu đạt cao. Việc lựa chọn các trạng thái cảm xúc rõ
ràng như vậy sẽ tạo thuận lợi cho việc thu thập và phân tích bộ dữ liệu
1.2.
Sơ bộ nghiên cứu về các phương pháp truyền thống
1.2.1. Tổng hợp tiếng nói
Tổng hợp bằng ghép nối là phương pháp lựa chọn từng âm vị trong bộ từ
điển các thành phần tín hiệu cần tổng hợp và ghép nối với nhau để tạo nên từ, câu
1
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
hay đoạn âm thanh của một giọng nói đã được thu âm trước đó. Các đơn vị thành
phần này được cắt ra từ tín hiệu rồi sau đó tổng hợp lại theo văn bản đầu yêu cầu
dựa trên một thuật tốn ghép nối [2], [3]. Phương pháp này có nhược điểm về sự
không đồng nhất giữa các thành phần trong câu về âm lượng, ngắt nghỉ, cảm xúc.
Đặc biệt, phương pháp này chỉ áp dụng được cho một giọng và kích thước lưu trữ
lớn do lượng từ vựng rất nhiều.
Phương pháp mô phỏng bộ máy phát âm cố gắng xây dựng mơ hình mơ
phỏng lại chi tiết hệ thống phát âm của con người với đầy đủ các thành phần, cách
thức tạo ra tiếng nói của con người. Chất lượng của tiếng nói sẽ phụ thuộc vào sự
thành cơng của việc giả lập mô phỏng. Tuy nhiên phương pháp này rất khó có thể
thực hiện được do con người có cấu trúc hệ thống phát âm rất phức tạp.
Phương pháp tổng hợp tần số Formant hay còn gọi là tổng hợp Formant
[4] là kỹ thuật tổng hợp tiếng nói cơ bản nhất, sử dụng lý thuyết mơ hình nguồn
lọc để tạo ra tiếng nói. Hệ thống coi bộ máy phát âm của con người là một tập các
bộ lọc được kết hợp song song, nối tiếp hoặc kết hợp cả hai. Phương pháp này có
ưu điểm là khơng cần sử dùng trực tiếp mẫu giọng thật khi tổng hợp tiếng nói.
Ở Việt Nam, Tổng hợp dựa trên tham số thống kê HMM là phương pháp
được nghiên cứu hiện đại và phổ biến nhất trong giai đoạn trước năm 2018. Tiêu
biểu trong đó là nghiên cứu cơ bản về HMM-based cho tiếng Việt [5], nghiên cứu
về tổng hợp tiếng nói bằng HMM của nhóm tác giả Lương Chi Mai [6], nghiên
cứu về tổng hợp bằng HMM có thêm tham số ngơn điệu [7], nghiên cứu về ảnh
hưởng của MFCC, F0, trong tổng hợp tiếng Việt bằng HMM. Phương pháp này
dựa trên mơ hình Markov ẩn. Trong hệ thống này, tần số cơ bản F0, phổ và thời
lượng của giọng nói đều được mô phỏng cùng lúc bởi HMM. Ưu điểm của phương
pháp này là cần ít bộ nhớ lưu trữ và tài nguyên hệ thống hơn so với tổng hợp ghép
nối, và có thể điều chỉnh tham số để thay đổi ngữ điệu [8]. Tuy nhiên độ tự nhiên
của tiếng nói kém hơn so với tổng hợp ghép nối, âm thanh tổng hợp không tự
nhiên [8].
2
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
1.2.2. Lựa chọn Vocoder
Trước đây, các hệ thống tổng hợp tiếng nói thường xuyên sử dụng WaveNet.
Trong bài báo nghiên cứu về WaveNet, tác giả đã chứng minh mơ hình có khả
năng dự đốn mẫu âm thanh được điều chỉnh dựa trên các mẫu trước đó. Khơng
chỉ thế, trong nghiên cứu của mình NVIDIA cho rằng WaveNet có thể hoạt động
hiệu quả trên dữ liệu với 10000 mẫu mỗi giây [9]. Khi được người dùng thực tế
đánh giá, hệ thống này có khả năng tạo lập âm thanh với các đặc trưng của rất
nhiều giọng khác nhau, ngôn ngữ khác nhau. Ngồi ra WaveNet được phát minh
bởi NVIDIA. Do đó, việc lập trình trên bằng ngơn ngữ torch, huấn luyện mơ hình
trên NVIDIA A100 hay P40 sẽ là lợi thế khi nhà sản xuất có khả năng tối ưu
chương trình trên chính phần cứng của mình.
Năm 2018, tức là sau 1 năm ra mắt WaveNet, NVIDIA đã giới thiệu
WaveGlow [10] – một mạng dựa trên luồng có khả năng tạo ra giọng nói chất
lượng cao từ quang phổ mel. WaveGlow là sự kết hợp từ Glow và WaveNet để sản
sinh âm thanh chất lượng cao nhưng ít tính tốn hơn nhờ sự giảm về kiến trúc
mạng, tham số mơ hình. WaveGlow chỉ bao gồm một mạng duy nhất, được huấn
luyện với duy nhất một hàm chi phí. Độ phức tạp trong tính tốn và lưu trữ được
cải thiện trong WaveGlow.
1.2.3. Tổng hợp tiếng Việt có cảm xúc
Trong thực tế, có rất nhiều thông tin để biểu đạt cảm xúc như các cử chỉ,
hành động, khuôn mặt, … Trong phạm vi nghiên cứu, luận văn chỉ tập trung vào
khả năng biểu đạt cảm xúc từ tiếng nói. Có rất nhiều tham số của tiếng nói ảnh
hưởng trực tiếp đển cảm xúc của ngôn ngữ như: đường bao phổ, thời hạn phát âm,
âm lượng, cấu trúc năng lượng phổ, chất lượng âm thanh, …
Hiện nay, các nghiên cứu về tổng hợp tiếng Việt giọng bình thường đã đạt
được nhiều thành tựu đáng ghi nhận với chất lượng âm thanh tiệm cận tiếng nói tự
nhiên. Trong khi đó, các hệ thống về tổng hợp tiếng Việt có cảm xúc lại chưa có
nhiều cơng trình được cơng bố. Một số cơng bố trong đó được thực hiện kết hợp
nhiều nguồn thơng tin bên ngồi như hình ảnh biểu hiện khn mặt, cử chỉ. Có thể
kể đến như thử nghiệm mơ hình hóa ngơn điệu tiếng Việt với ngữ liệu đa thể thức
nhằm tổng hợp tiếng Việt biểu cảm [5]. Hay nghiên cứu tích hợp hệ thống vào
3
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
trong nhân vật ảo, tương tác giữa người và máy [6]. Trong nghiên cứu này, dữ liệu
được thu với kịch bản gồm 19 câu khác nhau với 5 cảm xúc: bình thường, vui,
buồn, hơi giận và rất giận từ một giọng nam và một giọng nữ.
Trong khuôn khổ đề tài nghiên cứu “Xây dựng bộ ngữ liệu cảm xúc tiếng
Việt”, nhóm nghiên cứu gồm các thầy/cơ Lê Xn Thành, Đặng Thị Thủy, Trịnh
Văn Loan và Nguyễn Hồng Quang trường Trường Đại học Bách Khoa Hà Nội đã
công bố bài báo “Cảm xúc trong tiếng nói và phân tích thống kê ngữ liệu cảm xúc
tiếng Việt” [11]. Đề tài giới thiệu về bộ ngữ liệu BKEmo với đa dạng về cảm xúc
và số lượng người nói, đồng thời trình bày các tham số đặc trưng như tần số cơ bản
F0, năng lượng tiếng nói ảnh hưởng đến cảm xúc trong tiếng nói và phân tích
thống kê sự khác biệt của các cảm xúc theo các tham số đặc trưng đó.
1.3.
Các nghiên cứu trên thế giới
1.3.1.
Tổng hợp tiếng nói
Mơ hình Markov ẩn: Có thể nói các thành cơng ban đầu của tổng hợp tiếng
nói là bắt đầu dựa trên mơ hình Markov ẩn [12], [7], [13]. Hệ thống có thể tổng
hợp âm thanh với một cảm xúc mong muốn thông qua nội suy mơ hình [7] hoặc
bằng cách tổng hợp cụm biểu thức khơng được giám sát trong q trình huấn luyện
[13].
Mơ hình mạng neural: Gắn liền với sự phát triển của trí tuệ nhân tạo, các
mơ hình tổng hợp tiếng nói sử dụng mạng neural được đề xuất. Dần dần, các hệ
thống này thay hoàn toàn các nghiên cứu truyền thống dựa trên mơ hình Markov
ẩn. WaveNet được xem như mơ hình đầu tiên áp dụng phương pháp mới này. Tiếp
theo đó giai đoạn của mơ hình tham số thống kê có sử dụng mạng neural như
DeepVoice [16], DeepVoice 2 [14]. Sau đó là giai đoạn xây dựng mơ hình end-toend. Đây là hệ thống hoàn chỉnh từ đầu đến cuối, gần như khơng có giai đoạn
trung gian. Trong hệ thống này, đầu vào sẽ là nội dung văn bản và đầu ra là file âm
thanh dạng sóng. Có thể kể đến 1 số công bố nổi bật như Tacotron [15], Deep
Voice 3 [16] hay FastSpeech [17] . Đặc điểm của các hệ thống này là âm thanh tạo
ra có chất lượng cao, dễ hiểu và độ tự nhiên gần đạt đến bằng giọng nói con người.
Các q trình tiền xử lý cũng không quá phức tạp như các cách làm truyền thống
khác.
4
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
1.3.2.
Tổng hợp tiếng nói có cảm xúc
1.3.2.1. Global Style Token (GST)
Cùng với sự phát triển của học sâu, các nghiên cứu về tổng hợp tiếng nói
cũng được chứng minh kết quả tốt hơn so với phương pháp mơ hình Markov
truyền thống trong biến đổi cảm xúc. Các nhà nghiên cứu Trung Quốc là người
đầu tiên đề xuất phương pháp tổng hợp tiếng nói bán giám sát mã hóa các vector
phong cách tồn cục (GST) nhằm mục đích hướng tới điều chỉnh dữ liệu có cảm
xúc. Có rất nhiều nghiên cứu xung quanh GST có thể kể đến như [18], [19], [20],
[21], [22] . Các nghiên cứu này đề xây dựng dựa trên kết hợp framework trước đó
về tổng hợp tiếng nói như Tacotron hay Tacotron2 và Style Token biểu diễn loại
cảm xúc. Trong [20] , với chỉ 5% dữ liệu huấn luyện có cảm xúc, hiệu suất ghi
nhận gần bằng với mơ hình thơng thường sử dụng tồn bộ nhãn cảm xúc. Trong
nghiên cứu [19] , tác giả sử dụng giọng của nghệ sĩ nữ người Hàn Quốc với 4 cảm
xúc: vui, buồn, tức giận và bình thường. Tổng quan, có 2668 câu tương ứng 3.5
giờ huấn luyện và 288 câu với 0.4 giờ cho kiểm thử. Cuối cùng, WaveNet được sử
dụng là bộ vocoder để khởi tạo âm thanh dạng sóng từ phổ trên thang đo mel. Kết
quả đánh giá chủ quan 36 câu nói trên thang đo MOS từ 10 người Hàn quốc cho
kết quả tốt ở thời điểm công bố nghiên cứu.
Âm thanh
Vui
Tức giận
Buồn
Tự nhiên
4.68 ± 0.22
4.69 ± 0.22
4.54 ± 0.31
Tổng hợp
3.62 ± 0.35
2.99 ± 0.37
2.66 ± 0.29
Bảng 1-1. Thang đo MOS của hệ thống GST-Tacotron2 trên ngơn ngữ Hàn quốc
1.3.2.2. Mã hố Style Token bằng biểu diễn tiềm ẩn (Latent representation)
Tiếp nối những kết quả đáng mong đợi của mơ hình tổng hợp tiếng nói với
Global Style Token (GST), nghiên cứu “Learning latent representations for style
control and transfer in end-to-end speech synthesis” [23] đã giới thiệu một
phương pháp biểu diễn đặc trưng phong cách và được áp dụng trong kiểm soát và
biến đổi cảm xúc. Để học được các biểu diễn tiềm ẩn của phong cách người nói,
tác giả đề xuất sử dụng mơ hình mạng nhận dạng VAE - Variational AutoEncoder.
Sau đó, các biểu diễn tiềm ẩn này được truyền vào kiến trúc Tacotron2, kiến trúc
5
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
tổng hợp tiếng nói hiện đại trong thời điểm tác giải công bố bài báo. Và cuối cùng,
các hệ thống tổng hợp tiếng nói sẽ khơng thể thiếu bộ Vocoder. Ở trong nghiên
cứu này, WaveNet Vocoder được sử dụng để tái tạo âm thanh dạng sóng từ các
phổ mel-spectrogram. Một trong những hiện tượng phổ biến nhưng vô cùng quan
trọng khi sử dụng kiến trúc VAE là hiện tượng sụp đổ phân kỳ Kullback-Leibler
(KL); hiện tượng hàm mất mát KL hội tụ rất nhanh so với hàm mất mát trong quá
trình tái cấu trúc âm thanh, giá trị này tiến về 0 và khơng tăng trở lại. Vì vậy, tác
giả đã áp dụng một vài phương pháp, thủ thuật để giải quyết vấn đề này. Đó là
phương pháp cộng thêm giá trị trọng số vào KL, giá trị này bằng 0 tại thời điểm
đầu và tăng dần lên trong quá trình huấn luyện. Ngồi ra giá trị hàm mất mát được
tính lại sau một số bước huấn luyện nhất định K. Trong kiến trúc mơ hình đề xuất,
về cơ bản sẽ có những phần tương tự như nghiên cứu ở mục 1.3.2.3 về GST,khác
nhau ở điểm tác giả sử dụng thêm hai lớp Fully Connected riêng rẽ với hàm tuyến
tính sau phần Reference Encoder để tính tốn giá trị trung bình và phương sai của
biến tiềm ẩn z. Giá trị z này sẽ kết hợp cùng nội dung văn bản của câu âm thanh đó
trước khi đi vào bộ mã hóa của kiến trúc Tacotron2. Trong đó z thuộc miền phân
phối Gaussian và giá trị này được suy ra bằng thủ thuật “reparameterization”.
Trong phần thực nghiệm, tác giả sử dụng bộ dữ liệu Blizzard Challenge 2013
với 105 giờ dữ liệu của duy nhất một giọng người Anh với 58453 câu dành cho
huấn luyện và 200 câu cho kiểm thử. Giá trị K bắt đầu với 100 trong 15000 bước
huấn luyện đầu tiên và nâng lên thành 4000 từ sau đó. Đầu tiên để đánh giá hiệu
năng của mơ hình, tác giả vẽ biểu đồ phổ mel của ba câu mẫu do người thật thực
hiện và so sánh chúng với ba câu tổng hợp có cùng nội dung. Hình vẽ trên biểu đồ
cho thấy sự tương đồng giữa các cặp biểu đồ phổ ở cả 3 loại phong cách nói khác
nhau. Ngoài ra tác giả thực hiện trên tham số ABX với cả biến đổi song song và
không song song trong 60 câu lấy ngẫu nhiên từ tập kiểm thử. Kết quả từ kiến trúc
GST là kết quả cơ bản để so sánh. 56 người tham gia đánh giá trong kiểm thử song
song và 57 người trong phần còn lại. Tiêu chí đánh giá sẽ lựa chọn giọng nói gần
với giọng nói mẫu hơn.
6
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
Parallel
Non - Parallel
GST win
24%
21%
Neutral
34%
26%
New model win
42%
53%
Bảng 1-2. Tham số ABX giữa mơ hình GST và mơ hình đề xuất
Kết quả đã chứng minh kết quả tốt của mơ hình đề xuất.
1.3.2.3. Kiểm soát, biến đổi phong cách bằng các mã phong cách
Tháng 3 năm 2018, Yuxuan Wang và các công sự đã công bố nghiên cứu
“Style Token: Unsupervised Style Modeling, Control and Transfer in End-to-end
Speech Synthesis”. Nghiên cứu này đề xuất “global style tokens”, đó là một nhóm
các embedding được huấn luyện cùng với Tacotron – mơ hình hiện đại nhất của hệ
thống tổng hợp tiếng nói thời điểm đó. Mục đích của tác giả là thêm yếu tố biểu
diễn cảm xúc, từ đó kiểm sốt và biến đổi chúng. Các embedding này sẽ không
được đánh nhãn prosody cụ thể nhưng sẽ được học cách mơ hình hóa một loạt biểu
diễn âm thanh. Thay vào đó, bên trong kiến trúc mơ hình, chính nó tạo ra các nhãn
mềm được sử dụng để thực hiện kiểm soát và chuyển đổi, điều đó giúp cải thiện
đáng kể cho tổng hợp cảm xúc. Kiến trúc bao gồm Tacotron, mơ hình dự đốn phổ
mel từ đầu vào là âm vị, tiếp theo đó là bộ Vocoder WaveNet giúp chuyển đổi phổ
mel đó sang âm thanh dạng sóng. Ngồi ra tác giả thêm 3 phần mới: reference
encoder, style attention và style embedding. Phần reference encoder được dùng để
nén prosody của âm thanh độ dài khác nhau vào vector có độ dài cố định, chúng
được gọi là reference embedding. Reference embedding sẽ được truyền qua lớp
Style Token, nơi nó được sử dụng làm vector truy vấn tới một module attention. Ở
đây, module này được sử dụng để học sự tương tự giữa reference embedding với
mỗi token trong một nhóm các embedding được khởi tạo ngẫu nhiên. Chúng chính
là Global Style Token (GST) được sử dụng trong tồn bộ q trình huấn luyện.
Đầu ra của module Attention là một tập hợp các trọng số đại diện cho sự đóng góp
của mỗi mã phong cách đến reference embedding. Các trọng số này được chuyển
đến bộ mã hóa văn bản để điều chỉnh là mọi bước. Lớp Style Token được huấn
luyện cùng lúc với phần cịn lại của mơ hình. Hàm mất mát sẽ được sử dụng cùng
với hàm mất mát của bộ giải mã trong Tacotron, do đó, GSTs không yêu cầu đánh
nhãn rõ ràng phong cách, cảm xúc hay prosody. Trong q trình suy luận, mơ hình
7
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
có thể thực hiện bằng hai cách khác nhau. Các token được điều chỉnh trực tiếp trên
bộ mã hóa văn bản bằng cách điều chỉnh trọng số khai báo, đó là những mã thơng
báo cụ thể, có tỷ lệ tùy chọn. Cách thứ hai, tác giả truyền vào mơ hình các mẫu âm
thanh mang cảm xúc, phong cách mục tiêu mà khơng cần nội dung của các mẫu
âm thanh đó trùng với nội dung văn bản cần tổng hợp. Các mẫu âm thanh này
được tính tốn ra để tìm được cách biến đổi phong cách. Trong phần thực nghiệm,
tác giả sử dụng 147 giờ dữ liệu sách nói được thu bởi diễn viên Catherine Byers
trong 2013 Blizzard Challenge. Đối với chuyển đổi phong cách, tác giả thực hiện
chỉ dựa trên một câu âm thanh mẫu để từ đó mơ hình học được các trọng số lựa
chọn kết hợp token. Có hai loại thí nghiệm được tác giả đề cập là: chuyển đổi
phong cách song song và chuyển đổi phong cách không song song. Với chuyển đổi
phong cách song song, nội dung câu âm thanh mẫu và câu âm thanh khởi tạo sẽ
giống nhau. Tác giả thực hiện so sánh trực quan biểu đồ phổ mel của câu âm thanh
mẫu, kết quả của mơ hình Tacotron độc lập, kết quả của phương pháp điều chỉnh
trọng số trực tiếp và kết quả của phương pháp điều chỉnh GST. Về mặt cảm quan,
GST giống với mẫu âm thanh đầu vào. Thí nghiệm chuyển đổi phong cách không
song song, hệ thống sẽ tổng hợp câu văn bản tùy ý từ duy nhất một câu âm thanh
mẫu đầu vào. Tác giả lựa chọn các câu âm thanh mẫu khác nhau và kiểm tra mức
độ sao chép từng phong cách khi tổng hợp trong bộ đánh giá gồm 60 câu, bao gồm
nhiều cụm từ dài. Kết quả đánh giá chủ quan so sánh với cơ sở là Tacotron. Trong
đó, mỗi dịng hiển thị kết quả của GST với hai câu âm thanh mẫu A, B khác nhau.
P-value được đưa ra cho cả hệ thống xếp hạng theo 3-điểm và 7-điểm.
PREFERENCES (%)
Signal A
Signal B
Base
32.9
33.1
Neutral GST
26.5
40.6
21.9
45
P-VALUE
3-Point
p=0.0552
p=0.0038
7-Point
p=0.0131
p=0.0003
Bảng 1-3. Subject preference (%) và p-values của GST với Tacotron làm cơ sở.
1.3.2.4. Biến đổi Prosody để biến đổi cảm xúc trong câu tổng hợp
Trong thực tế, đầu vào hệ thống duy nhất chỉ có văn bản đơn giản là khơng
đủ để tạo ra một câu nói có cảm xúc biểu đạt tốt. Có rất nhiều yếu tố ảnh hưởng
8
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
đến cảm xúc trong câu nói mà khơng thể gán nhãn hoàn toàn như ngữ điệu, trọng
âm, nhịp điệu và phong cách của người nói; tất cả những yếu tố đó được gọi .
VOICE
single-speaker
single-speaker
single-speaker
single-speaker
multi-speaker
multi-speaker
multi-speaker
multi-speaker
multi-speaker
multi-speaker
MODEL
baseline
tanh-128
baseline
tanh-128
baseline
tanh-128
baseline
tanh-128
baseline
tanh-128
REFERENCE
same speaker
same speaker
unseen speaker
unseen speaker
same speaker
same speaker
same speaker
same speaker
unseen speaker
unseen speaker
MCD
10.63
7.92
11.22
8.89
9.93
6.99
12.37
9.51
11.84
10.87
FFE
53.20%
28.10%
59.60%
38.00%
48.50%
27.50%
64.20%
37.10%
60.00%
41.30%
Subjective
1.611 ± 0.164
1.465 ± 0.132
1.307 ± 0.127
0.871 ± 0.138
1.146 ± 0.246
Bảng 1-4. Tổng hợp điểm số đánh giá chủ quan và khách quan của mơ hình đề
xuất với mơ hình cơ bản
1.3.2.5. Sử dụng mơ hình hình nhận dạng tiếng nói được huấn luyện
trước
Với cách tiếp cận biểu diễn cảm xúc bằng vector one-hot, mơ hình sẽ có một
số giới hạn như khơng thể hoạt động với các cảm xúc chưa nhìn thấy – các cảm
xúc khơng có trong dữ liệu huấn luyện, khơng được định nghĩa trong quá trình
huấn luyện. Một nhược điểm khác như các vector one-hot thường khơng mang q
nhiều thơng tin có ích cho mơ hình. Do đó, nhóm tác giả của nghiên cứu “Seen
and unseen emotional style transfer for voice conversion with a new emotional
speech dataset” [25] đã đưa ra đề xuất về một kiến trúc mơ hình có sử dụng mơ
hình được huấn luyện sẵn để biểu diễn lại các thuộc tính cảm xúc trong câu trên
miền khơng gian khác. Nghiên cứu được gọi tắt là DeepEST và gồm ba phần chính.
Phần 1, tác giả đề xuất sử dụng mơ hình nhận dạng cảm xúc giọng nói (SER) được
huấn luyện trước với bộ dữ liệu lớn, được cơng khai; từ đó mơ hình này có khả
năng mơ hình hố cảm xúc trong các câu đầu vào. Phần 2, tác giả sử dụng kiến
trúc dựa trên framework có sẵn: VAW-GAN. Kết quả của kiến trúc VAW-GAN
này cũng sẽ được coi là nền tảng so sánh khi thực hiện các thí nghiệm. Phần cuối
cùng, tác giả giới thiệu bộ dữ liệu mới được gọi tên là ESD. ESD được là bộ dữ
liệu đa ngôn ngữ: tiếng Anh và tiếng Mandarin với 10 người nói trong từng cảm
xúc; trong đó tương ứng có 50% số giọng là của nam giới và phần còn lại là giọng
nữ. Do đó, mạng DeepEST gồm hai phần khác nhau: mạng tham gia quá trình
9
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep
huấn luyện (VAW-GAN) và mạng đã được huấn luyện từ trước (SER). Mạng SER
được huấn luyện trên tập con của IEMOCAP với bốn loại cảm xúc: bình thường,
buồn, vui và tức giận. Trong kiến trúc VAW-GAN, tác giả sử dụng bộ mã hoá để
mã hoá phổ của âm thanh đầu vào thành các biểu diễn tiểm ẩn. Các biểu diễn này
kết hợp với tần số cơ bản F0 và các biểu diễn đặc trưng cảm xúc trong câu được
tạo ra nhờ mơ hình SER trước khi truyền vào bộ giải mã để tái tạo lại phổ âm
thanh. Ở cuối luồng chương trình, tác giả sử dụng WORLD Vocoder để sản sinh ra
âm thanh dạng sóng. Kết qủa của đề xuất được đánh giá trên phương diện chủ
quan và khách quan.
MOS
Reference
VAW-GAN-EVC
DeepEST
Vui
4.95 ± 0.11
3.23 ± 0.71
3.24 ± 0.72
Buồn
4.88 ± 0.22
2.80 ± 0.55
2.94 ± 0.57
Tức giận
4.87 ± 0.22
3.11 ± 0.57
3.15 ± 0.63
Bảng 1-5. So sánh điểm MOS của: DeepEST, VAW-GAN-EVE và câu thực tế
Ta có thể thấy kết quả của phương pháp này là tốt hơn so với kiến trúc
VAW-GAN-EVC ban đầu trong thang đo MOS. Tiếp theo, với phương diện đánh
giá khách quan, tác giả đưa ra kết quả của phương pháp tính tốn MCD (Melcepstral distortion) để đánh giá độ méo quang phổ giữa phổ mel của âm thanh
được chuyển đổi và âm thanh tạo ra cho hai giọng nam, hai giọng nữ ở cả ba cảm
xúc. Với những cảm xúc vui và buồn, kết quả của mơ hình đưa ra là vượt trội và có
sự tương đồng về kết quả ở cảm xúc tức giận.
MCD
[dB]
Vui
buồn
tức giận
Zero
Effort
6.769
6.306
6.649
Male
VAWGANEVC
4.738
4.284
4.482
DeepEST
Zero
Effort
4.569
4.127
4.564
7.088
8.287
6.69
Female
VAWGANEVC
4.284
5.464
4.204
DeepEST
4.26
4.916
4.451
Bảng 1-6. Độ méo phổ của DeepEST trong giọng nam, nữ với 3 cảm xúc
1.3.2.6. Hướng tiếp cận mới: Reinforcement Learning trong tổng hợp có
cảm xúc.
Đây là hướng tiếp cận mới cho bài toán tổng hợp tiếng nói có cảm xúc giúp
cải thiện chính khả năng phân biệt cảm xúc của mơ hình. Nhóm nghiên cứu đến từ
10
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep do an to nghiep docx 123docz
luan van hay luan van tot nghiep