Thảo
Quốc
2015vềvềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThơng
Thơng và Cơng
TinTin
(ECIT
2015)
HộiHội
Thảo
Quốc
GiaGia
2015
CơngNghệ
NghệThơng
Thơng
(ECIT
2015)
ánh giá hiu nng mt s mơ hình hc máy thng kê
vi vn nhn dng thanh iu ting Vit nói
Nguyn Hng Quang, Trnh Vn Loan
Vin Cơng Ngh Thông Tin và Truyn Thông,
Trng i hc Bách khoa Hà Ni
Email: ,
Abstract— Bài báo xut phng pháp nhn dng thanh iu
ting Vit nói s dng mơ hình K láng ging gn nht KNN (KNearest Neighbor) phân tích khác bit tuyn tính LDA (Linear
Discrimination Analysis), phân tích khác bit toàn phng QDA
(Quadratic Discrimination Analysis), b phân lp h tr véc t
SVC (support vector classifier) và máy h tr véc t SVM
(Support Vector Machine). Theo các nhà ngôn ng hc, thanh
iu ting Vit có c tính siêu on, tn ti trên c âm tit.
Trong nghiên cu này, chúng tôi tin hành th nghim nhn
dng thanh iu theo hai quan im: thanh iu tn ti trên c
âm tit và thanh iu ch tn ti trên phn hu thanh ca âm tit.
Các tham s s dng cho nhn dng thanh iu gm có nng
lng và tn s c bn ca ting nói. nhn dng, các tham s
này c chun hóa theo thi gian. Kt qu c th nghim
trên 6221 t phát âm ri rc ca ting Vit vi 3 ngi nói. Các
th nghim c thc hin theo phng pháp so sánh chéo
(cross-validation). Các kt qu th nghim cho thy quan im
coi thanh iu ch tn ti trên phn hu thanh ca âm tit cho
kt qu nhn dng cao hn so vi quan im coi thanh iu tn
ti trên c âm tit. Ngoài ra, trong các phng pháp nhn dng
c th nghim, phng pháp QDA cho kt qu nhn dng cao
nht.
thanh iu dài). Nh vy nu so sánh vi hai ngôn ng trên thì
ting Vit là ngơn ng có cu trúc thanh iu phc tp nht.
iu này làm cho vic nhn dng thanh iu ting Vit tr nên
khó khn hơn.
Hin nay, các h thng tng hp và nhn dng ting nói
ang c phát trin rt mnh trên th gii. Các h thng này
s óng vai trị quan trng trong vic thc hin tơng tác
ngi-máy (human-machine) hoc tơng tác máy-máy
(machine-to-machine) trong tơng lai. Nghiên cu các h
thng tơng tác nh vy ang c thc hin bc u vi
ting Vit. Vì vy nhn dng thanh iu cho các ngơn ng có
thanh iu trong ó có ting Vit là mt vn quan trng,
mang tính thi s hin nay.
Bên cnh ting Vit, ting ph thông Trung Quc và ting
Thái Lan cng là các ngôn ng có thanh iu. Vi c hai ngơn
ng này, Yang, W. [3], Charnvivit, P. [4] và cng s ã s
dng tn s cơ bn làm tham s s dng cho quá trình nhn
dng thanh iu. Kt qu ca các nghiên cu này cho thy F0
là mt tham s hiu qu khi s dng mơ hình HMM biu
din cho thanh iu.
Trong nhng nm gn ây, ã có mt s cơng trình nghiên
cu nhn dng ting Vit nói trong ó có b sung thông tin v
thanh iu. Lê Vit Bc và cng s [9][12] s dng phơng
pháp thích nghi t mt ngơn ng khơng có thanh iu (ting
Pháp) xây dng mơ hình cho ting Vit. Trong khi ó, V
Hi Qn [10], V Ngc Thng [11] và cng s li b sung tn
s cơ bn F0 nh mt tham s cùng vi các tham s MFCC
dùng làm tham s c trng cho tng khung ting nói.
Mt hng nghiên cu khác là tách ri, thc hin song
song nhn dng âm tit cơ bn (âm tit coi nh khơng có thanh
iu) vi nhn dng thanh iu riêng r. Nguyn Hng Quang
và cng s [14] ã s dng các tham s MFCC, F0 xây
dng mơ hình HMM nhn dng cho thanh iu ting Vit.
Tuy nhiên, cha có nhng kt qu rõ rt c gng th
nghim nhn dng thanh iu ting Vit theo phơng pháp
biu din mi thanh iu bng mt véc tơ tham s, cng nh
nghiên cu nh hng trc tip ca ng cong F0 n kt qu
nhn dng thanh iu. Bài báo này s thc hin nghiên cu
nhng vn trên.
Phn còn li ca bài báo c t chc nh sau:
• Phn II mơ t chi tit c im ca h thng thanh iu
ca ting Vit.
• Phn III phân tích u im và nhc im ca các
phơng pháp nhn dng ã c áp dng: phân tích
khác bit tuyn tính LDA (Linear Discrimination
Keywords- thanh iu ting Vit, nhn dng thanh iu, tn s
c bn F0, phân tích khác bit tuyn tính, phân tích khác bit tồn
phng, K láng ging gn nht, máy h tr véc t.
I.
GII THIU
Khác vi phn ln các ngôn ng trên th gii, ting Vit là
mt trong các ngơn ng có thanh iu. Vi loi ngơn ng này,
ng ngha ca âm tit s thay i khi thay i thanh iu ca
âm tit ó [1]. Hai yu t chính phân bit bao gm cao và
mc bin thiên phc tp ca thanh iu. Các thanh iu
c phân bit vi nhau ch yu qua qui lut bin thiên theo
thi gian ca tn s cơ bn F0. Ting Vit bao gm 6 thanh
iu: thanh ngang, thanh sc, thanh huyn, thanh hi, thanh ngã
và thanh nng. Các thanh iu này có th c phân chia theo
cao : 3 thanh iu cao và 3 thanh iu thp và phân chia theo
t gãy (lut bng-trc): 4 thanh iu bin thiên ơn iu
(thanh bng) và 2 thanh iu t gãy (thanh trc). So vi mt
s ngơn ng có thanh iu khác nh ting ph thơng Trung
Quc (Mandarin) thì Mandarin ch có 4 thanh iu trong ó ch
có 1 thanh iu t gãy [3]. Ting Qung ơng Trung Quc có
ti 9 thanh iu, song tt c các thanh iu này u là các thanh
iu bin thiên ơn iu và phân bit vi nhau 3 cao và
dài ca thanh iu (thanh iu ngn, thanh iu trung bình và
ISBN: 978-604-67-0635-9
342
342
HộiHội
Thảo
Quốc
Gia
vàCơng
CơngNghệ
Nghệ
Thơng
(ECIT
2015)
Thảo
Quốc
Gia2015
2015về
vềĐiện
Điện Tử,
Tử,Truyền
Truyền Thơng
Thơng và
Thơng
TinTin
(ECIT
2015)
Cao
Cao
Thp
Analysis), phân tích khác bit tồn phơng QDA
(Quadratic Discrimination Analysis), K láng ging gn
nht KNN (K-Nearest Neighbor), b phân lp h tr
véc tơ SVC (support vector classifier) và máy h tr
véc tơ SVM (Support Vector Machine).
Phn IV trình bày các kt qu th nghim nhn dng
thanh iu và phân tích ánh giá các kt qu thu c.
Kt lun và hng phát trin c a ra trong phn
V.
•
•
II.
III.
Thanh bng
Thanh ngang
Thanh sc
Thanh huyn
Thanh nng
Thanh trc
Thanh hi
Thanh ngã
CÁC PHƠNG PHÁP TH NGHIM NHN DNG
Trong bài báo này, thc hin nhn dng thanh iu ting
Vit, chúng tôi s dng các phơng pháp: K láng ging gn
nht KNN (K-Nearest Neighbor), phân tích khác bit tuyn
tính LDA (Linear Discrimination Analysis), phân tích khác bit
tồn phơng QDA (Quadratic Discrimination Analysis), s
dng b phân lp h tr véc tơ SVC (support vector classifier)
và máy h tr véc tơ SVM (Support Vector Machine).
Phng pháp phân tích khác bit tuyn tính LDA:
Gi s các i tng thuc vào K lp. k là xác sut tiên
nghim mt i tng n t lp th k. = =
| = là hàm mt xác sut i tng X ly giá tr x
khi ang lp th k, gi nh là hàm chun Gauss nhiu
bin (phơng trình 1).
C IM THANH IU CA TING VIT
Trong phơng ng Bc ca ting Vit (c coi là phơng
ng chun ca Vit Nam) có 6 thanh iu khác nhau: ngang,
huyn, sc, nng, hi, ngã. Các thanh iu này thng c
các nhà ngôn ng hc phân bit vi nhau thông qua ng biu
din tn s cơ bn F0 ca thanh iu (Hình 1). Trong cách vit,
mi thanh iu c biu din bng mt du c bit, tr thanh
ngang là khơng có du hiu quy c.
Nu các âm tit kt thúc bng các ph âm tc /t/ và /p/ thì
các âm tit ó ch có th i vi thanh sc hoc thanh nng. Vì
vy mt s nhà nghiên cu [1] coi ting Vit là h thng bao
gm 8 thanh iu: trong ó thanh sc và thanh nng c coi
nh có 2 bin th (trong các âm tit kt thúc hoc không kt
thúc bng /t/ hoc /p/). Trong bài báo này, ơn gin, chúng
tôi gi nh ting Vit ch có 6 thanh iu chun nh cách biu
din trong vn phong ting Vit.
=
/ ||/
− − Σ − (1)
nh lý Bayes cho phép tính xác sut hu nghim i tng
thuc vào lp k khi có giá tr bng x c mơ t phơng trình
2.
2
= | = =
i tng c nhn dng vào lp có giá tr xác sut hu
nghim ln nht (phơng trình 2) s tơng ng vi lp này.
Vi phơng pháp phân tích s khác bit tuyn tính LDA,
gi s mi lp có riêng giá tr k vng µ k song tt c các lp
u có chung ma trn hip phơng sai Σ. Thc hin ly logarit
phơng trình (4) s thu c phơng trình (3).
= Σ − Σ + (3)
Trong phơng trình (5), c gi là hàm phân bit
(discriminant function). Vì là hàm tuyn tính ca x nên
phơng pháp này c gi là LDA. Các tham s µ k và Σk c
xác nh da trên s c lng tham s t b d liu hun
luyn.
Phân tích khác bit tồn phng QDA:
Vi phơng pháp này, gi s mi lp s có mt ma trn
hip phơng sai riêng Σ, khi ó hàm phân bit s c biu
din bng phơng trình 4.
Hình 1. ng cong tn s c bn F0 biu din cho thanh
iu ca ging n thuc phng ng Bc Vit Nam [5]
Theo các nhà ngơn ng hc, có th phân loi các thanh iu
theo mt s tiêu chí. Tiêu chí phân loi u tiên là cao ca
thanh iu: các thanh ngang, thanh sc, thanh hi c coi
mc cao, trong khi ó các thanh huyn, thanh nng, thanh ngã
c coi mc thp. Tiêu chí phân loi th hai là theo lut
bng-trc, tc là mc t gãy trong ng biu din F0 ca
thanh iu. Các thanh ngang, thanh sc, thanh huyn, thanh
nng c coi là thanh bng và thanh hi, thanh ngã c coi
là thanh trc. Chi tit v phân loi các thanh iu ting Vit
c mô t bng 1.
Bng 1. Phân loi thanh iu theo cao và theo lut
bng-trc.
= − Σ + Σ − Σ − Σ +
(4)
Các tham s and Σ trong các phơng trình (3) và (4) s
c xác nh trong quá trình hun luyn da vào các d liu
hun luyn.
K láng ging gn nht KNN:
Vi mi i tng x trong tp th nghim, tính giá tr ()
theo phơng trình 5.
() = Σ ∈ () (5)
343
343
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
áp dng SVM cho bài toán phân lp nhiu mu, phơng
pháp c s dng là one-versus-one: xây dng b phân
2
lp cho tng cp lp. Mi mu th nghim s c a qua tt
c các b phân lp này. Lp nào chim a s s c coi là kt
qu nhn dng.
Nhn xét:
Trong ba phơng pháp u tiên, phơng pháp QDA thc
hin phân bit gia các lp thơng qua biên gii phân lp tuyn
tính, nh vy là biên gii phân lp tơng i thô vi các b d
liu phc tp. Trong khi ó vi phơng pháp KNN, kt qu
nhn dng li quá ph thuc vào mt s mu nht nh (K mu)
xung quanh mu cn nhn dng. Do ó phơng pháp KNN cho
kt qu rt dao ng theo b d liu. Phơng pháp QDA là mt
ci tin ca phơng pháp LDA, phơng pháp này cho phép to
ra biên gii phân lp phi tuyn, nh vy cho phép nhn dng
các mu mm do hơn.
Các phơng pháp trên ã s dng toàn b d liu hun
luyn xây dng biên gii phân lp. Trong khi ó, phơng
pháp SVM ch s dng các véc tơ h tr quyt nh biên
gii phân lp. Phơng pháp s dng b phân lp h tr véc tơ
ch s dng biên gii phân lp tuyn tính, trong khi ó phơng
pháp SVM li cho phép xây dng biên gii phi tuyn, vi s
m rng s lng tham s ln. Trên cơ s nhn xét trên, chúng
tôi hy vng phơng pháp QDA và SVM s cho kt qu nhn
dng tt nht. Các th nghim nhn dng thanh iu cho ting
Vit c trình bày phn tip theo.
Trong phơng trình 5, () là láng ging ca x, bao gm
K im gn x nht trong tp hun luyn, là trng s ca im
trong tp hun luyn xi. i tng x c nhn dng vào lp L
nu () t giá tr ln nht khi so sánh vi các giá tr ().
B phân lp phân tách tuyn tính vi l cc i (maximal
margin classifier):
L cc i c xác nh nh sau: vi mi mu trong tp
hun luyn, tính khong cách trc giao n biên gii phân lp;
l là khong cách trc giao ti thiu tìm c. B phân lp này
chn biên gii phân lp có l t giá tr ln nht, ngha là biên
gii phân lp phân bit tt nht các mu trong tp hun luyn.
Các véc tơ nm trên l c gi là các véc tơ h tr (support
vector).
B phân lp h tr véc t SVC:
Phơng pháp này là s m rng ca b phân lp phân tách
tuyn tính vi l cc i (maximal margin classifier), cho phép
phân lp vi các lp không th phân tách bng mt biên gii
tuyn tính [2]. Phơng pháp này s tìm biên gii phân lp phù
hp nht vi a s các mu, và chp nhn mt s mu hun
luyn b phân lp sai (c iu chnh bng tham s C –
phơng trình 7).
Máy h tr véc t SVM:
Phơng pháp SVC ch có kh nng tìm c biên gii phân
lp tuyn tính. Trong khi ó biên gii phân lp tuyn tính li
khơng phù hp vi mt s d liu c th. vn có th s
dng biên gii phân lp tuyn tính, mt phơng pháp c
xut là m rng s tham s biu din i tng da trên các
tham s ã có. SVM là phơng pháp cho phép thc hin hiu
qu s m rng này vi mc tính tốn hp lý.
Xét bài toán s dng SVM phân chia các mu thành 2
lp. Gi s tp hun luyn bao gm N mu xi, i=1, 2,…, N. Các
mu này c phân vào lp yi, i=1, 2, …, N; các giá tr y ch
ly -1 hoc 1. Biên gii phân lp c biu din bng v trái
ca phơng trình 6.
() = +
(, ) (6)
Thc cht a phn các giá tr αi u bng 0, ch tr nhng
giá tr αi ca các véc tơ h tr. Các giá tr này b gii hn theo
phơng trình 7.
0 ≤ ≤ , = 1, 2, … , (7)
C là giá tr cho phép các mu b vi phm. Khi C càng nh
thì l s càng rng, và ngc li khi C càng ln thì l s càng
hp.
K là hàm kernel ca h thng, vi b phân lp h tr véc tơ
SVC thì K c tính theo phơng trình 8.
K(u, v) = uTv (8)
Vi SVM, hàm K c s dng bin i khơng gian
tham s, và c tính theo phơng trình 9.
K(u, v) = exp{-|u-v|2} (9)
Khi ó gii thut thc hin tìm các giá tr 0 và αi theo
phơng trình 10.
min
1 − ( ) + (10)
,
IV.
NHN DNG THANH IU CA TING VIT
C s d liu ting Vit nói:
u tiên, chúng tơi xây dng tt c các t ơn âm tit ca
ting Vit nói. ây là các t c s dng trong ngơn ng giao
tip thng ngày. Có tng cng 6221 t ã c tp hp. Phân
b thanh iu trong cơ s d liu c mô t trong bng 2.
Bng 2. Phân b thanh iu trong c s d liu ting
nói.
Thanh iu
Thanh ngang
Thanh huyn
Thanh sc
Thanh nng
Thanh hi
Thanh ngã
Tng cng
Tng s t
1257
1022
1591
1203
706
442
6221
Trong cơ s d liu, có 3 ging nam u n t phơng
ng Bc, có tui t 22 n 24 tui. Mi ngi c yêu cu
phát âm mi t mt ln. Ting nói c thu âm trong phịng
làm vic bình thng, vi tn s ly mu 16KHz, ơn kênh, 16
bit/mu. Nh vy tng s file trong cơ s d liu là 18663 file.
Phng pháp nhn dng:
Phơng pháp so sánh chéo (cross-validation) c áp dng
th nghim nhn dng thanh iu. Mi th nghim c
thc hin ba ln: vi mi ln thì d liu ca 1 trong 3 ngi nói
c s dng làm d liu th nghim, trong khi ó d liu ca
hai ngi còn li c s dng hun luyn h thng. Kt
qu ca th nghim là trung bình cng các kt qu ca ba th
nghim. Các th nghim c thc hin s dng các phơng
vi K là ma trn NxN tính trên tt c các cp mu s dng
trong quá trình hun luyn.
Q trình phân lp c thc hin tính hàm f (phơng trình
6) trên mu cn th nghim. Tùy vào du ca hàm f mà mu
th nghim s c phân vào 1 trong 2 lp.
344
344
HộiHội
Thảo
Quốc
Gia
vàCông
CôngNghệ
Nghệ
Thông
(ECIT
2015)
Thảo
Quốc
Gia2015
2015về
vềĐiện
Điện Tử,
Tử,Truyền
Truyền Thông
Thông và
Thông
TinTin
(ECIT
2015)
pháp nhn dng LDA, QDA và KNN. Mi phơng pháp c
thc hin 2 th nghim: mt th nghim vi quan im coi
thanh iu tn ti trên c âm tit và th nghim th hai c
thc hin trên quan im coi thanh iu ch nm trên phn hu
thanh ca âm tit.
Biu din tham s cho mi thanh iu:
Hai tham s c s dng là tn s cơ bn F0 và nng
lng thi gian ngn E. Khong thi gian tính tốn là s
dng ca s có rng 100 miligiây, dch ca ca s là 10
miligiây. Phơng pháp t tơng quan AC (auto-correlation)
c s dng xác nh tn s cơ bn F0. Do trong ting nói,
ch các on hu thanh mi có tn s F0, vì vy nhng on tín
hiu khơng tính c F0 thì c coi nh các on vơ thanh.
tin hành chun hóa các giá tr tn s cơ bn F0 và nng
lng E theo thi gian, vi mi thanh iu chiu dài tn ti ca
thanh iu c chia thành N phn. Ti mi im chia s xác
nh tn s F0 và nng lng tơng ng. Nh vy mi âm th
hin cho mt thanh iu s c biu din bng mt véc tơ
tham s có N thành phn. Các giá tr N c th nghim trong
bài báo là t 2 n 10. Các kt qu th nghim c mô t
phn V.
Trong bài báo này, chúng tôi th nghim hai quan im v
cu trúc ca thanh iu trong âm tit ting Vit. Quan im th
nht coi thanh iu nm trên toàn b âm tit, trong khi ó quan
im th hai coi thanh iu ch tn ti trong phn hu thanh
ca âm tit. Vi quan im th hai, phn hu thanh s c
chúng tôi xác nh là phn có tn s cơ bn F0 trong âm tit.
Còn th nghim theo quan im u tiên, nhng phn vô
thanh trong âm tit (thng là phn u và phn cui âm tit)
khơng có tn s cơ bn F0 s c ni suy tuyn tính F0 t các
giá tr F0 ã có.
V.
pháp QDA (các kt qu trên ct LDA nh hơn so vi các kt
qu trên ct QDA tơng ng). Ngoài ra phơng pháp coi thanh
iu ch tn ti trên phn hu thanh ca âm tit cng cho kt
qu tt hơn so vi phơng pháp coi thanh iu tn ti trên c
âm tit. Các kt qu tt nht t c vi s thành phn chun
hóa N = 5. Giá tr này c s dng cho th nghim nhn dng
thanh iu theo phơng pháp KNN, SVC và SVM.
S dng phng pháp KNN:
th nghim phơng pháp KNN, mt tham s cn xác
nh chính là s láng ging K s dng xác nh kt qu cho
tng mu th nghim. Các giá tr K c th nghim bao gm
t 1 n 40. Th nghim c thc hin vi phơng pháp
KNN và quan im coi thanh iu tn ti trên tồn b âm tit.
Kt qu c mơ t trên hình 2.
Hình 2. Kt qu nhn dng thanh iu theo phng
pháp KNN vi các giá tr K t 1 n 40.
Hình 2 cho chúng ta thy kt qu nhn dng tt nht t
c ti K=15. Giá tr K này c s dng cho th nghim
nhn dng thanh iu vi các thành phn chun hóa thanh iu
theo thi gian N khác nhau. Kt qu thu c mô t trong bng
4.
Bng 4. Kt qu nhn dng thanh iu úng (t l phn
trm) s dng phng pháp KNN.
KT QU NHN DNG THANH IU CA TING
VIT
S dng phng pháp LDA và QDA:
Kt qu th nghim vi phơng pháp LDA và QDA c
mô t bng 3 vi quan im thanh iu tn ti trên c âm tit
và vi quan im thanh iu ch tn ti trên phn hu thanh
ca âm tit. Trong bng 3, N là s thành phn chun hóa theo
thi gian ca mi th hin ca thanh iu.
Bng 3. Kt qu nhn dng thanh iu úng (t l phn
trm) s dng phng pháp LDA và QDA.
S thành
phn
chun
hóa N
2
3
4
5
6
7
8
9
10
Thanh iu tn ti
trên tồn b âm tit
LDA
39.03
39.86
39.04
39.27
38.43
37.36
37.55
37.71
37.44
QDA
40.66
40.61
49.20
47.94
47.46
47.38
46.92
46.27
45.20
S thành
phn chun
hóa N
2
3
4
5
6
7
8
9
10
Thanh iu ch tn
ti trên phn hu
thanh ca âm tit
LDA
QDA
36.03
39.50
42.86
45.11
46.57
50.88
48.33
51.88
47.75
51.50
47.79
51.17
48.28
51.28
48.30
50.39
48.15
49.22
Thanh iu tn
ti trên toàn b
âm tit
36.77
38.69
46.63
47.32
47.36
47.69
47.02
47.16
47.25
Thanh iu ch tn
ti trên phn hu
thanh ca âm tit
37.71
42.42
47.97
48.96
49.07
48.94
49.09
49.29
48.87
Kt qu bng 4 cho thy vi phơng pháp KNN, kt qu
tt nht vi trng hp thanh iu tn ti trên toàn b âm tit
và trng hp thanh iu ch tn ti trên phn hu thanh ca
âm tit tơng ng vi s thành phn chun hóa N=7 và N=9.
S dng phng pháp SVC và SVM:
Mt tham s chung quyt nh n t l nhn dng úng
ca hai phơng pháp này là C (phơng trình 7). Ngồi ra vi
SVM tham s (phơng trình 9) cng quyt nh n kt qu
nhn dng. Bng 5 mô t kt qu nhn dng ca hai phơng
pháp vi các giá tr khác nhau ca C và . Th nghim c
Kt qu trên bng 3 cho thy phơng pháp LDA cho kt
qu nhn dng chính xác thanh iu kém hơn so vi phơng
345
345
HộiHội
Thảo
Quốc
Gia
2015
và Cơng
CơngNghệ
NghệThơng
Thơng
(ECIT
2015)
Thảo
Quốc
Gia
2015về
vềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThơng
Thơng và
TinTin
(ECIT
2015)
thc hin s thành phn chun hóa ca thanh iu N = 5 và
quan im coi thanh iu tn ti trên toàn b âm tit
trên toàn b âm tit, và LDA_2, QDA_2, KNN_2, SVC_2,
SVM_2 là ca phơng pháp coi thanh iu ch tn ti trên phn
hu thanh ca âm tit.
Hình 3 cho thy vi s thành phn chun hóa N thp (N=2
và N=3), kt qu nhn dng thanh iu kém nht. Trong các
thành phn N cịn li thì kt qu không thc s khác bit nhiu.
Các kt qu nhn dng thanh iu tt nht thc hin trong
bài báo c mô t bng 7.
Bng 7. Tng kt các kt qu nhn dng thanh iu ca
ting Vit nói.
Bng 5. Kt qu nhn dng thanh iu úng (t l phn
trm) s dng phng pháp SVC và SVM vi s thành
phn chia thanh iu N=5.
Phng pháp
SVC
SVM, =0.5
SVM, =1
SVM, =2
0.1
43.52
39.46
29.96
25.80
Giá tr C
1
43.53
43.82
40.60
34.35
10
43.51
42.33
40.72
35.16
Phng
pháp nhn
dng
LDA
KNN
QDA
SVC
SVM
Bng 5 cho thy phơng pháp SVC cho kt qu tt nht vi
C=1, và phơng pháp SVM cho kt qu tt nht vi C=1 và
=1. Các giá tr này c s dng cho th nghim trên tt c
các phn chia thanh iu. Kt qu th nghim c mô t
bng 6.
Bng 6. Kt qu nhn dng thanh iu úng (t l phn
trm) s dng phng pháp SVC và SVM.
S thành
phn
chun
hóa N
2
3
4
5
6
7
8
9
10
Thanh iu tn ti
trên toàn b âm tit
SVC
41.01
41.34
41.60
43.52
41.79
41.21
41.36
40.95
40.98
SVM
40.29
36.63
45.52
43.82
43.75
42.16
40.00
38.98
38.18
Thanh iu nm
trên toàn b âm
tit
39.86
47.69
49.20
43.52
45.52
Thanh iu ch nm
trên phn hu thanh
ca âm tit
48.33
49.29
51.88
51.86
51.23
Các kt qu th nghim cho thy quan im coi thanh iu
ch tn ti trên phn hu thanh ca âm tit cho kt qu nhn
dng cao hơn so vi quan im coi thanh iu tn ti trên c
âm tit. Ngoài ra, trong các phơng pháp nhn dng c th
nghim, phơng pháp QDA cho kt qu nhn dng cao nht.
Thanh iu ch tn
ti trên phn hu
thanh ca âm tit
SVC
SVM
41.36
44.04
44.23
45.17
50.33
51.23
51.34
50.52
50.50
50.17
51.52
49.43
48.70
51.86
51.26
47.75
51.55
46.96
VI.
KT LUN
Bài báo ã xut phơng pháp nhn dng thanh iu ca
ting Vit nói s dng mơ hình phân tích khác bit tuyn tính
LDA (Linear Discrimination Analysis), phân tích khác bit
tồn phơng QDA (Quadratic Discrimination Analysis), K láng
ging gn nht KNN (K-Nearest Neighbor), b phân lp h tr
véc tơ SVC (support vector classifier) và máy h tr véc tơ
SVM (Support Vector Machine). Các th nghim nhn dng
thanh iu c tin hành theo hai quan im: thanh iu tn
ti trên c âm tit và thanh iu ch tn ti trên phn hu thanh
ca âm tit. Các kt qu th nghim cho thy quan im coi
thanh iu ch tn ti trên phn hu thanh ca âm tit cho kt
qu nhn dng cao hơn so vi quan im coi thanh iu tn ti
trên c âm tit. Ngoài ra, trong các phơng pháp nhn dng
c th nghim, phơng pháp QDA cho kt qu nhn dng
cao nht.
Hng nghiên cu tip theo s là áp dng phơng pháp
mng nơ ron và hc sâu. Ngồi ra có th kt hp tiêu chí phân
loi thanh iu nh phân loi theo cao hay theo lut bngtrc trong nhn dng thanh iu. K thut nhn dng thanh iu
cng s c áp dng trong nghiên cu ca chúng tôi v nhn
dng và tng hp ting Vit nói.
TÀI LIU THAM KHO
Hình 3. Kt qu nhn dng thanh iu theo s thành
phn chun hóa theo thi gian N.
[1]
[2]
ánh giá nh hng ca s thành phn chun hóa N n
kt qu nhn dng thanh iu, chúng tôi biu din kt qu ca
các phơng pháp nhn dng theo s thành phn chun hóa N
nh trong hình 3. Trong hình này, LDA_1, QDA_1, KNN_1,
SVC_1, SVM1 là kt qu ca phơng pháp coi thanh iu nm
[3]
346
346
oàn Thin Thut, “Ng âm ting Vit”, Nhà xut bn Giáo dc, Hà
Ni, 1997.
Trevor Hastie, Robert Tibshirani, Jerome Friedman, “The Elements of
Statistical Learning, Data Mining, Inference, and Prediction ”, Springer,
USA 2014.
Yang, W.-J. & Lee, J.-C. & Chang, Y.-C. & Wang, H.-C. ”Hidden
Markov model for Mandarin lexical tone recognition”, Acoustics,
Speech and Signal Processing, IEEE Transactions on (Volume:36 ,
Issue: 7 ), 2002
HộiHội
Thảo
Quốc
Gia
2015
vàCông
CôngNghệ
Nghệ
Thông
(ECIT
2015)
Thảo
Quốc
Gia
2015về
vềĐiện
Điện Tử,
Tử,Truyền
Truyền Thông
Thông và
Thông
TinTin
(ECIT
2015)
[11] Ngoc, Thang V. & Schultz, T. ”Vietnamese large vocabulary continuous
speech recognition”, Automatic Speech Recognition & Understanding,
2009
[12] Viet Bac Le & Besacier, L. ”Automatic Speech Recognition for UnderResourced Languages: Application to Vietnamese Language”, Audio,
Speech, and Language Processing, IEEE Transactions on (Volume:17 ,
Issue: 8 ), 2009
[13] Davis, S.; Mermelstein, P. ”Comparison of parametric representations
for monosyllabic word recognition in continuously spoken sentences”,
IEEE Trans. Acoust., Speech, Signal Processing, vol. 28, pp. 357-366,
1980.
[14] Hong Quang Nguyen; Nocera, P.; Castelli, E.; Van Loan, T., ”Tone
recognition of Vietnamese continuous speech using hidden Markov
model”, Communications and Electronics, 2008. HUT-ICCE 2008.
Second International Conference on , vol., no., pp.235,239, 4-6 June
2008.
[4]
Charnvivit, P. & Jitapunkul, S. & Ahkuputra, V & Maneenoi, E &
Thathong, U. & Thampanitchawong, B. ”F0 Feature Extraction by
Polynomial Regression Function for Monosyllabic Thai Tone
Recognition”, INTERSPEECH, 2001.
[5] Brunelle, M. ”Coarticulation effects in northern Vietnamese tones”,
Proceedings of the 15th International Conference of Phonetic Sciences,
2003.
[6] Michaud, A. ”Final Consonants and Glottalization: New Perspectives
from Hanoi Vietnamese”, 2004.
[7] Pham, H. ”Vietnamese Tone – A New Analysis”, New York: Routledge,
ISBN 0-415-96762-7, 2003.
[8] Chu, Mai N. ”Cơ s ngôn ng hc và ting Vit”, Vietnam Education
Publishing House, 1997.
[9] Viet Bac Le & Besacier, L. ”First steps in fast acoustic modeling for a
new target language: Application to Vietnamese”, ICASSP 2005
[10] Quan, V. & Kris, D. & Dirk, V. ”Vietnamese Automatic Speech
Recognition: The FLaVoR Approach”, Chinese Spoken Language
Processing Lecture Notes in Computer Science Volume 4274, 2006.
347
347