Tải bản đầy đủ (.pdf) (6 trang)

Đánh giá hiệu năng một số mô hình học máy thống kê với vấn đề nhận dạng thanh điệu tiếng Việt nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (465.89 KB, 6 trang )

Thảo
Quốc
2015vềvềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThơng
Thơng và Cơng
TinTin
(ECIT
2015)
HộiHội
Thảo
Quốc
GiaGia
2015
CơngNghệ
NghệThơng
Thơng
(ECIT
2015)

ánh giá hiu nng mt s mơ hình hc máy thng kê
vi vn  nhn dng thanh iu ting Vit nói
Nguyn Hng Quang, Trnh Vn Loan
Vin Cơng Ngh Thông Tin và Truyn Thông,
Trng i hc Bách khoa Hà Ni
Email: ,
Abstract— Bài báo  xut phng pháp nhn dng thanh iu
ting Vit nói s dng mơ hình K láng ging gn nht KNN (KNearest Neighbor) phân tích khác bit tuyn tính LDA (Linear
Discrimination Analysis), phân tích khác bit toàn phng QDA
(Quadratic Discrimination Analysis), b phân lp h tr véc t


SVC (support vector classifier) và máy h tr véc t SVM
(Support Vector Machine). Theo các nhà ngôn ng hc, thanh
iu ting Vit có c tính siêu on, tn ti trên c âm tit.
Trong nghiên cu này, chúng tôi tin hành th nghim nhn
dng thanh iu theo hai quan im: thanh iu tn ti trên c
âm tit và thanh iu ch tn ti trên phn hu thanh ca âm tit.
Các tham s s dng cho nhn dng thanh iu gm có nng
lng và tn s c bn ca ting nói.  nhn dng, các tham s
này c chun hóa theo thi gian. Kt qu c th nghim
trên 6221 t phát âm ri rc ca ting Vit vi 3 ngi nói. Các
th nghim c thc hin theo phng pháp so sánh chéo
(cross-validation). Các kt qu th nghim cho thy quan im
coi thanh iu ch tn ti trên phn hu thanh ca âm tit cho
kt qu nhn dng cao hn so vi quan im coi thanh iu tn
ti trên c âm tit. Ngoài ra, trong các phng pháp nhn dng
c th nghim, phng pháp QDA cho kt qu nhn dng cao
nht.

thanh iu dài). Nh vy nu so sánh vi hai ngôn ng trên thì
ting Vit là ngơn ng có cu trúc thanh iu phc tp nht.
iu này làm cho vic nhn dng thanh iu ting Vit tr nên
khó khn hơn.
Hin nay, các h thng tng hp và nhn dng ting nói
ang c phát trin rt mnh trên th gii. Các h thng này
s óng vai trị quan trng trong vic thc hin tơng tác
ngi-máy (human-machine) hoc tơng tác máy-máy
(machine-to-machine) trong tơng lai. Nghiên cu các h
thng tơng tác nh vy ang c thc hin bc u vi
ting Vit. Vì vy nhn dng thanh iu cho các ngơn ng có
thanh iu trong ó có ting Vit là mt vn  quan trng,

mang tính thi s hin nay.
Bên cnh ting Vit, ting ph thông Trung Quc và ting
Thái Lan cng là các ngôn ng có thanh iu. Vi c hai ngơn
ng này, Yang, W. [3], Charnvivit, P. [4] và cng s ã s
dng tn s cơ bn  làm tham s s dng cho quá trình nhn
dng thanh iu. Kt qu ca các nghiên cu này cho thy F0
là mt tham s hiu qu khi s dng mơ hình HMM  biu
din cho thanh iu.
Trong nhng nm gn ây, ã có mt s cơng trình nghiên
cu nhn dng ting Vit nói trong ó có b sung thông tin v
thanh iu. Lê Vit Bc và cng s [9][12] s dng phơng
pháp thích nghi t mt ngơn ng khơng có thanh iu (ting
Pháp)  xây dng mơ hình cho ting Vit. Trong khi ó, V
Hi Qn [10], V Ngc Thng [11] và cng s li b sung tn
s cơ bn F0 nh mt tham s cùng vi các tham s MFCC 
dùng làm tham s c trng cho tng khung ting nói.
Mt hng nghiên cu khác là tách ri, thc hin song
song nhn dng âm tit cơ bn (âm tit coi nh khơng có thanh
iu) vi nhn dng thanh iu riêng r. Nguyn Hng Quang
và cng s [14] ã s dng các tham s MFCC, F0  xây
dng mơ hình HMM nhn dng cho thanh iu ting Vit.
Tuy nhiên, cha có nhng kt qu rõ rt  c gng th
nghim nhn dng thanh iu ting Vit theo phơng pháp
biu din mi thanh iu bng mt véc tơ tham s, cng nh
nghiên cu nh hng trc tip ca ng cong F0 n kt qu
nhn dng thanh iu. Bài báo này s thc hin nghiên cu
nhng vn  trên.
Phn còn li ca bài báo c t chc nh sau:
• Phn II mơ t chi tit c im ca h thng thanh iu
ca ting Vit.

• Phn III phân tích u im và nhc im ca các
phơng pháp nhn dng ã c áp dng: phân tích
khác bit tuyn tính LDA (Linear Discrimination

Keywords- thanh iu ting Vit, nhn dng thanh iu, tn s
c bn F0, phân tích khác bit tuyn tính, phân tích khác bit tồn
phng, K láng ging gn nht, máy h tr véc t.

I.

GII THIU

Khác vi phn ln các ngôn ng trên th gii, ting Vit là
mt trong các ngơn ng có thanh iu. Vi loi ngơn ng này,
ng ngha ca âm tit s thay i khi thay i thanh iu ca
âm tit ó [1]. Hai yu t chính  phân bit bao gm cao  và
mc  bin thiên phc tp ca thanh iu. Các thanh iu
c phân bit vi nhau ch yu qua qui lut bin thiên theo
thi gian ca tn s cơ bn F0. Ting Vit bao gm 6 thanh
iu: thanh ngang, thanh sc, thanh huyn, thanh hi, thanh ngã
và thanh nng. Các thanh iu này có th c phân chia theo
cao : 3 thanh iu cao và 3 thanh iu thp và phân chia theo
 t gãy (lut bng-trc): 4 thanh iu bin thiên ơn iu
(thanh bng) và 2 thanh iu t gãy (thanh trc). So vi mt
s ngơn ng có thanh iu khác nh ting ph thơng Trung
Quc (Mandarin) thì Mandarin ch có 4 thanh iu trong ó ch
có 1 thanh iu t gãy [3]. Ting Qung ơng Trung Quc có
ti 9 thanh iu, song tt c các thanh iu này u là các thanh
iu bin thiên ơn iu và phân bit vi nhau  3 cao  và 
dài ca thanh iu (thanh iu ngn, thanh iu trung bình và


ISBN: 978-604-67-0635-9

342
342


HộiHội
Thảo
Quốc
Gia
vàCơng
CơngNghệ
Nghệ
Thơng
(ECIT
2015)
Thảo
Quốc
Gia2015
2015về
vềĐiện
Điện Tử,
Tử,Truyền
Truyền Thơng
Thơng và
Thơng
TinTin
(ECIT
2015)

Cao 
Cao
Thp

Analysis), phân tích khác bit tồn phơng QDA
(Quadratic Discrimination Analysis), K láng ging gn
nht KNN (K-Nearest Neighbor), b phân lp h tr
véc tơ SVC (support vector classifier) và máy h tr
véc tơ SVM (Support Vector Machine).
Phn IV trình bày các kt qu th nghim nhn dng
thanh iu và phân tích ánh giá các kt qu thu c.
Kt lun và hng phát trin c a ra trong phn
V.



II.

III.

Thanh bng
Thanh ngang
Thanh sc
Thanh huyn
Thanh nng

Thanh trc
Thanh hi
Thanh ngã


CÁC PHƠNG PHÁP TH NGHIM NHN DNG

Trong bài báo này,  thc hin nhn dng thanh iu ting
Vit, chúng tôi s dng các phơng pháp: K láng ging gn
nht KNN (K-Nearest Neighbor), phân tích khác bit tuyn
tính LDA (Linear Discrimination Analysis), phân tích khác bit
tồn phơng QDA (Quadratic Discrimination Analysis), s
dng b phân lp h tr véc tơ SVC (support vector classifier)
và máy h tr véc tơ SVM (Support Vector Machine).
Phng pháp phân tích khác bit tuyn tính LDA:
Gi s các i tng thuc vào K lp. k là xác sut tiên
nghim  mt i tng n t lp th k.  =   =
| =  là hàm mt  xác sut  i tng X ly giá tr x
khi ang  lp th k, gi nh  là hàm chun Gauss nhiu
bin (phơng trình 1).

C IM THANH IU CA TING VIT

Trong phơng ng Bc ca ting Vit (c coi là phơng
ng chun ca Vit Nam) có 6 thanh iu khác nhau: ngang,
huyn, sc, nng, hi, ngã. Các thanh iu này thng c
các nhà ngôn ng hc phân bit vi nhau thông qua ng biu
din tn s cơ bn F0 ca thanh iu (Hình 1). Trong cách vit,
mi thanh iu c biu din bng mt du c bit, tr thanh
ngang là khơng có du hiu quy c.
Nu các âm tit kt thúc bng các ph âm tc /t/ và /p/ thì
các âm tit ó ch có th i vi thanh sc hoc thanh nng. Vì
vy mt s nhà nghiên cu [1] coi ting Vit là h thng bao
gm 8 thanh iu: trong ó thanh sc và thanh nng c coi
nh có 2 bin th (trong các âm tit kt thúc hoc không kt

thúc bng /t/ hoc /p/). Trong bài báo này,  ơn gin, chúng
tôi gi nh ting Vit ch có 6 thanh iu chun nh cách biu
din trong vn phong ting Vit.

 =



/ ||/



 −  −  Σ   −  (1)


nh lý Bayes cho phép tính xác sut hu nghim i tng
thuc vào lp k khi có giá tr bng x c mơ t  phơng trình
2.
  
2
 = | =  =   
   


i tng c nhn dng vào lp có giá tr xác sut hu
nghim ln nht (phơng trình 2) s tơng ng vi lp này.
Vi phơng pháp phân tích s khác bit tuyn tính LDA,
gi s mi lp có riêng giá tr k vng µ k song tt c các lp
u có chung ma trn hip phơng sai Σ. Thc hin ly logarit
phơng trình (4) s thu c phơng trình (3).



  =   Σ   −  Σ   +  (3)

Trong phơng trình (5),  c gi là hàm phân bit
(discriminant function). Vì  là hàm tuyn tính ca x nên
phơng pháp này c gi là LDA. Các tham s µ k và Σk c
xác nh da trên s c lng tham s t b d liu hun
luyn.
Phân tích khác bit tồn phng QDA:
Vi phơng pháp này, gi s mi lp s có mt ma trn
hip phơng sai riêng Σ, khi ó hàm phân bit s c biu
din bng phơng trình 4.

Hình 1. ng cong tn s c bn F0 biu din cho thanh
iu ca ging n thuc phng ng Bc Vit Nam [5]
Theo các nhà ngơn ng hc, có th phân loi các thanh iu
theo mt s tiêu chí. Tiêu chí phân loi u tiên là cao  ca
thanh iu: các thanh ngang, thanh sc, thanh hi c coi 
mc cao, trong khi ó các thanh huyn, thanh nng, thanh ngã
c coi  mc thp. Tiêu chí phân loi th hai là theo lut
bng-trc, tc là mc  t gãy trong ng biu din F0 ca
thanh iu. Các thanh ngang, thanh sc, thanh huyn, thanh
nng c coi là thanh bng và thanh hi, thanh ngã c coi
là thanh trc. Chi tit v phân loi các thanh iu ting Vit
c mô t  bng 1.
Bng 1. Phân loi thanh iu theo cao  và theo lut
bng-trc.








  = −   Σ  +   Σ   −  Σ   − Σ  +



(4)


Các tham s  and Σ trong các phơng trình (3) và (4) s
c xác nh trong quá trình hun luyn da vào các d liu
hun luyn.
K láng ging gn nht KNN:
Vi mi i tng x trong tp th nghim, tính giá tr  ()
theo phơng trình 5.

 () = Σ ∈ ()  (5)


343
343


Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

 áp dng SVM cho bài toán phân lp nhiu mu, phơng


pháp c s dng là one-versus-one: xây dng   b phân
2
lp cho tng cp lp. Mi mu th nghim s c a qua tt
c các b phân lp này. Lp nào chim a s s c coi là kt
qu nhn dng.
Nhn xét:
Trong ba phơng pháp u tiên, phơng pháp QDA thc
hin phân bit gia các lp thơng qua biên gii phân lp tuyn
tính, nh vy là biên gii phân lp tơng i thô vi các b d
liu phc tp. Trong khi ó vi phơng pháp KNN, kt qu
nhn dng li quá ph thuc vào mt s mu nht nh (K mu)
xung quanh mu cn nhn dng. Do ó phơng pháp KNN cho
kt qu rt dao ng theo b d liu. Phơng pháp QDA là mt
ci tin ca phơng pháp LDA, phơng pháp này cho phép to
ra biên gii phân lp phi tuyn, nh vy cho phép nhn dng
các mu mm do hơn.
Các phơng pháp trên ã s dng toàn b d liu hun
luyn  xây dng biên gii phân lp. Trong khi ó, phơng
pháp SVM ch s dng các véc tơ h tr  quyt nh biên
gii phân lp. Phơng pháp s dng b phân lp h tr véc tơ
ch s dng biên gii phân lp tuyn tính, trong khi ó phơng
pháp SVM li cho phép xây dng biên gii phi tuyn, vi s
m rng s lng tham s ln. Trên cơ s nhn xét trên, chúng
tôi hy vng phơng pháp QDA và SVM s cho kt qu nhn
dng tt nht. Các th nghim nhn dng thanh iu cho ting
Vit c trình bày  phn tip theo.

Trong phơng trình 5,  () là láng ging ca x, bao gm
K im gn x nht trong tp hun luyn,  là trng s ca im

trong tp hun luyn xi. i tng x c nhn dng vào lp L
nu () t giá tr ln nht khi so sánh vi các giá tr ().
B phân lp phân tách tuyn tính vi l cc i (maximal
margin classifier):
L cc i c xác nh nh sau: vi mi mu trong tp
hun luyn, tính khong cách trc giao n biên gii phân lp;
l là khong cách trc giao ti thiu tìm c. B phân lp này
chn biên gii phân lp có l t giá tr ln nht, ngha là biên
gii phân lp phân bit tt nht các mu trong tp hun luyn.
Các véc tơ nm trên l c gi là các véc tơ h tr (support
vector).
B phân lp h tr véc t SVC:
Phơng pháp này là s m rng ca b phân lp phân tách
tuyn tính vi l cc i (maximal margin classifier), cho phép
phân lp vi các lp không th phân tách bng mt biên gii
tuyn tính [2]. Phơng pháp này s tìm biên gii phân lp phù
hp nht vi a s các mu, và chp nhn mt s mu hun
luyn b phân lp sai (c iu chnh bng tham s C –
phơng trình 7).
Máy h tr véc t SVM:
Phơng pháp SVC ch có kh nng tìm c biên gii phân
lp tuyn tính. Trong khi ó biên gii phân lp tuyn tính li
khơng phù hp vi mt s d liu c th.  vn có th s
dng biên gii phân lp tuyn tính, mt phơng pháp c 
xut là m rng s tham s biu din i tng da trên các
tham s ã có. SVM là phơng pháp cho phép thc hin hiu
qu s m rng này vi mc  tính tốn hp lý.
Xét bài toán s dng SVM  phân chia các mu thành 2
lp. Gi s tp hun luyn bao gm N mu xi, i=1, 2,…, N. Các
mu này c phân vào lp yi, i=1, 2, …, N; các giá tr y ch

ly -1 hoc 1. Biên gii phân lp c biu din bng v trái
ca phơng trình 6.
() =  + 
  (,  ) (6)
Thc cht a phn các giá tr αi u bng 0, ch tr nhng
giá tr αi ca các véc tơ h tr. Các giá tr này b gii hn theo
phơng trình 7.
0 ≤  ≤ ,  = 1, 2, … ,  (7)
C là giá tr cho phép các mu b vi phm. Khi C càng nh
thì l s càng rng, và ngc li khi C càng ln thì l s càng
hp.
K là hàm kernel ca h thng, vi b phân lp h tr véc tơ
SVC thì K c tính theo phơng trình 8.
K(u, v) = uTv (8)
Vi SVM, hàm K c s dng  bin i khơng gian
tham s, và c tính theo phơng trình 9.
K(u, v) = exp{-|u-v|2} (9)
Khi ó gii thut thc hin tìm các giá tr 0 và αi theo
phơng trình 10.
 
min 
1 −  ( ) +   (10)
 ,

IV.

NHN DNG THANH IU CA TING VIT

C s d liu ting Vit nói:
u tiên, chúng tơi xây dng tt c các t ơn âm tit ca

ting Vit nói. ây là các t c s dng trong ngơn ng giao
tip thng ngày. Có tng cng 6221 t ã c tp hp. Phân
b thanh iu trong cơ s d liu c mô t trong bng 2.
Bng 2. Phân b thanh iu trong c s d liu ting
nói.
Thanh iu
Thanh ngang
Thanh huyn
Thanh sc
Thanh nng
Thanh hi
Thanh ngã
Tng cng

Tng s t
1257
1022
1591
1203
706
442
6221

Trong cơ s d liu, có 3 ging nam u n t phơng
ng Bc, có  tui t 22 n 24 tui. Mi ngi c yêu cu
phát âm mi t mt ln. Ting nói c thu âm trong phịng
làm vic bình thng, vi tn s ly mu 16KHz, ơn kênh, 16
bit/mu. Nh vy tng s file trong cơ s d liu là 18663 file.
Phng pháp nhn dng:
Phơng pháp so sánh chéo (cross-validation) c áp dng

 th nghim nhn dng thanh iu. Mi th nghim c
thc hin ba ln: vi mi ln thì d liu ca 1 trong 3 ngi nói
c s dng làm d liu th nghim, trong khi ó d liu ca
hai ngi còn li c s dng  hun luyn h thng. Kt
qu ca th nghim là trung bình cng các kt qu ca ba th
nghim. Các th nghim c thc hin s dng các phơng



vi K là ma trn NxN tính trên tt c các cp mu s dng
trong quá trình hun luyn.
Q trình phân lp c thc hin tính hàm f (phơng trình
6) trên mu cn th nghim. Tùy vào du ca hàm f mà mu
th nghim s c phân vào 1 trong 2 lp.

344
344


HộiHội
Thảo
Quốc
Gia
vàCông
CôngNghệ
Nghệ
Thông
(ECIT
2015)
Thảo

Quốc
Gia2015
2015về
vềĐiện
Điện Tử,
Tử,Truyền
Truyền Thông
Thông và
Thông
TinTin
(ECIT
2015)
pháp nhn dng LDA, QDA và KNN. Mi phơng pháp c
thc hin 2 th nghim: mt th nghim vi quan im coi
thanh iu tn ti trên c âm tit và th nghim th hai c
thc hin trên quan im coi thanh iu ch nm trên phn hu
thanh ca âm tit.
Biu din tham s cho mi thanh iu:
Hai tham s c s dng là tn s cơ bn F0 và nng
lng thi gian ngn E. Khong thi gian  tính tốn là s
dng ca s có  rng 100 miligiây,  dch ca ca s là 10
miligiây. Phơng pháp t tơng quan AC (auto-correlation)
c s dng  xác nh tn s cơ bn F0. Do trong ting nói,
ch các on hu thanh mi có tn s F0, vì vy nhng on tín
hiu khơng tính c F0 thì c coi nh các on vơ thanh.
 tin hành chun hóa các giá tr tn s cơ bn F0 và nng
lng E theo thi gian, vi mi thanh iu chiu dài tn ti ca
thanh iu c chia thành N phn. Ti mi im chia s xác
nh tn s F0 và nng lng tơng ng. Nh vy mi âm th
hin cho mt thanh iu s c biu din bng mt véc tơ

tham s có N thành phn. Các giá tr N c th nghim trong
bài báo là t 2 n 10. Các kt qu th nghim c mô t 
phn V.
Trong bài báo này, chúng tôi th nghim hai quan im v
cu trúc ca thanh iu trong âm tit ting Vit. Quan im th
nht coi thanh iu nm trên toàn b âm tit, trong khi ó quan
im th hai coi thanh iu ch tn ti trong phn hu thanh
ca âm tit. Vi quan im th hai, phn hu thanh s c
chúng tôi xác nh là phn có tn s cơ bn F0 trong âm tit.
Còn  th nghim theo quan im u tiên, nhng phn vô
thanh trong âm tit (thng là phn u và phn cui âm tit)
khơng có tn s cơ bn F0 s c ni suy tuyn tính F0 t các
giá tr F0 ã có.
V.

pháp QDA (các kt qu trên ct LDA nh hơn so vi các kt
qu trên ct QDA tơng ng). Ngoài ra phơng pháp coi thanh
iu ch tn ti trên phn hu thanh ca âm tit cng cho kt
qu tt hơn so vi phơng pháp coi thanh iu tn ti trên c
âm tit. Các kt qu tt nht t c vi s thành phn chun
hóa N = 5. Giá tr này c s dng cho th nghim nhn dng
thanh iu theo phơng pháp KNN, SVC và SVM.
S dng phng pháp KNN:
 th nghim phơng pháp KNN, mt tham s cn xác
nh chính là s láng ging K s dng  xác nh kt qu cho
tng mu th nghim. Các giá tr K c th nghim bao gm
t 1 n 40. Th nghim c thc hin vi phơng pháp
KNN và quan im coi thanh iu tn ti trên tồn b âm tit.
Kt qu c mơ t trên hình 2.


Hình 2. Kt qu nhn dng thanh iu theo phng
pháp KNN vi các giá tr K t 1 n 40.
Hình 2 cho chúng ta thy kt qu nhn dng tt nht t
c ti K=15. Giá tr K này c s dng cho th nghim
nhn dng thanh iu vi các thành phn chun hóa thanh iu
theo thi gian N khác nhau. Kt qu thu c mô t trong bng
4.
Bng 4. Kt qu nhn dng thanh iu úng (t l phn
trm) s dng phng pháp KNN.

KT QU NHN DNG THANH IU CA TING
VIT

S dng phng pháp LDA và QDA:
Kt qu th nghim vi phơng pháp LDA và QDA c
mô t  bng 3 vi quan im thanh iu tn ti trên c âm tit
và vi quan im thanh iu ch tn ti trên phn hu thanh
ca âm tit. Trong bng 3, N là s thành phn chun hóa theo
thi gian ca mi th hin ca thanh iu.
Bng 3. Kt qu nhn dng thanh iu úng (t l phn
trm) s dng phng pháp LDA và QDA.
S thành
phn
chun
hóa N
2
3
4
5
6

7
8
9
10

Thanh iu tn ti
trên tồn b âm tit
LDA
39.03
39.86
39.04
39.27
38.43
37.36
37.55
37.71
37.44

QDA
40.66
40.61
49.20
47.94
47.46
47.38
46.92
46.27
45.20

S thành

phn chun
hóa N
2
3
4
5
6
7
8
9
10

Thanh iu ch tn
ti trên phn hu
thanh ca âm tit
LDA
QDA
36.03
39.50
42.86
45.11
46.57
50.88
48.33
51.88
47.75
51.50
47.79
51.17
48.28

51.28
48.30
50.39
48.15
49.22

Thanh iu tn
ti trên toàn b
âm tit
36.77
38.69
46.63
47.32
47.36
47.69
47.02
47.16
47.25

Thanh iu ch tn
ti trên phn hu
thanh ca âm tit
37.71
42.42
47.97
48.96
49.07
48.94
49.09
49.29

48.87

Kt qu  bng 4 cho thy vi phơng pháp KNN, kt qu
tt nht vi trng hp thanh iu tn ti trên toàn b âm tit
và trng hp thanh iu ch tn ti trên phn hu thanh ca
âm tit tơng ng vi s thành phn chun hóa N=7 và N=9.
S dng phng pháp SVC và SVM:
Mt tham s chung quyt nh n t l nhn dng úng
ca hai phơng pháp này là C (phơng trình 7). Ngồi ra vi
SVM tham s  (phơng trình 9) cng quyt nh n kt qu
nhn dng. Bng 5 mô t kt qu nhn dng ca hai phơng
pháp vi các giá tr khác nhau ca C và . Th nghim c

Kt qu trên bng 3 cho thy phơng pháp LDA cho kt
qu nhn dng chính xác thanh iu kém hơn so vi phơng

345
345


HộiHội
Thảo
Quốc
Gia
2015
và Cơng
CơngNghệ
NghệThơng
Thơng
(ECIT

2015)
Thảo
Quốc
Gia
2015về
vềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThơng
Thơng và
TinTin
(ECIT
2015)
thc hin s thành phn chun hóa ca thanh iu N = 5 và
quan im coi thanh iu tn ti trên toàn b âm tit

trên toàn b âm tit, và LDA_2, QDA_2, KNN_2, SVC_2,
SVM_2 là ca phơng pháp coi thanh iu ch tn ti trên phn
hu thanh ca âm tit.
Hình 3 cho thy vi s thành phn chun hóa N thp (N=2
và N=3), kt qu nhn dng thanh iu kém nht. Trong các
thành phn N cịn li thì kt qu không thc s khác bit nhiu.
Các kt qu nhn dng thanh iu tt nht thc hin trong
bài báo c mô t  bng 7.
Bng 7. Tng kt các kt qu nhn dng thanh iu ca
ting Vit nói.

Bng 5. Kt qu nhn dng thanh iu úng (t l phn
trm) s dng phng pháp SVC và SVM vi s thành
phn chia thanh iu N=5.

Phng pháp
SVC
SVM, =0.5
SVM, =1
SVM, =2

0.1
43.52
39.46
29.96
25.80

Giá tr C
1
43.53
43.82
40.60
34.35

10
43.51
42.33
40.72
35.16

Phng
pháp nhn
dng
LDA
KNN

QDA
SVC
SVM

Bng 5 cho thy phơng pháp SVC cho kt qu tt nht vi
C=1, và phơng pháp SVM cho kt qu tt nht vi C=1 và
=1. Các giá tr này c s dng cho th nghim trên tt c
các phn chia thanh iu. Kt qu th nghim c mô t 
bng 6.
Bng 6. Kt qu nhn dng thanh iu úng (t l phn
trm) s dng phng pháp SVC và SVM.
S thành
phn
chun
hóa N
2
3
4
5
6
7
8
9
10

Thanh iu tn ti
trên toàn b âm tit
SVC
41.01
41.34

41.60
43.52
41.79
41.21
41.36
40.95
40.98

SVM
40.29
36.63
45.52
43.82
43.75
42.16
40.00
38.98
38.18

Thanh iu nm
trên toàn b âm
tit
39.86
47.69
49.20
43.52
45.52

Thanh iu ch nm
trên phn hu thanh

ca âm tit
48.33
49.29
51.88
51.86
51.23

Các kt qu th nghim cho thy quan im coi thanh iu
ch tn ti trên phn hu thanh ca âm tit cho kt qu nhn
dng cao hơn so vi quan im coi thanh iu tn ti trên c
âm tit. Ngoài ra, trong các phơng pháp nhn dng c th
nghim, phơng pháp QDA cho kt qu nhn dng cao nht.

Thanh iu ch tn
ti trên phn hu
thanh ca âm tit
SVC
SVM
41.36
44.04
44.23
45.17
50.33
51.23
51.34
50.52
50.50
50.17
51.52
49.43

48.70
51.86
51.26
47.75
51.55
46.96

VI.

KT LUN

Bài báo ã  xut phơng pháp nhn dng thanh iu ca
ting Vit nói s dng mơ hình phân tích khác bit tuyn tính
LDA (Linear Discrimination Analysis), phân tích khác bit
tồn phơng QDA (Quadratic Discrimination Analysis), K láng
ging gn nht KNN (K-Nearest Neighbor), b phân lp h tr
véc tơ SVC (support vector classifier) và máy h tr véc tơ
SVM (Support Vector Machine). Các th nghim nhn dng
thanh iu c tin hành theo hai quan im: thanh iu tn
ti trên c âm tit và thanh iu ch tn ti trên phn hu thanh
ca âm tit. Các kt qu th nghim cho thy quan im coi
thanh iu ch tn ti trên phn hu thanh ca âm tit cho kt
qu nhn dng cao hơn so vi quan im coi thanh iu tn ti
trên c âm tit. Ngoài ra, trong các phơng pháp nhn dng
c th nghim, phơng pháp QDA cho kt qu nhn dng
cao nht.
Hng nghiên cu tip theo s là áp dng phơng pháp
mng nơ ron và hc sâu. Ngồi ra có th kt hp tiêu chí phân
loi thanh iu nh phân loi theo cao  hay theo lut bngtrc trong nhn dng thanh iu. K thut nhn dng thanh iu
cng s c áp dng trong nghiên cu ca chúng tôi v nhn

dng và tng hp ting Vit nói.
TÀI LIU THAM KHO

Hình 3. Kt qu nhn dng thanh iu theo s thành
phn chun hóa theo thi gian N.

[1]
[2]

 ánh giá nh hng ca s thành phn chun hóa N n
kt qu nhn dng thanh iu, chúng tôi biu din kt qu ca
các phơng pháp nhn dng theo s thành phn chun hóa N
nh trong hình 3. Trong hình này, LDA_1, QDA_1, KNN_1,
SVC_1, SVM1 là kt qu ca phơng pháp coi thanh iu nm

[3]

346
346

oàn Thin Thut, “Ng âm ting Vit”, Nhà xut bn Giáo dc, Hà
Ni, 1997.
Trevor Hastie, Robert Tibshirani, Jerome Friedman, “The Elements of
Statistical Learning, Data Mining, Inference, and Prediction ”, Springer,
USA 2014.
Yang, W.-J. & Lee, J.-C. & Chang, Y.-C. & Wang, H.-C. ”Hidden
Markov model for Mandarin lexical tone recognition”, Acoustics,
Speech and Signal Processing, IEEE Transactions on (Volume:36 ,
Issue: 7 ), 2002



HộiHội
Thảo
Quốc
Gia
2015
vàCông
CôngNghệ
Nghệ
Thông
(ECIT
2015)
Thảo
Quốc
Gia
2015về
vềĐiện
Điện Tử,
Tử,Truyền
Truyền Thông
Thông và
Thông
TinTin
(ECIT
2015)
[11] Ngoc, Thang V. & Schultz, T. ”Vietnamese large vocabulary continuous
speech recognition”, Automatic Speech Recognition & Understanding,
2009
[12] Viet Bac Le & Besacier, L. ”Automatic Speech Recognition for UnderResourced Languages: Application to Vietnamese Language”, Audio,
Speech, and Language Processing, IEEE Transactions on (Volume:17 ,

Issue: 8 ), 2009
[13] Davis, S.; Mermelstein, P. ”Comparison of parametric representations
for monosyllabic word recognition in continuously spoken sentences”,
IEEE Trans. Acoust., Speech, Signal Processing, vol. 28, pp. 357-366,
1980.
[14] Hong Quang Nguyen; Nocera, P.; Castelli, E.; Van Loan, T., ”Tone
recognition of Vietnamese continuous speech using hidden Markov
model”, Communications and Electronics, 2008. HUT-ICCE 2008.
Second International Conference on , vol., no., pp.235,239, 4-6 June
2008.

[4]

Charnvivit, P. & Jitapunkul, S. & Ahkuputra, V & Maneenoi, E &
Thathong, U. & Thampanitchawong, B. ”F0 Feature Extraction by
Polynomial Regression Function for Monosyllabic Thai Tone
Recognition”, INTERSPEECH, 2001.
[5] Brunelle, M. ”Coarticulation effects in northern Vietnamese tones”,
Proceedings of the 15th International Conference of Phonetic Sciences,
2003.
[6] Michaud, A. ”Final Consonants and Glottalization: New Perspectives
from Hanoi Vietnamese”, 2004.
[7] Pham, H. ”Vietnamese Tone – A New Analysis”, New York: Routledge,
ISBN 0-415-96762-7, 2003.
[8] Chu, Mai N. ”Cơ s ngôn ng hc và ting Vit”, Vietnam Education
Publishing House, 1997.
[9] Viet Bac Le & Besacier, L. ”First steps in fast acoustic modeling for a
new target language: Application to Vietnamese”, ICASSP 2005
[10] Quan, V. & Kris, D. & Dirk, V. ”Vietnamese Automatic Speech
Recognition: The FLaVoR Approach”, Chinese Spoken Language

Processing Lecture Notes in Computer Science Volume 4274, 2006.

347
347



×