Tải bản đầy đủ (.pdf) (76 trang)

Xây dựng hệ thống phần mềm điểm danh ứng dụng nhận diện giọng nói tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.54 MB, 76 trang )


i


TRNG I HC M TP. H CHÍ MINH
KHOA CÔNG NGH THÔNG TIN



TÊN  TÀI:
“XÂY DNG H THNG PHN MM
IM DANH NG DNG NHN DIN
GING NÓI TING VIT”

Ngành: Khoa Hc Máy Tính
Hng chuyên ngành: C S D Liu
Sinh viên thc hin:
Lê Xuân Tin (MSSV: 0951012135)
Nguyn c Thng (MSSV: 0951010124)


GVHD: TS. Lê Xuân Trng

Tp. H Chí Minh, tháng 7 nm 2013

ii

NHN XÉT CA GIÁO VIÊN HNG DN

























iii

NHN XÉT CA GIÁO VIÊN PHN BIN

























iv

LI CM N
Chúng em xin chân thành cm n thy Lê Xuân Trng đã tn tình hng dn, giúp
đ, đng viên, đa ra nhng li khuyên b ích đ chúng em có th thc hin lun vn tt
nghip này. Thy luôn luôn khuyn khích chúng em tìm tòi, hc hi c gng to ra nhng
sn phm mang tính cht khoa hc nhiu hn, điu này góp phn làm cho đt nc ta
ngày càng phát trin hn. Tuy chúng em còn gp nhiu khó khn nhng thy v
n c gng
to điu kin tt nht cho chúng em sm kp hoàn thành lun vn tt nghip đúng thi
hn. Mt ln na, chúng em xin cm n và chúc sc khe thy. Bên cnh đó, chúng em
cng cm n khoa Công Ngh Thông Tin trng H M TP.HCM đã to ra mt môi

trng hc tp tt nht đ chúng em phát trin và nâng cao kin thc chuyên ngành, t đó
có th ng dng vào thc tin xã hi góp phn xây dng đt nc ta ngày càng phát trin.

v

MC LC
LI CM N iv
MC LC v
DANH MC CÁC THUT NG TING ANH VÀ CH VIT TT vii
DANH MC CÁC BNG viii
DANH MC CÁC HÌNH x
CHNG 1. TNG QUAN 1
1.1 GII THIU: 1
1.2 MC ÍCH CA  TÀI: 2
1.3 PHNG PHÁP THC HIN: 2
1.4 ÓNG GÓP CA  TÀI: 3
1.5 B CC CA BÁO CÁO: 3

CHNG 2. C S LÝ THUYT 4
2.1 NHN DIN GING NÓI: 4
2.1.1 KHÁI NIM C BN CA GING NÓI: 4
2.1.2 CÁC MÔ HÌNH NHN DIN GING NÓI 6
2.1.3 TI U HÓA VIC NHN DIN GING NÓI 8
2.2 S LC V WEB SERVICE: 9
2.2.1 KHÁI NIM V WEB SERVICE: 9
2.2.2 C IM CA WEB SERVICE: 9
2.2.3 KIN TRÚC SERVICES 11
2.2.4 CÁC THÀNH PH
N WEB SERVICES 12
2.3 S LC V H IU HÀNH ANDROID: 15

2.3.1 LCH S ANDROID: 15
2.3.2 ANDOIRD LÀ GÌ: 15
2.3.3 KIN TRÚC H IU HÀNH ANDROID: 15
2.3.4 TNG APPLICATION FRAMEWORK : 17
2.3.5 TNG APPLICATION : 18
2.3.6 CÁC THÀNH PHN TRONG PROJECT ANDROID: 18
2.3.7 CÁC THÀNH PHN C BN CA MT NG DNG ANDROID: 19
2.3.8 MÔI TRNG LP TRÌNH NG DNG ANDROID: 26
CHNG 3. THIT K VÀ CÀI
T 27
3.1 MÔ HÌNH HOT NG CA H THNG PHN MM IM DANH: 27
3.2 PHÂN TÍCH VÀ THIT K C S D LIU: 28

vi

3.2.1 MÔ HÌNH Ý NIM TRUYN THÔNG: 28
3.2.2 MÔ HÌNH Ý NIM D LIU: 29
3.2.3 MÔ HÌNH LOGIC D LIU: 30
3.2.4 MÔ HÌNH VT LÝ D LIU: 31
3.2.5 CÁC BNG D LIU: 32
3.3 XÂY DNG MÔ HÌNH NHN DIN GING NÓI: 43
3.3.1 CÁC THÀNH PHN C BN CA NHN DIN GING NÓI: 43
3.3.2 HUN LUYN MÔ HÌNH ÂM THANH 43
3.3.3 XÂY DNG MÔ HÌNH NGÔN NG 46
3.4 CÀI T 48
3.4.1
CÀI T PHÍA CLIENT 48
3.4.2 CÀI T PHÍA SERVER 52
3.4.3 HIN THC PHN MM QUN LÝ IM DANH SINH VIÊN: 54
3.5 THC NGHIM  CHÍNH XÁC TRONG NHN DIN GING NÓI: 61

3.5.1 CHUN B D LIU GING NÓI: 61
3.5.2 THC NGHIM 62
CHNG 4. KT LUN 64
4.1 KT QU T C: 64
4.2 ÓNG GÓP MI VÀ HN CH CA  TÀI: 64
4.2.1 ÓNG GÓP CA  TÀI: 64
4.2.2 HN CH CU  TÀI: 64
4.3 HNG PHÁT TRIN CA  TÀI: 65

vii

DANH MC CÁC THUT NG TING ANH VÀ CH VIT TT
Acoustic model
Mô hình ngôn ng.
BEEP
Blocks Extensible Exchange Protocol.
Diphones
Âm v đôi.
Fillers
Các âm không phi li nói nh ting th, um, uh, ting ho,
HMM
Hidden Markov Model là mt mô hình thng kê vi các tham
s đu vào là không bit trc đ xác đnh các tham s đu ra
tng ng.
HTTP
Hypertext Transfer Protocol.
Language model
Mô hình ngôn ng.
Phonetic dictionary
T đin ng âm.

Quinphones
Âm v nm.
Reduction stable entities
Nhng thc th gim bt s n đnh.
ROC
Receiver Operating Curve.
Triphones
Âm v ba
Senone
Âm v
SOAP
Simple Object Access Protocol
Subphonetic
n v âm v ph
UDDI
Universal Description, Discovery, and Integration
Waveform
Sóng âm thanh đc hin th mt cách trc quan
WER
Word Error Rate là tn s các t b li
WSDL
Web Service Description Language
XML
eXtensible Markup Language
API
Applicaion Programming Interface





viii

DANH MC CÁC BNG
Bng 3.1 Danh sách các tác nhân ca MHYNDL 32

Bng 3.2 Danh sách các dòng thông tin ca MHYNDL 32
Bng 3.3 Danh sác các thc th ca mô hình ý nim d liu 33
Bng 3.4 Danh sách các liên kt ca thc th CoSo 33
Bng 3.5 Danh sách các thuc tính ca thc th CoSo 33
Bng 3.6 Danh sách các liên kt ca thc th DiemDanhSV 33
Bng 3.7 Danh sách các thuc tính ca thc th DiemDanhSV 34
Bng 3.8 Danh sách các liên kt ca thc th GiangVien 34
Bng 3.9 Danh sách các thuc tính ca thc th GiangVien 34
B
ng 3.10 Danh sách các liên kt ca thc th HocKy 34

Bng 3.11 Danh sách các thuc tính ca thc th HocKy 34
Bng 3.12 Danh sách các liên kt ca thc th Khoa 34
Bng 3.13 Danh sách các thuc tính ca thc th Khoa 34
Bng 3.14 Danh sách các liên kt ca thc th Lop 35
Bng 3.15 Danh sách các thuc tính ca thc th Lop 35
Bng 3.16 Danh sách các liên kt ca thc th MonHoc 35
Bng 3.17 Danh sách các thuc tính ca thc th MonHoc 35
Bng 3.18 Danh sách các liên kt ca thc th NamHoc 35
Bng 3.19 Danh sách các thuc tính ca thc th NamHoc 35
Bng 3.20 Danh sách các liên kt ca thc th PhongHoc 35
Bng 3.21 Danh sách các thuc tính ca thc th PhongHoc 36
Bng 3.22 Danh sách các liên kt ca thc th SinhVien 36
Bng 3.23 Danh sách các thuc tính ca thc th SinhVien 36
Bng 3.24 Danh sách các liên kt ca thc th TKB 36

Bng 3.25 Danh sách các thuc tính ca thc th TKB 36
Bng 3.26 Danh sách các liên kt ca mô hình ý nim d li
u 36

Bng 3.27 Danh sách các liên kt đn ca liên kt Ca 37
Bng 3.28 Danh sách các liên kt đn liên kt DangKy 37
Bng 3.29 Danh sách các liên kt đn liên kt Day 37
Bng 3.30 Danh sách các liên kt đn liên kt DD_TKB 37
Bng 3.31 Danh sách các liên kt đn liên kt DiemDanh 37
Bng 3.32 Danh sách các liên kt đn liên kt HK_NamHoc 38
Bng 3.33 Danh sách các thuc tính ca liên kt HK_NamHoc 38

ix

Bng 3.34 Danh sách các liên kt đn liên kt Hoc 38

Bng 3.35 Danh sách các liên kt đn liên kt o 38
Bng 3.36 Danh sách các liên kt đn liên kt Thuoc 38
Bng 3.37 Danh sách các liên kt đn liên kt Trong 38
Bng 3.38 Danh sách các bng ca mô hình vt lý d liu 39
Bng 3.39 Danh sách các liên kt đn liên kt Xep 40
Bng 3.40 Danh sách các thc th, các thuc tính và khoá 1 41
Bng 3.41 Danh sách các thc th, các thuc tính và khoá 42
Bng 3.42 Danh sách các mi liên h ca mô hình logic d liu 42
Bng 3.43 B
ng kt qu thc nghim ca 10 sinh viên 62


x


DANH MC CÁC HÌNH
Hình 2.1 Dng sóng âm thanh 5

Hình 2.2 Mô hình giao tip ca Web service 10
Hình 2.3 S đ kin trúc ca web service 11
Hình 2.4 Mô t SOAP đc s dng trong web service 13
Hình 2.5 Các thành phn ca WSDL 14
Hình 2.6 Kin trúc h điu hành Android 16
Hình 2.7 Cu trúc th mc ca mt d án Android 18
Hình 2.8 Cu trúc mt Activity Stack 20
Hình 2.9 Chu k hot đng ca mt Activity 21
Hình 2.10 Chu k sng ca mt Service 25
Hình 2.11 Cây phân cp ca giao din ngi dùng 26
Hình 3.1 Mô hình ho
t đng ca h thng 27
Hình 3.2 Mô hình ý nim truyn thông 28
Hình 3.3 Mô hình ý nim d liu 29
Hình 3.4 Mô hình logic d liu 30
Hình 3.5 Mô hình vt lý d liu 31
Hình 3.6 Các thành phn c bn ca mt h thng nhn din ging nói 43
Hình 3.7 Mô hình hot đng bên phía Client 48
Hình 3.8 Mô hình hot đng bên phía Server 53
Hình 3.9 Sinh viên m ng dng 54
Hình 3.10 Màn ch khi đang đng nhp vào phn mm 55
Hình 3.11 Sinh viên đang nhp thành công nhng ch
a đn c s hc 56
Hình 3.12 Sinh viên đang  trong c s hc 57
Hình 3.13 Xem danh sách môn hc 58
Hình 3.14 Thi khoá biu chi tit ca môn hc 59
Hình 3.15 V trí sinh viên đang đng 60

Hình 3.16 Sinh viên đc theo dãy s kim tra sinh ngu nhiên 61
Hình 3.17 Biu đ kt qu thc nghm 63


Trang 1
CHNG 1. TNG QUAN
1.1 GII THIU:
Th h sau s ln lên, phát trin và s là ch nhân ca đt nc. Nu có đc mt môi
trng giáo dc tt, k lut tt thì sau này h s có đc công n vic làm tt và nh đó
kinh t ca đt nc s phát trin dn đn đt nc ngày càng phát trin. Nhng trong
môi trng giáo dc s có nhiu vn đ ny sinh đòi hi công vi
c qun lý ca nhng con
ngi làm giáo dc phi tht tt và vic ng dng công ngh vào thc tin đi sng s
giúp vic qun lý đc d dàng hn.
Hin nay theo đà phát trin ca th gii, công ngh ngày càng phát trin mnh, nhng
công c tiên tin ra đi h tr cho công vic, cho cuc sng ca con ngi giúp nhng
công vic ngày càng thun tin và d dàng h
n. Công ngh cao cng góp mt phn trong
vic h tr vic giáo dc. Máy chm thi trc nghim ra đi giúp cho vic chm đim các
bài trc nghim đc nhanh chóng, giáo viên không cn phài ngi bên nhng t phiu
trc nghim và đi chiu, kim tra các câu hi trc nghim lp đi lp li hàng gi, tn rt
nhiu thi gian. Thay vào đó nh có máy chm thi trc nghim, công vic c
a giáo viên
đc gim ti mt phn đáng k. ây là mt trong nhng vì d v vic ng dng công
ngh vào giáo dc.
Vi s phát trin ca công ngh nh hin nay thì giá thành ca đin thoi di dng
thông minh ngày càng gim phù hp vi túi tin ca đi đa s ngi dùng ph thông, vì
th vic mi sinh viên s dng mt chic đi
n thoi thông minh đ h tr vic hc tp
cng nh gii trí là mt điu tt yu.

Tính đn thi đim hin ti, công ngh nhn din ging nói đc áp dng ph bin
trong vic nhp liu nhanh hn, mt đon vn bn dài có th đc hoàn thành vi thi
gian ngn hn rt nhiu so vi nhp b
ng tay, khi cn tìm kim trên thit b di dng, thay
vì phi n tng phím trên đin thoi, điu này mt nhiu thi gian do hn ch v kích
thc ca đin thoi di đng, thì vic nhn din ging nói tr nên hu dng trong tình
hung này. Ngoài vic nhp liu nhanh hn, nhn din ging nói cng có th đc áp
dng đ xác thc nhân thân mt cách hi
u qu hn do mi ngi có mt ging nói khác
nhau.
Ti i hc Aoyama Gakuin, Nht Bn, các sinh viên nm th nht, sinh viên nm
th hai và các nhân viên ca trng đc phát mi ngi mt chic đin thoi thông minh
min phí. Mc đích ca vic này là đ to mt mng li thông tin di đng gia các sinh
viên và các giáo s. Bên cnh đó vic này cng là mt cách thun tin đ cho gi
ng viên
có th đim danh sinh viên mt cách hiu qu nht. Khi các sinh viên bc vào lp, thay
vì phi ghi tên vào t giy đim danh thì bây gi các sinh viên đn gin ch cn nhp mã

Trang 2
s sinh viên ca mình và s phòng hc vào chic đin thoi h đc phát. ng dng ca
h có s dng GPS đ tránh tình trng sinh viên  nhà hoc  ngoài lp đ đim danh.
Nhng vi hình thc này, các sinh viên có th d dàng cúp hc vì ch cn đa cho bn
mn chic đic thoi ca mình đ bn đó đn trng và đim danh h.
 Vit Nam, vic chng tiêu cc trong hc tp và thi c ch đc chú trng  các k
thi đu vào ca các trng i hc. Công tác qun lý sinh viên  các trng i hc vn
còn lng lo. iu đó đã to k h cho nhng sinh viên li hc, ham chi tìm đn các
dch v “hc h, thi h” đang đc công khai qung bá rm r
trên nhng trang web
qung cáo, mng xã hi… trong nhng thi đim cn k mùa thi. Nn “hc h, thi h” là
nn tng dn đn các tiêu cc trong môi trng hc tp cng nh ngoài xã hi đã to điu

kin cho nhng ngi gi danh sinh viên đ thc hin các hành vi xu  ging đng i
hc.
Vi quy ch hc tín ch  các tr
ng i hc, Cao đng  nc ta hin nay vic hc
tr nên d dàng, các sinh viên có th la chn mt s lng tín ch nht đnh đ hc trong
mt hc k và vì th mi sinh viên s có mt thi khóa biu riêng. Bên cnh nhng mt
tích cc ca quy ch hc tín ch thì vn còn có mt hn ch. Vì mi sinh viên có mt thi
khoá biu riêng nên vic qun lý các sinh viên s
 tr nên khó khn hn.
T nhng thc trng trên, nhóm nghiên cu đã tin hành xây dng mt h thng phn
mm đim danh sinh viên bng ging nói đ h tr vic đim danh trong các trng i
hc áp dng hc ch tín ch.
1.2 MC ÍCH CA  TÀI:
Xây dng mt h thng phn mm đim danh trên client – server. Client là các thit
b di đng chy h điu hanh Android, có ng dng nhn din ging nói và các công ngh
tiên tin nh h thng đnh v toàn cu (GPS), bn đ trc tuyn Google Maps. Server là
Webservice cùng vi h qun tr c s d liu SQL Server. H thng phn mm đim
danh này có th đc tri
n khai trong các trng i hc.
1.3 PHNG PHÁP THC HIN:
 Lp trình Web service bên phía server bng ngôn ng C# trên môi trng Visual
Studio 2010.
 Ly đa đim bng công ngh đnh v toàn cu GPS trên đin thoi di đng chy
trên h điu hành Android.
 Xác đnh v trí ca thit b di đng và v trí ca đa đim hc bng Google Maps
 Lp trình phn mm nhn din ging nói trên thit b di dng Android.

Trang 3
 Xây dng mô hình âm thanh, mô hình ngôn ng cho vic nhn din ging nói s
dng b công c nhn din ging nói ca i hc Carnegie Mellon là Pocketsphinx.

 Lp trình client – server, ly d liu GPS và xác thc bng ging nói trên thit b
client là đin thoi thông minh, sau đó d liu đc đa lên server và thao tác trên c s
d liu SQL Server.
 Tin hành thc nghim t l nhn di
n và t l gi ging trong vic xác thc bng
nhn din ging nói đ tìm ra ngng sai s chp nhn đúng và ngng sai s không chp
nhn ca phn mm.
1.4 ÓNG GÓP CA  TÀI:
V mt xã hi, lun vn này có th ng dng đ giúp gim thiu tình trng “hc h,
thi h” đang còn tn ti trong môi trng giáo dc i Hc hin nay  nc ta.
V mt công ngh, lun vn xây dng đã xây dng h thng phn mm đim danh
sinh viên client – server, client là các thit b đin thoi di dng chy h điu hành
Android, server là webservice đc vit bng ngôn ng C#, phn xác thc danh tính đc
ng dng h thng nhn din ging nói. H thng có th đc áp dng vào thc tin đi
sng, c th là trong môi trng đào to, giáo dc. Thc nghim t l nhn din đ đa ra
ngng chp nhn đúng 100% là t 0.7 tr lên và ngng chp nhn sai 100% là t 0.3
tr xu
ng.
1.5 B CC CA BÁO CÁO:
Chng 1: Tng quan
Chng này nêu nhng ni dung tng quan, gii thiu, nêu mc đích ca đ tài, các
phng pháp thc hin, đóng góp ca đ tai và b cc ca báo cáo.
Chng 2: C s lý thuyt
Chng này nêu các lý thuyt c bn ca Web service, Android, GPS và nhn din
ging nói t đó làm c s đ thit k và cài đt h thng phn mm.
Chng 3: Thit k và cài đt
Chng này phân tích và thit k h thng , thit k các mô hình c s d liu, hun
luyn mô hình nhn din ging nói, các bc đ cài đt nhn din ging nói đ chy trên
đc thit b Android. Cài đt Webservice bên phía Server.
Chng 4: Kt lun

Chng này nêu lên nhng kt qu đt đc ca lun này, nhng đóng góp ca đ tài
v mt xã hi và v
 mt công ngh. Mt s hn ch ca đ tài.

Trang 4
CHNG 2. C S LÝ THUYT
2.1 NHN DIN GING NÓI:
Khi mt ngi cn xác thc danh tính trên đin thoi, máy tính, tài khon ngân
hàng,… h cn xác thc thông qua mt khu. Nhng vic s dng mt khu có th d
dàng s dng các công c tiên tin đ dò tìm ra và vi kt qu tìm đc, ngi ta có th
gi danh ngi khác đ xâm nhp mt cách bt hp pháp. Công ngh nhn din ging nói
hin ti, hoc có th trong tng lai có th
 s giúp vic xác đnh danh tính chun xác hn
do mi ngi có mt ging riêng bit nh du vân tay.
2.1.1 KHÁI NIM C BN CA GING NÓI:
Ging nói là mt hin tng phc tp và rt khó xác đnh đc cách nó đc cu
thành và cách nó đc lnh hi. Nhn thc thông thng là ging nói đc cu thành
bng các t, và mi t bao gm các âm t li nói. Thc ra thì li nói là mt quá trình
đng và có nhng phn không th phân bit đc mt cách rõ ràng.
Các mô t hin đi v li nói ch  mc đ xác sut, vì th không có mt ranh gii
nht đnh gia các đn v đ biu din li nói hoc gia các t vi nhau. Xác sut đ nhn
din đc ging nói không bao gi chính xác mt cách tuyt đi vì th chúng ta rt khó
có th có mt h
thng có th nhn dng ging nói mt cách hoàn ho và đó là lý do
chúng ta chp nhp có sai s.
Li nói là mt lung âm thanh liên tc mà  đó trng thái n đnh trn ln vi trng
thái thay đi không n đnh. Trong chui trng thái này, ngi ta có th đnh ngha các
lp ca âm thanh hoc âm v mt cách nhiu hoc ít hn. T đc hiu là đc xây dng
t các âm v
, nhng điu này có th không chính xác. Các thuc tính âm thanh ca mt

dng sóng (waveform) tng ng vi mt âm v có th khác nhau rt nhiu ph thuc vào
nhiu yu t - ng cnh âm v, ngi nói, cách nói,…
Hình 2.1 th hin dng sóng ca hai ch s “nm” và “sáu” đc ghi li t máy ghi
âm và hin th trên phn mm ghi âm ging nói trên máy tính.

Trang 5


Hình 2.1 Dng sóng âm thanh
Hin tng âm thanh trn ln vi nhau trong quá trình hình thành làm cho âm v rt
khác so vi biu din ca các quy tc tiêu chun. Nhng s chuyn tip gia các t thì
mang nhiu thông tin hn  khu vc n đnh, chúng ta thng nói v diphones (âm v
đôi), đó là nhng phn ca các âm v gia hai âm v liên tip. Thnh thong ta còn nói v
subphonetic (đn v âm v ph) – là nhng trng thái ph
ca mt âm v. Thng có ba
hoc nhiu hn các khu vc có nhng tính cht khác nhau có th d dàng đc tìm thy.
Phn đu tiên ca âm v ph thuc vào âm v trc đó, phn gia n đnh, và phn
tip theo ph thuc vào âm v theo sau. ó là lý do ti sao thng có ba trng thái ca âm
v đc chn cho nhn din da vào mô hình HMM (Hidden Makov Model).
Mô hình markov n (HMM – Hidden Markov Model) là mt mô hình thng kê v
i
các tham s đu vào là không bit trc đ xác đnh các tham s đu ra tng ng. ây là
mô hình tính toán thng kê đc s dng rng rãi trong ngành tin - sinh hc.
Thnh thong các âm v đc xem xét v thuc tính. Có th có triphones (âm v ba)
hoc thm chí là quinphones (âm v nm). Nhng không ging nh các âm v đn và âm
v đôi, nó tng ng vi tm ngang nhau trong dng sóng nh là các âm v đn. Nó ch
khác  cái tên. ó là lý do chúng ta g
i đi tng này là senone. Mt s ph thuc ca
senone trong thuc tính có th phc tp hn ch là thuc tính trái và thuc tính phi. Nó
có th là mt hàm phc tp đc đnh ngha bi cây quyt đnh, hoc bi mt s cách

khác.
Các âm v to ra đn v âm ph, ging nh âm tit. Thnh thong, âm tit đc đnh
ngha nh là mt “reduction-stable-entities” (nhng th
c th gim bt s n đnh).  mô
t, khi li nói bt đu nhanh hn, âm v thng thay đi, nhng âm tit vn gi nguyên.
Hn na, các âm tit còn có liên quan đn ng điu. Có nhiu cách khác nhau đ xây
dng các t ph - da trên nn tng hình thái hc ca hình thái ngôn ng phong phú hoc
nn tng âm v. Các t ph thng s dng trong nhn di
n ging nói qua t vng.

Trang 6
Các t ph xut phát t các t. Các t thì rt quan trng trong nhn din ging nói vì
nó thu hp các t hp ca các âm v mt cách đáng k. Ví d: nu có 40 âm v và trung
bình mi t có 7 âm v, s là 40^7 t. Tuy nhiên đi vi nhng ngi có trình đ hc vn
cao thì h rt him khi s dng hn 20 ngàn t, điu này làm cho nhn din ging nói có
th kh quan.
Các t và nhng âm thanh không phi ngôn ng, chúng ta gi chúng là fillers (ting
th, um, uh, ting ho), to nên nhng câu nói. Nó là nhng đon tách ri ca âm thanh
gia nhng khong ngh. Nó không cn thit trong các câu có nhiu ng ngha thuc v
khái nim.
Cách ph bin nht đ nhn din đc ging nói là: ly dng sóng, chia nó thành các
li nói và khong im lng sau đó c gng nhn din nhng gì
đc nói trong mi li. 
làm vic đó chúng ta ly tt c các kt hp có th ca các t và c gng khp chúng vi
âm thanh:
Trc tiên nó là khái nim ca nhng đc trng. Vì s lng các tham s là khá ln
nên chúng ta c gng đ ti u hóa nó. S liu đc tính toán t li nói bng cách chia li
nói thành các khung. Mi chiu dài ca mt khung tiêu biu là 10 mili giây, chúng ta trích
ra 39 s. Gi là véc-t
đc trng. Cách đ phát sinh ra nhng s đó là mt đi tng ca

vic thm dò mt cách ch đng. Hiu theo cách đn gin là s phát sinh ca quang ph.
Th hai là khái nim ca mô hình. Mô hình mô t các đi tng toán hc tp hp t
các thuc tính thông dng ca t đc nói ra. Thc t, mô hình âm thanh ca âm v là hn
hp gn-x ca ba trng thái – đ đn gi
n, nó là mt véc-t tính nng có th xy ra nht.
T khái nim ca mô hình đt ra nhiu vn đ - làm cách nào mô hình có th phù hp vi
thc t nht, mô hình có th tt hn nhng vn đ ca mô hình ni b, s thích nghi ca
mô hình vi điu kin luôn thay đi là nh th nào.
Th ba, nó là mt tin trình phù hp vi chính nó. Phi mt mt khong thi gian lâu
h
n khong thi gian tn ti ca v tr đ so sánh tt c các véc-t đc trng vi tt c
mô hình, quá trình tìm kim thng đc ti u bng nhiu th thut. Ti thi đim hin
ti chúng ta duy trì s khp ni ca các bin th mt cách tt nht và m rng chúng theo
thi gian phát ra phù hp vi bin th  các khung ti
p theo.
2.1.2 CÁC MÔ HÌNH NHN DIN GING NÓI
Da theo cu trúc ca ging nói, có 3 mô hình h tr cho vic nhn din ging nói:
Mô hình âm thanh: bao gm các đc tính ca âm thanh cho mi âm v. Mô hình ng
cnh đc lp cha đng các thuc tính (đc tính có th xy ra nht ca mi âm v) và mô
hình ng cnh ph thuc (xây dng t các âm v vi ng cnh).

Trang 7
T đin ng âm: cha mt ánh x t các t đn các âm v. Ánh x này không hiu
hiu qu lm. Ví d, ch có hai hoc ba bin th phát âm đc ghi trong đó, nhng nó
thc hin đ hu ht thi gian. T đin không phi là bin th duy nht đ ánh x t các
t đn các âm v. Nó có th đc thc hin bi các hàm phc tp vi mt c máy có th
hc thut toán.
Mô hình ngôn ng: s dng đ gii hn vic tìm kim các t. Nó đnh ngha t nào có
th theo sau t đc nhn din trc đó (quá trình khp ni li vi nhau là mt quá trình
liên tc) và giúp hn ch đáng k quá trình khp li bng cách b bt các t không có kh

nng xy ra. Mô hình đc s
dng thông dng nht là mô hình ngôn ng n-gram – nó
cha các thng kê ca các t liên tip – và mô hình ngôn ng trng thái hu hn – nó đnh
ngha li nói liên tip bng trng thái hu hn t đng hóa, thnh thong đc đnh ngha
bng trng lng.  đt đn tn s chính xác tt, mô hình ngôn ng ca bn cn phi
thành công trong vic tìm kim không gian hn ch. Ngha là nó cn ph
i rt tt trong
vic d đón các t tip theo. Mt mô hình ngôn ng thng gii hn t vng lu tâm đn
các t mà nó cha. ó là mt vn đ v vic nhn dng tên.  đi phó vi nó, mt mô
hình ngôn ng có th cha mt vài đon nh nh các t ph hoc thm chí là âm v. Lu
ý rng vic tìm kim không gian h
n ch trong trng hp này thng rt t và tng
đng vi vic gim đ chính xác trong vic nhn dng hn là mt t da trên mô hình
ngôn ng.
Ba mô hình trên kt hp li trong mt c máy nhn dng ging nói. Nu chúng ta ng
dng máy ca chúng ta cho các ngôn ng khác, bn cn phi có cu trúc nh vy. i vi
hu ht các ngôn ng, t đin ng âm và th
m chí là t vng ca ngôn ng đã có sn và
có th ti v t các trang chuyên cung cp mô hình nhn din ging nói.
Mt s khái nim khác dùng đ s dng trong vic nhn din ging nói:
Lattice: mng li mt đ th có hng biu din các bin đi ca vic nhn din.
Thông thng, vic ly đc kt qu khp li thì không thc t; trong trng hp này,
mng li là đnh dng trung gian tt đ biu din các kt qu nhn din.
N-best list ca s bin đi ging nh mng li, cho dù s biu din ca nó không
dày đc nh mng li.
Mng li t hn tp (hình xúc xích): là nhng mng li đc gng vi nhau theo
trình t ca các đim đc ly t mi góc ca mng li đ th.
C s d liu ging nói: là mt b ghi âm đc trng t c s d liu các tác v. Nu
chúng ta phát trin h thng hi thoi nó s là hi thoi ghi âm dành cho ngi dùng. i
vi h thng ra lnh nó có th là đc các bn ghi âm. C s d liu ging nói đc s

dng đ hu
n luyn, điu chnh và kim tra các h thng gii mã.

Trang 8
C s d liu vn bn: nhng vn bn mu đc thu thâp cho hun luyn mô hình
ngôn ng. Thng thì c s d liu vn bn đc thu thp t các mu form. Vn đ vi
vic thu thp là đa tài liu hin ti (tp tin PDF, các trang web, các bn scan,…) vào
trong các mu form. Mt khác bn cn ghi rõ các t vit tt.
2.1.3 TI U HÓA VIC NHN DIN GING NÓI
Khi phát trin nhn din ging nói, vn đ phc tp nht là s chính xác (đa ra nhiu
bin th phù hp nht có th) và s nhanh chóng. Ngoài ra còn có các vn đ khi khp ni
các kt qu nói trong khi các mô hình này không đc hoàn ho.
Nhng đc tính sau s đc dùng:
Tn s t b li (Word error rate/WER). Chúng ta có vn bn gc và vn bn ghi âm
có đ dài là N t. T đó có I t đc thêm vào, D t b xóa và S t thay th:
WER = (I + D + S) / N
WER thng đc tính bng phn trm
 chính xác. Hu nh ging vi WER, nhng không có t thêm vào.
 chính xác = (N – D – S) / N
 chính xác thc s là mt b đo không tt cho hu ht các tác v, vì vic thêm vào
là rt quan trng vi kt qu cui cùng. Nhng đi vi mt s tác v, đ chính xác là b
đo hp lý cho hiu sut ca b gii mã
Tc đ. Gi s tp tin âm thanh dài 2 ting và thi gian gii mã là 6 ting thì tc đc
đm đc là 3xRT
Cung ROC (Receiver Operating Curve), trong lý thuyt phát tín hiu dùng đ xác
đnh tín hiu nhn đc có phi là tín hiu tht s hay. Khi nói v s phát hin tác v, có
th có báo đng gi hoc truy cp/b l; cung ROC s đc s dng trong trng hp
này. Mt góc ca cung ROC là mt đ th biu di
n s ln báo đng gi vi s ln truy
cp và nó c gng đ ti u các đim ni mà s ln báo đng gi nh và s ln truy cp

phù hp 100%.

Trang 9
2.2 S LC V WEB SERVICE:
2.2.1 KHÁI NIM V WEB SERVICE:
Dch v web (web service) là mt h thng phn mm đc xây đng đ h tr kh
nng tng tác gia các máy tính trên mng (theo Wide Web Consortium). Nó cung cp
mt giao tip đc mô t theo mt đnh dng chung thng gi là ngôn ng mô t dch v
web (Web Service Description Language –WSDL). Các h thng khác thc hin tng
tác vi dch v web thông qua giao thc SOAP (Simple Object Access Protocol). ây là
giao thc giúp trao đi thông tin gia s
 dng HTTP kt hp vi vic s dng đc t
XML cùng vi mt s chun khác. Nh vy, mc đích chính ca vic phát trin ca dch
v web là cho phép giao tip và trao đi các chc nng, thông tin, d liu gia các ng
dng mt cách d dàng mà không cn quan tâm đn môi trng phát trin, ngôn ng lp
trình bi tt c đã đc quy đnh v m
t đnh dng chung. Bn cht ca web service là
mt tp hp các đi tng, các phng thc đc thc thi và công b trên mng đ có th
đc gi t xa thông qua các ng dng khác nhau.
2.2.2 C IM CA WEB SERVICE:
c đim chung ca web service là cho phép client và server tng tác đc vi nhau
ngay c trong nhng môi trng khác nhau. Phn ln k thut ca web service đc xây
dng da trên mã ngun m
và đc phát trin theo các chun đã đc công nhn. Web
service là s kt hp ca vic phát trin theo hng tng thành phn vi nhng lnh vc
c th và c s h tng web, chúng đa ra nhng li ích cho c doanh nghip, khách
hàng, nhng nhà cung cp khác và c nhng cá nhân thông qua mng Internet.

Trang 10


Hình 2.2 Mô hình giao tip ca Web service
Nhng u đim ca web service giúp vic xây dng h thng đc linh hot hn.
Web service cung cp kh nng hot đng rng ln vi các ng dng phn mm khác
nhau chy trên các nn tng khác nhau. Web service s dng các giao thc và các chun
m. D liu đc đnh dng theo kiu vn bn, thun li cho ngi phát trin ng dng
cng nh nâng cao kh nng tái s dng. Web service thúc đy vic đu t vào các h
thng phn mm đa tn ti bng cách cho phép các tin trình, chc nng nghip v đc
đóng gói trong giao din web service. Web service có th to mi tng tác ln nhau và
mm do gia các thành phn trong h thng, giúp ngi lp trình d dàng cho vic phát
trin các h thng d liu phân tán. Vic phát tri
n h thng tích hp bng web service
làm gim s phc tp ca h thng.
Bên cnh nhng u đim trên, web server cng còn tn ti mt s khuyt đim nh
có quá nhiu chun cho dch v web khin ngi dùng khó nm bt. Cn phi cân nhc
đn tính bo mt ca web service đ tránh nhng l hng không đáng có. Ngoài ra các
giao thc đc thay đ
i và nâng cp, đòi hi ng dng ca client phi đc nâng cp,
thay đi theo.

Trang 11
2.2.3 KIN TRÚC SERVICES
Web service gm có 3 chun chính: SOAP (Simple Object Access Protocol), WSDL
(Web Service Description Language) và UDDI (Universal Description, Discovery, và
Integration). UDDI đc s dng đ đng ký và khám phá dch v Web đã đc miêu t
c th trong WSDL. Giao tác UDDI s dng SOAP đ giao tip vi UDDI server, sau đó
các ng dng SOAP yêu cu dch v Web. Các thông đip SOAP đc gi đi chính xác
bi HTTP và TCP/IP.

Hình 2.3 S đ kin trúc ca web service
Web service có 4 thành phn chính:

Dch v vn chuyn có nhim v truyn thông đip gia các ng dng mng, bao
gm nhng giao thc nh HTTP, SMTP, FTP, JSM và gn đây nht là giao thc thay đi
khi m rng (Blocks Extensible Exchange Protocol- BEEP).
Thông đip XML có nhim v gii mã các thông đip theo đnh dng XML đ có th
hiu đc  mc ng d
ng tng tác vi ngi dùng. Hin ti, nhng giao thc thc hin
nhim v này là XML-RPC, SOAP và REST.
Thành phn miêu t đc s dng đ miêu t các giao din chung cho mt dch v
Web c th. WSDL thng đc s dng cho mc đích này, nó là mt ngôn ng mô t
giao tip và thc thi da trên XML. Dch v Web s s dng ngôn ng này đ truyn
tham s và các loi d li
u cho các thao tác và chc nng mà dch v web cung cp.
Khám phá dch v (Discovery): tp trung dch v vào trong mt ni đc đng ký, t
đó giúp mt dch v Web có th d dàng khám phá ra nhng dch v nào đã có trên mng.

Trang 12
Mt dch v Web cng phi tin hành đng ký đ các dch v khác có th truy cp và giao
tip. Hin ti, UDDI API thng đc s dng đ thc hin công vic này
2.2.4 CÁC THÀNH PHN WEB SERVICES
a) XML (Extensible Markup Language):
Là mt chun m do W3C đa ra cho cách thc mô t d liu, nó đc s dng đ
đnh ngha các thành phn d liu trên trang web và nhng tài liu B2B. V hình th
c,
XML hoàn toàn có cu trúc th ging nh ngôn ng HTML nhng HTML đnh ngha
thành phn đc hin th nh th nào thì XML li đnh ngha nhng thành phn đó cha
nhng cái gì. Vi XML, các th có th đc lp trình viên t to ra trên mi trang web và
đc chn là đnh dng thông đip chun bi tính ph bin và hiu qu mã ngun m.
Do dch v Web là s kt h
p ca nhiu thành phn khác nhau nên XML s dng các
tính nng và đc trng ca các thành phn đó đ giao tip. XML là công c chính đ gii

quyt vn đ này và là kin trúc nn tng cho vic xây dng mt dch v Web, tt c d
liu s đc chuyn sang đnh dng th XML. Khi đó, các thông tin mã hóa s hoàn toàn
phù hp vi các thông tin theo chun ca SOAP hoc XML-RPC và có th tng tác vi
nhau trong m
t th thng nht.
b) SOAP - Simple Object Access Protocol:
SOAP là mt giao thc giao tip có cu trúc nh XML.Nó đc xem là cu trúc
xng sng ca các ng dng phân tán đc xây dng t nhiu ngôn ng và các h điu
hành khác nhau.SOAP là giao thc thay đi các thông đip da trên XML qua mng máy
tính, thông thng s dng giao thc HTTP.
Mt client s gi thông đip yêu cu ti server và ngay lp tc server s gi nhng
thông đip tr li ti client. C SMTP và HTTP đu là nhng giao thc  lp ng dng
ca SOAP nhng HTTP đc s dng và chp nhn rng rãi hn bi ngày nay nó có th
làm vic rt tt vi c s h tng Internet

Trang 13
Hình 2.4 Mô t SOAP đc s dng trong web service
c) WSDL (Web Service Description Language)
WSDL đnh ngha cách mô t dch v Web theo cú pháp tng quát ca XML, bao
gm các thông tin v tên dch v, giao thc và kiu mã hóa s đc s dng khi gi các
hàm ca dch v web, các loi thông tin nh thao tác, tham s, nhng kiu d liu (có th
là giao din ca dch v Web cng vi tên cho giao din này).
Mt WSDL hp l gm hai phn: phn giao din (mô t giao din và phng thc kt
ni) và phn thi hành mô t thông tin truy xut CSDL. C hai phn này s đc lu trong
2 tp tin XML tng ng là tp tin giao din dch v và tp tin thi hành dch v. Giao din
ca mt dch v Web đc miêu t trong phn này đa ra cách thc làm th nào đ giao
tip qua dch v Web. Tên, giao thc liên kt và đnh dng thông đip yêu cu đ t
ng
tác vi dch v Web đc đa vào th mc ca WSDL.
WSDL thng đc s dng kt hp vi gin đ XML và SOAP đ cung cp dch v

web qua Internet. Mt client khi kt ni ti dch v Web có th đc WSDL đ xác đnh

Trang 14
nhng chc nng sn có trên server. Sau đó, client có th s dng SOAP đ ly ra chc
nng chính xác có trong WSDL.

Hình 2.5 Các thành phn ca WSDL
Mi thành phn có mt chc nng riêng, c th nh sau:
Types: ch đnh kiu d liu cho các thông đip gi và nhn.
Messages: là mt thành phn tru tng mô t cách thc giao tip gia client và
server
Porttypes: mô t ánh x gia các thng đip – đc mô t trong phn t messages –
và các phng thc
Binding: xác đnh giáo thc nào s dng khi giao tip vi dch v web.
Port: ch đa ch hoc đim kt ni đn web service, thng là chui URL đn gin.
d) Universal Description, Discovery, And Integration (UDDI):
 có th s dng các dch v, trc tiên client phi tìm dch v, ghi nhn thông tin
v cách s dng và bit đc đi tng nào cung cp dch v. UDDI đnh ngha mt s

Trang 15
thành phn cho bit các thông tin này, cho phép các client truy tìm và nhn nhng thông
tin đc yêu cu khi s dng dch v Web.
e) Cu Trúc UDDI :
Trang trng (White pages): cha thông tin liên h và các đnh dng chính yu ca
dch v Web, chng hn tên giao dch, đa ch, thông tin nhn dng… Nhng thông tin
này cho phép các đi tng khác xác đnh đc dch v.
Trang vàng (Yellow pages): cha thông tin mô t dch v Web theo nhng loi khác
nhau. Nhng thông tin này cho phép các đi tng thy đc dch v Web theo tng loi
vi nó.
Trang xanh (Green pages): cha thông tin k thut mô t các hành vi và các chc

nng ca dch v Web.
Loi dch v (tModel): cha các thông tin v loi dch v đc s dng.
2.3 S LC V H IU HÀNH ANDROID:
2.3.1 LCH S ANDROID:
Android là h điu hành da trên nn tng linux dành cho các thit b đng. H điu
hành Android đc thit k đu tiên ti tng công ty Android. Sau đó đc Google mua
li vào nm 2005 cho đn nm 2007 Google mi chính thc ra mt h điu hành này.
2.3.2 ANDOIRD LÀ GÌ:
Android là tên mt nn tng m cho thit b di đng ca Google da trên kernel
Linux 2.6, gm h điu hành, nh
ng phn mm trung gian (middleware) và mt s ng
dng c bn mà ngi s dng cn đn. B công c phát trin phn mm Android SDK
cung cp các công c và các giao din lp trình ng dng API cn thit đ xây dng và
phát trin các ng dng trên nn Android bng ngôn ng lp trình Java.
2.3.3 KIN TRÚC H IU HÀNH ANDROID:
H điu hành Android có 4 tng t di lên trên là tng ht nhân Linux, tng
Libraries & Android runtime, tng Application Framework và trên cùng là tng
Application.
Hình 2.6 th hin 4 tng ca mt kin trúc h điu hành Android.

×