Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.89 MB, 25 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
HA NỘI - 2015
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><small>Luận văn được hồn thành tại:</small>
<small>Phản biện 2:...- - Ă G111 12111 21111011119 11110 111g tr.</small>
<small>Luận văn sẽ được bảo vệ trước Hội đông châm luận v ăn Thạc sĩ tại</small>
Nghiên cứu nhận dạng tiếng nói tiếng Việt cũng là một van đề được các nhà
ngữ đơn âm và có thanh điệu, có nhiều đặc thù khác biệt so với các ngơn ngữ nước
Vì những lý do trên, tơi xin lựa chọn dé tài: “Nghiên cứu và xây dựng hệ
<small>Mục đích nghiên cứu:</small>
— Nắm rõ các khái niệm, phương pháp liên quan đến nhận dạng tiếng nói.
thích hợp cho tiếng Việt.
— Xây dựng chương trình mơ phỏng, thực nghiệm, đưa ra nhận xét và kết luận.
với số lượng từ vựng giới hạn), độc lập người nói.
— N6i dung của bộ huấn luyện xoay quanh chuỗi số phát âm liên tục,
<small>Phương pháp nghiên cứu:</small>
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">—_ Áp dụng lý thuyết về mơ hình Markov ấn - HMM (Hidden Markov Model),
dạng tiếng nói.
— Áp dụng các đặc trưng tiếng nói như MFCC (Mel-Frequency Ceptrums
<small>1.1 Giới thiệu</small>
đây trình bày nguyên tắc cơ bản của một hệ thống nhận dạng từ liên tục.
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6"><small>Tín hiệu Dãy các Dãy các Từ, câu</small>
<small>tiếng nói đặc tính từ hoặc được nhậnphổ âm vị dạng</small>
<small>Phân tích Phân lớp Xử lý ngơn ngữ</small>
<small>đặc tính mẫu (pattern ; (language ></small>
<small>(feature clasification) processing)</small>
<small>M6 hinh 4m Mô hình ngơn</small>
<small>học (acoustic ngữ</small>
<small>model) (language)</small>
<small>Hình 1.3 Các q trình nhận dạng</small>
Hình 1.3 cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng nói gồm có ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngơn ngữ.
Phân tích các đặc tính trích ra các thơng tin cần thiết cho q trình nhận dạng
tiếng nói từ tín hiệu tiếng nói. Q trình này loại bỏ những thơng tin không quan
trọng, chang hạn như tiếng ồn của môi trường thu âm, nhiễu trên đường truyền, các
đặc điểm riêng biệt của từng người nói, ... Kết quả ra của giai đoạn này là các vector đặc tính của mỗi khung tín hiệu tiếng nói.
đó hệ thống sẽ gán dãy các vector đặc tính thành dãy tối ưu các đơ n vị tiếng nói cơ
(template matcher), rule-based, mạng neuron va mơ hình Markov an.
<small>1.2.3 Mơ hình ngơn ngữ</small>
<small>Âm đệm Âm Âm cuối Bậc 2</small>
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"><small>Bảng 1.1 Phân bô giữa nguyên âm âm chính và các âm đệm và bán nguyên âm cuôi</small>
<small>Nhắn mạnh Tạo khung tín Làm cửa số c) DFT</small>
<small>[ |</small>
<small>Lọc tan số Mel</small>
<small>Tính giá tri ( Chinh gia tri h DCT h Logarit giá trị</small>
<small>delta MFCC cepstral năng lượng</small>
<small>FFT 2 Lọc tan số Bark c) Nhắn mạnh dùng ham</small>
<small>(Bark frequency Equal-loudness</small>
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10"><small>ly hay hệ sinh thái, ...), ký hiệu g, là vi tri của hệ tại thời điểm ứ. Các vị trí có thé có</small>
<small>được của hệ được gọi là không gian trạng thái, ký hiệu là S= /S), S;, Š;,...}. Giả sử</small>
tại thời điểm s hệ ở trạng thái S;, nếu xác suất dé hệ ở trạng thái Š tai thời điểm +
trong tương lai chỉ phụ thuộc vào s, /, S; S; thì có nghĩa là sự tiễn triển của hệ chỉ
<small>phụ thuộc vào hiện tại và độc lập với quá khứ. Ta gọi đó là tính Markov và hệ có</small>
tính chất này được gọi là q trình Markov.
Nếu thời gian ¢ là rời rac £=0,1,2,... thì ta có xích Markov rời rac. Ta có thé biểu diễn
<small>P(q: = Sj | Ger = Sis qịa = Sx...) = P(e = S; | Ge = Si)</small>
Đặt P(s,i,t,j) = P(q: = S; | qs = S;) là xác suất để hệ tai thời điểm s ở trạng thai i,
đến thời điểm ¿ chuyền sang trang thái j. Ta gọi P(s,i,t,j) là xác suất chuyên của hệ. Nếu xác suất chuyền chỉ phụ thuộc vào (/-s) tức là
<small>P(s,i,t p= P@+h,,t+h,J)</small>
<small>rạc và thuân nhât. ay,</small>
<small>Hình 2. 3 Xích Markov với năm trạng thái S;, S,, ..., Ss và</small>
<small>các xác suât chuyên trạng thái.</small>
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">Hình 2.3 trình bày một ví dụ về mơ hình xích Markov rời rạc và thuần nhất,
trong đó hệ có thé ở một trong năm trạng thái S), S;,..., Sy (trong ví dụ trên N=5).
Mơ hình Markov ân là kết quả của mở rộng khái niệm từ mơ hình Markov bằng
2) M, số ky hiệu quan sát (observation symbol), đây là kích thước của bảng từ
vựng của mơ hình. Các ký hiệu quan sát được biéu diễn bằng V= /v, vo, ...}.
Trong đó z là xác suất dé trang thái / xuất hiện tại thời điểm ¿+7 khi trạng thái i đã
<small>ay PQs! Sj | Si)</small>
symbol probability distribution in state). bj(k) là xác suất của quan sát v, tại trang
bj(k) = P(v, tại thời điểm ¢ | gq, = S), (2.1)
5) 1 = {Z\, Z,.... My} Xác suất trang thái khởi dau (initial state distribution). 7;
là xác suất dé trạng thai i được chọn tại thời điểm khởi dau 1:
<small>ZI=P(4i=S)</small>
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">8) Chọn O; = v; tương Ứng với xác suất quan sát tại trạng thái S;: Đ;(#).
một mơ hình Markov ân. A, B và m được gọi là các tham số (parameters) của mơ
<small>hình Â.</small>
.., 06} được sinh ra từ bốn trang thái từ 2 đến 5. Mỗi trang thái có thé chuyển sang
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">trang thái bên phải của nó, hoặc chuyền sang chính nó. Riêng trang thái khởi đầu chỉ có một khả năng duy nhất chuyên sang trạng thái thứ 2, tức là z;;=1.
Có ba bài tốn cơ bản của mơ hình Markov ân được đặt ra trong ứng dụng
<small>Bài tốn 1: Đây là bài tốn nhận dạng khi có một dãy các quan sát cho trước</small>
<small>thái g. Bài tốn nay hay được sử dụng trong q trình gan nhãn cưỡng bức dữ liệu</small>
Bài toán 3: Trong bài tốn này chúng ta điều chỉnh tham số của mơ hình
đó. Day quan sát dùng dé điều chỉnh các tham số được gọi là tập dữ liệu huấn luyện
<small>2.2.4 Các giải pháp toán học cho ba bài toán cơ bản</small>
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14"><small>2.2.5.1 Mơ hình HMM rời rac</small>
<small>2.2.5.2 Mơ hình HMM liên tục</small>
<small>2.2.5.3 Mơ hình HMM ban liên tục</small>
<small>12</small>
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">dưới dạng một tệp văn bản. Các quy tắc ngữ pháp này sẽ được sử dụng trong giai
<small>đoạn decoding dùng thuật toán Viterbi.</small>
<small>$digit = ONE TWO | THREE | FOUR FIVE |</small>
<small>SIX | SEVEN | EIGHT | NINE | OH | ZERO;</small>
<small>Sname = [ JOOP ] JANSEN</small>
Từ điển được định nghĩa trong một tệp văn bản bao gồm các từ mà hệ
thống có thể nhận dạng được và các phiên âm của các từ này thành các đơn vị nhận
<small>3.2.1.3. Cơ sở dt liệu</small>
Cơ sở dữ liệu bao gồm các tệp âm thanh lưu ở đạng wav, và các tệp văn bản
<small>chứa phiên âm chính tả của các tệp âm thanh. Mỗi tệp âm thanh có một tệp văn bản</small>
<small>tương ứng phiên âm chính tả của phát âm. Các phiên âm ở mức âm vị được lưu</small>
<small>dong chưa tên âm vi cùng với nhãn thời gian của âm vị đó trong tệp âm thanh.</small>
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">Cơng việc tính tốn trích trọn các đặc tính phô của các tệp âm thanh được
đó có các loại thơng dụng là MFCC và PLP. Các hệ số MFCC va PLP được tính
q trình tính tốn các giá trị đặc tính phơ của tệp âm thanh.
<small>mẫu huấn luyện 1.mfc</small>
<small>mẫu huấn luyện 2.mfc</small>
<small>mẫu huấn luyện 3.mfc</small>
Trên thực tế, Hcompv làm việc giống như Hinit ở bước khởi đầu, tức là các
<small>vị. Tuy nhiên khác với Hinit, các âm vi đêu chung nhau một mơ hình và các tham sơ</small>
của mơ hình này sẽ được tính tốn và khởi tạo giống nhau. Hình 3.3 miêu tả hoạt
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">Đây là cơng cụ huấn luyện chính thực hiện huấn luyện bằng phương thức
cùng một lúc. Day là cơng cụ quan trọng nhất và được coi là trái tim của hệ thống
<small>huân luyện.</small>
<small>Dữ liệu huấn luyện</small>
Một âm vị luôn chịu ảnh hưởng của ngữ cảnh xung quanh và hệ thống nhận
<small>thuộc ngữ cảnh. Trong HTK đơn vị phụ thuộc ngữ cảnh được gọi là âm ba</small>
<small>phiên âm theo</small>
<small>Hình 3. 6 Quá trình buộc các âm ba bằng Hhed</small>
<small>3.2.6.1 Lái dit liệu</small>
thái, mỗi trạng thái vào một nhóm (cluster). Sau đó cặp nhóm mà khi chúng kết hợp
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">lại với nhau sẽ tạo thành nhóm mới có kích thước nhỏ nhất sẽ được ghép lại với
<small>hàm phát xạ quan sát của trạng thái là hàm Gaussian thì khoảng cách là khoảng</small>
<small>cách Euclidean giữa các tham sô của các hàm mật độ xác suât.</small>
<small>Hình 3. 7 Buộc các trang thái</small>
<small>Hình 3.8 miêu tả hoạt động của một trường hợp dùng lái đữ liệu như sau:</small>
<small>T+E 100.0 “oa” {*-a†*.statel2]}</small>
nếu các âm ba liên từ được sử dụng thì sơ lượng các âm ba sẽ rat lớn, có thê lên dén
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">Đến đây hệ thống đã sẵn sàng được dùng để tiến hành nhận dạng. Q trình
<small>3.3.1 Xây dựng mang từ nhận dạng</small>
<small>3.3.2 Mơ hình ngơn ngữ bigram</small>
<small>3.3.4 Giải ma</small>
<small>Việt phát âm liên tục4.1.1 Cơ sở dữ liệu</small>
tập dữ liệu kiểm tra (test set). Tập đữ liệu huấn luyện bao gồm 296 câu, 1686 từ, do
<small>người nói (27 nam, 11 nữ). Dé đảm bảo tính khách quan, người nói trong tập dữ liệu</small>
<small>4.1.2 Phương pháp nhận dang</small>
<small>Phương pháp nhận dạng được sử dụng là phương pháp xây dựng một hệ</small>
thống nhận dạng bằng cơng cụ HTK được trình bày trong chương 3. Đây là công cụ
<small>SENT: %Correct=13.51 [H=10, S=64, N=74]</small>
<small>WORD: %Corr=77.29, Acc=47.00 [H=245, D=4, S=68, I=96, N=317]</small>
ở mức câu, nhận thấy chất lượng nhận dạng ở mức câu còn thấp, nguyên nhân do dữ
“à, ờ”... đối với máy tính trường hợp như vậy gây ra những khó khăn đặc biệt trong nhận dạng tiếng nói.
<small>4.2 Nâng cao độ chính xác nhận dạng</small>
Trong lần thử nghiệm này 3 ham Gaussian được sử dung. Qua kiểm thử tra
<small>quả cải thiện tot hơn so với hệ thông chi bao gôm một ham Gaussian:</small>
<small>SENT: %Correct=14.86 [H=11, S=63, N=74]</small>
<small>WORD: %Corr=78.23, Acc=47.95 [H=248, D=3, S=66, I=96, N=317]</small>
Kết quả đạt được với hệ thống có độ chính xác 78.23% ở mức từ va 14.86%