Nghiên cứu và xây dựng hệ thống nhận dạng chuỗi số tiếng Việt phát âm liên tục

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.89 MB, 25 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

HỌC VIEN CƠNG NGHỆ BƯU CHÍNH VIỄN THONG

TRAN ANH CAO

NGHIÊN CỨU VÀ XÂY DUNG HE THONG NHẬN DẠNG

CHUOI SO TIENG VIỆT PHAT ÂM LIÊN TỤC

CHUYEN NGANH: KHOA HOC MAY TÍNH

MA SO: 60.48.01.01

HA NỘI - 2015

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<small>Luận văn được hồn thành tại:</small>

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG

<small>Luận văn sẽ được bảo vệ trước Hội đông châm luận v ăn Thạc sĩ tại</small>

Học viện Cơng nghệ Bưu Chính Viễn thơng

Có thể tìm hiểu luận văn tại:

— _ Thư viện của Học viện Công nghệ Bưu chính Viễn thơng

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

MỞ ĐẦU

Tính cấp thiết của đề tài

Nghiên cứu nhận dạng tiếng nói tiếng Việt cũng là một van đề được các nhà

nghiên cứu quan tâm, đầu tư công sức trong những năm gần đây. Tiếng Việt là ngơn

ngữ đơn âm và có thanh điệu, có nhiều đặc thù khác biệt so với các ngơn ngữ nước

ngồi. Việc nghiên cứu nhận dạng tiếng nói tiếng Việt là cần thiết. Các thành quả

nghiên cứu nhận dạng tiếng nói của các ngơn ngữ nước ngoài cần được kế thừa và

nghiên cứu để áp dụng vào trong tiếng Việt.

Vì những lý do trên, tơi xin lựa chọn dé tài: “Nghiên cứu và xây dựng hệ

thống nhận dạng chuỗi số tiếng Việt phát âm liên tuc”, nhằm nghiên cứu các van đề

về nhận dạng tiếng nói và áp dụng chúng trong nhận dạng tiếng nói tiếng Việt.

<small>Mục đích nghiên cứu:</small>

— Nắm rõ các khái niệm, phương pháp liên quan đến nhận dạng tiếng nói.

— Nắm vững kiến thức về đặc trưng tiếng nói , mơ hình âm học, mơ hình ngơn ngữ

thích hợp cho tiếng Việt.

— Làm chủ công cụ xây dựng hệ nhận dạng tiếng nói.

— Xây dựng chương trình mơ phỏng, thực nghiệm, đưa ra nhận xét và kết luận.

Kết quả cần đạt được:

— Hiểu và cài đặt được chương trình nhận dang bằng giọng nói tiếng Việt, qua đó

đưa ra đánh giá, nhận xét và kết luận về mức độ sẵn sang và khả thi của chương

Đối tượng và p hạm vi nghiên cứu :

—_ Giải quyết bài toán nhận dạng chuỗi phát âm các chữ số tiếng Việt (huấn luyện

với số lượng từ vựng giới hạn), độc lập người nói.

— N6i dung của bộ huấn luyện xoay quanh chuỗi số phát âm liên tục,

<small>Phương pháp nghiên cứu:</small>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

—_ Áp dụng lý thuyết về mơ hình Markov ấn - HMM (Hidden Markov Model),

bao gồm khái niệm, các thuật toán liên quan và ý nghĩa của HMM trong hệ nhận

dạng tiếng nói.

— Áp dụng các đặc trưng tiếng nói như MFCC (Mel-Frequency Ceptrums

Coefficients ), PLP (Peceptual Linear Prodiction) cho nhận dạng tiếng nói.

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

CHUONG 1 - TONG QUAN VE NHẬN DẠNG TIENG NÓI

<small>1.1 Giới thiệu</small>

1.2 Nguyên tắc của hệ thống nhận dạng tiếng nói

Hình 1.1 miêu tả các lớp hệ thống nhận dạng tiếng nói khác nhau

Luận văn này chỉ đề cập đến hệ thống nhận dạng các từ liên tục. Phần sau

đây trình bày nguyên tắc cơ bản của một hệ thống nhận dạng từ liên tục.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<small>tiếng nói đặc tính từ hoặc được nhậnphổ âm vị dạng</small>

<small>đặc tính mẫu (pattern ; (language ></small>

<small>(feature clasification) processing)</small>

<small>học (acoustic ngữ</small>

<small>model) (language)</small>

<small>Hình 1.3 Các q trình nhận dạng</small>

Hình 1.3 cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng nói gồm có ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngơn ngữ.

1.2.1 Phân tích các đặc tính tiếng nói

Phân tích các đặc tính trích ra các thơng tin cần thiết cho q trình nhận dạng

tiếng nói từ tín hiệu tiếng nói. Q trình này loại bỏ những thơng tin không quan

trọng, chang hạn như tiếng ồn của môi trường thu âm, nhiễu trên đường truyền, các

đặc điểm riêng biệt của từng người nói, ... Kết quả ra của giai đoạn này là các vector đặc tính của mỗi khung tín hiệu tiếng nói.

1.2.2 Phân lbp mẫu

Bước thứ hai trong hệ thống nhận dạng tiếng nói đó là phân lớp mẫu, trong

đó hệ thống sẽ gán dãy các vector đặc tính thành dãy tối ưu các đơ n vị tiếng nói cơ

bản (từ hoặc âm vị). Có bốn phương pháp hay được áp dụng đó là: đối sánh mẫu

(template matcher), rule-based, mạng neuron va mơ hình Markov an.

1.3 Nghiên cứu hiện thời về nhận dạng tiếng nói

1.3.1 Các yếu tố ảnh hưởng đến khả năng nhận dạng của máy tính

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

1.3.2 Cac nghiên cứu về nhận dạng tiếng nói tiếng Việt 1⁄4 Ngôn ngữ tiếng Việt

1.4.1 Đặc điểm âm tiết tiếng Việt

Thanh Âm đầu Phần vần | Bậc 1

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<small>Bảng 1.1 Phân bô giữa nguyên âm âm chính và các âm đệm và bán nguyên âm cuôi</small>

1.4.3 Sw phân bé của các âm vị tiếng Việt

Bang 1.1 tổng kết sự phân bố giữa nguyên 4m âm chính và các âm đệm và

bán nguyên âm cuối [3].

1.5 Kết luận

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

CHƯƠNG 2 - HE THONG NHẬN DẠNG TIENG NÓI LIÊN

<small>Nhắn mạnh Tạo khung tín Làm cửa số c) DFT</small>

(pre-emphasis) c) hiệu (framing) L) (windowing)

<small>Tính giá tri ( Chinh gia tri h DCT h Logarit giá trị</small>

<small>delta MFCC cepstral năng lượng</small>

<small>(Bark frequency Equal-loudness</small>

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

Xét sự tiến triển theo thời gian của một hệ thống nào đó (có thê là một hệ vật

<small>được của hệ được gọi là không gian trạng thái, ký hiệu là S= /S), S;, Š;,...}. Giả sử</small>

tại thời điểm s hệ ở trạng thái S;, nếu xác suất dé hệ ở trạng thái Š tai thời điểm +

trong tương lai chỉ phụ thuộc vào s, /, S; S; thì có nghĩa là sự tiễn triển của hệ chỉ

<small>phụ thuộc vào hiện tại và độc lập với quá khứ. Ta gọi đó là tính Markov và hệ có</small>

tính chất này được gọi là q trình Markov.

Nếu khơng gian trạng thái Š của hệ là đếm được thì ta gọi hệ là xích Markov.

Nếu thời gian ¢ là rời rac £=0,1,2,... thì ta có xích Markov rời rac. Ta có thé biểu diễn

tính Markov của hệ bằng biểu thức sau :

Đặt P(s,i,t,j) = P(q: = S; | qs = S;) là xác suất để hệ tai thời điểm s ở trạng thai i,

đến thời điểm ¿ chuyền sang trang thái j. Ta gọi P(s,i,t,j) là xác suất chuyên của hệ. Nếu xác suất chuyền chỉ phụ thuộc vào (/-s) tức là

thi ta nói hệ là thuần nhất theo thời gian. Bat dau từ đây ta chi xét xích Markov rời

<small>rạc và thuân nhât. ay,</small>

<small>Hình 2. 3 Xích Markov với năm trạng thái S;, S,, ..., Ss và</small>

<small>các xác suât chuyên trạng thái.</small>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Hình 2.3 trình bày một ví dụ về mơ hình xích Markov rời rạc và thuần nhất,

trong đó hệ có thé ở một trong năm trạng thái S), S;,..., Sy (trong ví dụ trên N=5).

2.2.2 Mơ hình Markov an

Mơ hình Markov ân là kết quả của mở rộng khái niệm từ mơ hình Markov bằng

cách mỗi trạng thái được gan với một ham phat xa quan sát (observation

Một mơ hình Markov ân được đặc trưng bởi các thành phan cơ bản sau :

1) N, số trạng thái (state) trong mơ hình Markov. Các trạng thái thường được ký

hiệu bằng S= /S), S», S;, ...} và trạng thái của mơ hình tại thời điểm ¢ được kí hiệu là

2) M, số ky hiệu quan sát (observation symbol), đây là kích thước của bảng từ

vựng của mơ hình. Các ký hiệu quan sát được biéu diễn bằng V= /v, vo, ...}.

3) A = {aj}, xác suat chuyén trang thai (state transition probability distribution).

Trong đó z là xác suất dé trang thái / xuất hiện tại thời điểm ¿+7 khi trạng thái i đã

xuất hiện tại thời điểm ¿.

4) B = {bj(k)} xác suất phát xạ quan sát trong mỗi trạng thai (observation

symbol probability distribution in state). bj(k) là xác suất của quan sát v, tại trang

thái 7 tại thời điểm ¿.

bj(k) = P(v, tại thời điểm ¢ | gq, = S), (2.1)

5) 1 = {Z\, Z,.... My} Xác suất trang thái khởi dau (initial state distribution). 7;

là xác suất dé trạng thai i được chọn tại thời điểm khởi dau 1:

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

8) Chọn O; = v; tương Ứng với xác suất quan sát tại trạng thái S;: Đ;(#).

9) Chuyên sang trạng thái mới g,,) = Š; tương Ứng với xác suất chuyền trạng

Người ta thường dùng bộ ba 2=(4, 8, z) được coi là bộ ký pháp gọn đề biểu diễn

một mơ hình Markov ân. A, B và m được gọi là các tham số (parameters) của mơ

Hình 2.4 cho ta một ví dụ về một mơ hình Markov an gom có sáu trạng thái,

trong đó có một trạng thái khởi đầu và một trạng thái kết thúc. Sáu quan sat fo), 0»,

.., 06} được sinh ra từ bốn trang thái từ 2 đến 5. Mỗi trang thái có thé chuyển sang

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

trang thái bên phải của nó, hoặc chuyền sang chính nó. Riêng trang thái khởi đầu chỉ có một khả năng duy nhất chuyên sang trạng thái thứ 2, tức là z;;=1.

2.2.3 Ba bài toán cơ bản của mơ hình Markov an

Có ba bài tốn cơ bản của mơ hình Markov ân được đặt ra trong ứng dụng

nhận dạng tiếng nói.

Bài tốn 1: V6i day quan sắt O= ƒo, 02, 03, ...} và mơ hình Markov an

Â=(4, B, 1) đã được huấn luyện, chúng ta cần tính xác suất P(O /A).

Bài toán 2: Với dãy quan sát O= ƒo,, 02, 03, ...} và mơ hình Markov an

A=(A, B, z) làm thé nào chúng ta có thé tìm được dãy trang thái tương ứng q=(qp

đz, g›, ...) tối ưu nhất theo một tiêu chuẩn nao đó.

Bài tốn 3: Làm thé nào chúng ta điều chỉnh các tham số A, B, dé có được

xác suất P(O /A) lớn nhất.

<small>Bài tốn 1: Đây là bài tốn nhận dạng khi có một dãy các quan sát cho trước</small>

và một tập các mơ hình Markov ẩn, việc tính tốn các P(O / A) sẽ cho chúng ta tim ra được mơ hình Markov ẩn có xác suất P(O /A) tương ứng lớn nhất.

Bài tốn 2: Day là bài tốn tìm phần ân của mơ hình Markov, tức là day trạng

<small>thái g. Bài tốn nay hay được sử dụng trong q trình gan nhãn cưỡng bức dữ liệu</small>

huấn luyện.

Bài toán 3: Trong bài tốn này chúng ta điều chỉnh tham số của mơ hình

Markov 4n dé nó miêu tả một cách chính xác nhất các quan sát đã được biết trước

đó. Day quan sát dùng dé điều chỉnh các tham số được gọi là tập dữ liệu huấn luyện

(training data). Đây là khâu cơ bản trong một bài tốn nhận dạng, nó cho phép điều chỉnh các tham số dé học các dữ liệu từ các hiện tượng thực như tiếng nói.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

2.3 Kếtluận

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

CHƯƠNG 3 - XÂY DỰNG HE THONG NHAN DẠNG LIÊN

HTK cho phép định nghĩa một quy tắc ngữ pháp của một hệ thống nhận dạng

dưới dạng một tệp văn bản. Các quy tắc ngữ pháp này sẽ được sử dụng trong giai

<small>đoạn decoding dùng thuật toán Viterbi.</small>

<small>$digit = ONE TWO | THREE | FOUR FIVE |</small>

<small>Sname = [ JOOP ] JANSEN</small>

Từ điển được định nghĩa trong một tệp văn bản bao gồm các từ mà hệ

thống có thể nhận dạng được và các phiên âm của các từ này thành các đơn vị nhận

dạng của hệ thống. Đối với các hệ thống nhận dạng có số từ vựng lớn, các đơn vị

nhận dạng này thường là âm vị. Một từ điển bao gồm nhiều dòng, mỗi dòng tương

<small>ứng với một từ và phiên âm của nó.</small>

Cơ sở dữ liệu bao gồm các tệp âm thanh lưu ở đạng wav, và các tệp văn bản

<small>chứa phiên âm chính tả của các tệp âm thanh. Mỗi tệp âm thanh có một tệp văn bản</small>

<small>tương ứng phiên âm chính tả của phát âm. Các phiên âm ở mức âm vị được lưu</small>

trong các tệp có đi .phn. Các phiên âm ở mức âm vị bao gồm nhiều dòng, mỗi

<small>dong chưa tên âm vi cùng với nhãn thời gian của âm vị đó trong tệp âm thanh.</small>

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

3.2.1.4. Trích chọn các đặc điểm

Cơng việc tính tốn trích trọn các đặc tính phô của các tệp âm thanh được

thực hiện bởi công cụ Hcopy. HTK hé trợ tính tốn nhiều tham số khác nhau, trong

đó có các loại thơng dụng là MFCC và PLP. Các hệ số MFCC va PLP được tính

tốn và lưu vào một tệp tương ứng với tệp âm thanh với phần đuôi là .mfc. Các giá

trị delta của các hệ số trên được tính tốn trong q trình huấn luyện và nhận dạng

Hcopy sẽ đọc một tệp cau hình, trong đó khai báo các tham số ding trong

q trình tính tốn các giá trị đặc tính phơ của tệp âm thanh.

3.2.2. Khai báo cau trúc mơ hình Markov

3.2.3 Khởi tạo các tham số

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<small>mẫu huấn luyện 1.mfc</small>

<small>mẫu huấn luyện 2.mfc</small>

<small>mẫu huấn luyện 3.mfc</small>

Trên thực tế, Hcompv làm việc giống như Hinit ở bước khởi đầu, tức là các

vector của một phát âm sẽ được chia thành các đoạn đều nhau đều cho tat cả cá c âm

<small>vị. Tuy nhiên khác với Hinit, các âm vi đêu chung nhau một mơ hình và các tham sơ</small>

của mơ hình này sẽ được tính tốn và khởi tạo giống nhau. Hình 3.3 miêu tả hoạt

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

3.2.4 Huấn luyện các đơn vị nhận dang đơn

3.2.4.1 Huấn luyện nhúng bằng Herest

Đây là cơng cụ huấn luyện chính thực hiện huấn luyện bằng phương thức

nhúng (embedded training), tính tốn và cập nhật các tham số của nhiều mơ hình

cùng một lúc. Day là cơng cụ quan trọng nhất và được coi là trái tim của hệ thống

<small>huân luyện.</small>

<small>Dữ liệu huấn luyện</small>

Các mơ hình pale n pals

3.2.4.2 Gan nhãn cưỡng bức dữ liệu huấn luyện

3.2.5 Huấn luyện các âm ba

Một âm vị luôn chịu ảnh hưởng của ngữ cảnh xung quanh và hệ thống nhận

dạng chỉ làm việc tốt nếu như chúng được huấn luyện bởi các đơn vị nhận dạng phụ

<small>thuộc ngữ cảnh. Trong HTK đơn vị phụ thuộc ngữ cảnh được gọi là âm ba</small>

(triphone) dé phân biệt với các âm đơn, đơn vị độc lập ngữ cảnh.

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

<small>phiên âm theo</small>

êm đơn âm đơn

<small>Hình 3. 6 Quá trình buộc các âm ba bằng Hhed</small>

Thuật toán lái dữ liệu (data driven) được khởi động bằng cho tất cả các trạng

thái, mỗi trạng thái vào một nhóm (cluster). Sau đó cặp nhóm mà khi chúng kết hợp

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

lại với nhau sẽ tạo thành nhóm mới có kích thước nhỏ nhất sẽ được ghép lại với

nhau. Quá trình này tiếp tục cho đến khi kích thước của nhóm lớn nhất vượt qua

ngưỡng được định nghĩa bởi câu lệnh TC, hoặc là tổng số các nhóm nhỏ hơn

ngưỡng được định nghĩa bởi câu lệnh NC. Kích thước của một nhóm được hiểu là

khoảng cách lớn nhất của một cặp trạng thái bất kỳ trong nhóm. Đối với trường hợp

<small>hàm phát xạ quan sát của trạng thái là hàm Gaussian thì khoảng cách là khoảng</small>

<small>cách Euclidean giữa các tham sô của các hàm mật độ xác suât.</small>

<small>Hình 3. 7 Buộc các trang thái</small>

<small>Hình 3.8 miêu tả hoạt động của một trường hợp dùng lái đữ liệu như sau:</small>

<small>T+E 100.0 “oa” {*-a†*.statel2]}</small>

3.2.6.2 Phân nhóm bang cây

Một trong các nhược điểm của phương pháp lái dir liệu là không thực hiện được với các âm ba mà khơng có dữ liệu huấn luyện. Khi xây dựng hệ thống nhận

dạng với các âm ba giới nội từ, vấn đề này có thé tránh được bởi lựa chọn dữ liệu

huấn luyện để cho tất cả các âm ba đều có đữ liệu huấn luyện tương ứng. Tuy nhiên

nếu các âm ba liên từ được sử dụng thì sơ lượng các âm ba sẽ rat lớn, có thê lên dén

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

Đến đây hệ thống đã sẵn sàng được dùng để tiến hành nhận dạng. Q trình

nhận dạng được thực hiện bằng cơng cụ Hvite.

<small>3.3.2 Mơ hình ngơn ngữ bigram</small>

3.3.3 Sw dụng mạng từ trong hệ thong nhận dang

3.4 Kếtluận

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

CHƯƠNG 4 - CHƯƠNG TRÌNH NHAN DANG CHỮ SO

TIENG VIỆT PHÁT ÂM LIÊN TỤC

4.1 Xây dựng chương trình mơ phỏng nhận dạng mười chữ số tiếng

Cơ sở dữ liệu được chia thành 2 tập: tập dữ liệu huấn luyện (training set) và

tập dữ liệu kiểm tra (test set). Tập đữ liệu huấn luyện bao gồm 296 câu, 1686 từ, do

158 người nói (104 nam và 54 nữ). Tập dữ liệu kiểm tra có 74 câu, 317 từ do 38

<small>người nói (27 nam, 11 nữ). Dé đảm bảo tính khách quan, người nói trong tập dữ liệu</small>

kiểm tra là độc lập với người nói trong tập dữ liệu huấn luyện.

<small>4.1.2 Phương pháp nhận dang</small>

<small>Phương pháp nhận dạng được sử dụng là phương pháp xây dựng một hệ</small>

thống nhận dạng bằng cơng cụ HTK được trình bày trong chương 3. Đây là công cụ

được sử dụng nhiều trong nhận dạng tiếng nói.

4.1.3 Kết quả nhận dạng

<small>SENT: %Correct=13.51 [H=10, S=64, N=74]</small>

Két qua dat được với hệ thống có độ chính xác 77,29% ở mức từ va 13.51%

ở mức câu, nhận thấy chất lượng nhận dạng ở mức câu còn thấp, nguyên nhân do dữ

liệu giọng nói thu âm bằng điện thoại có lẫn nhiều tạp âm như tiếng ho, tiếng cười,

“à, ờ”... đối với máy tính trường hợp như vậy gây ra những khó khăn đặc biệt trong nhận dạng tiếng nói.

<small>4.2 Nâng cao độ chính xác nhận dạng</small>

4.2.1 Thủ nghiệm với nhiều ham Gaussian

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

Trong lần thử nghiệm này 3 ham Gaussian được sử dung. Qua kiểm thử tra

thử nhận dạng trên dữ liệu kiểm tra, hệ thống bao gồm 3 hàm Gaussian đã cho kết

<small>quả cải thiện tot hơn so với hệ thông chi bao gôm một ham Gaussian:</small>

<small>SENT: %Correct=14.86 [H=11, S=63, N=74]</small>

Kết quả đạt được với hệ thống có độ chính xác 78.23% ở mức từ va 14.86%

ở mức câu, so với 77,29% ở mức từ va 13.51% ở mức câu ở hệ thống sử dụng một

<small>ham Gaussian.</small>

43 Kết luận

</div>