Tải bản đầy đủ (.pdf) (137 trang)

Nhận dạng tiếng nói tiếng việt sử dụng mức dưới từ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.89 MB, 137 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-------------------------------

NGUYỄN PHÚ BÌNH

NHẬN DẠNG TIẾNG NĨI TIẾNG VIỆT SỬ DỤNG MỨC
DƯỚI TỪ

LUẬN VĂN THẠC SỸ
CHUYÊN NGÀNH: XỬ LÝ THÔNG TIN VÀ TRUYỀN THÔNG

Hà Nội – 2004


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-------------------------------

NGUYỄN PHÚ BÌNH

NHẬN DẠNG TIẾNG NĨI TIẾNG VIỆT SỬ DỤNG MỨC
DƯỚI TỪ

LUẬN VĂN THẠC SỸ
CHUYÊN NGÀNH: XỬ LÝ THÔNG TIN VÀ TRUYỀN THÔNG

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. TRỊNH VĂN LOANG

Hà Nội – 2004



MỤC LỤC
Tổng quan ....................................................................................................................... 1
1.1. Nhận dạng tiếng nói ................................................................................................... 1
1.2. Các phương pháp tiếp cận trong nhận dạng tiếng nói ............................................... 3
1.2.1. Phương pháp âm học - ngữ âm học ................................................................... 3
1.2.2. Phương pháp nhận dạng mẫu ............................................................................. 5
1.2.3. Phương pháp ứng dụng trí tuệ nhân tạo ............................................................. 7
1.3. Tình hình nhận dạng tiếng nói tại nước ta hiện nay................................................... 8
1.4. Mục tiêu thực hiện của đề tài ................................................................................... 11
2 Tín hiệu tiếng nói ......................................................................................................... 13
2.1. Bộ máy phát âm và cơ chế tạo ra tiếng nói .............................................................. 13
2.2. Các đặc tính âm học của tiếng nói ........................................................................... 16
2.2.1. Âm hữu thanh và âm vô thanh ......................................................................... 16
a. Âm hữu thanh .................................................................................................... 16
b. Âm vô thanh....................................................................................................... 16
2.2.2. Âm vị ............................................................................................................... 17
a. Nguyên âm ......................................................................................................... 17
b. Phụ âm ............................................................................................................... 17
2.2.3. Các đặc tính khác ............................................................................................. 17
a. Tỷ suất thời gian ................................................................................................ 17
b. Hàm năng lượng thời gian ngắn ........................................................................ 18
c. Tần số cơ bản ..................................................................................................... 18
d. Formant .............................................................................................................. 18
2.3. Biểu diễn tín hiệu tiếng nói ...................................................................................... 19
2.3.1. Tín hiệu tiếng nói trên miền thời gian. ............................................................ 19
2.3.2. Tín hiệu tiếng nói trên miền tần số .................................................................. 20
2.3.3. Tín hiệu tiếng nói trên miền thời gian và tần số kết hợp ................................. 20
3 Trích chọn đặc trưng tín hiệu tiếng nói ..................................................................... 22
3.1. Tiền xử lý tín hiệu .................................................................................................... 23

3.1.1. Hàm năng lượng ngắn hạn ............................................................................... 23
3.1.2. Phát hiện điểm đầu và điểm cuối của tiếng nói ............................................... 23
3.1.3. Bộ lọc hiệu chỉnh ............................................................................................. 24
3.2. Phân khung và hàm cửa sổ ...................................................................................... 25
3.2.1. Phân khung ...................................................................................................... 25
3.2.2. Lấy cửa sổ ........................................................................................................ 26
3.3. Phân tích các tham số đặc trưng .............................................................................. 27
3.3.1. Biến đổi Fourier rời rạc.................................................................................... 28
3.3.2. Biến đổi sang thang Mel trên miền tần số ....................................................... 28
3.3.3. Biến đổi Cosine rời rạc .................................................................................... 29
3.4. Hiệu chỉnh kết quả ................................................................................................... 30
3.4.1. Cepstral có trọng số ......................................................................................... 30
3.4.2. Các tham số tức thời ........................................................................................ 30
1


3.5. Kết luận .................................................................................................................... 30
Mơ hình Markov ẩn ..................................................................................................... 32
4.1. Tổng quan về mơ hình Markov ẩn ........................................................................... 33
4.1.1. Các quá trình Markov rời rạc về thời gian ....................................................... 33
4.1.2. Mơ hình Markov ẩn ......................................................................................... 35
a. Khái niệm ........................................................................................................... 35
b. Các thành phần của một mơ hình Markov ẩn .................................................... 38
4.2. Các vấn đề cơ bản của mơ hình Markov ẩn ............................................................. 39
4.2.1. Bài toán 1: Đánh giá xác suất .......................................................................... 39
a. Thủ tục tiến (Forward Procedure) ...................................................................... 40
b. Thủ tục lùi (Backward Procedure) ..................................................................... 42
4.2.2. Bài tốn 2: Tìm dãy trạng thái tối ưu ............................................................... 43
a. Thuật toán Viterbi .............................................................................................. 44
b. Một cách cài đặt khác của thuật toán Viterbi..................................................... 45

4.2.3. Bài toán 3: Ước lượng các tham số của mơ hình ............................................. 46
4.3. Sử dụng mơ hình Markov ẩn trong nhận dạng tiếng nói ......................................... 50
4.3.1. Mơ hình Markov ẩn với đầu vào liên tục ......................................................... 50
4.3.2. Các loại mơ hình Markov ẩn............................................................................ 52
4.3.3. Nhận dạng tiếng nói phát âm rời rạc ................................................................ 55
4.3.4. Nhận dạng tiếng nói phát âm liên tục .............................................................. 56
a. Vai trò của thuật tốn Viterbi ............................................................................ 56
b. Mơ hình subword và thủ tục huấn luyện nhúng (embedded training) ............... 57
c. Giải mã chuỗi quan sát....................................................................................... 60
4.3.5. Các cơng thức huấn luyện mơ hình.................................................................. 60
a. Một số kí hiệu .................................................................................................... 61
b. Khởi tạo các giá trị ban đầu cho mơ hình .......................................................... 61
c. Các xác suất Forward và Backward ................................................................... 63
d. Huấn luyện mô hình cả từ .................................................................................. 65
e. Huấn luyện mơ hình subword ............................................................................ 66
5 Sử dụng mơ hình ngơn ngữ trong nhận dạng tiếng nói ............................................ 68
5.1. Khái niệm về mơ hình ngơn ngữ ............................................................................. 68
5.1.1. Mơ hình ngơn ngữ là gì.................................................................................... 68
5.1.2. Một số vấn đề khi áp dụng mơ hình ngơn ngữ ................................................ 69
5.1.3. Các loại mơ hình ngơn ngữ .............................................................................. 69
a. Mơ hình ngơn ngữ dựa trên cú pháp .................................................................. 70
b. Mơ hình ngơn ngữ ngẫu nhiên ........................................................................... 73
5.2. Các thuật tốn tìm kiếm trong nhận dạng tiếng nói ................................................. 75
5.2.1. Khơng gian tìm kiếm ....................................................................................... 75
5.2.2. Khơng gian tìm kiếm với FSM và CFG........................................................... 76
5.2.3. Khơng gian tìm kiếm với mơ hình Unigram .................................................... 79
5.2.4. Khơng gian tìm kiếm với mơ hình Bigram ...................................................... 79
5.2.5. Khơng gian tìm kiếm với các mơ hình Trigram .............................................. 81
5.3. Tìm kiếm Viterbi đồng bộ thời gian ........................................................................ 82
5.3.1. Ý tưởng của thuật toán ..................................................................................... 82

4


5.3.2. Sử dụng chùm trong tìm kiếm ......................................................................... 84
5.3.3. Tìm kiếm Viterbi theo chùm ............................................................................ 84
6 Xây dựng chương trình nhận dạng tiếng nói tiếng Việt ........................................... 87
6.1. Đại cương về tiếng Việt ........................................................................................... 87
6.1.1. Đặc điểm của tiếng Việt................................................................................... 87
a. Đặc điểm ngữ âm ............................................................................................... 88
b. Đặc điểm từ vựng............................................................................................... 88
c. Đặc điểm ngữ pháp ............................................................................................ 88
6.1.2. Âm tiết ............................................................................................................. 89
a. Khái niệm ........................................................................................................... 89
b. Cấu tạo của âm tiết............................................................................................. 90
6.1.3. Âm tố ............................................................................................................... 94
6.1.4. Âm vị ............................................................................................................... 95
6.1.5. Tiếng ................................................................................................................ 95
6.1.6. Hình vị ............................................................................................................. 95
6.1.7. Chữ viết............................................................................................................ 96
6.1.8. Chính tả ............................................................................................................ 97
6.1.9. Hệ thống âm vị ................................................................................................. 98
6.2. Xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ............................................... 100
6.2.1. Các thành phần chính của hệ thống ............................................................... 100
6.2.2. Chuẩn bị cơ sở dữ liệu tiếng nói .................................................................... 102
6.2.3. Huấn luyện mơ hình và đánh giá hệ thống .................................................... 105
6.2.4. Nhận dạng tiếng nói trong chế độ thời gian thực........................................... 108
6.3. Lựa chọn đơn vị âm thanh để huấn luyện mơ hình ................................................ 110
6.3.1. Các đơn vị nhận dạng thơng thường .............................................................. 111
a. Mơ hình từ và âm tiết ....................................................................................... 111
b. Mơ hình âm vị .................................................................................................. 111

c. Mơ hình âm vị kép, ba âm vị ........................................................................... 112
d. Mơ hình âm đầu + vần ..................................................................................... 113
6.3.2. Đề xuất đơn vị nhận dạng cơ bản là bán âm tiết ............................................ 114
6.4. Các kết quả thực nghiệm ....................................................................................... 115
6.4.1. So sánh mơ hình âm đầu + vần với mơ hình bán âm tiết ............................... 115
6.4.2. Ảnh hưởng của số lần thực hiện vòng lặp trong thủ tục huấn luyện ............. 115
6.4.3. Nhận dạng các từ chưa được huấn luyện ....................................................... 117
6.4.4. Các thử nghiệm với số lượng từ vựng nhỏ .................................................... 117
7 Kết luận ....................................................................................................................... 119
1. Các kết quả đạt được ................................................................................................. 119
2. Phương hướng phát triển của đề tài ........................................................................... 120


DANH SÁCH HÌNH VẼ
Hình 1.1. Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói điển hình ................... 2
Hình 1.2. Sơ đồ khối của hệ thống nhận dạng tiếng nói theo phương pháp âm học - ngữ âm
học ................................................................................................................................. 4
Hình 1.3. Sơ đồ khối hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu ....... 6
Hình 1.4. Mơ hình của phương pháp bottom-up ................................................................... 8
Hình 2.1. Q trình tạo và cảm thụ tiếng nói của con người ............................................... 14
Hình 2.2. Bộ máy phát âm của con người ........................................................................... 14
Hình 2.3. Q trình tạo tín hiệu tiếng nói ............................................................................ 16
Hình 2.4. Biểu diễn tín hiệu tiếng nói trên miền thời gian .................................................. 19
Hình 2.5. Biểu diễn tín hiệu trên miền tần số ...................................................................... 20
Hình 2.6. Biểu diễn tín hiệu trên miền kết hợp thời gian và tần số ..................................... 21
Hình 3.1. Sơ đồ tổng quát của các phương pháp phân tích đặc trưng tiếng nói .................. 22
Hình 3.2. Tín hiệu nguồn ..................................................................................................... 24
Hình 3.3. Đáp ứng của bộ lọc hiệu chỉnh ............................................................................ 25
Hình 3.4. Phân khung tín hiệu ............................................................................................. 26
Hình 3.5. Cửa sổ Hamming ................................................................................................. 27

Hình 3.6. Chuyển đổi thang tần số Hz-Mel ......................................................................... 28
Hình 3.7. Các băng lọc tam giác theo thang tần số Mel ...................................................... 29
Hình 3.8. Sơ đồ tính tốn các hệ số MFCC ......................................................................... 31
Hình 4.1. Mơ hình Markov của ví dụ về thời tiết ................................................................ 34
Hình 4.2. Ba mơ hình Markov có thể giải thích cho ví dụ tung đồng xu ............................ 37
Hình 4.3. Minh họa chuỗi thao tác để tính tốn biến tiến αt+1 ............................................. 42
Hình 4.4. Minh họa chuỗi thao tác để tính tốn biến lùi βt .................................................. 43
Hình 4.5. Tính xác suất có trạng thái i tại thời điểm t và trạng thái j tại thời điểm t+1....... 47
Hình 4.6. Ví dụ về phân bố Gauss ....................................................................................... 51
Hình 4.7. Ví dụ về các loại mơ hình Markov ẩn ................................................................. 53
Hình 4.8. Mơ hình trái phải với bước nhảy 2 ...................................................................... 54
Hình 4.9. Mơ hình tổng qt nhận dạng tiếng nói sử dụng HMM ...................................... 55
Hình 4.10. Thuật tốn Viterbi áp dụng trong nhận dạng tiếng nói ...................................... 57
Hình 5.1. Văn phạm trong ứng dụng quay số bằng giọng nói ............................................. 72
Hình 5.2. Ví dụ chuyển một FSG sang mơ hình HMM tổng hợp........................................ 76
Hình 5.3. Một RNT đơn giản với 3 cung: CAT(x), PUSH(x) và POP ................................ 78
Hình 5.4. Mơ hình Unigram với các xác suất unigram là các xác suất chuyển dịch từ trạng
thái giả bắt đầu đến trạng thái đầu tiên của mơ hình HMM ........................................ 79
Hình 5.5. Mơ hình bigram với P(wj|wi) được xác định là xác suất chuyển dịch từ từ wi đến
từ wj ............................................................................................................................. 80
Hình 5.6. Giảm thiểu số bigram khi tìm kiếm bằng các nút backoff ................................... 81
Hình 5.7. Mơ hình Trigram .................................................................................................. 82
Hình 6.1. Cấu tạo âm tiết tiếng Việt .................................................................................... 90
Hình 6.2. Bảng hệ thống âm đầu (phụ âm đầu) ................................................................... 91
Hình 6.3. Các ngun âm chính của tiếng Việt ................................................................... 92


Hình 6.4. Các âm cuối trong tiếng Việt ............................................................................... 93
Hình 6.5. Dạng biến đổi tuyến tính của F0 ứng với từng thanh điệu tiếng Việt .................. 94
Hình 6.6. Bảng âm vị phụ âm .............................................................................................. 99

Hình 6.7. Bảng âm vị nguyên âm ...................................................................................... 100
Hình 6.8. Quan hệ giữa các module của hệ thống ............................................................. 102
Hình 6.9. Dạng sóng của một file âm thanh được thu âm ................................................. 103
Hình 6.10. Giao diện của chương trình VSRCutter ........................................................... 103
Hình 6.11. Giao diện của chương trình VSRAutoSplit ..................................................... 105
Hình 6.12. Huấn luyện mơ hình ......................................................................................... 106
Hình 6.13. Giao diện của chương trình VSRTraining ....................................................... 107
Hình 6.14. Thơng tin đầu vào cho q trình huấn luyện ................................................... 107
Hình 6.15. Nhận dạng tiếng nói trong thời gian thực ........................................................ 108
Hình 6.16. Giao diện của chương trình VSRTiny ............................................................. 109
Hình 6.17. Một số chức năng của chương trình VSRTiny ................................................ 110
Hình 6.18. Mơ hình Markov ẩn 3 trạng thái cho các âm vị ............................................... 112
Hình 6.19. Mơ hình cho các âm vị kép .............................................................................. 112
Hình 6.20. Mơ hình cho các triphone ................................................................................ 113


Lời nói đầu
Nhận dạng tiếng nói tự động từ lâu đã là một mơ ước của con người. Trong những
năm gần đây, khi mà khoa học công nghệ tiến bộ cho phép thì ước mơ này đang dần
dần trở thành hiện thực. Trong cuộc sống có rất nhiều ứng dụng cần đến nhận dạng
tự động bằng tiếng nói như nhập dữ liệu máy tính bằng lời, hỗ trợ người tàn tật,
quay số điện thoại bằng lời nói, ... Hiện nay trên thế giới đã có một số hệ thống
nhận dạng tiếng nói cỡ lớn, có độ chính xác tương đối cao. Các hệ thống này chủ
yếu được phát triển trên nền cơng nghệ hiện đại với các máy tính lớn, các vi mạch
xử lý tiếng nói chuyên dụng và sử dụng các cơ sở dữ liệu tiếng nói khá hồn chỉnh
(chủ yếu là tiếng Anh).
Còn đối với tiếng Việt, do có những đặc thù riêng, nên việc chọn lựa cách tiếp cận
bài toán nhận dạng sao cho phù hợp với tiếng Việt là một vấn đề quan trọng và
tương đối khó khăn. Trong những năm gần đây, ở Việt Nam nói chung và trường
Đại học Bách Khoa Hà Nội nói riêng đã có khá nhiều nghiên cứu về nhận dạng

tiếng nói tiếng Việt. Tuy nhiên, nếu so với trên thế giới thì những kết quả đó cịn
tương đối hạn chế. Cho đến nay, các hệ thống nhận dạng tiếng nói thành công nhất
chủ yếu dựa trên khuynh hướng nhận dạng mẫu. Các kỹ thuật nhận dạng mẫu đơn
giản như lượng tử hóa vector, hiệu chỉnh thời gian động, ... đã được áp dụng khá
thành công vào các ứng dụng nhận dạng tiếng nói tiếng Việt phát âm rời rạc với số
lượng từ vựng hạn chế. Tuy nhiên, mục tiêu của nhận dạng tiếng nói tự động bằng
máy là phải tiến tới các hệ thống nhận dạng tiếng nói liên tục, kích thước từ điển
lớn, khơng phụ thuộc người nói. Vì vậy, các hệ thống nhận dạng tiếng nói ngày nay
thường được xây dựng trên cơ sở áp dụng các kỹ thuật nhận dạng mẫu phức tạp
hơn, đó là mơ hình Markov ẩn, hoặc mơ hình lai giữa Markov ẩn và mạng neuron.
Trên thế giới đã có khá nhiều hệ thống nhận dạng tiếng nói cỡ lớn sử dụng mơ hình
Markov ẩn cho độ chính xác rất cao như hệ thống nhận dạng Sphinx của trường đại
học Carnegie Mellon, bộ công cụ nhận dạng tiếng nói HTK của trường đại học
Cambridge, ... Ở Việt Nam, một số chương trình nhận dạng tiếng nói dựa trên mơ
hình Markov ẩn cũng đã cho những kết quả khá khả quan. Tuy nhiên, phần lớn
những chương trình đó vẫn chỉ sử dụng mơ hình Markov ẩn ở mức từ nên số lượng
từ vựng có khả năng nhận dạng được cịn hạn chế và khó áp dụng để nhận dạng


được tiếng nói phát âm liên tục. Cũng đã có một số hệ thống nhận dạng sử dụng mơ
hình Markov ẩn ở mức đơn vị âm thanh nhỏ hơn từ nhưng những thực nghiệm của
các hệ thống đó vẫn chỉ áp dụng trên một tập từ vựng không lớn lắm và cũng chưa
đề cập gì đến việc nhận dạng tiếng nói liên tục.
Xuất phát từ nhận thức trên, cuốn luận văn này được thực hiện với mục tiêu là tìm
hiểu và đưa ra phương pháp để xây dựng được một ứng dụng nhận dạng tiếng nói
tiếng Việt sử dụng đơn vị nhận dạng mức dưới từ. Đây sẽ là cơ sở để cho phép phát
triển các ứng dụng nhận dạng tiếng nói liên tục với số lượng từ vựng lớn trong
tương lai.
Cụ thể, nội dung của luận văn được chia làm các phần như sau:
Chương 1 giới thiệu về những khái niệm cơ bản của nhận dạng tiếng nói và tóm tắt

một số kết quả nghiên cứu về nhận dạng tiếng nói tiếng Việt. Những mục tiêu cần
phải thực hiện của đề tài cũng được đề cập đến trong chương này.
Chương 2 trình bày về một số tính chất của tín hiệu tiếng nói, từ cơ chế tạo ra tiếng
nói, các đặc trưng của tiếng nói và các phương pháp biểu diễn tín hiệu tiếng nói.
Chương 3 đề cập đến kĩ thuật tính các hệ số MFCC, đó là một phương pháp trích
chọn đặc trưng tín hiệu tiếng nói đã được áp dụng khá hiệu quả trong các hệ thống
nhận dạng.
Chương 4 trình bày về khái niệm mơ hình Markov ẩn và một số vấn đề đáng lưu ý
khi áp dụng mơ hình Markov ẩn vào nhận dạng tiếng nói. Một nội dung khá quan
trọng của chương này chính là thủ tục huấn luyện nhúng (embedded training), đó là
kĩ thuật cơ sở để xây dựng các mơ hình mức dưới từ (subword) để sử dụng trong
các ứng dụng nhận dạng tiếng nói với số lượng từ vựng lớn.
Chương 5 trình bày khái qt về mơ hình ngơn ngữ và cách áp dụng mơ hình ngơn
ngữ vào lĩnh vực nhận dạng tiếng nói.
Chương 6 giới thiệu về hệ thống nhận dạng tiếng nói tiếng Việt sử dụng đơn vị
nhận dạng mức dưới từ mà học viên đã xây dựng. Các kết quả thực nghiệm của đề
tài cũng được trình bày trong chương này.
Cuối cùng là phần kết luận và phương hướng phát triển của đề tài.


Chương 1: Tổng quan

1
1

Tổng quan

1.1. Nhận dạng tiếng nói
Nhận dạng tiếng nói hiện đang là một trong những vấn đề nhận được nhiều sự quan
tâm của các nhà nghiên cứu bởi tiềm năng ứng dụng to lớn của nó. Một cách tổng

quát, nhận dạng tiếng nói là làm cho máy hiểu, nhận biết được ngữ nghĩa của lời
nói. Thực chất đây là q trình biến đổi tín hiệu âm thanh thu được qua micro, qua
đường dây điện thoại hoặc các thiết bị thu âm khác, ... thành một chuỗi các từ, sau
đó các từ được nhận dạng có thể được sử dụng ngay trong các ứng dụng điều khiển
thiết bị, nhập liệu, soạn thảo văn bản bằng lời, ... hoặc được đưa đến một q trình
xử lý ngơn ngữ mức cao hơn.
Các hệ thống nhận dạng tiếng nói có thể được phân thành các loại như sau :
• Nhận dạng các từ phát âm rời rạc / liên tục.
• Nhận dạng tiếng nói phụ thuộc người nói / khơng phụ thuộc người nói.
• Hệ thống nhận dạng có từ điển cỡ nhỏ (khoảng 20 từ) / từ điển cỡ lớn (hàng
nghìn từ).
• Nhận dạng tiếng nói trong mơi trường có độ ồn thấp / cao.
• .....
Trong một hệ thống nhận dạng tiếng nói phát âm rời rạc thì người nói sau khi nói
một từ phải dừng lại trước khi phát âm từ tiếp theo. Ngược lại, hệ thống nhận dạng
lời nói liên tục khơng địi hỏi điều này.

1


Chương 1: Tổng quan

Hệ thống nhận dạng phụ thuộc người nói địi hỏi người nói phải cung cấp một số
mẫu tiếng nói của mình trước khi sử dụng. Cịn hệ thống nhận dạng khơng phụ
thuộc người nói có thể nhận dạng lời nói của bất kì người nào.
Hệ thống nhận dạng tiếng nói có từ điển cỡ lớn hoặc có nhiều từ dễ nhầm lẫn
thường có độ chính xác khơng cao bằng hệ thống nhận dạng có vốn từ vựng cỡ nhỏ.
Một vấn đề trọng tâm của nhận dạng tiếng nói là phải giải quyết được tính biến
thiên của tín hiệu tiếng nói. Hiện tại các hệ thống nhận dạng tiếng nói phân biệt hai
loại tính chất biến thiên: biến thiên âm học và biến thiên thời gian. Biến thiên âm

học bao hàm sự khác nhau về trọng âm, phát âm, cao độ, âm lượng ..., còn biến
thiên thời gian là sự khác nhau về tốc độ phát âm. Hai loại biến thiên này lại khơng
hồn tồn độc lập với nhau, ví dụ khi một người nói nhanh (biến thiên thời gian) thì
một số đoạn âm thanh có thể bị luyến (biến thiên âm học).
Ngồi ra, khi lời nói là một cụm từ hay một câu, ta cần áp dụng mơ hình ngơn ngữ
hoặc một ngun tắc ngữ pháp thích hợp nào đó để giới hạn mức độ kết hợp giữa
các từ. Mơ hình ngơn ngữ đơn giản nhất là một cấu trúc xác định các từ được phép
đi sau một từ nào đó trong từ điển. Mơ hình ngơn ngữ phức tạp hơn sử dụng các
nguyên tắc ngữ pháp ca ngụn ng t nhiờn.

Cơ sở dữ liệu tiếng nói

Mô hình
âm thanh

Mô hình
từ vựng

Mô hình
ngôn ngữ

Từ đ-ợc
nhận
dạng

Tín hiệu
vào
Phân tích xác
định đặc tính


Mô hình hóa /
Phân lớp

Tìm kiếm

Hỡnh 1.1. Cỏc phn tử cơ bản của một hệ thống nhận dạng tiếng nói điển hình

Hình 1.1 cho ta thấy các phần tử cơ bản của một hệ thống nhận dạng tiếng nói điển
hình. Tín hiệu tiếng nói sau khi được số hóa sẽ được chuyển thành một tập các
vector tham số đặc trưng với các phân đoạn tiếng nói có độ dài khoảng 10-30 ms.
Các đặc tính này được dùng để tìm kiếm các từ giống nhất với một số điều kiện

2


Chương 1: Tổng quan

ràng buộc về âm học, từ vựng và ngữ pháp (mơ hình ngơn ngữ). Trong q trình
huấn luyện, cơ sở dữ liệu tiếng nói được sử dụng để xác định các tham số hệ thống.
Một trong những khó khăn lớn nhất của việc nghiên cứu nhận dạng tiếng nói tự
động là tính phụ thuộc đa chun ngành. Có rất nhiều chuyên ngành khoa học liên
quan đến nhận dạng tiếng nói như : xử lý tiếng nói, vật lý (âm học), nhận dạng mẫu,
lý thuyết truyền tin, ngôn ngữ học, sinh lý học, khoa học máy tính, ... Để có thể xây
dựng thành cơng một hệ thống nhận dạng tiếng nói tự nhiên có từ điển cỡ lớn thì
cần phải có nhiều kiến thức trong tất cả các chuyên ngành đó, đấy là một lượng kiến
thức khổng lồ vượt quá khả năng của bất kì một người nào. Vì vậy, hầu hết các nhà
khoa học thường chỉ tập trung giải quyết một số bài toán cụ thể trên cơ sở chuyên
ngành hẹp của mình.

1.2. Các phương pháp tiếp cận trong nhận dạng tiếng nói

Hiện nay có 3 phương pháp phổ biến được sử dụng trong nhận dạng tiếng nói [1],
đó là :
• Phương pháp âm học - ngữ âm học.
• Phương pháp nhận dạng mẫu.
• Phương pháp ứng dụng trí tuệ nhân tạo.

1.2.1. Phương pháp âm học - ngữ âm học
Phương pháp này dựa trên lý thuyết về âm học - ngữ âm học cho rằng tồn tại các
đơn vị ngữ âm xác định, có tính phân biệt trong lời nói và các đơn vị ngữ âm đó
được đặc trưng bởi một tập các đặc tính tín hiệu tiếng nói. Mặc dù các đặc tính âm
học của các đơn vị ngữ âm biến thiên rất lớn theo cả giọng người nói lẫn tác động
của các đơn vị ngữ âm xung quanh nhưng tồn tại các quy tắc cho phép giải quyết
vấn đề này. Bước đầu tiên trong nhận dạng tiếng nói theo phương pháp này là phân
đoạn và gán nhãn. Bước này chia tín hiệu tiếng nói thành các đoạn có đặc tính âm
học đặc trưng cho một (hoặc một vài) đơn vị ngữ âm, đồng thời gán cho mỗi đoạn
âm thanh đó một hay nhiều nhãn ngữ âm phù hợp. Bước tiếp theo (bước nhận dạng)
dựa trên một số điều kiện ràng buộc về từ vựng, ngữ pháp,... để xác định ra một từ
hoặc một chuỗi từ đúng trong số một chuỗi các nhãn ngữ âm được tạo ra sau bước
thứ nhất.
Sơ đồ khối của hệ thống nhận dạng theo phương pháp này như sau:

3


Chương 1: Tổng quan

Bộ phát hiện
đặc điểm 1

s(n)


Hệ thống phân
tích tiếng nói





Phân đoạn

Gán nhãn

Băng lọc
LPC
Bộ phát hiện
đặc điểm Q

Chiến lược
điều khiển

Tiếng
nói đã
được
nhận
dạng

Lưới âm vị
Lưới đoạn
Khả năng
Gán nhãn

Cây quyết định
Chiến lược phân tích

Formant
Pitch
Hữu thanh/
vơ thanh
Năng lượng
Âm mũi
Phụ âm xát

Hình 1.2. Sơ đồ khối của hệ thống nhận dạng tiếng nói theo phương pháp âm học - ngữ âm học

Nguyên lý hoạt động của hệ thống này như sau :
• Tín hiệu tiếng nói sau khi số hóa được đưa tới khối phân tích tiếng nói nhằm
xác định các số đo phổ tín hiệu tiếng nói biến đổi theo thời gian. Các kĩ thuật
phân tích tiếng nói phổ biến là sử dụng các bộ lọc thơng dải, mã hóa dự đốn
tuyến tính (LPC),...
• Bước sau đó là tách đặc tính tín hiệu tiếng nói nhằm biến đổi các số đo phổ
tín hiệu thành một tập các đặc tính mơ tả các tính chất âm học của các đơn vị
ngữ âm khác nhau. Các đặc tính đó có thể là : tính chất âm mũi, âm xát, vị trí
các formant, âm hữu thanh hay vô thanh, tỷ số mức năng lượng tần số cao so
với mức năng lượng tần số thấp,...
• Tiếp theo là bước phân đoạn và gán nhãn. Ở bước này hệ thống nhận dạng
tiếng nói cố gắng tìm các vùng âm thanh ổn định (vùng có đặc tính thay đổi
rất ít) và gán cho mỗi vùng này một nhãn phù hợp với đặc tính của đơn vị
ngữ âm. Đây là bước chủ yếu của hệ thống nhận dạng tiếng nói theo khuynh
hướng âm học - ngữ âm học, và là bước khó thực hiện tin cậy nhất.
• Bước cuối cùng là dựa vào một số nguyên tắc lựa chọn để kết hợp chính xác
các khối ngữ âm để tạo thành các từ nhận dạng.


4


Chương 1: Tổng quan

Phương pháp này đã được nghiên cứu sâu trong hơn 40 năm qua, tuy nhiên vì nhiều
nguyên nhân mà cách tiếp cận này không thu được nhiều thành cơng. Sau đây là
một vài ngun nhân cơ bản:
• Phương pháp này yêu cầu sự hiểu biết sâu rộng về các thuộc tính âm học của
các đơn vị ngữ âm. Điều này thường khơng thể có được trừ các thuộc tính
âm học của các ngun âm.
• Việc lựa chọn các đặc điểm đa phần dựa vào các quan sát không theo cách
thức nào cả. Với hầu hết các hệ thống các đặc điểm được lựa chọn dựa vào
trực giác và khơng được tối ưu.
• Thiết kế của các bộ phân loại âm thanh cũng không được tối ưu. Gần đây
phương pháp CART (Classcification And Regression Tree) được sử dụng để
xây dựng các cây quyết định hiệu quả hơn. Tuy nhiên, các đặc điểm được lựa
chọn chỉ là các tối ưu địa phương.
• Khơng có thủ tục tự động, xác định nào để điểu chỉnh các tham số của
phương pháp này (ví dụ như điều chỉnh ngưỡng quyết định, …). Thậm chí
khơng có một cách đánh nhãn nào được phần lớn các chuyên gia chấp nhận.

1.2.2. Phương pháp nhận dạng mẫu
Phương pháp này khơng cần xác định đặc tính âm học hay phân đoạn tiếng nói mà
sử dụng trực tiếp các mẫu tín hiệu tiếng nói trong q trình nhận dạng. Các hệ thống
nhận dạng tiếng nói theo phương pháp này được phát triển theo 2 bước. Ở bước thứ
nhất, hệ thống sử dụng một tập mẫu tiếng nói (cơ sở dữ liệu tiếng nói) để huấn
luyện tạo ra các mẫu tiếng nói đặc trưng (mẫu tham chiếu). Bước thứ hai hệ thống
nhận các mẫu tiếng nói từ bên ngồi, so sánh chúng với các mẫu đặc trưng để nhận

dạng.
Trong phương pháp này, nếu cơ sở dữ liệu tiếng nói dùng cho huấn luyện có đủ các
phiên bản của mẫu cần nhận dạng thì q trình huấn luyện có thể xác định chính xác
các đặc tính âm học của mẫu (mẫu ở đây có thể là âm vị, từ, cụm từ, ...). Trước đây,
đối với các hệ thống nhận dạng tiếng nói là các từ rời rạc, vốn từ vựng cỡ nhỏ thì
người ta thường áp dụng các kĩ thuật nhận dạng mẫu đơn giản như: lượng tử hóa
vector, hiệu chỉnh thời gian động, ... Hiện nay có hai kĩ thuật nhận dạng mẫu được
áp dụng khá thành công trong lĩnh vực nhận dạng tiếng nói, đó là mơ hình Markov
ẩn và mạng Neuron.
Sơ đồ khối của hệ thống nhận dạng tiếng nói theo phương pháp này như sau:

5


Chng 1: Tng quan

Các mẫu
chuẩn / các
mô hình

Huấn
luyện mẫu
Trích chọn
đặc tr-ng
Tiếng
nói

{mẫu thử}

{các mẫu tham chiếu}


Phân tích
hệ thống
Tiếng nói
nhận dạng
Phân loại
mẫu

Băng lọc
LPC
DFT

Quyết định
logic

Hỡnh 1.3. S khi h thng nhn dng tiếng nói theo phương pháp nhận dạng mẫu

Hoạt động của hệ thống có thể được tóm tắt như sau :
• Trích chọn đặc trưng tiếng nói: đầu tiên tín hiêu tiếng nói được phân tích
thành một chuỗi các số đo để xác định mẫu nhận dạng. Các số đo đặc tính
thường là kết quả của một số kĩ thuật phân tích phổ như : các bộ lọc thơng
dải, phân tích mã hóa dự đốn tuyến tính (LPC), phép biến đổi Fourier rời
rạc (DFT), ...
• Huấn luyện mẫu: các mẫu tiếng nói tương ứng với các đơn vị âm thanh cùng
loại được dùng để đào tạo ra các mẫu hoặc các mơ hình đại diện, cịn gọi là
mẫu tham chiếu hay mẫu chuẩn.
• Nhận dạng: các mẫu tiếng nói được đưa tới khối phân loại mẫu, khối này có
nhiệm vụ so sánh mẫu đầu vào cần nhận dạng với các mẫu tham chiếu đã
được xác định, rồi dựa trên một số tiêu chuẩn để quyết định xem mẫu tham
chiếu nào giống mẫu đầu vào nhất.

Phương pháp này có một số đặc điểm sau:
• Hiệu năng của hệ thống rất nhạy cảm đối với số dữ liệu mẫu đưa vào huấn
luyện. Nếu số lượng mẫu càng nhiều thì độ chính xác của hệ thống càng cao,
tuy nhiên dung lượng bộ nhớ và thời gian luyện mẫu cũng tăng theo.
• Các mẫu tham chiếu thường phụ thuộc vào môi trường phát âm và các đặc
tính truyền dẫn của mơi trường.
• Phương pháp này có thể được sử dụng để nhận dạng từ mà khơng địi hỏi khả
năng am hiểu sâu về ngơn ngữ.

6


Chương 1: Tổng quan

1.2.3. Phương pháp ứng dụng trí tuệ nhân tạo
Có thể coi đây là phương pháp kết hợp của các phương pháp trên với ý tưởng tận
dụng tối đa các ưu điểm của từng phương pháp, đồng thời cố gắng mô phỏng khả
năng tuyệt hảo của con người trong sự phân tích và cảm nhận các sự kiện bên ngồi
nói chung và tiếng nói nói riêng.
Đặc điểm chung của các hệ thống nhận dạng theo phương pháp này là:
• Sử dụng hệ chuyên gia để phân đoạn, gán nhãn ngữ âm. Điều này làm đơn
giản hóa hệ thống so với phương pháp nhận dạng ngữ âm.
• Sử dụng mạng neuron để học mối quan hệ giữa các ngữ âm. Sau đó dùng
mạng này để nhận dạng tiếng nói.
Việc sử dụng hệ chuyên gia ở đây là nhằm mục đích tận dụng các nguồn kiến thức
của con người vào trong hệ thống nhận dạng, đó là:
• Kiến thức về âm học: Nhằm để phân tích phổ và xác định đặc tính âm học
của các mẫu tiếng nói đầu vào.
• Kiến thức về từ vựng: Sử dụng để kết hợp các khối ngữ âm thành các từ cần
nhận dạng.

• Kiến thức về cú pháp: Nhằm kết hợp các từ thành các câu cần nhận dạng.
• Kiến thức về ngữ nghĩa: Nhằm xác định tính logic của các câu đã được nhận
dạng.
Tùy theo các hệ thống khác nhau mà sự kết hợp các nguồn kiến thức từ hệ chuyên
gia là khác nhau.
Có nhiều cách khác nhau để tổng hợp các nguồn kiến thức vào trong một bộ nhận
dạng tiếng nói. Phương pháp thông dụng nhất là xử lý "từ dưới lên" (hình 1.4). Theo
cách này, các tiến trình xử lý của hệ thống được triển khai tuần tự từ thấp lên cao.
Trong sơ đồ ở hình 1.4, các tiến trình xử lý ở mức thấp (phân tích tín hiệu, tìm đặc
tính, phân đoạn, gán nhãn) được triển khai trước các tiến trình xử lý ở mức cao hơn
(phân lớp âm thanh, xác định từ, xác định câu). Mỗi tiến trình xử lý đòi hỏi một
hoặc một số nguồn kiến thức nhất định. Ví dụ, bước phân đoạn tiếng nói cần có sự
hiểu biết sâu sắc về đặc tính âm học - ngữ âm học của các đơn vị ngữ âm, bước xác
định từ đòi hỏi kiến thức về từ vựng, bước xác định câu địi hỏi kiến thức về mơ
hình ngơn ngữ (nguyên tắc ngữ pháp).

7


Chng 1: Tng quan

Tiếng nói

Phân tích tín hiệu

Âm hữu thanh / vô thanh /
khoảng lặng

Trích chọn đặc tính


Phân đoạn
Các
nguồn
kiến
thức

Gán nhÃn

Nguyên tắc phân loại âm

Phân lớp âm thanh

Nguyên tắc ngữ âm

Xác định từ

Truy cập từ điển

Xác định câu

Mô hình ngôn ngữ

Lời nói đ-ợc nhận dạng
Hỡnh 1.4. Mụ hỡnh ca phng phỏp bottom-up

1.3. Tình hình nhận dạng tiếng nói tại nước ta hiện nay
Trên thế giới, những nghiên cứu đầu tiên trong lĩnh vực nhận dạng tiếng nói được
tiến hành vào những năm 50 của thế kỷ 19. Năm 1952 tại phòng thí nghiệm Bell,
Davis Biddulph và Balashek đã xây dựng một hệ thống nhận dạng 10 chữ số rời rạc
cho một người đọc. Hệ thông này chủ yếu dựa trên các tính tốn trên phổ của vùng

ngun âm trong tín hiệu tiếng nói. Năm 1959 tại phịng thí nghiệm MIT, Forgie đã
xây dựng thành công một hệ nhận dạng độc lập người nói mặc dù số lượng từ cịn
rất hạn chế. Cho đến thập kỷ 70 thì nhận dạng tiếng nói thực sự đạt được những
bước tiến đáng kể. Bài toán nhận dạng từ rời rạc đã được giải quyết nhờ vào các
nghiên cứu của Velichko và Zagoruyko tại Liên Xô cũ trong lĩnh vực nhận dạng
mẫu, Sakoe và Chiba tại Nhật trong việc áp dụng quy hoạch động trong nhận dạng
tiếng nói, và Ikatura tại Mỹ với các nghiên cứu về phương pháp tiên đốn tuyến tính
đối với tín hiệu tiếng nói. Cũng trong khoảng thời gian đó tại phịng thí nghiệm Bell

8


Chương 1: Tổng quan

nhiều thí nghiệm được tiến hành với mục đích là hướng tới một hệ thống nhận dạng
thực sự độc lập người nói. Tại đây hàng loạt các thuật toán phân lớp phức tạp được
áp dụng nhằm vượt qua rào cản của sự biến động tham số trong một tập hợp tiếng
nói do nhiều người phát âm. Thập kỷ 80 đánh dấu một bước tiến quan trọng trong
nhân dạng tiếng nói đó chính là sự ra đời của hướng tiếp cận theo kiểu thống kê, đặc
biệt là sự ra đời của mơ hình Markov ẩn.
Trong những năm gần đây, ở Việt Nam nói chung và trường Đại học Bách Khoa Hà
Nội nói riêng đã có khá nhiều nghiên cứu về nhận dạng tiếng nói tiếng Việt. Tuy
nhiên, nếu so với trên thế giới thì những kết quả đó cịn rất hạn chế. Có thể kể ra
đây một số cơng trình mà học viên đã tìm hiểu được (theo thứ tự thời gian).
Thạc sỹ Trần Tiến Đức trong luận văn tốt nghiệp cao học của mình [10] đã xây
dựng được một chương trình nhận dạng phụ thuộc người nói dựa trên các mơ hình
Markov ẩn rời rạc (các quan sát của mơ hình là các đại lượng rời rạc), nhận dạng
các từ phát âm rời. Độ chính xác của chương trình là 98.2% khi nhận dạng 10 chữ
số tiếng Việt, mỗi chữ số được phát âm 100 lần.
Luận văn thạc sỹ của Võ Tuấn Kiệt [12] đưa ra kết quả thực nghiệm khi xây dựng

một chương trình nhận dạng 10 chữ số tiếng Việt phát âm rời bằng các phương
pháp: lượng tử hóa vector (VQ - Vector Quantization), hiệu chỉnh thời gian động
(DTW - Dynamic Time Warping) và sử dụng mơ hình Markov ẩn rời rạc (HMM Hidden Markov Models). Với 100 mẫu kiểm tra, chương trình cho độ chính xác
nhận dạng đối với từng phương pháp lần lượt là 92%, 88% và 96%.
Trong luận án của mình [14], tiến sĩ Nguyễn Thành Phúc đã đưa ra một phương
pháp nhận dạng tiếng nói tiếng Việt, đó là kết hợp mạng neuron (loại Perceptron 3
lớp) với mơ hình Markov ẩn. Tác giả cũng tiến hành một số khảo sát để đưa ra
phương án sử dụng âm đầu + vần làm đơn vị nhận dạng cơ bản cho các hệ thống
nhận dạng lời Việt. Kết quả thử nghiệm được thực hiện trên cơ sở dữ liệu tiếng nói
10 chữ số tiếng Việt gồm 812 câu, mỗi câu có 6 chữ số, do 15 người cả nam lẫn nữ
giọng Bắc phát âm, trong đó 712 câu được dùng cho huấn luyện, 100 câu cịn lại
của 2 người khơng tham gia vào q trình huấn luyện sẽ được sử dụng để test thử hệ
thống. Trong trường hợp tốt nhất, hệ thống nhận dạng cho độ chính xác là 98,83%.
Đồ án tốt nghiệp đại học [7] của kĩ sư Nguyễn Phú Bình (học viên) đã trình bày các
bước thực hiện và các kết quả đạt được khi áp dụng lý thuyết về mơ hình Markov ẩn
(cả rời rạc lẫn liên tục) trong việc xây dựng một ứng dụng hoạt động trong chế độ
thời gian thực nhận dạng các từ tiếng Việt phát âm rời. Hệ thống đã được chạy thử
với cơ sở dữ liệu tiếng nói bao gồm 2445 lượt phát âm các số tiếng Việt từ 0 đến 10

9


Chương 1: Tổng quan

của 3 giọng nam và cho tỉ lệ nhận dạng đúng là 99,92%. Kết quả của đồ án này còn
được sử dụng để xây dựng một chương trình tiện ích dùng tiếng nói để điều khiển
một số chương trình chạy trên Windows [8], [13]. Với bộ từ vựng gồm khoảng gần
30 từ, chương trình cho phép người sử dụng dùng tiếng nói để thực hiện các phép
tốn trên Calculator, nhập dữ liệu số vào Excel, thao tác với PowerPoint hay duyệt
Web với Internet Explorer, ...

Với phương pháp sử dụng giải thuật so sánh thời gian động DTW kết hợp với mơ
hình Markov ẩn liên tục [15], thạc sỹ Nguyễn Hồng Quang đã xây dựng được một
chương trình xử lý thời gian thực cho phép nhận dạng từ tiếng Việt phát âm liên tục.
Với 356 lượt phát âm liên tục các số từ 0 đến 10 (mỗi lượt phát âm có ít nhất 2 từ
kết nối với nhau, tổng cộng có tất cả 846 từ) của 4 giọng nam, chương trình cho tỉ lệ
nhận dạng chính xác là 98,46%.
Bài báo của nghiên cứu sinh Đặng Ngọc Đức [9] có đề cập đến việc xây dựng một
hệ thống nhận dạng sử dụng bộ công cụ CSLU Toolkit bao gồm các bước phân lớp
bằng ANN và nhận dạng dựa trên tìm kiếm Viterbi. Thử nghiệm trên bộ cơ sở dữ
liệu tiếng nói các chữ số tiếng Việt1 gồm 442 câu, 2340 từ của 213 giọng nói thu
qua điện thoại cho độ chính xác tốt nhất là 97.39% ở mức từ và 88.10% ở mức câu.
Gần đây, một bài báo của các tác giả thuộc Viện Công nghệ thông tin và Viện Ngơn
ngữ học [11] có đề cập một số vấn đề liên quan đến nhận dạng tiếng nói như xây
dựng một hệ nhận dạng với số từ hạn chế và độc lập người nói (từ vựng khoảng 200
từ, gồm 100 giọng đọc Hà Nội), hoặc hệ nhận dạng với số từ khơng hạn chế phụ
thuộc người nói, ... Tuy nhiên, trong bài báo các tác giả mới chỉ đưa ra những kết
quả về nhận dạng thanh điệu (cho giọng nữ, độ chính xác trung bình là 95,75%) và
nhận dạng 19 phụ âm đầu (giọng nữ, chính xác 93,8%), mà khơng cho biết những
con số thống kê cụ thể về các hệ nhận dạng nói trên.
Qua khảo sát một số cơng trình nghiên cứu, ta có thể thấy rằng lĩnh vực nhận dạng
tiếng nói ở Việt Nam đã có những bước tiến đáng khích lệ. Tuy nhiên, những kết
quả đó vẫn chỉ dừng ở mức nghiên cứu, và nếu so với thế giới thì chúng ta vẫn cịn
kém một khoảng cách xa.

Trích từ hai CSDL tiếng nói "22 Language v1.2" và "Multi-Language Telephone Speech v1.2" của trung
tâm CSLU (Center for Speech Language Understanding), Viện Sau đại học Oregon, Mỹ.
1

10



Chương 1: Tổng quan

1.4. Mục tiêu thực hiện của đề tài
Cho đến nay, các hệ thống nhận dạng tiếng nói thành công nhất chủ yếu dựa trên
khuynh hướng nhận dạng mẫu. Với những gì đã trình bày ở phần trên, ta có thể thấy
rằng các kỹ thuật nhận dạng mẫu đơn giản như lượng tử hóa vector, hiệu chỉnh thời
gian động, ... đã được áp dụng khá thành công vào các ứng dụng nhận dạng tiếng
nói tiếng Việt phát âm rời rạc với số lượng từ vựng hạn chế. Tuy nhiên, mục tiêu
của nhận dạng tiếng nói tự động bằng máy là phải tiến tới các hệ thống nhận dạng
tiếng nói liên tục, kích thước từ điển lớn, khơng phụ thuộc người nói. Vì vậy, các hệ
thống nhận dạng tiếng nói ngày nay thường được xây dựng trên cơ sở áp dụng các
kỹ thuật nhận dạng mẫu phức tạp hơn, đó là mơ hình Markov ẩn, hoặc mơ hình lai
giữa Markov ẩn và mạng neuron.
Trên thế giới đã có khá nhiều hệ thống nhận dạng tiếng nói cỡ lớn sử dụng mơ hình
Markov ẩn cho độ chính xác rất cao như hệ thống nhận dạng Sphinx1 của trường đại
học Carnegie Mellon, bộ cơng cụ nhận dạng tiếng nói HTK2 của trường đại học
Cambridge, ... Ở Việt Nam, một số chương trình nhận dạng tiếng nói dựa trên mơ
hình Markov ẩn cũng đã cho những kết quả khá khả quan. Tuy nhiên, phần lớn
những chương trình đó vẫn chỉ sử dụng mơ hình Markov ẩn ở mức từ ([7], [8], [10],
[12], [13], [15]) nên số lượng từ vựng còn hạn chế và khó áp dụng để nhận dạng
được tiếng nói phát âm liên tục. Cũng đã có một số hệ thống nhận dạng sử dụng mơ
hình Markov ẩn ở mức đơn vị âm thanh nhỏ hơn từ, chẳng hạn như âm vị hay phụ
âm đầu + vần, ... ([9], [11], [14]), nhưng những thực nghiệm của các hệ thống đó
vẫn chỉ áp dụng trên một tập từ vựng không lớn lắm và cũng chưa đề cập gì đến
việc nhận dạng tiếng nói liên tục. Bên cạnh đó, phần lớn những hệ thống này lại
được triển khai dựa trên các công cụ nhận dạng tiếng nói mã nguồn mở của nước
ngồi như CSLU3, HTK2, ... nên những kết quả đó cũng mới chỉ dừng ở mức nghiên
cứu mà khó có thể áp dụng vào thực tế do bị phụ thuộc về mặt cơng nghệ.
Chính vì vậy, mục đích của đề tài này là cố gắng giải quyết được phần nào những

hạn chế trên. Cụ thể, mục tiêu mà học viên đề ra trong khi thực hiện luận văn này là
phải:
• Tìm hiểu và đề ra phương pháp để xây dựng được module huấn luyện mơ
hình Markov ẩn phục vụ cho nhận dạng tiếng nói với mức đơn vị âm thanh là
bất kì, có thể là cả một từ (word) hoặc là những đơn vị âm thanh nhỏ hơn từ
(subword).

1



3

2

11


Chương 1: Tổng quan

• Nghiên cứu, thử nghiệm các phương án lựa chọn đơn vị âm thanh cho các
mơ hình Markov ẩn sao cho với một số lượng các mô hình khơng nhiều
nhưng hệ thống vẫn có thể nhận dạng được một tập từ vựng tương đối lớn
với kết quả chấp nhận được.
• Tìm hiểu các thuật tốn tìm kiếm, nhận dạng để có thể xây dựng được một
chương trình nhận dạng tiếng nói phát âm liên tục.
• Nghiên cứu lý thuyết về mơ hình ngơn ngữ để làm cơ sở cho việc xây dựng
một hệ thống nhận dạng tiếng nói liên tục với số từ vựng lớn trong tương lai.
• Và một mục tiêu khá quan trọng do học viên tự đặt ra, đó là tồn bộ hệ thống
phải được xây dựng gần như là từ đầu, không sử dụng lại một thư viện có sẵn

nào. Như vậy ta sẽ làm chủ được cơng nghệ để có thể dễ dàng tích hợp được
hệ thống vào các ứng dụng thực tế sau này.
Các phần tiếp theo của luận văn sẽ đề cập đến các bước cần phải thực hiện để có thể
đạt được các mục tiêu trên.

12


Chương 2: Tín hiệu tiếng nói

2
2

Tín hiệu tiếng nói

Trước khi nghiên cứu chi tiết vấn đề nhận dạng tiếng nói, ta cần hiểu rõ về quá trình
tạo và cảm thụ tiếng nói của con người. Những hiểu biết này là cơ sở cho việc xây
dựng các phần mềm nhận dạng tiếng nói tự động bởi máy tính.

2.1. Bộ máy phát âm và cơ chế tạo ra tiếng nói
Q trình tạo tiếng nói bắt đầu khi người nói định ra một thơng điệp trong ý nghĩ và
muốn chuyển thơng điệp đó cho người nghe thơng qua tiếng nói. Thơng điệp này
phải được chuyển đổi sang một mã ngơn ngữ nào đó, sau đó người nói phải thực
hiện một chuỗi các lệnh thông qua các dây thần kinh để điều khiển đôi dây thanh
rung khi cần thiết và định hình tuyến âm sao cho chuỗi âm thanh phát ra chính xác.
Các lệnh này phải đồng thời điều khiển các cơ quan liên quan đến q trình phát âm
khác như: lưỡi, mơi, hàm, vịm miệng mềm, …
Q trình cảm thụ tiếng nói bắt đầu ngay sau khi tín hiệu tiếng nói được tạo ra và
lan truyền đến người nghe thông qua sự thay đổi áp suất của khơng khí. Trước tiên
sóng âm học tác động vào màng nhĩ ở tai trong, các tín hiệu này được phân tích tạo

ra các tín hiệu tác động lên các dây thần kinh thính giác. Sau đó, các tín hiệu thần
kinh được chuyển thành một mã ngơn ngữ nào đó nhờ các trung tâm xử lý cao hơn
ở trong não. Cuối cùng, thông điệp được người nghe cảm thụ (hiểu về nghĩa). Quá
trình tạo và cảm thụ tiếng nói của con người được minh họa trong hình 2.1 [2].

13


Chương 2: Tín hiệu tiếng nói

Định hình
thơng điệp
(Measage
Formulation)

Mã ngơn ngữ
(Language
Code)

Điều khiển cơ
thần kinh (NeroMuscular
Controls )

Hệ thống
tuyến âm
(Vocal Tract
System)

Tạo tiếng nói


Sóng âm học
(Acoustic
Waveform)

Cảm thụ tiếng nói
Cảm thụ thơng
điệp (Measage
Understanding)

Giải mã
ngơn ngữ
(Language
Translation)

Tín hiệu
thần kinh
(Neural
Transduction)

Màng nhĩ
rung (Basilar
Membrane
Motion)

Hình 2.1. Quá trình tạo và cảm thụ tiếng nói của con người

Lời nói là kết quả của hành động tự nguyện và có liên kết giữa các bộ phận của cơ
quan hơ hấp và tiêu hóa (nhai). Hành động này diễn ra dưới sự kiểm soát của hệ
thần kinh trung ương, bộ phận này thường xuyên nhận được thông tin bằng những
tác động ngược của cơ quan thính giác và cảm giác bản thể. Để hiểu rõ hơn cơ chế

phát âm của con người, hình 2.2 minh họa các cơ quan này.
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.

Hốc mũi
Vòm miệng trên
Ổ răng
Vòm miệng mềm
Đầu lưỡi
Thân lưỡi
Lưỡi gà
Cơ miệng
Yết hầu
Nắp đóng của thanh quản
Dây thanh giả
Dây thanh
Thanh quản

Thực quản
Khí quản

Hình 2.2. Bộ máy phát âm của con người

Bộ máy hô hấp cung cấp lực cần thiết khi khí được thở ra bằng khí quản. Ở đỉnh khí
quản là thanh quản nơi áp suất khí được điều biến trước khi đến tuyến âm kéo dài từ
hầu đến môi.

14


Chương 2: Tín hiệu tiếng nói

Thanh quản là tập hợp các cơ và sụn động bao quanh một khoang nằm ở phần trên
của khí quản. Các dây thanh giống như là một đôi môi đối xứng nằm ngang thanh
quản, hai mơi này có thể khép hồn tồn thanh quản và khi mở ra chúng có thể tạo
ra độ mở hình tam giác gọi là thanh mơn. Khơng khí qua thanh quản một cách tự do
trong quá trình thở và cả trong quá trình cấu âm của những âm điếc hay âm vơ
thanh. Các âm hữu thanh thì ngược lại, lại là kết quả của sự rung động tuần hoàn
của những dây thanh. Và như vậy những rung động liên tiếp sẽ đến được tuyến âm.
Tuyến âm là tập hợp những khoang nằm giữa thanh mơn và mơi.
Khi nói, lồng ngực mở rộng và thu hẹp, khơng khí được đẩy từ phổi vào khí quản,
đi qua thanh mơn do các dây thanh tạo thành. Luồng khí này được gọi là tín hiệu
kích cho tuyến âm vì sau đó nó được đẩy qua tuyến âm và cuối cùng tán xạ ra ở
môi. Tuyến âm có thể được coi như một ống âm học (gồm các đoạn ống với độ dài
bằng nhau và thiết diện các mặt cắt khác nhau mắc nối tiếp) với đầu vào là các dây
thanh (hay thanh môn) và đầu ra là mơi. Như vậy tuyến âm có dạng thay đổi như
một hàm theo thời gian. Các mặt cắt của tuyến âm được xác định bằng vị trí của
lưỡi, mơi, hàm, vịm miệng và thiết diện của những mặt cắt này thay đổi từ 0 cm2

(khi ngậm môi) đến khoảng 20 cm2 (khi hở môi). Tuyến mũi tạo thành tuyến âm
học phụ trợ cho truyền âm thanh, nó bắt đầu từ vòm miệng và kết thúc ở các lỗ mũi.
Khi vòm miệng hạ thấp, tuyến mũi được nối với tuyến âm về mặt âm học và tạo nên
các âm mũi.
Các âm của tiếng nói được tạo trong hệ thống này theo ba cách phụ thuộc vào tín
hiệu kích.
Các âm hữu thanh như âm /i/ được tạo nên khi kích tuyến âm bằng chuỗi xung (hay
chu kì dao động của đơi dây thanh) xác định chu kì pitch P (chu kì cơ bản) và đại
lượng nghịch đảo của nó là tần số cơ bản F0. Đối với ngơn ngữ có thanh điệu thì
kiểu thay đổi này cịn phụ thuộc vào thanh điệu.
Các âm vô thanh như âm /s/ được tạo nên khi các dây thanh khơng dao động, xung
kích được coi như các tạp âm ngẫu nhiên, kích bởi các dịng khí xốy qua các chỗ
hẹp của tuyến âm (thường là phía khoang miệng).
Các âm tắc (cịn gọi là âm nổ) như âm /p/ được tạo ra bằng cách đóng hoàn toàn
tuyến âm, gây nên áp suất bên cạnh vị trí đóng, rồi nhanh chóng giải phóng âm này.
Vì tuyến âm và tuyến mũi bao gồm các ống âm học có mặt cắt khác nhau nên khi
âm truyền trong ống, phổ tần số thay đổi theo tính chọn lọc tần số của ống. Trong
phạm vi tạo tiếng nói, những tần số cộng hưởng của tuyến âm được gọi là tần số

15


Chương 2: Tín hiệu tiếng nói

formant hay đơn giản là formant. Những tần số này phụ thuộc vào dạng và kích
thước của tuyến âm, do đó mỗi dạng tuyến âm được đặc trưng bằng một tổ hợp tần
số formant. Các âm khác nhau được tạo ra bởi sự thay đổi dạng của tuyến âm. Như
vậy tính chất phổ của tín hiệu tiếng nói thay đổi theo thời gian giống với sự thay đổi
dạng của tuyến âm.
Quá trình truyền âm qua tuyến âm làm mạnh lên ở một vùng tần số nào đó bằng

cộng hưởng và tạo cho mỗi âm những tính chất riêng biệt gọi là q trình phát âm.
Âm được phát có nghĩa nó đã mang thơng tin về âm vị được tán xạ ra ngồi từ mơi.
Trong một vài trường hợp, đối với những âm mũi (như /m/, /n/, ...), tuyến mũi cũng
tham gia vào quá trình phát âm và âm được tán xạ ra từ mũi.
Tóm lại, tín hiệu tiếng nói được tạo ra qua 3 giai đoạn sau đây: tạo nguồn âm (hữu
thanh và vô thanh), phát âm khi truyền qua tuyến âm và tán xạ õm t mụi hoc t
mi (hỡnh 2.3)

Nguồn kích

Tuyến âm

Tán xạ m«i

TÝn hiƯu
tiÕng nãi

Hình 2.3. Q trình tạo tín hiệu tiếng nói

2.2. Các đặc tính âm học của tiếng nói
2.2.1. Âm hữu thanh và âm vô thanh
a. Âm hữu thanh
Âm hữu thanh được tạo ra từ các dây thanh bị căng đồng thời và chúng rung động ở
chế độ dãn khi khơng khí tăng lên làm thanh mơn mở ra và sau đó thanh mơn xẹp
xuống do khơng khí chạy qua.
Do sự cộng hưởng của dây thanh, sóng âm tạo ra có dạng tuần hồn hoặc gần như
tuần hồn. Phổ của âm hữu thanh có nhiều thành phần hài tại giá trị bội số của tần
số cộng hưởng, còn gọi là tần số cơ bản (pitch).
b. Âm vô thanh
Khi tạo ra âm vô thanh dây thanh không cộng hưởng. Âm vô thanh có hai loại cơ

bản là âm xát và âm tắc.

16


×