Tải bản đầy đủ (.pdf) (88 trang)

Tích hợp đặc điểm của tiếng việt vào hệ thống nhận dạng tiếng nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.1 MB, 88 trang )

LỜI CAM ĐOAN

Tôi – Đỗ Quốc Bình, học viên lớp Cao học CNTT 2012 – 2014 Trƣờng Đại học
Bách khoa Hà Nội – cam kết Luận văn tốt nghiệp là công trình nghiên cứu của bản
thân tôi, dƣới sự hƣớng dẫn của TS. Nguyễn Hồng Quang - Viện Công Nghệ Thông
Tin và Truyền Thông – Đại học Bách Khoa Hà Nội. Các kết quả trong Luận văn tốt
nghiệp là trung thực, không sao chép toàn văn của bất kỳ công trình nào khác.
Hà Nội, ngày 18 tháng 3 năm 2014
Học viên

Đỗ Quốc Bình

i


LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc tới Thầy giáo, TS. Nguyễn Hồng Quang –
Bộ môn kỹ thuật máy tính – Viện Công Nghệ Thông Tin và Truyền Thông – Đại
học Bách Khoa Hà Nội, Thầy đã khuyến khích và rất tận tình hƣớng dẫn tôi trong
suốt quá trình thực hiện luận văn. Nhờ sự quan tâm chỉ bảo và những ý kiến đóng
góp quý báu của Thầy, tôi mới có thể hoàn thành luận văn này.
Tôi xin chân thành cảm ơn tập thể các thầy, cô giáo trƣờng Đại học Bách
Khoa Hà Nội nói chung và Viện Công Nghệ Thông Tin và Truyền Thông nói riêng,
đã tận tình giảng dạy truyền đạt cho tôi những kiến thức, kinh nghiệm quý báu trong
suốt những năm học vừa qua.
Cuối cùng tôi xin chân thành cảm ơn gia đình, bạn bè đã luôn ủng hộ và động
viên tôi trong những lúc khó khăn nhất.

ii



MỤC LỤC
LỜI CAM ĐOAN ................................................................................................................................i
LỜI CẢM ƠN .................................................................................................................................... ii
MỤC LỤC iii
DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT .......................................................................................vi
DANH MỤC HÌNH ......................................................................................................................... vii
DANH MỤC BẢNG ....................................................................................................................... viii
MỞ ĐẦU

1

1.

Lý do chọn đề tài ........................................................................................................... 1

2.

Mục đính và phạm vi nghiên cứu ................................................................................. 2

3.

Đối tượng nghiên cứu .................................................................................................. 2

4.

Phương pháp nghiên cứu ............................................................................................. 3

5.

Nhiệm vụ nghiên cứu .................................................................................................... 3


CHƢƠNG 1: CƠ SỞ LÝ THUYẾT ĐỀ TÀI VÀ HỆ THỐNG NHẬN DẠNG ĐÃ CÓ ................... 4
I.

Cơ sở lý thuyết .............................................................................................................. 4
1.1.

Giới thiệu về tiếng nói ................................................................................................. 4

1.2.

Hệ thống nhận dạng tiếng nói..................................................................................... 6

1.3.

Ứng dụng của hệ thống nhận dạng tiếng nói............................................................. 8

1.4.

Hệ thống ngữ âm Tiếng Việt ....................................................................................... 9

1.5.

Một số khó khăn khi nhận dạng tiếng Việt nói ....................................................... 12

1.6.

Mô hình ngôn ngữ...................................................................................................... 12

II.

tiến

Tìm hiểu về các kết quả nhận dạng tiếng nói đã có với tiếng Việt, và đề xuất các cải
14

2.1 Đề tài “NHẬN DẠNG TỰ ĐỘNG TIẾNG VIỆT NÓI SỬ DỤNG BỘ CÔNG CỤ SPHINX”
của Nguyễn Thị Hiền, dƣới sự hƣớng dẫn của TS. Nguyễn Hồng Quang trƣờng Đại Học Bách
Khoa năm 2012 ............................................................................................................................ 14
2.2 Đề tài “NHẬN DẠNG TÊN TIẾNG VIỆT” của Nguyễn Tiến Dũng, Vũ Tất Thắng,
Lƣơng Chi Mai năm 2004 ........................................................................................................ 14
2.3 Đề tài “NHẬN DẠNG GIỌNG HÀ NỘI” của Nguyễn Quốc Cƣờng, Phạm Thị Ngọc
Yến, Eric Castell ...................................................................................................................... 15
2.4 Đề xuất các cải tiến vào nhận dạng tiếng Việt nói ............................................................. 16
CHƢƠNG 2: NHẬN DẠNG TIẾNG VIỆT NÓI BẰNG SPHINX ................................................. 17
Thực hiện hệ thống nhận dạng tiếng Việt nói ......................................................... 17

I.
1.1.

Tổng quan các bƣớc thực hiện ................................................................................. 17

iii


1.2.

Chuẩn bị dữ liệu ........................................................................................................ 18

1.3.


Huấn luyện âm học .................................................................................................... 23

1.4.

Tạo mô hình ngôn ngữ .............................................................................................. 27

1.5.

Nhận dạng .................................................................................................................. 30

II.

Cải thiện tỷ lệ nhận dạng bằng từ có thanh điệu .................................................... 33

2.1.

Giới thiệu .................................................................................................................... 33

2.2.

Đƣa thanh điệu vào mã hóa và nhận dạng .............................................................. 33

III.

Cải thiện tỷ lệ nhận dạng bằng từ đa âm tiết .......................................................... 34

3.1.

Giới thiệu .................................................................................................................... 34


3.2.

Giới thiệu công cụ JVNTextPro ............................................................................... 34

CHƢƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ................................................................................ 38
I.

Cơ sở dữ liệu ............................................................................................................... 38

1.1.

Giới thiệu cơ sở dữ liệu ............................................................................................. 38

1.2.

Thông tin chi tiết về dữ liệu tiếng nói ứng với mỗi ngƣời dùng............................. 39

1.3.

Danh sách file dùng để huấn luyện .......................................................................... 42

1.4.

Danh sách file dùng để test ....................................................................................... 42

1.5.

Các thử nghiệm đƣợc tiến hành và cách đặt tên cho các thử nghiệm................... 42
Tỷ lệ nhận dạng ban đầu .............................................................................................. 43


II.
2.1.

Giới thiệu cách thực hiện .......................................................................................... 43

2.2.

Kết luận ...................................................................................................................... 45

III.
3.1.

Giới thiệu .................................................................................................................... 46

3.2.

ACT-LMMN .............................................................................................................. 46

3.3.

ACNT-LMMT............................................................................................................ 47

3.4.

ACT-LMMT .............................................................................................................. 49

3.5.

Đa âm tiết, có thanh điệu - test trên tập dữ liệu đã huấn luyện ............................ 51


3.6.

Kết luận ...................................................................................................................... 51

IV.

V.

Kết quả thử nghiệm các đề xuất cải tiến ...................................................................... 46

Kết hợp dữ liệu đã thu âm và VOV (Comp-VOV Corpus) ......................................... 51

4.1.

Giới thiệu .................................................................................................................... 51

4.2.

Các thử nghiệm trên tập dữ liệu Comp-VOV Corpus ........................................... 52

4.3.

Kết luận ...................................................................................................................... 53
Thử nghiệm trên dữ liệu VOV (VOV Corpus) ............................................................ 53

iv


5.1.


Giới thiệu .................................................................................................................... 53

5.2.

Các kết quả thử nghiệm ............................................................................................ 57

5.3.

Kết luận ...................................................................................................................... 58

VI.

Chƣơng trình demo ...................................................................................................... 58

CHƢƠNG 4: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN.............................................................. 60
TÀI LIỆU THAM KHẢO .............................................................................................................. 63
PHỤ LỤC 64
Phụ lục A: Mô hình Markov ẩn.................................................................................................... 64
A1. Giới thiệu: ......................................................................................................................... 64
A2: Mô hình Markov rời rạc về mặt thời gian ......................................................................... 65
A3:Mô hình Markov ẩn rời rạc về mặt thời gian: .................................................................... 66
B.1. Các khái niệm liên quan đến mô hình ngôn ngữ ............................................................. 69
B.1.1. Mô hình N-grams ......................................................................................................... 69
B.1.2. Các phƣơng pháp làm trơn (Smooth) ........................................................................ 69
B.2. Lý thuyết liên quan đến mô hình ngôn ngữ ..................................................................... 69
B.2.1. Lý thuyết xác suất........................................................................................................ 69
B.2.4. Đánh giá mô hình ngôn ngữ bằng Perplexity ............................................................ 71
Phụ lục C. Các mã nguồn của chƣơng trình ................................................................................. 73
C1. Đọc thƣ mục chứa các file transcript và tạo thành một file duy nhất ................................ 73
C2. Loại bỏ những ký tự đặc biệt mà Sphinx không nhận dạng đƣợc thành số ....................... 74

C3. Tạo từ điển từ file transcript .............................................................................................. 75
C4. Tạo file transcript và test file từ danh sách file transcript và test ...................................... 78

v


DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT
Chữ viết tắt

Chữ viết đầy đủ

Acoustic Model

Mô hình âm học

Corpus

Hệ thống cơ sở dữ liệu âm thanh

Computer Corpus

Cơ sở dữ liệu âm thanh thu từ máy tính

VOV Corpus

Cơ sở dữ liệu âm thanh thu đƣợc lấy từ Đài Tiếng Nói Việt Nam (VOV)

Comp-VOV Corpus

Cơ sở dữ liệu âm thanh kết hợp giữa Computer và VOV Corpus


ASCII

American Standard Code for Information Interchange – Chuẩn mã dùng để
trao đổi thông tin của Hoa Kì.

HMM

Hidden Markov Model – mô hình Markov Ẩn.

Language Model

Mô hình ngôn ngữ.

CMU SLM

CarnegieMellonUniversity Statistical Language Modeling Toolkit: là một
công cụ dùng để xây dựng mô hình ngôn ngữ thống kê.

MFCC

Mel Frequency Cepstral Coefficients – các hệ số Cepstral theo thang đo tần
số Mel.

Mixture

Một thành phần Gauss trong mô hình phân bố xác suất hỗn hợp Gauss.

VIQR


VIetnamese Quoted-Readable - là một quy ƣớc để viết chữ tiếng Việt dùng
bảng mã ASCII 7 bit.

% WER

Word Error Rate – Tỷ lệ lỗi nhận dạng từ

vi


DANH MỤC HÌNH
Hình 1.1: Hình dạng âm thanh đƣợc hiển thị bằng phần mềm Cool Edit ................................... 4
Hình 1.2 Các bƣớc thực hiện bởi hệ thống nhận dạng .................................................................. 6
Hình 1.3 Cấu trúc cơ bản của hệ thống nhận dạng tiếng nói ........................................................ 7
Hình 2.1 Các bƣớc tiến hành của quá trình nhận dạng tiếng nói trong Sphinx .................................. 17
Hình 2.2 Phần mềm thu âm............................................................................................................ 19
Hình 2.3 Các bƣớc mã hóa văn bản............................................................................................... 20
Hình 2.4 Các bƣớc huấn luyện dữ liệu dùng SphinxTrain .......................................................... 23
Hình 2.5.Sơ đồ huấn luyện SphinxTrain ....................................................................................... 27
Hình 2.6.Các bƣớc tạo mô hình ngôn ngữ thống kê..................................................................... 28
Hình 2.7 Đồ thị tìm kiếm ................................................................................................................ 31
Hình 2.8.Thủ tục nhận dạng bằng PocketSphinx......................................................................... 32
Hình 2.9 Các bƣớc tiến hành mã hóa văn bản để xử lý từ đa âm tiết. ....................................... 34
Hình 2.10.Các bƣớc xử lý của công cụ JVNTextPro 2.0 .............................................................. 35
Hình 3.1. Biểu đồ tỷ lệ nhận dạng các thử nghiệm trên Computer Corpus .............................. 51
Hình 3.2. Biểu đồ kết quả thử nghiệm Comp-VOV Corpus ....................................................... 53
Hình 3.3. Biểu đồ kết quả thực hiện trên VOV Corpus ............................................................... 58
Hình 3.4: Demo chƣơng trình nhận dạng tiếng Việt nói ............................................................. 59
Hình A1. Mô hình Markov ẩn........................................................................................................ 64
Hình A.2 Quan hệ giữa mô hình Markov và tiếng nói................................................................. 67


vii


DANH MỤC BẢNG
Bảng 1.1: Cấu tạo âm tiết ............................................................................................................... 10
Bảng 1.2: Ví dụ âm tiết không thanh điệu .................................................................................... 10
Bảng 1.3: Ví dụ âm tiết có thanh điệu ........................................................................................... 10
Bảng 2.1: Thanh điệu trong VIQR ................................................................................................ 21
Bảng 2.2: Bảng mã thay thế các thanh điệu sử dụng trong đề tài .............................................. 21
Bảng 2.3: Ký hiệu phân loại từ trong VNTextPro ....................................................................... 36
Bảng 3.1: Các chủ đề thu âm.......................................................................................................... 38
Bảng 3.2: Dữ liệu đã thu âm ........................................................................................................... 39
Bảng 3.3: Chi tiết dữ liệu thu âm ................................................................................................... 39
Bảng 3.4: Các ký tự mã hóa thanh điệu ........................................................................................ 44
Bảng 3.5: Dữ liệu dùng để huấn luyện và test .............................................................................. 44
Bảng 3.6: Các âm vị của mô hình đơn âm, không thanh điệu trên Computer-Corpus ....................... 45
Bảng 3.7: Kết quả thử nghiệm ACNT-LMMN-Computer Corpus ............................................ 45
Bảng 3.8: Các âm vị của đơn âm, có thanh điệu trên Computer Corpus .................................. 46
Bảng 3.9: Kết quả thử nghiệm ACT-LMMN-Computer Corpus ............................................... 47
Bảng 3.10: Các âm vị của đa âm, không thanh điệu trên Computer Corpus ............................ 48
Bảng 3.11: Kết quả thử nghiệm ACNT-LMMT-Computer Corpus .......................................... 49
Bảng 3.12: Các âm vị của đa âm tiết, có thanh điệu trên Computer-Corpus ............................ 49
Bảng 3.13: Kết quả thử nghiệm ACT-LMMT-Computer Corpus ............................................. 50
Bảng 3.14: Dữ liệu dùng để test từ VOV ....................................................................................... 52
Bảng 3.15: Kết quả thử nghiệm Comp-VOV Corpus .................................................................. 52
Bảng 3.16: Các âm vị của đơn âm tiết không thanh điệu trên VOV Corpus ............................ 54
Bảng 3.17: Các âm vị của đơn âm tiết có thanh điệu trên VOV Corpus ................................... 54
Bảng 3.18: Các âm vị của từ đa âm tiết không thanh điệu VOV Corpus .................................. 56
Bảng 3.19: Các âm vị của từ đa âm tiết có thanh điệu VOV Corpus ......................................... 56

Bảng 3.20: Các kết quả thử nghiệm trên VOV Corpus ............................................................... 57

viii


MỞ ĐẦU
1. Lý do chọn đề tài
Trong khoa học máy tính, nhận dạng tiếng nói là một quá trình chuyển những
lời nói thành văn bản. Nhận dạng tiếng nói còn đƣợc biết đến với một số các tên gọi
khác nhƣ: “Tự động nhận dạng tiếng nói”, “Máy tính nhận dạng tiếng nói” hay
“Tiếng nói thành văn bản”. Nhận dạng tiếng nói có thể đƣợc ứng dụng ở nhiều lĩnh
vực quan trọng trong cuộc sống nhƣ: y tế, quân sự và ứng dụng nhiều trong cuộc
sống hàng ngày.
Nhận dạng tiếng nói đang đƣợc nhiều công ty lớn trên thế giới triển khai và
áp dụng. Trong các sản phẩm thông minh phục vụ con ngƣời, có thể kể đến Apple,
Google. Ở Việt Nam ứng dụng nhận dạng tiếng nói Việt còn hạn chế.
Ý tƣởng về xây dựng các hệ thống nhận dạng tiếng nói đã có từ những năm
50 của thế kỷ 20, và đến nay đã đạt đƣợc nhiều kết quả đáng kể. Có 3 hƣớng tiếp
cận chính cho nhận dạng tiếng nói:
 Tiếp cận Âm học: Hƣớng tiếp cận này dựa vào các đặc điểm âm học đƣợc rút
ra đƣợc từ phổ âm thanh. Tuy nhiên kết quả của hƣớng tiếp cận này còn thấp vì
trong thực tế, các đặc trƣng âm học có sự biến động rất lớn. Hơn nữa phƣơng pháp
này đòi hỏi tri thức rất đầy đủ về âm học (vốn tri thức âm học hiện nay chƣa thể đáp
ứng).
 Tiếp cận Nhận dạng mẫu thống kê: Sử dụng các phƣơng pháp máy học dựa
trên thống kê, để học và rút ra mẫu tham khảo từ lƣợng dữ liệu lớn. Hƣớng này
đang đƣợc sử dụng nhiều, chủ yếu là dựa vào Mô hình Markov ẩn (HMM).
 Tiếp cận Trí tuệ nhân tạo: Là hƣớng kết hợp của cả hai hƣớng trên. Phƣơng
pháp này kết hợp đƣợc cả tri thức của chuyên gia và phƣơng pháp mẫu thống kê.
Đây sẽ là hƣớng tiếp cận tƣơng lai của nhận dạng tiếng nói.

Đã có nhiều sản phẩm nghiên cứu về nhận dạng tiếng nói dƣới dạng mã nguồn mở,
có thể kể đến:

1


 CMU Sphinx mã nguồn mở license BSD.
 Julius mã nguồn mở license BSD cung cấp nhận dạng cho ngôn ngữ tiếng
Nhật.
 Kaldi: Apache license.
 Simon: GPL license sử dụng Julius và HTK.
 iATROS: GPL license.
Hệ thống Sphinx là một hệ thống nhận dạng tiếng nói. Hệ thống này đƣợc phát triển
bởi sự hợp tác giữa trƣờng đại học Carnegie Mellon, phòng thí nghiệm của hãng
Sun, hãng Mitsubishi, hãng Hewlett Packard, cùng với sự tham gia của trƣờng đại
học California và Viện Công nghệ Massachusetts (MIT). Hệ thống này đã đƣợc sử
dụng để nghiên cứu và phát triển các ứng dụng nhận dạng tiếng nói và tƣơng tác
ngƣời máy. Vì vậy, nhu cầu nghiên cứu và sử dụng hệ thống này cho tiếng Việt đã
trở nên ngày càng cấp thiết và có tính ứng dụng thực tiễn cao.
2. Mục đính và phạm vi nghiên cứu
 Tích hợp thanh điệu vào mô hình âm học: bổ sung thanh điệu vào các âm vị,
cập nhật vào file từ điển phát âm, sau đó huấn luyện lại mô hình âm học
bằng SphinxTrain.
 Tích hợp từ đa âm tiết vào mô hình ngôn ngữ.
 Thực hiện phân tách từ đa âm tiết cho bộ dữ liệu trên (dựa trên công cụ đã
đƣợc phát triển bởi TS. Nguyễn Hồng Quang), mục đích là tạo ra CSDL văn
bản từ đa âm tiết cho tiếng Việt. Sau đó sử dụng CMU SLM toolkit để tạo ra
mô hình ngôn ngữ đa âm tiết.



Tiến hành thực nghiệm huấn luyện và nhận dạng trên bộ cơ sở dữ liệu tiếng
Việt nói đã xây dựng ở trên, để đánh giá hiệu quả của các phƣơng pháp đề
xuất.

3. Đối tƣợng nghiên cứu
 Nghiên cứu tổng quan về nhận dạng tiếng Việt nói.
 Nghiên cứu mô hình HMM, mô hình ngôn ngữ.
 Nghiên cứu về các công cụ: SphinxTrain, CMU SLM, SphinxBase,
PocketSphinx.

2


4. Phƣơng pháp nghiên cứu
Các phƣơng pháp nghiên cứu đã đƣợc áp dụng bao gồm:
 Phƣơng pháp nghiên cứu lý thuyết, tổng hợp tài liệu.
 Phƣơng pháp ứng dụng minh họa.
 Phƣơng pháp nghiên cứu thực tiễn.
5. Nhiệm vụ nghiên cứu
 Tìm hiểu khái quát về nhận dạng tiếng nói và những đặc điểm của tiếng Việt
nói.
 Tìm hiểu về mô hình HMM, mô hình ngôn ngữ.
 Tìm hiểu về hoạt động của công cụ CMU SLM, SphinxTrain, SphinxBase,
PocketSphinx.

3


CHƢƠNG 1: CƠ SỞ LÝ THUYẾT ĐỀ TÀI VÀ HỆ THỐNG NHẬN
DẠNG ĐÃ CÓ

Chƣơng này chúng ta sẽ tìm hiểu một số đặc điểm về tiếng nói, đặc điểm
của tiếng Việt nói, mô hình ngôn ngữ, các thành phần cơ bản của một hệ thống nhận
dạng tiếng nói, cũng nhƣ tìm hiểu một số hệ thống nhận dạng đã có. Sau cùng sẽ đề
nghị một số cải tiến cho nhận dạng tiếng Việt nói.
I. Cơ sở lý thuyết
1.1. Giới thiệu về tiếng nói
Tiếng nói là một hiện tƣợng phức tạp, con ngƣời khó có thể hiểu đƣợc giọng
nói một cách đầy đủ. Một cách hiểu đơn giản là: giọng nói đƣợc xây dựng bởi các
từ và các từ đƣợc tạo bởi các âm. Nhƣng thực tế không phải là nhƣ vậy, tiếng nói là
một quá trình động, mà không không có sự phân biệt rõ ràng giữa các phần. Sẽ dễ
hiểu hơn, nếu chúng ta sử dụng một phần mềm chỉnh sửa âm thanh để xem cách
phát âm của của con ngƣời. Dƣới đây là hình dạng âm thanh đƣợc thu âm:

Hình 1.1: Hình dạng âm thanh đƣợc hiển thị bằng phần mềm Cool Edit
Hầu hết các nghiên cứu mới đều đồng ý với quan điểm rằng: không có một
biên giới rõ ràng nào giữa các đơn vị hay giữa các từ. Các ứng dụng nhận dạng
tiếng nói ít khi đúng 100%, vì vậy nó tạo ra nhiều khó khăn cho đặc thù cho nhận
dạng tiếng nói.

4


1.1.1. Một số khó khăn gặp phải khi thực hiện nhận dạng tiếng nói


Nhận dạng tiếng nói có rất nhiều khó khăn, dƣới đây liệt kê một số khó

khăn điển hình:



Cách phát âm cùng một từ giữa 2 ngƣời là khác nhau.



Độ tuổi ảnh hƣởng đến cách phát âm.



Sự tác động của môi trƣờng xung quanh khi thu âm nhƣ tiếng ồn - là một

yếu tố tác động lớn khi thực hiện nhận dạng.


Tốc độ nói của ngƣời nói, cảm xúc của ngƣời khi nói.



Sự khác nhau về giọng nói giữa các vùng miền.

1.1.2. Một số yếu tố ảnh hƣởng đến nhận dạng tiếng nói


Kích thƣớc từ vựng: kích thƣớc từ vựng càng lớn thì càng khó nhận

dạng. Ví dụ: nếu chỉ nhận dạng các số từ 0 đến 9 thì khả năng chính xác là rất lớn
nhƣng khi kích thƣớc từ vựng lớn nhƣ 200, 5000, hoặc 100000 thì khả năng nhận
dạng đúng có thể chỉ là 3%, 7%, hoặc 45%.


Cách phát âm của các từ giống nhau cũng làm ảnh hƣởng đến khả năng


nhận dạng, ngay cả khi tập từ cần nhận dạng là nhỏ.


Phụ thuộc ngữ cảnh và không phụ thuộc ngữ cảnh:
o Hệ thống phụ thuộc ngữ cảnh đƣợc thiết kế để sử dụng bởi một ngƣời
duy nhất.
o Một hệ thống độc lập ngữ cảnh là một hệ thống bởi nhiều ngƣời sử
dụng khác nhau.
o

Các hệ thống độc lập ngữ cảnh thƣờng có độ chính xác thấp hơn vì

các hệ thống đó thƣờng đƣợc tối ƣu hóa cho từng ngƣời nói.


Văn bản cô lập, không liên tục và liên tục:
o Văn bản cô lập là từng từ riêng lẻ.
o Văn bản không liên tục là cả câu và các từ đƣợc cách nhau bởi khoảng lặng.
o Văn bản liên tục là lời nói tự nhiên.
o Văn bản liên tục thƣờng khó nhận dạng hơn 2 loại còn lại, vì 2 loại
trên các từ đƣợc phát âm và có biên giới rõ ràng.
5




Cú pháp của câu ảnh hƣởng tới khả năng nhận dạng, ngay cả khi độ lớn của

từ vựng đã đƣợc giới hạn. Ví dụ sau nói lên điều này: câu “Quả táo màu đỏ” có thể

nhận diện chính xác nhƣng câu “Quả táo tức giận” sẽ làm cho nhận diện khó khăn
hơn.


Văn bản đọc và nói tự nhiên: văn bản nói tự nhiên khó hơn nhiều so với

văn bản đọc vì thƣờng bao gồm cả những câu chƣa hoàn chỉnh, tiếng ho, cƣời.


Các điều kiện đa dạng: hệ thống nhận dạng có thể bị ảnh hƣởng bởi

nhiều yếu tố bên ngoài nhƣ tiếng ồn, tiếng nói bị vọng, tiếng microphone.
1.2.

Hệ thống nhận dạng tiếng nói

1.2.1. Các bƣớc thực hiện của hệ thống nhận dạng tiếng nói
Một hệ thống nhận dạng tự động bằng máy tính thƣờng đƣợc thực hiện qua
các bƣớc sau:

Tiền xử lý và tạo các
vector đặc trưng

Nhận dạng, so khớp
mẫu

Học mẫu, phân lớp

Tập hợp từ điển các lớp
tín hiệu


Ngưỡng và luật quyết
định

Kết quả

Hình 1.2 Các bƣớc thực hiện bởi hệ thống nhận dạng
 Thu nhận tín hiệu và tạo các vectơ đặc trƣng: thu nhận tín hiệu cần nhận
dạng, khử nhiễu lọc tín hiệu (tiền xử lý) và rút ra các đặc trƣng của tín hiệu (vectơ
đặc trƣng).
 Học mẫu: kết nhóm, phân lớp các nhóm vectơ đặc trƣng của từng nhóm
tín hiệu (bằng các thuật giải, sử dụng mạng Neural…). Quá trình này tạo ra các lớp
tín hiệu, mỗi lớp này đặc trƣng cho từng nhóm tín hiệu.

6


 Nhận dạng, so khớp mẫu: tìm mối liên hệ giữa tín hiệu cần nhận dạng và
các lớp tín hiệu đƣợc tạo ra ở bƣớc trƣớc. Nếu nhƣ tín hiệu so khớp tƣơng ứng với
một lớp tín hiệu nào đó, thì hệ thống nhận dạng xác định tín hiệu đó thuộc vào
nhóm tín hiệu đó với một tỉ lệ nhất định, gọi là độ chính xác của hệ thống nhận
dạng.
Cấu trúc cơ bản của một hệ thống nhận dạng tiếng nói

1.2.2.

Tiếng nói
Xử lý tín
hiệu


Giải mã
Ứng
dụng


hình
âm học


hình
ngôn
ngữ

Bộ thích
nghi

Hình 1.3 Cấu trúc cơ bản của hệ thống nhận dạng tiếng nói


Tín hiệu tiếng nói đƣợc xử lý trong bộ phận “Xử lý tín hiệu” để tạo ra

các vectơ đặc trƣng cho bộ giải mã.


Bộ giải mã sử dụng cả mô hình ngôn ngữ và mô hình âm thanh để tạo ra

chuỗi các từ xác suất cao nhất.


Bộ thích nghi nhận thông tin từ bộ giải mã và thay đổi các tham số của


các mô hình âm học, mô hình ngôn ngữ nhằm nâng cao kết quả nhận dạng.


Mô hình âm học (Acoustic Models) – tri thức về âm học, ngữ âm, sự đa

dạng về môi trƣờng ghi âm, microphone và cả các đặc tính của ngƣời ghi âm nhƣ:
giới tính, tuổi, hình thái ngôn ngữ (tiếng địa phƣơng)…


Mô hình ngôn ngữ (Language Models) – đƣợc sử dụng để giới hạn từ tìm

kiếm, định nghĩa những từ có thể nhận dạng, nó hạn chế đáng kể quá trình kết hợp

7


bằng cách tách từ mà không thể xảy ra. Mô hình ngôn ngữ phổ biến nhất đƣợc sử
dụng là các mô hình các ngôn ngữ n-gram - có số liệu thống kê trình tự xuất hiện
các từ và có cả trọng số xuất hiện. Để đạt đƣợc một mức độ chính xác tốt, mô hình
ngôn ngữ phải tốt trong việc hạn chế không gian tìm kiếm, dự đoán tố từ tiếp theo.


Từ điển ngữ âm: Chứa các từ và cách phát âm của từ.

1.3. Ứng dụng của hệ thống nhận dạng tiếng nói
Với các ngôn ngữ đƣợc sử dụng rộng rãi nhƣ Anh, Pháp: đã có nhiều công
trình nghiên cứu nhận dạng tiếng nói và thu đƣợc kết quả tốt. Và đã có nhiều ứng
dụng triển khai trong nhiều lĩnh vực:



Các ứng dụng tiếng nói trên thiết bị di động và máy tính để bàn nhƣ:

Google search, Apple Siri… Google cho phép ngƣời dùng có thể nói những từ khóa
để tìm kiếm, thay vì phải nhập lệnh từ bàn phím. Hiện ứng dụng này đã áp dụng
đƣợc cho cả tiếng Việt.


Tổng đài hỏi đáp tự động, tổng đài có thể hoạt động không cần điện thoại

viên, giúp các đƣờng dây nóng hoạt động bình thƣờng không cần có ngƣời trực. Ở
Việt Nam đã xây dựng đƣợc hệ thống VIS (Viet voice system), đây là hệ thống hỗ
trợ hỏi đáp thông tin bằng tiếng Việt qua đƣờng điện thoại, sử dụng công nghệ nhận
dạng và tổng hợp bằng tiếng Việt với độ chính xác cao và tốc độ xử lý nhanh.


Dịch tự động: không cần phiên dịch viên, hệ thống tự nhận dạng tiếng

nói và chuyển sang ngôn ngữ tùy chọn. Hiện đã có các phần mềm làm việc rất tốt
nhƣ Google Stranlate hay NTT Docomo.


Các trạm kiểm soát sử dụng hệ thống tiếng nói.



Các ứng dụng nghiệp vụ văn phòng hỗ trợ nhập liệu, điều khiển nghiệp

vụ bằng giọng nói.
Việc ứng dụng nhận dạng tiếng nói trong cuộc sống, tạo ra một cách thức

mới để con ngƣời có thể tƣơng tác với công nghệ tốt hơn, thay vì công cụ nhập liệu
truyền thống nhƣ nhập văn bản. Hỗ trợ tiếng nói giúp sản phẩm tăng tính cạnh tranh

8


và giúp cho một đối tƣợng lớn có thể sử dụng nhƣ: trẻ em, ngƣời tàn tật, ngƣời già
yếu…
Ngoài ra nhận dạng tiếng nói còn làm tăng năng suất các tác vụ điển hình
nhƣ các sản phẩm “hand free” hoặc “eyes free”.
1.4. Hệ thống ngữ âm Tiếng Việt
Mục tiêu của đề tài là nhận dạng tiếng nói Việt, do vậy mục này sẽ trình bầy
ngắn gọn về hệ thống tiếng Việt.
a) Âm tiết
Lời nói của con ngƣời là một chuỗi âm thanh đƣợc phát ra kế tiếp nhau trong
không gian và thời gian. Việc phân tích chuỗi âm thanh ấy, ngƣời ta nhận ra đƣợc
các đơn vị của ngữ âm. Ví dụ khi có ngƣời nói: /Tôi đi học/, chúng ta phân biệt
đƣợc từng âm tiết một:
Tôi / đi /học
Từng âm tiết này không thể chia nhỏ hơn đƣợc nữa khi phát âm.
Trong tiếng Việt mỗi âm tiết khi phát âm thƣờng đƣợc phát ra với thanh
điệu.
Tiếng Việt là một hệ thống đơn âm, mỗi một từ thuần Việt khi phát âm chỉ
cần một tiếng mà không cần 2 tiếng. Với tiếng Anh ví dụ từ Explaination cách phát
âm /,eksplə'neiʃ n/, nghĩa là cần 4 âm để đọc từ này.
b) Cấu tạo của âm tiết
Tiếng Việt có 3 bộ phận mà ngƣời bản ngữ nào cũng nhận ra: thanh điệu,
phần đầu và phần sau. Phần đầu của âm tiết đƣợc xác định là m đầu, vì ở vị trí này
chỉ có một âm vị tham gia cấu tạo. Phần sau của âm tiết đƣợc gọi là phần Vần.
Các âm đầu vần, giữa vần và cuối vần (U,

đệm,

m chính và

, N) đƣợc gọi lần lƣợt là

m

m cuối. Có thể hình dung về cấu tạo âm tiết tiếng Việt trong

một mô hình nhƣ sau:

9


Bảng 1.1: Cấu tạo âm tiết
Thanh điệu
Vần
m đầu
m đệm

Âm chính

Âm cuối

Ví dụ với từ HOA:
Bảng 1.2: Ví dụ âm tiết không thanh điệu
Thanh điệu:Không có
Vần
m đầu

m đệm

Âm chính

Âm cuối

A

Không có

H
O

Với từ NGUYỄN:
Bảng 1.3: Ví dụ âm tiết có thanh điệu
Thanh điệu:Ngã(~)
Vần
m đầu
m đệm

Âm chính

Âm cuối



N

NG
U




m đầu: Tại vị trí thứ nhất trong âm tiết, âm đầu có chức năng mở đầu

âm tiết. m đầu có 27 loại b, c, ch, d, đ, g, gh, h, k, kh, l, m, n, ng, ngh, nh, p, ph,
q, r, s, t, th, tr, v, x, không có.
m đầu mang tính độc lập do không tham gia vào việc thay đổi về cƣờng độ
giữa các yếu tố bên trong âm tiết. Các âm tiết tiếng Việt khi phát âm về mặt cấu âm
10


bao giờ cũng mở đầu bằng một động tác khép lại, dẫn đến chỗ cản trở không khí
hoàn toàn hoặc bộ phận. Ðó là cách phát âm của các âm tiết nhƣ: bút, mai, … Còn
những âm tiết nhƣ ăn, uống, … mặc dù trên chữ viết, phụ âm vắng mặt, nhƣng thực
tế chúng cũng phải bắt đầu bằng một động tác khép kín khe thanh, sau đó mở ra đột
ngột gây nên một tiếng động.


m đệm đóng vai trò là âm lƣớt trong kết cấu âm tiết.

m đệm ảnh

hƣởng đến cách mở đầu của âm tiết (bên cạnh phụ âm đầu). Ví dụ: chữ “toàn” khi
phát âm có hiện tƣợng tròn môi do tác động của âm đệm /-u-/, còn chữ “tàn” thì
không có hiện tƣợng tròn môi do không có âm đệm.


Âm chính: là nguyên âm, âm tiết chính có thể là một nguyên âm đơn hay


nguyên âm đôi.


Âm cuối: gồm có 9 loại nhƣ sau: c, ch, m, n, ng, nh, p, t, không có - là

yếu tố kết thúc âm tiết. Các âm tiết tiếng Việt thƣờng đối lập bằng những cách kết
thúc khác nhau. Một số âm tiết kết thúc bằng sự kéo dài và giữ nguyên, ví dụ: Má,
đi, cho,… Số âm tiết khác kết thúc bằng cách biến đổi âm sắc của âm tiết ở phần
cuối do sự đóng lại của các âm cuối tham gia, ví dụ nhƣ: một, mai, màng,… Trong
trƣờng hợp đầu, ta có các âm cuối là âm vị /zero/, trong trƣờng hợp sau ta có các âm
cuối là những âm vị bán nguyên âm hoặc phụ âm.
Thứ tự các loại hình âm vị trong cấu trúc của âm tiết nhƣ trên đƣợc giữ
nguyên không thay đổi cho mỗi âm tiết.


Thanh điệu: là một tập hợp những đặc trƣng có liên quan đến độ cao

(phụ thuộc tần số rung động của dây thanh) của thanh cơ bản của âm tiết. Nó đƣợc
thể hiện trên tất cả những bộ phận hữu thanh trong âm tiết, nhất là các âm đoạn
nguyên âm tính (nguyên âm và bán nguyên âm).


Thanh điệu trong âm tiết là âm vị siêu đoạn tính (thể hiện trên toàn bộ

âm tiết). Do đó đặc trƣng về thanh điệu thể hiện trong tín hiệu tiếng nói không rõ
nét nhƣ các thành phần khác của âm tiết.


Thanh điệu có thể phân tích thành hai phần thƣờng xuyên kết hợp với


nhau: âm vực (độ cao của thanh cơ bản) và âm điệu (hƣớng chuyển biến cao độ (độ

11


tăng giảm của tần số)) trong quá trình thể hiện. Vì vậy, mỗi thanh có thể đƣợc miêu
tả nhƣ một sự kết hợp của hai thông số nói trên. Sự khác biệt về cách phát âm tiếng
Việt rất rõ rệt theo giới tính, lứa tuổi và đặc biệt là theo vị trí địa lí (phƣơng ngữ giọng miền Bắc, miền Trung và miền Nam khác nhau rất nhiều). Hệ thống thanh
điệu gồm: không có, huyền, hỏi, ngã, sắc, nặng.
1.5. Một số khó khăn khi nhận dạng tiếng Việt nói
Tiếng Việt là một ngôn ngữ có thanh điệu, theo nghiên cứu thanh điệu không
thể hiện rõ nét nhƣ các thành phần khác của âm tiết.
Tiếng Việt đƣợc nói bởi các vùng miền khác nhau, rất đa dạng làm cho nhận
dạng trở nên khó khăn.
Ngoài ra hệ thống ngữ pháp cũng phức tạp làm ảnh hƣởng đến chất lƣợng
nhận dạng.
Thêm đặc điểm nữa chƣa có nhiều nghiên cứu tiếng Việt đƣợc công bố rộng
rãi nên làm cho việc áp dụng các kiến thức của tiếng Việt vào nhận dạng khó khăn.
1.6.

Mô hình ngôn ngữ

1.6.1. Khái niệm: Một mô hình ngôn ngữ thống kê dùng để đƣa ra xác suất đối
với chuỗi m từ liên tiếp P(W1,W2, W3…Wm) .
Mô hình ngôn ngữ là một mô hình có thể đoán trƣớc đƣợc một từ không biết
trƣớc, dựa vào chuỗi m-1 từ đã biết trƣớc.
Hay một mô hình ngôn ngữ thống kê là mô hình cho biết đƣợc xác suất
P(Wn| W1,W2…Wn-1).
1.6.2.


Các ứng dụng của mô hình ngôn ngữ
Mô hình ngôn ngữ đƣợc sử dụng rất nhiều trong các ứng dụng liên quan đến

xử lý ngôn ngữ tự nhiên nhƣ: nhận dạng tiếng nói, dịch máy, nhận dạng chữ viết
tay, phân tích và truy vấn thông tin…

12


Trong nhận dạng tiếng nói và trong nén dữ liệu, những mô hình ngôn ngữ có
khả năng ghi lại các thuộc tính của ngôn ngữ và đoán đƣợc từ tiếp theo trong chuỗi
tiếng nói.
Khi sử dụng mô hình ngôn ngữ vào việc truy xuất thông tin, một mô hình
ngôn ngữ đƣợc kết hợp với một nguồn dữ liệu đã thu thập đƣợc.
Việc ƣớc chừng, tính toán xác suất các dãy tuần tự các từ là một công việc
khó, khi trong khối văn bản các câu, các đoạn có độ dài tùy tiện; một số câu không
xuất hiện trong quá trình huấn luyện của mô hình ngôn ngữ. Vì những lí do đó, mô
hình ngôn ngữ chỉ có thể tính toán gần đúng nhờ sử dụng các phƣơng pháp làm trơn
nhƣ: Good –Turing smooth, Absolute Discounting....
1.6.3.

Một số mô hình ngôn ngữ thông dụng
Các ngôn ngữ thông dụng nhƣ: Anh, Pháp, Trung… đã có các mô hình ngôn

ngữ tự nhiên. Bộ từ vựng của các ngôn ngữ này lớn hơn nhiều so với tiếng Việt.
Các mô hình ngôn ngữ đó đã xây dựng rất hiệu quả với độ chính xác đã cao hơn
90%. Các hệ thống nhận dạng tiếng nói này đã đƣợc đƣa vào thực tế với độ tin cậy
rất cao, đặc biệt với các hệ thống an ninh bảo mật.
Với các ngôn ngữ khác việc xây dựng mô hình ngôn ngữ gặp một số các khó
khăn nhƣ: nguồn dữ liệu phải đủ và phù hợp, chất lƣợng của nguồn dữ liệu phải

tốt…Việc xây dựng các mô hình ngôn ngữ này là rất cần thiết cho lĩnh vực nhận
dạng, tìm kiếm thông tin…
1.6.4.

Tầm quan trọng của mô hình ngôn ngữ
Mô hình ngôn ngữ có tầm quan trọng rất lớn trong các hệ thống nhận dạng

và tìm kiếm thông tin. Các nhà nghiên cứu, nhà khoa học đã đƣa ra rằng với một mô
hình ngôn ngữ tốt có thể làm tăng kết quả nhận dạng lên 10-15 %. Đặc biệt trong
nhận dạng tiếng nói, thì mô hình ngôn ngữ là không thể thiếu. Mô hình ngôn ngữ
làm tăng tốc độ xử lý và chính xác trong các hệ thống tìm kiếm thông tin. Trong đề
tài, chúng ta sau khi làm thử nghiệm chuyển từ mô hình ngôn ngữ đơn âm sang đa
âm, chúng ta sẽ thấy là mô hình ngôn ngữ thực sự làm tăng chất lƣợng nhận dạng
13


của hệ thống rất nhiều.
II.Tìm hiểu về các kết quả nhận dạng tiếng nói đã có với tiếng Việt, và đề xuất
các cải tiến
2.1 Đề tài “NHẬN DẠNG TỰ ĐỘNG TIẾNG VIỆT NÓI SỬ DỤNG BỘ
CÔNG CỤ SPHINX” của Nguyễn Thị Hiền, dƣới sự hƣớng dẫn của TS.
Nguyễn Hồng Quang trƣờng Đại Học Bách Khoa năm 2012
Các thông tin về đề tài:


Sử dụng bộ công cụ Sphinx để tiến hành nhận dạng tiếng Việt.



Bộ từ điển phát âm:

o 8569 từ
o 50 âm vị



Từ điển không chứa thông tin về thanh điệu.



Cơ sở dữ liệu tiếng nói:
o 20 giọng nữ
o 1200 file âm thanh

Kết quả tốt nhất của đề tài với WER =29,5. WER là tỷ lệ nhận dạng lỗi, tỷ lệ
này càng thấp thì độ chính xác càng cao.
2.2 Đề tài “NHẬN DẠNG TÊN TIẾNG VIỆT” của Nguyễn Tiến Dũng, Vũ Tất
Thắng, Lƣơng Chi Mai năm 2004
Các thông tin về đề tài:
 Sử dụng mô hình HMM để nhận dạng các tên.
 Dữ liệu đƣợc lấy từ VOV, tạo các file phiên âm (transcript) tƣơng ứng.
 Liệt kê 64 tên thành phố và các tỉnh thành (1).
 Liệt kê tên nhân viên của 24 phòng ban (2).
 Liệt kê 17760 tên ngƣời Hà Nội (3).
Kết quả:

14


 Với tỷ lệ chính xác cho (1) và (2) là 95-97%
 Với tỷ lệ chính xác cho (3) là 80%.

2.3 Đề tài “NHẬN DẠNG GIỌNG HÀ NỘI” của Nguyễn Quốc Cƣờng, Phạm
Thị Ngọc Yến, Eric Castell
Trong bài báo đƣợc đăng trên IEEE năm 2002, nhóm đề xuất phƣơng pháp nhận
dạng giọng Hà Nội dựa trên 2 bƣớc nhƣ sau: nhận dạng thanh điệu, sau đó nhận
dạng âm tiết không phụ thuộc vào thanh điệu.
Các thông tin:
 Chiết suất tần số đặc trƣng (pitch) từ văn bản nói.
 Xây dựng các vectơ đặc trƣng của tiếng Việt dựa vào phƣơng pháp
Mandarin nhƣ là một cơ sở tham chiếu.
 Sử dụng mô hình HMM để nhận dạng các thanh điệu.
 Dữ liệu nhận dạng là các từ đứng độc lập.
Kết quả: Tỷ lệ chính xác từ 80 đến 97%.

15


2.4 Đề xuất các cải tiến vào nhận dạng tiếng Việt nói
 Về thanh điệu: đề tài sẽ tiến hành tích hợp thanh điệu vào nhận dạng.
Với việc cung cấp thông tin nhiều hơn về dữ liệu nói, chúng ta hy vọng sẽ thu đƣợc
kết quả tốt hơn.
 Về từ đa âm tiết: Sphinx là công cụ nhận dạng dựa trên xác suất. Để khả
năng nhận dạng tốt hơn, chúng ta có thể thêm vào từ điển cách phát âm từ đa âm
tiết. Ví dụ với cụm từ “học sinh” sẽ đƣợc lƣu trong từ điển cùng với nhau thay vì
tách ra đứng độc lập thành hai từ.
 Về cơ sở dữ liệu tiếng nói: đề tài sẽ tiến hành thu thêm dữ liệu và đa
dạng nguồn thu: thu cả nam và nữ. Ngoài việc tiến hành thu dữ liệu bên ngoài, đề
tài sẽ lấy thêm dữ liệu từ đài tiếng nói Việt Nam (VOV).
Kết luận: Chương 1 đã cung cấp một cái nhìn tổng quát về tiếng nói, đặc
điểm của tiếng Việt nói, các thành phần cơ bản của hệ thống nhận dạng tiếng nói tự
động, và đề xuất hướng tích hợp đặc điểm của tiếng Việt là thanh điệu và đa âm tiết

vào hệ thống nhận dạng. Trong chương 2 sẽ nói về cách tiến hành nhận dạng tiếng
Việt nói.

16


CHƢƠNG 2: NHẬN DẠNG TIẾNG VIỆT NÓI BẰNG SPHINX

Chƣơng này sẽ trình bầy các bƣớc thực hiện nhận dạng tiếng nói bằng công cụ
Sphinx, cũng nhƣ tích hợp đặc điểm tiếng Việt là thanh điệu và đa ngôn ngữ vào
trong hệ thống nhận dạng.
I.
1.1.

Thực hiện hệ thống nhận dạng tiếng Việt nói
Tổng quan các bƣớc thực hiện

Sphinx cho phép ngƣời dùng có thể chọn nhiều cách để tối ƣu hóa nhận dạng. Đề tài
sẽ sử dụng cách thay đổi cấu trúc phát âm của từ điển, với các cấu hình khác nhau.
Sau đó lựa chọn một từ điển tối ƣu nhất. Về cơ bản khi làm việc với Sphinx ngƣời
dùng sẽ đi qua các bƣớc sau:

Hình 2.1 Các bƣớc tiến hành của quá trình nhận dạng tiếng nói trong Sphinx
 Chuẩn bị dữ liệu: đây là quá trình quan trọng và đòi hỏi nhiều thời gian,
dữ liệu phải đủ nhiều - để quá trình nhận dạng chính xác, vì quá trình nhận dạng sẽ
dựa trên xác suất. Ngoài ra dữ liệu cũng phải đủ đa dạng nhƣ: giọng nam, giọng nữ
để hệ thống có đầy đủ thông tin khi nhận dạng.
 Huấn luyện âm học: bƣớc này sử dụng công cụ SphinxTrain để huấn
luyện dữ liệu đã chuẩn bị ở bƣớc trƣớc. Thời gian huấn luyện có thể mất nhiều giờ
nếu nhƣ tập dữ liệu lớn.

 Tạo mô hình ngôn ngữ: sử dụng dữ liệu ở bƣớc một và kết hợp một số
công cụ của CMU SLM để tạo mô hình ngôn ngữ cho hệ thống. Bƣớc này không
đòi hỏi nhiều thời gian nhƣ bƣớc trên.

17


×