BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC VINH
ĐẶNG THỊ XUÂN
ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI
VÀO HỆ THỐNG NHẬP ĐIỂM TRƯỜNG THPT
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Nghệ An, 2018
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC VINH
ĐẶNG THỊ XUÂN
ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI
VÀO HỆ THỐNG NHẬP ĐIỂM TRƯỜNG THPT
Chuyên ngành: Công nghệ thông tin
Mã ngành: 60.48.02.01
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học: TS. CAO THANH SƠN
Nghệ An, 2018
LỜI CAM ĐOAN
Tôi xin cam đoan:
Những kết quả nghiên cứu được trình bày trong luận văn: “Ứng dụng
nhận dạng tiếng nói vào hệ thống nhập điểm trường THPT” là hồn tồn
trung thực, của tơi, khơng vi phạm bất cứ điều gì trong luật sở hữu trí tuệ và
pháp luật Việt Nam. Nội dung tham khảo từ sách, tài liệu khác đều được trích
dẫn đầy đủ. Nếu sai, tơi hồn tồn chịu trách nhiệm trước pháp luật.
TÁC GIẢ LUẬN VĂN
Đặng Thị Xuân
LỜI CẢM ƠN
Để hoàn thành luận văn và kết thúc chương trình đào tạo Thạc sĩ ngành
Cơng nghệ thơng tin, lời đầu tiên tơi xin bày tỏ lịng biết ơn sâu sắc tới thầy
giáo TS. Cao Thanh Sơn, Viện Kỹ thuật và Công nghệ, Trường Đại học Vinh,
người đã tận tình hướng dẫn giúp đỡ để tơi hồn thành tốt luận văn của mình.
Tơi xin gửi lời cảm ơn chân thành đến các thầy cô giáo Viện Kỹ thuật và
Công nghệ, Trường Đại học Vinh, cùng các thầy cô giáo đã nhiệt tình giảng
dạy, truyền đạt kiến thức cho tơi trong suốt quá trình học tập tại trường cũng
như quá trình làm luận văn này.
Cuối cùng tơi xin gửi lời cảm ơn đến gia đình, bạn bè, các đồng nghiệp
những người đã động viên, giúp đỡ và tạo điều kiện cho tơi trong q trình học
tập và hồn thành luận văn.
Tôi xin chân thành cảm ơn!
Hà Tĩnh, ngày 25 tháng 06 năm 2018
TÁC GIẢ LUẬN VĂN
Đặng Thị Xuân
MỤC LỤC
Trang
DANH MỤC CÁC TỪ VIẾT TẮT ................................................................. i
DANH MỤC CÁC HÌNH ............................................................................... ii
MỞ ĐẦU .......................................................................................................... 1
1. Sự cần thiết của vấn đề nghiên cứu........................................................... 1
2. Mục tiêu và nhiệm vụ nghiên cứu ............................................................. 2
3. Đối tượng và phạm vi nghiên cứu............................................................. 2
4. Nội dung nghiên cứu ................................................................................. 3
5. Cấu trúc của luận văn ................................................................................ 3
CHƯƠNG 1. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NĨI .................... 4
1.1. Nhận dạng tiếng nói ............................................................................... 4
1.2. Các nghiên cứu liên quan đến đề tài ...................................................... 5
1.3. Các ứng dụng nhận dạng tiếng nói......................................................... 8
1.4. Một số kỹ thuật nhận dạng tiếng nói .................................................... 11
CHƯƠNG 2. KỸ THUẬT TRÍCH CHỌN ĐẶC TRƯNG VÀ PHÂN LỚP
......................................................................................................................... 14
2.1. Một số vấn đề cơ bản trong nhận dạng tiếng nói ................................. 14
2.2. Tiền xử lý ............................................................................................. 16
2.3. Trích chọn đặc trưng ............................................................................ 17
2.4. Kỹ thuật phân lớp Support Vector Machines (SVM) .......................... 20
2.5. Nhận dạng tiếng nói với SVM ............................................................. 27
CHƯƠNG 3. ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI VÀO HỆ THỐNG
NHẬP ĐIỂM .................................................................................................. 30
3.1. Lựa chọn công cụ ................................................................................. 30
3.2. Kết quả thực nghiệm ............................................................................ 31
3.3. Nhận xét ............................................................................................... 40
KẾT LUẬN .................................................................................................... 41
1. Kết luận ................................................................................................... 41
2. Kiến nghị và hướng phát triển ................................................................ 41
TÀI LIỆU THAM KHẢO ............................................................................ 43
i
DANH MỤC CÁC TỪ VIẾT TẮT
1.
ASR
Automatic Speech Recognition
2.
CNTT
Công nghệ thông tin
3.
CSDL
Cơ sở dữ liệu
4.
HMM
Hidden Markov Model
5.
MFCC
Mel-Frequency Cepstral Coefficients
6.
MLP
Multilayer perceptron
7.
SMO
Sequential Minimal Optimization
8.
SVM
Support Vector Machine
9.
THPT
Trung học phổ thông
ii
DANH MỤC CÁC HÌNH
Trang
Hình 2.1: Tín hiệu tiếng nói ............................................................................ 14
Hình 2.2: Mơ hình nhận dạng tiếng nói .......................................................... 15
Hình 2.3: Tín hiệu sóng âm của các số từ một đến mười ............................... 16
Hình 2.4: Tách các từ trước khi trích chọn đặc trưng ..................................... 17
Hình 2.4: Mỗi quan hệ giữa Mel và Hz .......................................................... 17
Hình 2.5: Mơ hình bước sóng trước và sau khi làm rõ tín hiệu [4] ................ 18
Hình 2.6: Phân khung âm tiếng nói [4] ........................................................... 19
Hình 2.7: Phân lớp bằng SVM ........................................................................ 21
Hình 2.8: Phân nhiều lớp với SVM................................................................. 25
Hình 3.1: Mơ hình học và dự đốn điểm bằng tiếng nói ................................ 32
Hình 3.2: Giao diện tạo dữ liệu huấn luyện .................................................... 32
Hình 3.3: Huấn luyện ...................................................................................... 34
Hình 3.4: Tín hiệu tệp WAV và đặc trưng MFCC của từ "Khơng" ............... 34
Hình 3.5: Mơ phỏng tệp WAV và đặc trưng MFCC của từ "Một" ................ 35
Hình 3.6: Tín hiệu tệp WAV và đặc trưng MFCC của từ "Hai"..................... 35
Hình 3.7: Tín hiệu tệp WAV và đặc trưng MFCC của từ "Ba" ...................... 35
Hình 3.8: Tín hiệu tệp WAV và đặc trưng MFCC của từ "Bốn" .................... 35
Hình 3.9: Tín hiệu tệp WAV và đặc trưng MFCC của từ "Năm"................... 36
Hình 3.10: Tín hiệu tệp WAV và đặc trưng MFCC của từ "Sáu" .................. 36
Hình 3.11: Tín hiệu tệp WAV và đặc trưng MFCC của từ "Bảy" .................. 36
Hình 3.12: Tín hiệu tệp WAV và đặc trưng MFCC của từ "Tám" ................. 37
Hình 3.13: Tín hiệu tệp WAV và đặc trưng MFCC của từ "Chín" ................ 37
Hình 3.14: Tín hiệu tệp WAV và đặc trưng MFCC của từ "Mười" ............... 37
Hình 3.15: Tín hiệu tệp WAV và đặc trưng MFCC của từ "Rưỡi" ................ 38
Hình 3.16: Thử nghiệm kết quả nhận dạng đọc số đơn .................................. 38
Hình 3.17: Quá trình đọc và nhận dạng điểm ................................................. 40
1
MỞ ĐẦU
1. Sự cần thiết của vấn đề nghiên cứu
Tiếng nói là một phương tiện trao đổi thơng tin tiện ích vốn có của con
người. Ước mơ về những “máy nói”, “máy hiểu tiếng nói” đã khơng chỉ xuất
hiện từ những câu chuyện khoa học viễn tưởng xa xưa mà nó cịn là động lực
thơi thúc của nhiều nhà nghiên cứu, nhóm nghiên cứu trên thế giới. Tuy vậy,
việc có được một “máy nói” mang tính tự nhiên cũng như một “máy hiểu tiếng
nói” thực thụ vẫn cịn khá xa vời. Chính vì thế, việc nắm bắt được các kỹ thuật
cơ bản cũng như các công nghệ tiên tiến cho việc xử lý tiếng nói là thực sự cần
thiết.
Hệ thống nhận dạng tiếng nói (Automatic Speech Recognition – ASR)
có được những ứng dụng tuyệt vời trong nhiều lĩnh vực của đời sống, nhất là
lĩnh vực giao tiếp người máy (Human Machine Interface) nếu được áp dụng
thành công, chẳng hạn như cải thiện hiệu quả nhập thơng tin (nhập bằng tiếng
nói nhanh gấp 2 lần nhập bằng gõ phím); xây dựng những ứng dụng mà ít sử
dụng đến đơi tay, giúp cho người khiếm thị dễ dàng giao tiếp với bộ thiết bị,…
Hiện nay trên thế giới đã có rất nhiều nghiên cứu và thử nghiệm về hệ
thống nhận dạng tiếng nói và đạt được những thành tựu như: Via Voice
Mellennium (IBM), Via Voice Standard (IBM), CSLU, HTK Toolkit. Những
công cụ này chủ yếu nhận dạng tiếng Anh. Ở Việt Nam có 2 trung tâm lớn
nghiên cứu lĩnh vực xử lý tiếng nói và tiếng Việt là: Viện cơng nghệ thơng tin
và Trung tâm nghiên cứu quốc tế thông tin đa phương tiện, truyền thông và ứng
dụng (MICA) - ĐH Bách Khoa Hà Nội. Ngồi ra cịn có các luận án tiến sĩ,
thạc sĩ trong nước có những nghiên cứu liên quan đến vấn đề xử lý tiếng nói.
2
Với những ứng dụng rộng rãi của nhận dạng tiếng nói, tơi chọn đề tài
"Ứng dụng nhận dạng tiếng nói vào hệ thống nhập điểm trường THPT" làm
luận văn tốt nghiệp. Nhiệm vụ của luận văn này là nghiên cứu và thực hiện các
giải thuật rút trích đặc trưng tiếng nói, thực hiện việc huấn luyện và nhận dạng
chữ số, đồng thời xây dựng phần mềm có thể tích hợp vào phần mềm nhập điểm
hiện có tại trường THPT tạo điều kiện thuận lợi cho giáo viên khi nhập điểm
các môn học.
2. Mục tiêu và nhiệm vụ nghiên cứu
2.1. Mục tiêu tổng quát
Nghiên cứu các kỹ thuật rút trích đặc trưng tiếng nói và phân lớp áp dụng
vào bài tốn nhập điểm ở trường THPT.
2.2. Mục tiêu cụ thể
Đề tài tập trung vào việc nghiên cứu các mục tiêu cụ thể như sau:
Tìm hiểu tổng quan về nhận dạng tiếng nói;
Tìm hiểu, thu thập và tiền xử lý dữ liệu nhập điểm bằng tiếng nói;
Nghiên cứu kỹ thuật trích rút đặc trưng tiếng nói và phân lớp;
Tìm hiểu ngơn ngữ lập trình Matlab thực hiện chương trình;
Nhận xét và đánh giá kết quả đạt được.
3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu
- Tín hiệu tiếng nói;
- Các kỹ thuật trích rút đặc trưng tiếng nói;
- Các kỹ thuật phân lớp.
3.2. Phạm vi nghiên cứu
3
Nghiên cứu kỹ thuật trích chọn đặc trưng MFCC, phương pháp phân lớp
SVM ứng dụng vào hệ thống nhập điểm bằng tiếng nói.
4. Nội dung nghiên cứu
Nhận dạng tiếng nói của con người đã và đang thu hút sự quan tâm
nghiên cứu của nhiều nhà khoa học khi mà công nghệ tự động hóa ngày càng
có nhiều ứng dụng trong thực tiễn. Luận văn tập trung vào các vấn đề như sau:
- Tìm hiểu tổng quan về nhận dạng tiếng nói;
- Nghiên cứu thuật tốn rút trích đặc trưng MFCC, phương pháp huấn
luyện và nhận dạng SVM;
- Cài đặt thử nghiệm hệ thống nhập điểm.
5. Cấu trúc của luận văn
Ngoài phần mở đầu, kết luận và tài liệu tham khảo, luận văn được trình
bày trong ba chương gồm những nội dung cơ bản sau:
Chương 1 trình bày tổng quan về nhận dạng tiếng nói, một số phương
pháp nhận dạng và tìm hiểu nhận dạng tiếng nói tiếng Việt.
Chương 2 trình bày các kỹ thuật trích chọn đặc trưng MFCC, phương
pháp huấn luyện và nhận dạng SVM áp dụng cho bài tốn nhận dạng tiếng nói.
Chương 3 nghiên cứu áp dụng nhận dạng tiếng nói vào hệ thống nhập
điểm.
Cuối cùng là kết luận và hướng phát triển của đề tài.
4
CHƯƠNG 1. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI
Trong cuộc sống hàng ngày, tiếng nói là phương tiện giao tiếp quan trọng
nhất giữa con người với con người. Thông qua tiếng nói con người có thể biểu
đạt nội dung, tâm tư, tình cảm một cách chính xác và thân thiện nhất. Hơn nữa,
trong thế giới số hiện nay, sự phát triển mạnh mẽ của CNTT đã đi sâu vào tất
cả các lĩnh vực của đời sống, đặc biệt là tự động hóa. Vậy thì, một vấn đề đặt
ra là làm thế nào để con người có thể điều khiển cơng nghệ một cách tự nhiên
nhất? Đó chính là lý do thôi thúc các nhà nghiên cứu thực hiện các công trình
về nhận dạng tiếng nói con người. Chương này giới thiệu tổng quan về nhận
dạng tiếng nói, các ứng dụng của nhận dạng tiếng nói và các nghiên cứu liên
quan đến đề tài. Nội dung của chương được tham khảo từ các tài liệu [2-9].
1.1. Nhận dạng tiếng nói
Nhận dạng tiếng nói hiện nay rất được nhiều nhà nghiên cứu trong và
ngoài nước quan tâm. Thực chất, nhận dạng tiếng nói là một q trình nhận
dạng mẫu nhằm mục đích phân lớp thơng tin đầu vào là tín hiệu tiếng nói thành
một dãy tuần tự các mẫu đã được học trước đó và lưu trữ trong bộ nhớ. Các
mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị. Nếu các
mẫu này là bất biến và khơng thay đổi thì cơng việc nhận dạng tiếng nói trở nên
đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã
được học và lưu trữ trong bộ nhớ. Thực tế, nhận dạng tiếng nói mang lại nhiều
khó khăn cho những người thực hiện vì tiếng nói ln biến thiên theo thời gian
và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ
nói, ngữ cảnh và mơi trường âm học khác nhau. Tiếng nói của một người cũng
có thể khác nhau tùy thuộc vào từng thời điểm. Chính vì vậy, việc xác định
những thơng tin biến thiên nào của tiếng nói là có ích và những thơng tin nào
là khơng có ích đối với nhận dạng tiếng nói là điều rất quan trọng. Đây là một
5
nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê cũng khó
khăn trong việc tổng qt hố từ các mẫu tiếng nói những biến thiên quan trọng
cần thiết trong nhận dạng tiếng nói. Cho đến hiện nay, các nghiên cứu về nhận
dạng tiếng nói đều dựa trên những nguyên tắc cơ bản sau [9]:
- Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong
một khung thời gian ngắn. Nhờ vậy ta có thể trích ra các đặc điểm tiếng nói từ
những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận
dạng tiếng nói.
- Nội dung của tiếng nói được biểu diễn dưới dạng một dãy các ký hiệu
ngữ âm. Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm
phát âm thành dãy các ký hiệu ngữ âm.
- Nhận dạng tiếng nói là một q trình nhận thức. Thơng tin về ngữ nghĩa
(semantics) và suy đốn (pragmatics) có giá trị trong q trình nhận dạng tiếng
nói, nhất là khi thông tin về âm học là không rõ ràng.
Trên thế giới đã có rất nhiều nghiên cứu về hệ thống nhận dạng tiếng
nói (tiếng Anh) đã và đang được ứng dụng hiệu quả như: Via Voice của IBM,
Spoken Toolkit của CSLU (Central of Spoken Language Understanding)…
nhưng trong tiếng Việt thì còn rất nhiều hạn chế.
1.2. Các nghiên cứu liên quan đến đề tài
Tại Việt Nam, có nhiều nhóm nghiên cứu chính về bài tốn nhận dạng
tiếng nói. Trong đó có các nhóm nghiên cứu nổi bật sau.
Nhóm thứ nhất thuộc Viện CNTT do GS.TSKH Bạch Hưng Khang đứng
đầu. Nhóm tập trung nghiên cứu các vấn đề sau:
- Nghiên cứu, phân tích đặc trưng ngữ âm, thơng số của tiếng Việt, văn
phạm tiếng Việt phục vụ cho nhận dạng tiếng nói.
6
- Nghiên cứu để tạo lập CSDL các mẫu câu để tạo tham số huấn luyện
cho mơ hình 3 mức: âm tiết - âm vị - âm học.
- Nghiên cứu bài tốn nhận dạng tiếng nói liên tục trên CSDL từ vựng
cỡ nhỏ, trung bình, tiến tới CSDL lớn.
Nhóm thứ hai thuộc Trường Đại học Khoa học Tự nhiên thành phố Hồ
Chí Minh do TS. Vũ Hải Quân đứng đầu. Các nghiên cứu của nhóm tập trung
vào bài tốn truy vấn thơng tin cho bản tin thời sự tiếng Việt.
Ngồi ra, trong những năm gần đây đã có các nghiên cứu của LIG
(Laboratoire Informatique de Grenoble) hợp tác với phòng thí nghiệm MICA
ở Hà Nội về sự khả chuyển của các mơ hình ngữ âm. Có thể liệt kê các cơng
trình nghiên cứu như: chương trình nhận dạng lệnh, nhận dạng 10 chữ số tiếng
việt liên tục qua điện thoại, chương trình đọc chính tả…
Đối với nhận dạng chữ số tiếng Việt, đây là một lĩnh vực mới và đặc
trưng phát âm tiếng việt đa dạng cho nên gặp một số khó khăn như:
- Mỗi người nói, mỗi vùng miền có một chất giọng khác nhau dựa vào
âm độ, cường độ và âm sắc;
- Khi phát âm, tốc độ nhanh chậm khác nhau;
- Ngồi ra, cịn có các yếu tố khác tác động đến quá trình nhận dạng
như: nhiễu của môi trường, nhiễu của thiết bị thu…
Sau đây là một số nghiên cứu về nhận dạng tiếng Việt khác:
Năm 2006, tác giả Phùng Trung Nghĩa thực hiện luận văn thạc sĩ với đề
tài "Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mơ hình Markov ẩn".
Đề tài khảo sát về các đặc điểm ngữ âm của tiếng Việt như âm vị tiếng Việt,
thanh điệu tiếng Việt. Từ đó xây dựng hệ thống nhận dạng thanh điệu tiếng
7
Việt theo chu kỳ, nhận dạng tiếng Việt nguyên từ rời rạc có áp dụng phân lớp
theo thanh điệu, dùng vectơ đặc trưng SCWT và mơ hình HMM trái phải 5
trạng thái. Đồng thời xây dựng bộ tiền xử lý nâng cao chất lượng tiếng nói
dùng kỹ thuật triệt nhiễu kết hợp kỹ thuật trừ phổ và kỹ thuật triệt nhiễu bằng
Wavelet.
Năm 2016, tác giả Lê Đình Cảnh thực hiện đề tài thử nghiệm một hướng
nhận dạng tiếng nói - tiếng Việt dựa trên việc trích đặc trưng của tiếng nói
bằng phương pháp MFCC và nhận dạng bằng mơ hình HMM. Đồng thời, xây
dựng một mơ hình điều khiển bằng tiếng nói-tiếng Việt để thiết lập hệ thống
điều khiển bằng tiếng nói với một tập lệnh cố định. Đề tài được thực hiện với
tiêu đề "Ứng dụng của nhận dạng tiếng nói trong điều khiển".
Năm 2017, tác giả Thái Duy Quý trường Đại học Đà Lạt thực hiện đề
tài "Nhận dạng tiếng nói chữ số tiếng Việt áp dụng trong hệ thống nhập điểm".
Tác giả đã nghiên cứu thử nghiệm hướng nhận dạng tiếng nói Việt dựa trên
việc trích đặc trưng của tiếng nói bằng phương pháp MFCC, sau đó nhận dạng
bằng mơ hình HMM (Hidden Markov Models). Tác giả sử dụng ngơn ngữ lập
trình C_Sharp để thực hiện thử nghiệm và cho kết quả khá khả quan.
Năm 2017, TS. Nguyễn Văn Huy thực hiện đề tài khoa học và cơng nghệ
với tiêu đề "Nghiên cứu mơ hình thanh điệu cho nhận dạng tiếng nói tiếng Việt
từ vựng lớn phát âm liên tục". Trong đề tài này, tác giả đã (i) đề xuất phương
pháp áp dụng mơ hình MSD-HMM để mơ hình hóa tập âm vị tiếng Việt có
thơng tin thanh điệu dựa trên đặc trưng thanh điệu đầu vào vẫn giữ ngun đặc
tính đứt gãy của nó; (ii) đề xuất phương pháp cải tiến đặc trưng thanh điệu mới
(TBNF) sử dụng mạng nơron MLP để biểu diễn đúng đặc tính đứt gãy của đặc
trưng thanh điệu và tương thích với mơ hình MSD-HMM; (iii) đề xuất mơ hình
kết hợp giữa MSD-HMM với đặc trưng BNF và đặc trưng thanh điệu TBNF
8
cho nhận dạng tiếng Việt; (iv) đề xuất giải thuật tạo từ điển ngữ âm có thơng
tin thanh điệu tự động cho tập dữ liệu đầu vào tiếng Việt bất kỳ.
Ngồi ra, đề tài nhận dạng tiếng nói cũng được nhiều tác giả chọn làm
luận án Tiến sĩ hay luận văn Thạc sĩ. Chẳng hạn, năm 2017, NCS Phạm Ngọc
Hưng đã bảo vệ luận án TS với tiêu đề "Nhận dạng tự động tiếng nói phát âm
liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm"
tại Trường Đại học Bách khoa Hà Nội. Luận án đã xây dựng được bộ ngữ liệu
tiếng Việt VDSPEC dùng cho nghiên cứu nhận dạng phương ngữ tiếng Việt
và nhận dạng tiếng Việt nói. Năm 2015 tác giả Ngơ Văn Cương, Học viện Kỹ
thuật Quân sự thực hiện đề tài "Nghiên cứu kỹ thuật nhận dạng tiếng nói tiếng
Việt và ứng dụng". Tác giả đã sử dụng phương pháp trích chọn đặc trưng LPC,
MFCC và sử dụng mạng neural để huấn luyện và nhận dạng. Năm 2013, tác
giả Trần Xuân Thiện, Trường ĐH SP Kỹ thuật TP.HCM thực hiện đề tài "Ứng
dụng FPGA cho nhận dạng tiếng nói tiếng Việt".
1.3. Các ứng dụng nhận dạng tiếng nói
Trong thực tế cuộc sống hiện nay, cùng với sự phát triển của cuộc cách
mạng công nghệ 4.0, các ứng dụng của công nghệ tự động hóa đã len lõi và
chi phối rất nhiều vào hầu hết tất cả các lĩnh vực. Đứng trước sự phát triển
khơng ngừng về cơng nghệ thì cần u cầu nhiều hơn các nghiên cứu về ứng
dụng nhận dạng nói chung và nhận dạng tiếng nói nói riêng. Và sau đây là một
số ứng dụng cơ bản.
1.3.1. Ứng dụng trong lĩnh vực điều khiến
Như chúng ta đã biết, hệ thống nhận dạng tiếng nói sẽ có những ứng
dụng tuyệt vời trong tất cả các lĩnh vực của đời sống, nếu được áp dụng thành
cơng thì đây sẽ là một cuộc cách mạng trong giao tiếp giữa người và máy, các
9
ứng dụng của nó bao trùm lên rất nhiều các lĩnh vực như công nghiệp, an ninh
quân sự và giải trí.
Trong lĩnh vực này, các hệ thống với bộ từ vựng nhỏ, nhập từ rời rạc có
thể áp dụng tương đối đơn giản để cải thiện hiệu quả nhập thông tin vào máy,
trong môi trường sản xuất, trong những ứng dụng mà đơi tay khơng cịn giá trị
(chẳng hạn trong phòng tối, trong buồng lái…), trong các ứng dụng điều khiển
từ xa với thiết bị, điều khiển robot, điều khiển đồ chơi trẻ em, hay trong các
thiết bị yêu cầu thu nhỏ phải loại bỏ hệ thống phím nhấn, và nếu có thể sẽ là
một phương pháp hữu hiệu giúp cho người khiếm thị dễ dàng giao tiếp, điều
khiển với thiết bị. Nói chung là trong những nhiệm vụ đặc biệt có khuynh
hướng giới hạn bộ từ vựng và nội dung thông điệp. Những ứng dụng thực tiễn
mà hệ thống này sẽ mang lại là vô cùng to lớn như các máy tính của chúng ta
khơng cần bàn phím, các hệ thống điều khiển sẽ không cần bảng điều khiển
phức tạp, điện thoại sẽ khơng cần các bàn quay số…Phía trước tài xế xe hơi sẽ
có một vi mạch tự động trả lời được khi hỏi hướng đi và trong nhà mọi người
sẽ có tấm lịch biết nhắc những việc chưa làm khi bạn lên tiếng hỏi có thể xem
là một bược đột phá trên tất cả các lĩnh vực trong cuộc sống của chúng ta. Hoặc
là trong ngôi nhà thơng minh sẽ có hệ thống điều khiển bằng tiếng nói có thể
tác động đến tất các các thiết bị trong gia đình, hay xe ơ tơ khơng người lái
điều khiển giọng nói từ xa…
1.3.2. Ứng dụng trong lĩnh vực chuyển đổi tín hiệu
Hiện nay, nhờ các ứng dụng cơng nghệ thông minh mà con người trong
các cuộc hội thảo trực tiếp hay tọa đàm từ xa văn bản được tự động in ra mà
không cần thư ký phải soạn thảo, hệ thống nhận dạng tiếng nói sẽ tự động
chuyển đổi lời nói thành văn bản. Hay như trong các cuộc phỏng vấn, nếu có
một hệ thống nhận dạng câu nói thì người phóng viên sẽ khơng phải soạn lại
10
bài phỏng vấn của mình. Trong các cuộc nói chuyện, do bất đồng ngôn ngữ để
chuyển đổi qua lại giữa hai ngôn ngữ, cùng với hệ thống dịch thuật trên văn
bản kết hợp với hệ thống nhận dạng tiếng nói sẽ cho phép cuộc nói chuyện
diễn ra bình thường và tự nhiện. Hệ thống chuyển đổi ngôn ngữ trực tiếp này
rất hữu ích trong các cuộc hội thảo lớn có nhiều quốc gia, dân tộc tham dự.
1.3.3. Ứng dụng trong lĩnh vực nhận diện
Hệ thống nhận dạng tiếng nói kết hợp với xử lý tổng hợp tiếng nói cịn
được ứng dụng trong lĩnh vực nhận diện tiếng nói. Hệ thống mật mã tiếng nói
cho phép nhận dạng người thơng qua tiếng nói, chẳng hạn rút tiền ra khỏi ngân
hàng hay các tác vụ khác mà không cần kiểm tra chữ ký hay các giấy tờ khác
vì có u cầu bí mật về nhân thân. Hoặc ứng dụng trong các hệ thống khóa tự
động mà chìa khóa là tiếng nói.
Trong thực tế, ứng dụng của hệ thống nhận diện người nói là cực kỳ đa
dạng. Gần đây có một số ứng dụng như:
- Vào tháng 5/2013, Barclays Wealth đã công bố rằng ơng đã dùng hệ
thống nhận dạng người nói để xác minh các khách hàng qua điện thoại trong
30 giây thơng qua một cuộc trị chuyện bình thường. Hệ thống này được phát
triển bởi chun gia phân tích tiếng nói Nuance – công ty đứng sau công nghệ
siri của Apple;
- Các ngân hàng tư nhân của Barclays là công ty dịch vụ tài chính đầu
tiên triển khai sinh trắc học bằng tiếng nói để xác minh khách hàng gọi đến
trung tâm của họ. 93% khách hàng đánh giá hệ thống này 9/10 điểm về tốc độ,
dễ sử dụng vào bảo mật;
11
- Tháng 8/2014 tập đoàn GoVivace phát triển một hệ thống nhận dạng
người nói cho phép họ tìm kiếm một người trong hàng triệu người chỉ bằng
cách đơn giản là ghi âm tiếng nói của họ.
1.4. Một số kỹ thuật nhận dạng tiếng nói
Hiện nay, đã có nhiều phương pháp được các tác giả sử dụng trong nhận
dạng tiếng nói như GMM, HMM, máy hỗ trợ vector SVM (Support Vector
Machines), mạng neural (Neural Networks), mạng nơ ron sâu DNN (Deep
Neural Networks),… [7-9]
1.4.1. Mơ hình hỗn hợp Gauss
Mơ hình GMM dựa trên các vector đặc trưng MFCC để nhận dạng các
giọng của các tỉnh tại Trung Quốc. Mơ hình GMM đã được huấn luyện để nhận
dạng được hầu hết các giọng nói đưa vào thử nghiệm. Có thể sử dụng các kiểu
giọng đã được nhận dạng để lựa chọn mơ hình phụ thuộc giọng nói cho hệ
thống nhận dạng tiếng nói. Nghiên cứu của Faria sử dụng GMM để nhận dạng
giọng nói có phải là tiếng Anh chuẩn hay khơng. Nghiên cứu này nhằm phân
biệt tiếng nói có phải là giọng Anh Mỹ chuẩn hay khơng từ những người nói
tiếng Anh là người Nga, Tây Ban Nha, Pháp, Đức, Trung Quốc, Ấn Độ và từ
một số nước khác.
1.4.2. Mơ hình Markov ẩn
Mơ hình Markov ẩn (Hidden Markov Model - HMM) là mơ hình thống
kê trong đó hệ thống được mơ hình hóa được cho là một q trình Markov với
các tham số không biết trước và nhiệm vụ là xác định các tham số ẩn từ các
tham số quan sát được, dựa trên sự thừa nhận này. Các tham số của mơ hình
được rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp, ví dụ cho
các ứng dụng nhận dạng mẫu [theo wikipedia].
12
Trong một mơ hình Markov điển hình, trạng thái được quan sát trực tiếp
bởi người quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham
số duy nhất. Mơ hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác
suất phân bổ trên các biểu hiện đầu ra có thể. Vì vậy, nhìn vào dãy của các
biểu hiện được sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái.
1.4.3. Mơ hình máy hỗ trợ vector
Máy hỗ trợ vector (SVM) cũng là một trong các bộ phân lớp hiệu quả
thường được nhiều nhà nghiên cứu quan tâm. SVM có thể phân chia các đối
tượng thành hai lớp bằng một đường biên với khoảng trống lề vừa đủ. Một
trong các ưu điểm chính của SVM là ngay cả khi không thể phân chia một cách
tuyến tính các nhóm thì các nhóm này có thể được thay đổi bằng cách sử dụng
hàm nhân với các khoảng cách lề khác và khi đó chúng có thể phân chia được.
1.4.4. Mơ hình mạng nơ ron
Mạng nơ-ron nhân tạo hay thường gọi ngắn gọn là mạng nơ-ron là một
mơ hình tốn học hay mơ hình tính tốn được xây dựng dựa trên các mạng nơron sinh học. Nó gồm có một nhóm các nơ-ron nhân tạo nối với nhau, và xử lý
thông tin bằng cách truyền theo các kết nối và tính giá trị mới tại các nút. Trong
nhiều trường hợp, mạng nơ-ron nhân tạo là một hệ thống thích ứng tự thay đổi
cấu trúc của mình dựa trên các thơng tin bên ngồi hay bên trong chảy qua
mạng trong quá trình học [theo wikipedia]. Trong thực tế sử dụng, nhiều mạng
nơ-ron là các công cụ mô hình hóa dữ liệu thống kê phi tuyến. Chúng có thể
được dùng để mơ hình hóa các mối quan hệ phức tạp giữa dữ liệu vào và kết
quả hoặc để tìm kiếm các dạng/mẫu trong dữ liệu.
13
1.4.5. Mơ hình mạng nơ ron sâu
Mạng nơ ron sâu (DNN) là mạng nơ ron nhân tạo ANN (Artificial
Neural Network) với nhiều lớp ẩn nằm giữa lớp vào và lớp ra. DNN thường
được thiết kế theo kiểu mạng nạp trước. Các nghiên cứu gần đây đạt được các
thành công lớn với kiến trúc mạng hồi quy cho các ứng dụng như mơ hình hóa
ngơn ngữ, nhận dạng tiếng nói, định danh ngôn ngữ [theo wikipedia].
14
CHƯƠNG 2. KỸ THUẬT TRÍCH CHỌN ĐẶC TRƯNG VÀ
PHÂN LỚP
Trích chọn các tham số đặc trưng là một trong những bước có ý nghĩa
quyết định tới kết quả của các chương trình nhận dạng tiếng nói được thực hiện
trước khi phân lớp. Có nhiều phương pháp trích chọn các tham số đặc trưng và
kỹ thuật phân lớp khác nhau. Chương này trình bày phương pháp trích chọn
đặc trưng MFCC và kỹ thuật phân lớp SVM. Nội dung của chương được tham
khảo từ các tài liệu [2, 4, 6-8].
2.1. Một số vấn đề cơ bản trong nhận dạng tiếng nói
Nhận dạng tiếng nói là một q trình thực hiện các thao tác lên dữ liệu
đầu vào làm cho chất lượng dữ liệu tốt nhất. Quá trình này được xem như là
các thao tác lên dữ liệu (bao gồm giọng đọc hoặc file ghi âm) nhằm cho ra kết
quả mong muốn.
Trong hệ thống nhận dạng tiếng nói, tiền xử lý tín hiệu là rất quan trọng
vì đối với tiếng Việt, mỗi cách phát âm, mỗi tiếng nói khác nhau sẽ cho ra các
kết quả khác nhau. Sau khi thực hiện việc xử lý tín hiệu đầu vào thì bước tiếp
theo chính là việc trích chọn đặc trưng, tiếp đến là sử dụng mơ hình huấn luyện
để thực hiện việc huấn luyện cho đặc trưng đã chọn và cuối cùng là thực hiện
các dự đốn và đưa ra kết quả. Hình 2.1. Mơ tả tín hiệu tiếng nói, Hình 2.2 trình
bày tổng quan mơ hình nhận dạng tiếng nói.
Hình 2.1: Tín hiệu tiếng nói
15
Hình 2.2: Mơ hình nhận dạng tiếng nói
Để nhận dạng tiếng nói chữ số tiếng Việt, chúng tơi chia q trình thực
hiện thành các bước như sau:
- Bước 1 (tiền xử lý): nhận tín hiệu tiếng nói số, xử lý nhiễu, tách từ nếu
cần.
- Bước 2 (trích chọn đặc trưng): trích chọn đặc trưng tiếng nói bằng
phương pháp MFCC, đồng thời thực hiện ước lượng vector các vector đặc trưng
này.
- Bước 3 (nhận dạng): tiến hành nhận dạng tiếng nói sử dụng phương
pháp SVM.
16
2.2. Tiền xử lý
Tiếng nói của giáo viên sau khi được thu từ micro sẽ được lấy mẫu tín
hiệu, một mẫu tín hiệu thường được biểu diễn dưới dạng sóng. Hình 2.3 mơ tả
sóng của các số từ một đến mười. Đối với tín hiệu âm thanh, mẫu sẽ được lấy
theo một chu kỳ thời gian, công thức lấy mẫu được xác định bởi cơng thức [4]:
Hình 2.3: Tín hiệu sóng âm của các số từ một đến mười
Tín hiệu sau khi lấy xong sẽ thông qua một bộ lọc tín hiệu. Bộ lọc tín
hiệu có thể bao gồm bộ khử nhiễu, bộ khơi phục tín hiệu biến dạng, bộ dị tìm
điểm cuối để xác định đâu là tiếng ồn, đâu là tiếng nói và khoảng lặng giữa hai
tiếng nói.
Sau khi xác định được khoảng lặng giữa hai tiếng nói, bước tiếp theo
thực hiện việc tách từ để thực hiện các cơng đoạn tiếp theo. Hình 2.4 thể hiện
việc tách một phần các từ dựa trên tín hiệu sóng âm của các số từ một đến mười
trong Hình 2.3.
17
Hình 2.4: Tách các từ trước khi trích chọn đặc trưng
2.3. Trích chọn đặc trưng
Để xây dựng hệ nhận dạng tiếng nói các chữ số tiếng Việt, chúng tơi
chọn các hệ số MFCC là đặc trưng trích chọn vì so với các đặc trưng khác việc
tính tốn MFCC khơng q phức tạp. Và một thực tế là rất nhiều hệ nhận dạng
người nói hiện nay trên thế giới sử dụng các hệ số MFCC để trích chọn đặc
trưng. MFCC là phương pháp trích chọn đặc trưng dựa trên đặc điểm cảm thụ
tần số âm của tai người: tuyến tính đối với tần số nhỏ hơn 1kHz và phi tuyến
đối với tần số trên 1kHz (theo thang tần số Mel, không phải theo Hz). Mối quan
hệ giữa thanh Hz và thanh Mel được thể hiện thơng qua Hình 2.4 [4].
Hình 2.4: Mỗi quan hệ giữa Mel và Hz
18
Q trình tính tốn như sau: đầu tiên tín hiệu tiếng nói được chia thành
các frame có độ dài 20ms – 30ms. Mỗi frame sẽ được nhân với một hàm,
thường là nhân với cửa sổ Hamming sau đó được chuyển sang miền tần số nhờ
biến đổi Fourier. Sau đó, tín hiệu ở miền tần số được nhân với các bộ lọc melscale, lấy logarit rồi biến đổi Fourier ngược ta sẽ được các hệ số MFCC.
2.3.1. Làm rõ tín hiệu
Mục đích chính của bước này là làm tăng tín hiệu và nổi rõ các đặc trưng
của tín hiệu giúp nâng cao mức độ nhạy cảm trong các bước sau [4]. Bộ làm rõ
tín hiệu có phương trình sai phân như sau:
𝑠̃ = 𝑠(𝑛) − 𝑎𝑠(𝑛 − 1)
Hình 2.5: Mơ hình bước sóng trước và sau khi làm rõ tín hiệu [4]
2.3.2. Phân khung
Bước đầu tiên của trích chọn đặc trưng là chia tín hiệu tiếng nói thành
các khung, mỗi khung khoảng chừng 30ms (30ms với tần số lấy mẫu