Nghiên cứu một số phương pháp trong nhận dạng tiếng nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.05 MB, 113 trang )

..

Trang 1

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP

---------------------------------------

NGUYỄN NGỌC TOÀN

NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP TRONG NHẬN
DẠNG TIẾNG NÓI
Chuyên ngành: Kỹ thuật điện tử
Mã số: 60.52.70

LUẬN VĂN THẠC SĨ KỸ THUẬT

Thái Nguyên - 2012
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 2

CHƢƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI
1.1 GIỚI THIỆU
Nhận dạng tiếng nói là một q trình nhận dạng mẫu, với mục đích là phân lớp
(classify) thơng tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được
học trước đó và lưu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là

các từ, hoặc các âm vị. Nếu các mẫu này là bất biến và không thay đổi thì cơng việc
nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận
dạng với các mẫu đã được học và lưu trữ trong bộ nhớ.
Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói ln biến thiên theo
thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ
nói, ngữ cảnh và môi trường âm học khác nhau. Một nhiệm vụ khó khăn đó là xác định
những thơng tin biến thiên nào của tiếng nói là quan trọng đối với nhận dạng tiếng nói
và những thơng tin nào là khơng quan trọng đối với cơng việc nhận dạng tiếng nói. Đây
là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh
cũng khó khăn trong việc tổng quát hóa từ các mẫu tiếng nói, những biến thiên quan
trọng cần thiết trong nhận dạng tiếng nói.
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba ngun tắc cơ bản:
- Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một
khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể trích ra các
đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ
liệu để nhận dạng tiếng nói.
- Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký
hiệu ngữ âm. Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm,
phát âm thành dãy các ký hiệu ngữ âm.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 3

- Nhận dạng tiếng nói là một q trình nhận thức. Ngơn ngữ nói là có ý nghĩa,
do đó thơng tin về ngữ nghĩa (semantics) và suy đốn (pragmatics) có giá trị trong q
trình nhận dạng tiếng nói nhất là khi thông tin về âm học là không rõ ràng.

Lĩnh vực nghiên cứu của nhận dạng tiếng nói là rất rộng, liên quan đến nhiều
ngành khác nhau. Sau đây là các ngành và mối liên hệ của chúng với nhận dạng tiếng nói:
- Xử lý tín hiệu số (digital signal processing): Các kỹ thuật xử lý tín hiệu số
dùng để phân tích tín hiệu tiếng nói biến thiên theo thời gian nhằm trích ra các thơng
tin quan trọng từ tiếng nói.
- Vật lý hay âm học (acoustic): Khoa học nghiên cứu về mối quan hệ giữa tín
hiệu tiếng nói và cơ chế sinh lý học của bộ máy phát âm của con người, cũng như cơ
chế hoạt động của tai người.
- Nhận dạng mẫu: Các thuật toán dùng để phân loại dữ liệu thành tập các mẫu
và đối sánh các mẫu dựa trên cơ sở tính tốn khoảng cách giữa các đặc điểm của mẫu.
- Lý thuyết thông tin và khoa học máy tính (information and computer science
theory): Các thuật tốn để tính tốn các tham số của các mơ hình thống kê, các thuật
tốn giải mã và mã hóa (lập trình động, các thuật tốn dùng stack, giải mã Viterbi) để
tìm một đường đi tốt nhất dãy các từ được nhận dạng.
- Ngôn ngữ học (linguistics): Kiến thức về cấu trúc của ngôn ngữ, đặc biệt là
đơn vị ngữ âm cơ bản của tiếng nói và vai trị của chúng trong việc sản sinh ra giọng nói.
- Sinh lý học (physiology): Kiến thức về cấu tạo của bộ máy phát âm của con
người, của tai người
- Tâm lý học ứng dụng (applied psychology): Những kiến thức về quá trình sinh
ra tiếng nói cũng như q trình nhận thức tiếng nói của lồi người.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 4

1.2 NGUYÊN TẮC CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NĨI
Các hệ thống nhận dạng tiếng nói có thể được phân chia thành hai loại khác

nhau: hệ thống nhận dạng từ rời rạc và hệ thống nhận dạng từ liên tục. Trong hệ thống
nhận dạng tiếng nói liên tục, người ta lại phân biệt hệ thống nhận dạng có kích thước từ
điển nhỏ và hệ thống nhận dạng với kích thước từ điển trung bình hoặc lớn [Rabiner
1993]. Hình 1.1 cho ta các lớp hệ thống nhận dạng tiếng nói khác nhau.
Trong hệ thống nhận dạng từ rời rạc, các phát âm được nhận dạng được giả thiết
là chỉ bao gồm một từ hoặc một nhóm từ độc lập. Các từ được nhận dạng mà không
phụ thuộc vào ngữ cảnh của nó. Nhận dạng tiếng nói với các từ rời rạc được ứng dụng
trong các chương trình dạng câu lệnh - điều khiển (command-control), chẳng hạn như
ứng dụng quay số bằng giọng nói trong điện thoại di động. Bài tốn nhận dạng tiếng
nói các từ rời rạc rõ ràng là dễ hơn rất nhiều so với bài toán nhận dạng tiếng nói liên
tục vì ranh giới trái và phải của các từ được coi mặc nhiên là đã được xác định. Tuy
nhiên trong thực tế việc tìm ranh giới các từ trong một phát âm liên tục không phải lúc
nào cũng là dễ dàng [Dong 2001]. Ngoài ra xây dựng cơ sở dữ liệu các từ đơn lẻ cũng
đơn giản và các phát âm các từ đơn lẻ cũng rõ ràng hơn so với các từ đứng liền nhau
[Young 1996].
Ví dụ về các hệ thống nhận dạng liên tục với từ điển kích thước nhỏ là hệ thống
nhận dạng các chữ số từ 0 đến 9, hệ thống nhận dạng các chữ cái, hoặc một số các từ
hữu hạn nào đó. Các hệ thống này có tính chất là đơn vị nhận dạng của chúng có thể là
các từ giống như hệ thống nhận dạng từ rời rạc. Với hệ thống nhận dạng liên tục có
kích thước bộ từ điển lớn thì đơn vị nhận dạng cơ bản khơng thể là các từ mà là các âm
vị hoặc bán âm tiết.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 5

Hệ thống nhận dạng

Hệ thống nhận dạng
từ rời rạc

Hệ thống nhận dạng
từ liên tục

Hệ thống với kích
thước bộ từ điển nhỏ

Hệ thống với kích
thước bộ từ điển
trung bình và lớn

Hình 1.1: Các hệ thống nhận dạng tiếng nói
Trong đồ án chỉ nghiên cứu hệ thống nhận dạng các từ liên tục. Sau đây là
nguyên tắc cơ bản của một hệ thống nhận dạng từ liên tục.
Một phát âm dưới dạng .wav sẽ được phân tích thành một dãy các vector đặc
tính phổ, mỗi vector tương ứng với một khung tín hiệu thường có độ dài 10ms. Ví dụ
một phát âm Y được phân tích thành dãy các vector đặc tính phổ tương ứng y1, y2…, yT.
Phát âm là một dãy các từ W = w1, w2, …, wn, và nhiệm vụ của hệ thống nhận
dạng là tìm ra được dãy có từ Ŵ có xác suất cao nhất với dãy các vector đặc tính phổ Y
cho trước.
Theo luật xác suất Bayes ta có:
Ŵ  arg max P(W Y )  arg max

P(W ) P(Y W )
P(Y )

Do xác suất P(Y) là độc lập với W, do đó ta thấy để tìm được dãy từ có xác suất

cao nhất Ŵ phải tìm dãy từ sao cho hai xác suất P(W) và P(Y|W) cao nhất. Xác suất
P(W) độc lập với tín hiệu tiếng nói và xác suất này xác định bởi mơ hình ngơn ngữ
(language model). Xác suất P(Y|W) được xác định bởi mơ hình âm học (acoustic
model). Hình 1.2 cho thấy mối quan hệ giữa các xác suất này. Trong đó với một phát

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 6

âm là dãy từ “giọng nói”, mơ hình ngơn ngữ sẽ cho ta xác suất P(W). Bằng từ điển
phiên âm ta biến đổi chúng thành dãy các âm vị tương ứng. Dãy các âm vị này cho ta
xây dựng một mơ hình Markov ẩn lớn bằng cách nối ghép các mơ hình Markov ẩn của
các âm vị tương ứng. Phát âm được trích trọn các đặc điểm đưa vào mơ hình Markov
ẩn lớn này sẽ cho ta xác suất P(Y|W). Về mặt ngun tắc, q trình này có thể lặp đi
lặp lại với tất cả các dãy từ có thể để tìm ra dãy từ có xác suất lớn nhất.

Hình 1.2: Khái quát về hệ thống nhận dạng
Trong thực tế việc tìm xác suất với tất cả các dãy từ là khơng thể áp dụng. Một
q trình xem xét tất cả các dãy từ có thể song song với nhau được áp dụng và một q
trình chọn lọc xóa đi các dãy từ khó có khả năng trở thành dãy từ tốt nhất. Quá trình
tìm kiếm này được gọi là q trình giải mã (decoding).

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 7

Hình 1.3 sau đây cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng
nói, gồm có ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngơn ngữ.
Dãy các đặc

Dãy các từ

tính phổ

Hoặc âm vị

Tín hiệu
tiếng nói

Từ, câu được
Phân tích đặc
tính (feature
analysis)

Phân lớp mẫu
(pattem
classification)

Xử lý ngôn
ngữ (language
processing)

Các từ, âm vị

Các từ, câu

Mô hình âm học

Mơ hình ngơn ngữ

(acoustic model)

(language model)

nhận dạng

Hình 1.3: Các q trình nhận dạng
1.2.1 Phân tích các đặc tính tiếng nói
Phân tích các đặc tính trích ra các thơng tin cần thiết cho q trình nhận dạng
tiếng nói từ tín hiệu tiếng nói. Q trình này loại bỏ những thông tin không quan trọng.
Chẳng hạn như tiếng ồn của môi trường thu âm, nhiễu trên đường truyền, các đặc điểm
riêng biệt của từng người nói… Tiếng nói được phân tích theo từng khung thời gian
(frame) với độ dài dao động từ 8ms tới 25ms [Joseph 1993]. Kết quả ra của giai đoạn
này là các vector đặc tính của mỗi khung tín hiệu tiếng nói.
Có hai cách tiếp cận thơng dụng hiện nay thường được áp dụng để phân tích tín
hiệu tiếng nói đó là phương pháp dựa vào mơ hình hóa bộ đường phát âm (vocal tract)
và phương pháp dựa vào mơ hình hóa cảm nhận âm thanh của con người (human
auditory system). Cả hai cách này đều đang được áp dụng thành công trong các hệ
thống nhận dạng. Tuy nhiên các phương pháp phân tích tiếng nói hiện nay mới chỉ thực
hiện được công việc nhỏ so với hệ thống phát âm và nhận thức âm thanh của con
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 8

người. Sự cải tiến của các phương pháp này sẽ dẫn tới nâng cao năng lực nhận dạng
của các hệ thống nhận dạng tiếng nói. Hai phương pháp trích trọn tiếng nói đang được
sử dụng rộng rãi hiện nay trong các hệ thống nhận dạng hiện tại là: Phương pháp
MFCC (Mel Scale Frequency Cepstral Coefficients) và PLP (Perceptual Linear
Prediction).
Có hai kỹ thuật xử lý tiếng nói có vị trí quan trọng là kỹ thuật RASTA
(RelAtive SpecTral) và CMS (Cepstral Mean Subtraction). Đây là hai kỹ thuật áp dụng
nhằm lọc bỏ nhiễu, những âm thanh khơng phải là tiếng nói. Hai kỹ thuật này đặc biệt
có ích trong xử lý tiếng nói thu âm qua điện thoại [Avendano 1996]. Cả hai kỹ thuật
đều có thể dùng kết hợp được với một trong hai phương pháp trích trọn đặc tính phổ
MFCC hoặc PLP. Kỹ thuật RASTA có ưu điểm là có thể được áp dụng trong các hệ
thống nhận dạng trực tiếp (live), nhận dạng phát âm mà không cần đợi phát âm đó kết
thúc [Hermansky 1994]. Kỹ thuật này thường được đi kèm với phương pháp trích trọn
đặc điểm PLP [Hermansky 1992]. Ngược lại kỹ thuật CMS có ưu điểm là đơn giản,
thời gian tính tốn nhanh, dễ áp dụng.
1.2.2 Phân lớp mẫu
Bước thứ hai trong hệ thống nhận dạng tiếng nói đó là phân lớp mẫu, trong đó
hệ thống sẽ gán dãy các vector đặc tính thành dãy tối ưu các đơn vị tiếng nói cơ bản (từ
hoặc âm vị). Có bốn phương pháp hay được áp dụng đó là: đối sánh mẫu (template
matcher), rule-based, mạng neuron và mô hình Markov ẩn.
Nguyên tắc cơ bản của phương pháp đối sánh mẫu đó là cất giữ một số lượng
các mẫu (examples) tiếng nói, bao gồm các vector đặc tính. Tín hiệu tiếng nói cần nhận
dạng được phân tích và các vector đặc tính của chúng sẽ được so sánh với các mẫu đã
được cất giữ trước đó. Do tốc độ phát âm là rất khác nhau, từ phát âm nhanh đến phát
âm chậm, nên kỹ thuật DTW (Dynamic Time Warping) được áp dụng để dãn hoặc co
hẹp thời gian trên trục thời gian nhằm giảm sự khác biệt so với các mẫu.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 9

Hệ thống rule-based xây dựng một loạt các tiêu chuẩn trên một cây quyết định
để xác định xem đơn vị nào của ngơn ngữ nằm trong tín hiệu tiếng nói. Đối với hệ
thống nhận dạng tiếng nói lớn, phương pháp này gặp khó khăn trong việc tổng quát hóa
sự đa dạng của tiếng nói. Một vấn đề nữa là với cây quyết định, rất khó hồi phục lỗi
nếu như một quyết định sai được xác định ngay từ khi bắt đầu phân tích.
Mơ hình Markov ẩn được nghiên cứu rộng rãi gần đây như là một công cụ mạnh
được áp dụng thành cơng trong nhận dạng tiếng nói. Đa số các hệ thống nhận dạng
tiếng nói đều dùng mơ hình Markov ẩn. Chi tiết về mơ hình Markov ẩn sẽ được trình
bày trong Chương 3.
Mạng neuron được áp dụng trong nhận dạng tiếng nói từ những năm 1980 với
mong muốn sử dụng khả năng phân lớp mạnh của mạng. Mạng neuron truyền thẳng đa
lớp perceptron thường được sử dụng trong nhận dạng tiếng nói. Tuy nhiên mạng
neuron có hạn chế về khả năng mơ hình hóa sự biến thiên của tiếng nói theo thời gian.
Vì vậy mạng neuron gần đây hay được sử dụng thay thế các hàm mật độ xác suất trong
các hệ thống lai ghép mạng neuron và mơ hình Markov ẩn.
1.2.3 Mơ hình ngơn ngữ
Mục đích của mơ hình ngơn ngữ là tìm ra xác suất của từ wk trong phát âm theo
sau các từ W1k-1 = w1, w2, … wk-1. Một phương pháp đơn giản hay được áp dụng đó là
dùng N-gram, với giả thiết rằng từ wk chỉ phụ thuộc vào n-1 các từ đứng trước nó tức
là
P(wk|W1k-1)=P(wk|W kk 1n 1 )
Mơ hình ngơn ngữ N-gram cùng một lúc chứa đựng các thông tin về cú pháp
(syntax), ngữ nghĩa (semantics), suy đoán (pragmatics) và chúng tập trung vào sự phụ

thuộc lân cận của một từ. Các xác suất của mơ hình ngơn ngữ có thể được tính tốn
trực tiếp từ cơ sở dữ liệu văn bản mà không cần đến các luật ngôn ngữ như ngữ pháp
hình thức của ngơn ngữ.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 10

Về mặt nguyên tắc các xác suất của mô hình ngơn ngữ có thể được tính tốn
trực tiếp từ số lần xuất hiện của các từ trong cơ sở dữ liệu:
t ( wk  2, wk 1 , wk )
Pˆ ( wk 1 , wk  2 ) 
b( wk  2 , wk 1 )

Trong đó hàm t(a,b,c) là số lần xuất hiện của bộ ba từ a,b,c (trigram). b(a,b) là
số lần xuất hiện của bộ đôi (bigram) a,b.
Tuy nhiên một vấn đề khó khăn cơ bản của mơ hình ngơn ngữ là số lượng các
bộ ba là quá lớn. Chẳng hạn với một hệ thống nhận dạng với bộ từ điển V có kích
thước là 10.000 từ thì số lượng các bộ ba là V3. Số lượng từ này rõ ràng là quá lớn, sẽ
có nhiều bộ ba khơng xuất hiện hoặc xuất hiện rất ít, chỉ một hoặc hai lần trong cơ sở
dữ liệu. Với các trường hợp này, xác suất của các bộ ba là khơng tính được hoặc rất nhỏ.
Mặc dù có khó khăn về tính tốn như trên, mơ hình ngơn ngữ vẫn chứng minh
được là chúng đóng vai trị quan trọng trong các hệ thống nhận dạng. Trong các hệ
thống nhận dạng với kích thước lớn hiện nay, các mơ hình ngơn ngữ 3-gram và 2-gram
dùng phổ biến [Young 1996]. Một số hệ thống nhận dạng có khả năng thay đổi mơ
hình ngơn ngữ theo ngữ cảnh, tự điều chỉnh mơ hình ngơn ngữ trong q trình nhận
dạng [Béchet 2001, Estève2000].

1.3 CÁC ỨNG DỤNG CỦA NHẬN DẠNG TIẾNG NÓI
1.3.1 Nhận dạng tiếng nói và viễn thơng
Dựa vào mạng điện thoại cơng cộng, nhận dạng tiếng nói ngày càng được đưa
vào ứng dụng trong hệ thống điện thoại. Có hai nhóm chương trình ứng dụng của nhận
dạng tiếng nói trong viễn thơng [Roe 1993]. Nhóm đầu tiên là các ứng dụng nhằm làm
giảm giá thành, đó là các ứng dụng trong đó một người thực hiện một tác vụ trong hệ
thống viễn thông thông qua một nhân viên phục vụ (attendant). Trong ứng dụng này độ
chính xác nhận dạng của các hệ thống nhận dạng thay thế nhân viên phục vụ là một yếu
tố quan trọng, do vậy người dùng sẽ khó thơng cảm cho các lỗi của hệ thống nhận dạng.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 11

Ví dụ về các hệ thống nhận dạng loại này là:
• Tự động hóa các dịch vụ có sự tham gia của nhân viên. Hệ thống này đang
được nghiên cứu và phát triển bởi AT&T và Northen Telecom.
• Tự động hóa các dịch vụ danh bạ điện thoại.
Nhóm chương trình ứng dụng thứ hai là những chương trình sản sinh giá trị gia
tăng. Trong nhóm này lợi ích của cơng nghệ nhận dạng tiếng nói nằm ở phía người sử
dụng cuối. Các giới hạn của độ chính xác nhận dạng có thể được thơng cảm bởi người
dùng. Ví dụ về các chương trình này là:
• Các dịch vụ về ngân hàng (đang được phát triển bởi Nippon Telecom)
• Dịch vụ báo giá chứng khoán (đang được phát triển bởi Bell Northen
Research)
Nói chung các ứng dụng nhận dạng tiếng nói trong viễn thông thường cho phép
người dùng giao tiếp với máy tính thơng qua các câu lệnh bằng giọng nói, thơng qua đó
máy tính thực hiện các câu lệnh của người dùng. Mặc dù độ chính xác nhận dạng cịn

cần phải tiếp tục nâng cao, nhưng nhiều ứng dụng của cơng nghệ nhận dạng tiếng nói
đã được đưa vào sử dụng và đã được người dùng chấp nhận. Sau đây là một vài ứng
dụng hiện đang được khai thác.
- Hệ thống xử lý cuộc gọi áp dụng công nghệ nhận dạng tiếng nói Voice Recognition
Call Processing của hãng AT&T được triển khai vào năm 1991. Hệ thống này có thể
nhận dạng một số lượng giới hạn từ vựng, nhận dạng tiếng nói độc lập với người nói,
có khả năng tự động một phần công việc thực hiện bằng tay bởi các nhân viên trực ca.
Hệ thống này giảm được khối lượng công việc thực hiện bằng tay đồng thời tăng
cường hiệu quả hoạt động của hệ thống xử lý cuộc gọi. Hệ thống đã thu được thành
công nhất định và đã được khách hàng chấp nhận.
- Hệ thống dịch vụ danh bạ Directory Assisstance của hãng Northem Telecom. Hệ
thống này cho phép người dùng đọc phiên âm của một từ, từ đó hệ thống sẽ nhận ra từ
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 12

cần nhận dạng. Nhờ cách này hệ thống có thể nhận dạng được hàng nghìn các từ khác
nhau mà các từ này không cần phải được học trước. Phương pháp này rất thuận tiện
cho việc bổ sung một từ mới như tên một người vào trong hệ thống danh bạ.
1.3.2 Hệ thống đọc chính tả bằng giọng nói
Mặc dù cơng việc đọc chính tả cho máy tính là một trong những bài tốn khó
khăn nhất của nhận dạng tiếng nói, một số phần mềm đọc chính tả đã xuất hiện trên thị
trường. Ví dụ như phần mềm Dragon có khả năng hiểu được 30.000 từ, hệ thống nhận
dạng tiếng nói của IBM có khả năng nhận dạng được 20.000 từ.
Các phần mềm này có khả năng hiểu được các phát âm liên tục của người nói.
Chúng đều có nguyên tắc hoạt động giống nhau, đó là đầu tiên người dùng cần phải
đọc một đoạn văn để hệ thống có thể làm quen với giọng đọc. Các phần mềm có khả

năng chấp nhận tốc độ đọc khoảng 50 từ/1 phút. Độ chính xác nhận dạng phụ thuộc
vào giọng đọc của người nói, vào sự giống nhau giữa văn bản được đọc và mơ hình
ngơn ngữ được xây dựng trong hệ thống. Tỷ lệ lỗi trong các hệ thống này có thể đạt tới
3-5%, mở ra khả năng cho phép con người dùng giọng nói để đọc chính tả cho máy
tính. Chức năng này được sử dụng rất hiệu quả cho những người tàn tật, khiếm thị.
1.3.3 Nhận dạng tiếng nói trong các sản phẩm tiêu dùng
Nhận dạng tiếng nói đã được áp dụng vào trong một số sản phẩm tiêu dùng hàng
ngày như điện thoại, trò chơi và điện thoại di động. Các điện thoại di động hiện nay
cho phép người dùng có thể quay số bằng giọng nói nhờ cách đọc tên người được gọi ở
trong danh bạ. Các sản phẩm tiêu dùng đều có đặc điểm là có vi xử lý nhỏ, do đó thuật
tốn nhận dạng tiếng nói chạy trong các sản phẩm thường khơng phức tạp nhưng vẫn
đảm bảo tỷ lệ độ chính xác nhận dạng chấp nhận được.
1.4 NGHIÊN CỨU HIỆN THỜI VỀ NHẬN DẠNG TIẾNG NĨI
Sau đây là các đặc điểm chính của hệ thống nhận dạng tiếng nói liên quan đến
độ chính xác nhận dạng:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 13

- Sự phụ thuộc vào người nói: Hệ thống nhận dạng tiếng nói có thể là phụ thuộc vào
người nói (speaker Dependent) hoặc là độc lập với người nói (speaker independent).
Xây dựng một hệ thống nhận dạng tiếng nói cho giọng nói của một người dễ dàng hơn
là xây dựng hệ thống nhận dạng tiếng nói cho nhiều người, nhất là khi những người
này có giọng nói tại những địa phương khác nhau. Tỷ lệ lỗi nhận dạng tiếng nói của hệ
thống độc lập với người nói thường cao hơn 3 đến 5 lần so với hệ thống nhận dạng
tiếng nói phụ thuộc người nói tương đương [Tebelskis 1995].
- Kích thước của bộ từ điển: Kích thước bộ từ điển mà hệ thống nhận dạng tiếng nói có

thể hiểu được càng lớn thì khả năng nhầm lẫn giữa các từ, các câu càng cao và nhiệm
vụ nhận dạng tiếng nói càng trở nên khó khăn.
- Tốc độ nói, hiện tượng đồng phát âm: Trong một phát âm, một âm bị ảnh hưởng rất
lớn của các âm xung quanh nó. Các từ rời rạc được nhận dạng dễ dàng hơn là các từ
trong một phát âm liên tục.
- Sự biến đổi trong lời nói: Con người có thể hiểu được lời nói ngay cả khi nó bị xen
lẫn bởi các tạp âm như tiếng ho, tiếng cười, tiếng “à, ờ” và lời nói với những từ được
nhấn mạnh. Tuy nhiên đối với máy tính các trường hợp như vậy gây ra những khó
khăn đặc biệt trong nhận dạng tiếng nói.
- Điều kiện mơi trường: Tiếng nói có chất lượng thấp (bị méo tín hiệu, bị nhiễu kênh
truyền, …) thường đặt ra rất nhiều vấn đề giải quyết cho các hệ thống nhận dạng tiếng
nói. Theo [Siohan 1995] tỷ lệ lỗi của hệ thống nhận dạng khi làm việc với tiếng nói có
SNR > 40dB (SNR – Signal to Noise Ratio) so với tiếng nói có SNR > 18dB tăng lên
nhiều lần, có thể tới 10 lần.
- Các phát âm tự nhiên và các phát âm liên tục: Hệ thống nhận dạng tiếng nói có thể
làm việc với các phát âm được đọc từ các văn bản chuẩn bị sẵn hoặc với các phát âm
do người nói nói một cách tự nhiên (spontaneous). Nhận dạng các phát âm tự nhiên rõ
ràng là khó khăn hơn nhiều so với các phát âm đọc sẵn. Lý do là các phát âm tự nhiên
số lượng từ vựng thường là không hạn chế, hệ thống phải phân biệt với các từ khơng có
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 14

trong bộ từ điển. Ngoài ra trong các phát âm người nói vừa nói vừa nghĩ và do đó phát
âm không rõ ràng, tốc độ phát âm khác nhau, tiếng nói có thể xen lẫn với các tạp âm
khác.
- Các giới hạn về ngôn ngữ: Các hệ thống nhận dạng có thể làm việc với các câu với

ngữ pháp rõ ràng trong các chương trình ứng dụng cụ thể. Với các hệ thống này, nhiệm
vụ nhận dạng sẽ dễ dàng hơn hệ thống nhận dạng mà các từ không có ràng buộc cụ thể
về ngữ pháp, hay nói cách khác các từ quan hệ với nhau bằng vòng lặp từ (word-loop)
nghĩa là bất kỳ một từ nào trong bộ từ điển đều có thể theo sau từ khác trong bộ từ điển.
1.4.1 Các nghiên cứu về nhận dạng tiếng nói ngơn ngữ nƣớc ngồi
Cơng nghệ nhận dạng tiếng nói đã có bước tiến dài trong các thập kỷ qua, một
số các phần mềm nhận dạng tiếng nói đã có mặt trên thị trường, chẳng hạn như các
phần mềm nhận dạng tiếng nói đọc chính tả của IBM, Gragon Systems, L&H. Về lĩnh
vực ứng dụng nhận dạng tiếng nói trong viễn thông, Nuance và Speech Works là các
hãng phần mềm nổi tiếng. Rất nhiều các trung tâm nghiên cứu đang tập trung nghiên
cứu về nhận dạng tiếng nói, chẳng hạn như Bell Labs, IBM Research Center, Microsoft
Research, CSLU, …
Độ khó của các ứng dụng nhận dạng tiếng nói phụ thuộc vào nhiều yếu tố. Hình
1.4 miêu tả các ứng dụng của nhận dạng tiếng nói phụ thuộc vào hai yếu tố chính: kích
thước từ vựng và kiểu phát âm. Độ khó tăng từ thấp lên cao, từ trái sang phải.
Trong các ứng dụng thực tế, có sự khác nhau lớn giữa mơi trường thu âm tiếng
nói nên cùng với một thuật tốn các hệ thống nhận dạng có độ chính xác nhận dạng
kém hơn nhiều khi làm việc trong môi trường thực tế so với trong mơi trường phịng
thí nghiệm. Ví dụ như một hệ thống nhận dạng các số của thẻ tín dụng ngân hàng được
đọc bởi người bán hàng ở các cửa hàng bán lẻ tại Mỹ có độ chính xác nhận dạng là
98% (so với 99,7% trong mơi trường phịng thí nghiệm) [Stephen a]. Sự khác nhau về

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 15

tỷ lệ lỗi nhận dạng chủ yếu là do sự khác nhau giữa chất lượng tiếng nói được thu âm

trong mơi trường phịng thí nghiệm và mơi trường bên ngồi.
Đối thoại tự
nhiên

Giọng nói tự
nhiên

Tìm từ

Ghi chép

Hệ thống đối
thoại hạn chế

Giọng nói liên
tục

người nói đọc

Điền mẫu biểu
bằng giọng nói

Tiếng nói liên
tục
Các từ rời rạc

Đọc chính tả
trong văn phịng

Quay số bằng

giọng nói

Giọng nói do

Ra lệnh bằng
giọng nói

20

Tra cứu
danh bạ

200

2000

20000

Hình 1.4: Các bài tốn nhận dạng khác nhau theo kích thước bộ từ điển và kiểu nói
Bảng 1.1 so sánh tỷ lệ lỗi nhận dạng của các hệ thống nhận dạng tiếng Anh so
với khả năng nhận dạng của con người theo đánh giá của [Barbara 2001]. Từ bảng ta
thấy tỷ lệ lỗi nhận dạng của con người thấp hơn năm lần so với tỷ lệ lỗi nhận dạng
bằng máy tính. Đối với các hệ thống nhận dạng làm việc với giọng nói tự nhiên hoặc
đối thoại thì tỷ lệ lỗi nhận dạng của máy tính cao hơn đến mười lần. Với cơ sở dữ liệu
tiếng nói có nhiều nhiễu thì sự khác nhau này có thể cịn cao hơn nữa. Do vậy có thể
nói kỹ thuật nhận dạng hiện thời cịn xa mới có thể đạt tới khả năng của con người.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 16

Hệ thống nhận dạng

Kích thước từ vựng

Máy tính

Con người

Liên tục

10

0,72%

0,009%

Các chữ cái

26

5%

1%

Giọng nói tự nhiên

2000

36,7%

3,8%

Giọng nói chất lượng tốt của WSJ

5000

4,5%

0,9%

Giọng nói có nhiều nhiễu WSJ

20000

8,6%

1,1%

Bảng 1.1: So sánh tỷ lệ lỗi nhận dạng của máy tính và con người
với một số hệ thống nhận dạng
Ngồi ngơn ngữ Châu Âu, các nghiên cứu về nhận dạng tiếng nói đối với các
ngơn ngữ đơn âm và có thanh điệu giống tiếng Việt như tiếng Trung Quốc (bao gồm
tiếng Bắc Kinh và tiếng Quảng Đông), tiếng Thái Lan cũng đã được nghiên cứu. Với
tiếng Trung Quốc, rất nhiều nghiên cứu đã được tiến hành, nhiều hệ thống nhận dạng
tiếng nói tiếng Trung Quốc đã được công bố và các hệ thống nhận dạng tiếng Hán với
kích thước từ vựng lớn cũng đã được xây dựng [Fu 1996]. Một số phần mềm nhận

dạng tiếng nói tiếng Trung Quốc cũng đã được bán ra thị trường. Bảng 1.2 trình bày
các hệ thống nhận dạng tiếng nói tiếng Bắc Kinh (tiếng Hán) được cơng bố trong các
bài báo khoa học theo thống kê của [Stephen b].
Phương pháp

Kích thước bộ từ điển

Độ chính xác

HMM + modification of initials and finals

5000 syllables

93%

CDHMM

Complete vocabulary

92,5%

DDHMM

1254 syllables

90,1%

Time Delayed Neural Network

Complete vocabulary

85%

Hierarchical Neural Network

Complete vocabulary

90,14%

Bảng 1.2: Các hệ thống nhận dạng tiếng Hán
Với ngôn ngữ Thái Lan, hầu hết các nghiên cứu tập chung vào nhận dạng các từ
rời rạc [Sornlertlamvanich]. Với các nghiên cứu hệ thống nhận dạng liên tục, hệ thống
nhận dạng mười chữ số Thái liên tục đạt độ chính xác 96,89% với cơ sở dữ liệu thu âm
trong nhà [Thubthong 2000a]. Với hệ thống nhận dạng liên tục kích thước lớn tiếng

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 17

Thái Lan, hiện thời các nghiên cứu mới chỉ ở bước khởi đầu. Đã có một số nghiên cứu
về nhận dạng thanh điệu tiếng Thái [Thubthong 2000b].
1.4.2 Các nghiên cứu về nhận dạng tiếng nói tiếng Việt
Cho đến thời điểm hiện nay, chưa có nhiều các nghiên cứu về nhận dạng tiếng
Việt. Các công việc nghiên cứu về nhận dạng tiếng nói tiếng Việt đang được tiến hành
với các bước đầu tiên, các bài toán cơ bản về nhận dạng tiếng nói. Về nguyên tắc, tiếng
Việt cũng như các ngơn ngữ có thanh điệu khác, hệ thống nhận dạng bao gồm hai quá
trình nhận dạng song song: nhận dạng các từ khơng có thanh điệu và nhận dạng thanh

điệu [Zhang 2000]. Hình 1.5 dưới đây miêu tả hệ thống nhận dạng ngơn ngữ có thanh
điệu, trong đó có tiếng Việt:
Nhận dạng các từ
khơng dấu

Nhận dạng thanh điệu

Hình 1.5: Hệ thống nhận dạng ngơn ngữ có thanh điệu
Nghiên cứu gần đây nhất về nhận dạng tiếng Việt là nghiên cứu của TS. Nguyễn
Thành Phúc [Phúc 2000]. Trong luận án tiến sỹ của mình TS. Nguyễn Thành Phúc đã
dùng bộ cơng cụ CSLU để tiến hành nghiên cứu và thực hiện các công việc sau:
- Xây dựng được một số cơ sở dữ liệu thu âm trong mơi trường trong nhà:
• Cơ sở dữ liệu gồm 10 chữ số tiếng Việt gồm 812 câu, mỗi câu gồm 6 từ, do 15
người nói. Các câu đều được gán nhãn bằng tay.
• Cơ sở dữ liệu gồm sáu âm tiết khác nhau về thanh điệu gồm 350 câu.
• Cơ sở dữ liệu gồm 22 từ có các âm đầu khác nhau và có cùng phần vần là EO
gồm 350 câu.
- Nghiên cứu quá trình xây dựng một cơ sở dữ liệu tiếng Việt, đề xuất bảng ký hiệu âm
vị tiếng Việt dùng để phiên âm các âm vị.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 18

- Khảo sát nhận dạng đối với các từ khác nhau về thanh điệu
- Tiến hành xây dựng hệ thống nhận dạng với mười chữ số tiếng Việt liên tục với điều
kiện thu âm trong nhà. Nghiên cứu các giải pháp nhằm tăng cường độ chính xác nhận
dạng: mơ hình âm tiết, đơn vị nhận dạng cơ bản, ảnh hưởng của ngữ cảnh trong nhận

dạng,… Độ chính xác nhận dạng cao nhất thu được là 98,83% ở mức từ.
Một nghiên cứu về nhận dạng thanh điệu tiếng Việt được tiến hành bởi TS.
Nguyễn Quốc Cường và cộng sự tại phịng thí nghiệm CLIPS-IMAG, trường đại học
Grenoble tại Pháp [Cường]. Tác giả đã nghiên cứu nhận dạng thanh điệu tiếng Việt
dùng mơ hình Markov ẩn đối với từ rời rạc. Đây là một trong những cơng trình đầu tiên
nghiên cứu về nhận dạng thanh điệu tiếng Việt. Các thử nghiệm được tiến hành trên cơ
sở dữ liệu gồm 9720 từ, do 18 người nói đến từ ba miền Bắc – Trung – Nam, thu âm
với tần suất lấy mẫu 16kHz, biến đổi A/D 16 bit. Kết quả thu được tỷ lệ nhận dạng
chính xác thanh điệu đạt 91,6%.
Ngồi ra trước TS. Nguyễn Thành Phúc có một số cơng trình nghiên cứu đã
được cơng bố. Theo [Phúc 2000] các cơng trình trên bao gồm:
- Cơng trình nghiên cứu nhận dạng tiếng nói theo phương pháp âm học – ngữ âm học
của TS. Nguyễn Anh Tuấn. Kết quả của cơng trình như sau:
• Hình thức hóa được ngơn ngữ hình học của các từ tiếng Việt, cho phép nâng
cao độ tin cậy của phân đoạn hóa các từ thành từng đoạn tương ứng với phần đầu, phần
vần và thanh điệu của âm tiết tiếng Việt.
• Nghiên cứu và hình thức hóa những đặc trưng của sáu thanh điệu tiếng Việt
cho phép xác định tự động kiểu thanh điệu tiếng Việt.
• Thơng qua biểu đồ phổ đã xác định được đặc trưng formant của các nguyên
âm và bán nguyên âm tiếng Việt. Các đặc trưng này có thể sử dụng để phân loại các
ngun âm.
• Đã tìm được các thơng số phổ và thời gian của các nguyên âm và phụ âm
tiếng Việt.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 19

• Trên cơ sở các thơng số đặc trưng của các âm tiết đã tìm được, đã tìm được
một thuật toán nhận dạng các từ tiếng Việt rời rạc bao gồm mười chữ số tiếng Việt. Hệ
thống nhận dạng xây dựng trên thuật tốn này có độ chính xác là 95% khơng phụ thuộc
vào giọng nói.
- Đề tài nghiên cứu cấp nhà nước mã số KHCN 01-07 do Khoa Công nghệ thông tin
Đại học Bách Khoa Hà Nội thực hiện hòan thành vào tháng 6/1998 đã áp dụng phương
pháp dự báo tuyến tính LPC để đánh giá các tham số cơ bản (F0-F5 và tương quan F1F2) của các nguyên âm tiếng Việt: „„a, â, ă, e, ê, i, o, ô, ơ, u, ư‟‟.
- TS. Đặng Văn Chuyết và KS. Ngơ Đức Bình đã áp dụng phương pháp phân tích
cepstral thời gian ngắn tín hiệu tiếng nói để xác định và quan sát sự biến đổi của các
formant của nguyên âm tiếng Việt khi thay đổi ngữ cảnh.
- TS. Nguyễn Thế Hiếu ứng dụng phương pháp hiệu chỉnh thời gian động DTW để
nhận dạng các từ rời rạc cho tiếng Việt. Các tham số được sử dụng là các F1 và F2. Hệ
thống nhận dạng thử nghiệm với năm nguyên âm tiếng Việt: „„a, e, i, o, u”, mười chữ
số tiếng Việt và các từ điều khiển: „„tiến, lùi, phải, trái, sau, dừng”. Độ chính xác nhận
dạng mười chữ số tiếng Việt rời rạc trung bình là 78,47%.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 20

CHƢƠNG 2: CÁC KHÁI NIỆM VỀ NGỮ ÂM TIẾNG VIỆT
2.1 NGÔN NGỮ TIẾNG VIỆT
2.1.1 Đặc điểm âm tiết tiếng Việt
2.1.1.1 Tính độc lập cao
Trong tiếng Việt, âm tiết được thể hiện khá đầy đủ, rõ ràng, được tách và ngắt
thành từng khúc đoạn riêng biệt. Âm tiết nào của tiếng Việt cũng mang một thanh điệu
và cấu trúc ổn định. Điều này làm cho sự thể hiện của âm tiết tiếng Việt trong chuỗi lời

nói nổi bật và tách bạch hơn. Do đó nên việc vạch ra ranh giới giữa các âm tiết trong
tiếng Việt dễ dàng hơn nhiều việc phân chia ranh giới âm tiết trong các ngôn ngữ Châu
Âu [Thuật 1999] (trong ngôn ngữ Châu Âu, việc phân chia âm tiết có khi phải dùng
phương pháp phân tích phổ). Việc tách bạch âm tiết cịn được thể hiện ở chữ viết, mỗi
âm tiết được viết tách ra thành một từ riêng biệt.
Có thể nói so với các âm tiết Châu Âu, tiếng Việt có tính độc lập cao hơn hẳn.
Trong các ngôn ngữ Châu Âu thường gặp các hiện tượng nối âm (liaison), ví dụ như:
Les

amis

Trong tiếng Việt khơng có hiện tượng nối âm như vậy.
2.1.1.2 Có khả năng biểu hiện ý nghĩa
Tuyệt đại đa số các âm tiết tiếng Việt đều có nghĩa. Gần như tồn bộ các âm tiết
đều hoạt động như từ. Nói cách khác trong tiếng Việt ranh giới của âm tiết trùng với
ranh giới của hình vị [Tho 1997] (hình vị là đơn vị có ý nghĩa nhỏ nhất trong một ngơn
ngữ). Chính vì vậy trong một phát âm, số lượng âm tiết trùng với số lượng hình vị).

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 21

2.1.1.3 Có cấu trúc chặt chẽ
Mỗi âm tiết tiếng Việt ở dạng đầy đủ có 5 phần như Hình 2.1:
Thanh điệu
Âm đầu

Vần
Âm đệm

Âm cuối

Âm chính

Hình 2.1: Cấu trúc âm tiết của tiếng Việt
Cấu trúc tổng quát của một âm tiết tiếng Việt là (C1)(w)V(C2). Trong đó C1 là
phụ âm đầu, (w) là âm đệm, V là âm chính và C2 là âm cuối.
Âm tiết tiếng Việt có cấu trúc gồm hai bậc: Bậc một bao gồm các thành tố trực
tiếp được phân định bằng những ranh giới có ý nghĩa ngữ âm học. Bậc thứ hai bao gồm
các yếu tố của phần vần chỉ có chức năng khu biệt thuần túy. Quan hệ giữa các yếu tố ở
bậc một là quan hệ lỏng lẻo, giữa các yếu tố của bậc hai có quan hệ chặt chẽ. Các thực
nghiệm đã chứng minh rằng: tính độc lập của thanh điệu đối với các âm vị cụ thể lộ ra
ở chỗ đường nét âm điệu và trường độ của nó khơng gắn liền với thành phần âm thanh
của âm tiết. Trong khuôn khổ mỗi loại hình thanh điệu, các âm tiết có một trường độ cố
định. Âm đầu không tham gia bảo đảm trường độ cố định ấy mà chính âm phần vần lại
đảm đương với bất kể số lượng và phẩm chất của những yếu tố làm thành phần của nó.
Trong phần vần, việc rút ngắn các nguyên âm ở những vị trí nhất định được bù lại bằng
sự kéo dài các âm cuối [Thuật 1999].
Theo GS. Bảng và cộng sự [Bảng 2001] số lượng âm tiết trên lý thuyết của tiếng
Việt là 18.958. So với các ngôn ngữ thông thường trên thế giới có số lượng âm tiết vào
khoảng 3000-5000, tiếng Trung Quốc có số lượng âm tiết trên lý thuyết là 1620, trên
thực tế là 1255. Điều này cho thấy tiếng Việt có số lượng âm tiết rất lớn, chính vì thế ít
có hiện tượng đồng âm, ít gây trở ngại cho việc nhận diện âm tiết. Theo [Thuật 1999],
trong tiếng Việt có 6 thanh điệu, 21 âm đầu, 155 phần vần và phần vần đóng vai trị
khu biệt lớn hơn cả so với các yếu tố khác trong Bậc 1.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 22

Âm tiết

Thanh

Âm đầu

Bậc 1

Phần vần

Bậc 2
Âm đệm

Âm

Âm cuối

Hình 2.2: Cấu trúc bậc hai của tiếng Việt
2.1.2 Âm vị tiếng Việt
Âm vị là đơn vị đoạn tính nhỏ nhất có chức năng phân biệt nghĩa. Về mặt xã hội
của ngữ âm, trong số các âm vị trong lời nói của ngơn ngữ, ta có thể tập hợp một số
lượng có hạn những đơn vị mang những nét chung về cấu tạo âm thanh và về chức
năng trong ngơn ngữ đó gọi là âm vị.
Có một cản trở khi nghiên cứu âm vị tiếng Việt là chưa có một qui định chính

thức về pháp lý, hay một chuẩn chung của các nhà khoa học ngữ âm về một chuẩn
tiếng Việt. Có thể quan niệm tạm thời coi “tiếng Việt chuẩn như một thứ tiếng chung
được hình thành trên cơ sở tiếng địa phương của miền Bắc với trung tâm là Hà Nội mà
cách phát âm của nó là cách phát âm Hà Nội với sự phân biệt /ʈ -c/, /ʂ -s/, /ʐ -z/ và các
vần ưu/iu, ươu/iêu”. [Tho 1997]
2.1.2.1 Thanh điệu
Âm vị tiếng Việt có hai loại âm vị đoạn tính và âm vị siêu đoạn tính. Âm vị
đoạn tính là các đơn vị có thể chia cắt được trong chuỗi lời nói như nguyên âm, phụ
âm. Âm vị siêu đoạn tính là loại đơn vị khơng có âm đoạn tính, khơng độc lập tồn tại,
nhưng cũng có chức năng phân biệt nghĩa, nhận diện từ, đó là thanh điệu. Đây là đặc
điểm riêng của tiếng Việt so với các ngôn ngữ Châu Âu. Một số ngôn ngữ khác như
tiếng Hán, tiếng Thái cũng có đặc điểm này như tiếng Việt.
Thanh điệu được hình thành bằng sự rung động của dây thanh, tùy theo sự rung
đó nhanh hay chậm, mạnh hay yếu, biến chuyển ra sao mà ta có các thanh điệu khác
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 23

nhau. Thanh điệu tiếng Việt thuộc loại thanh lướt, có nghĩa là các thanh điệu phân biệt
với nhau bằng sự di chuyển cao độ từ thấp lên cao hay từ cao xuống thấp.
(1)

5

(5)

4

(3)
(4)

(6)

3
2

(2)

1

Hình 2.3: Các thanh điệu tiếng Việt 1. Không dấu,
2. Huyền, 3. Ngã, 4. Hỏi, 5. Sắc, 6. Nặng
Theo các nhà ngơn ngữ học thì thanh điệu có ảnh hưởng bao trùm lên tồn bộ
âm tiết, mặc dù gánh nặng chủ yếu tập trung ở phần vần.
Tiếng Việt có sáu thanh điệu. Nếu chia thang độ của giọng nói bình thường
thành 5 bậc thì ta có thanh điệu tiếng Việt được miêu tả như trong Hình 2.3.
2.1.2.2 Âm đầu
Trong các sách giáo khoa tiếng Việt [Cân 1999, Tho 1997, Thuật 1999, Trừ
1997], tiếng Việt có 21 âm vị là âm đầu. Các âm vị /p,r/ không được liệt kê là các âm
vị đầu tiếng Việt. Sở dĩ như vậy vì các âm vị này thường được dung trong các từ tiếng
Việt vay mượn của nước ngoài như “đèn pin”, “pa tê”, “rađiô”, tuy số lượng này không
nhiều, ngoài ra một số địa phương âm /r/ được phát âm rung đầu lưỡi, tuy nhiên địa
bàn những thổ ngữ này không rộng, số người dùng không đông. Tuy nhiên trong thực
tế việc sử dụng các âm vị /p,r/ vẫn được người Việt Nam dùng trong các trường hợp
tên riêng nước ngoài như Rumani, Pakistan, …
Âm vị / ˀ /, âm tắc thanh hầu được liệt kê trong một số sách giáo khoa tiếng
Việt như một phụ âm đầu. Trong những âm tiết như: “ai, ơi, ăn, oản, uống, oanh, uyên”

có hiện tượng khép khe thanh lúc mở đầu, khi chúng được phát âm lên. Tiếng bật do
động tác mở khe thanh đột ngột được nghe rõ hoặc không rõ ở từng người, trong từng
lúc, phụ thuộc vào phong cách và bối cảnh ngữ âm. Thừa nhận tồn tại âm tắc thanh hầu
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 24

đưa đến xây dựng được một mơ hình tổng quát của âm tiết tiếng Việt cân xứng hơn với
ba thành tố ln có mặt: thanh điệu, âm đầu, âm vần [Thuật 1999].
Tuy nhiên âm tắc thanh hầu không được thể hiện trên chữ viết. Sở dĩ như vậy vì
bản chất âm tắc thanh hầu vốn yếu, trong một số điều kiện nào đó khơng dễ được
người bản ngữ nhận ra. Thử thí nghiệm phát âm các âm tiết trên có tắc thanh hầu hay
khơng có tắc thanh hầu, người Việt Nam vẫn không nhận ra sự khác biệt và coi như là
một từ. Theo [Tho 1997] sự xuất hiện của âm tắc thanh hầu trong thực tế thường là tùy
tiện, khơng theo qui luật, thậm chí là vắng mặt (68%) nhiều hơn là có mặt (32%).
Trong biểu đồ phổ và biểu đồ sóng, âm tắc thanh hầu cũng xuất hiện như một khoảng
trắng năng lượng giống như trường hợp của âm đóng. Vì lý do trên trong hệ thống
nhận dạng tiếng Việt, âm tắc thanh hầu không nên đưa vào như một âm vị đóng vai trị
âm đầu trong từ.
Tiếng Việt có 21 âm đầu, 6 thanh điệu, 2 âm đệm, 16 âm chính và 8 âm cuối.
Vậy so với các yếu tố cấu tạo âm tiết thì âm đầu có chức năng khu biệt lớn hơn cả.
2.1.2.3 Âm đệm
Âm đệm có chức năng tu chỉnh âm sắc của âm tiết lúc khởi đầu, làm trầm hóa
âm tiết và khu biệt âm tiết này với âm tiết khác. Khác với âm chính ln nằm ở đỉnh
âm tiết, âm đệm nằm ở đường cong đi lên của đỉnh âm tiết. Âm đệm khơng xuất hiện
trước các ngun âm trịn mơi /u,o,ɔ /, nó chỉ xuất hiện trước các nguyên âm hàng
trước. Độ mở của âm đệm phụ thuộc vào độ mở của các nguyên âm-âm chính đi sau.

2.1.2.4 Âm chính
Âm chính là ngun âm và có mặt trong mọi âm tiết qui định âm sắc của âm
tiết. Âm chính tiếng Việt có tất cả 14 âm gồm 11 nguyên âm đơn và 3 ngun âm đơi.
Âm chính âm tiết có thể chia thành 4 nhóm:
- Nhóm nguyên âm đơn, hàng trước, khơng trịn mơi. Âm sắc của nhóm này thường là
bổng. Có thể dài và thể ngắn. Thể ngắn có sự biến dạng ít nhiều về trường độ, âm sắc,
cường độ, phát âm căng và ngắn.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Trang 25

- Nhóm ngun âm đơn, hàng sau trịn mơi. Âm sắc trầm. Có thể dài và thể ngắn. Sự
thể hiện thể ngắn có cấu âm khơng giữ đều.
- Nhóm ngun âm đơn, hàng sau, khơng trịn mơi. Âm sắc trầm vừa.
- Nguyên âm đôi, phát âm yếu dần, yếu tố đầu phát âm mạnh hơn yếu tố sau, do đó âm
sắc của ngun âm đơi là do yếu tố đầu quyết định. Nguyên âm chỉ có một thể dài và
không bị biến dạng về âm sắc và trường độ.
2.1.2.5 Âm cuối
Các âm cuối tiếng Việt có đặc điểm giống nhau là không buông (bộ phận cấu
âm tiến đến vị trí cấu âm rồi giữ ngun vị trí đó chứ khơng về vị trí cũ). Do đó có sự
khác biệt lớn giữa âm [t] trong phát âm hai từ “at” và “ta”. Trong khi phát âm từ “ta”,
lối thoát của khơng khí được khai thơng sau khi bị cản trở bằng một động tác mở ra tạo
thành một tiếng động đặc thù. Trong khi phát âm từ “at”, bộ phận cấu âm ở ngun vị
trí cấu âm và khơng khí khơng được thốt ra ngồi. [Tho 1997].
Trong nhiều trường hợp phụ âm cuối hầu như chỉ là một khoảng im lặng. Ví dụ
như âm vị /k/ trong từ “tác”. Trên dạng phổ âm vị /k/ chỉ thể hiện bởi sự biến đổi
formant của âm vị /a/ theo một hướng nào đó (locus), trên đồ thị dạng sóng, âm vị /k/

chỉ thể hiện bằng một vài xung nhỏ không rõ ràng. Do vậy âm vị /k/ được nhận diện
chủ yếu làm biến đổi âm sắc của âm chính đi ở giai đoạn cuối.
Bán nguyên âm cũng không thường xuyên được thể hiện rõ rệt mà chỉ được
nhận diện bằng việc biến đổi âm sắc của âm chính. Về mặt này thì bán ngun âm cịn
có tác dụng mạnh hơn là phụ âm cuối.
2.1.3 Sự phân bố của các âm vị tiếng Việt
Các âm tiết tiếng Việt có cấu trúc chặt chẽ và các âm vị trong tiếng Việt kết hợp
với nhau theo những quy luật. Sau đây là Bảng 2.1 Tổng kết sự phân bố giữa nguyên
âm âm chính và các âm đệm và bán nguyên âm cuối [Tho 1997].

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Nghiên cứu một số phương pháp trong nhận dạng tiếng nói

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về