ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC CÔNG NGHỆ
NGUYỄN HỒNG QUÂN
PHÂN TÍCH VĂN BẢN CHO TỔNG HỢP
TIẾNG NÓI TIẾNG VIỆT
LUẬN VĂN THẠC SỸ
Người hướng dẫn: PGS.TS. Lương Chi Mai
Hà nội - 2006
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
1
1
MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT 4
DANH MỤC CÁC BẢNG 5
DANH MỤC CÁC HÌNH VẼ 5
LỜI NÓI ĐẦU 6
Chƣơng 1 TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI 8
1.1 Modul NLP 10
1.1.1 Phân tích văn bản 10
1.1.2 Modul LTS 10
1.1.3 Phát sinh ngôn điệu 11
1.2 Modul DSP 11
1.2.1 Tổng hợp theo cấu âm 12
1.2.2 Tổng hợp tiếng nói theo quy luật Formant 14
1.2.3 Tổng hợp xích chuỗi 15
1.2.4 Tổng hợp xích chuỗi sử dụng mã tiên đoán tuyến tính LPC 18
1.3 Các ứng dụng của TTS 22
Chƣơng 2 CƠ SỞ LÝ THUYẾT NGÔN NGỮ TIẾNG VIỆT 24
2.1 Ngữ âm học 24
2.1.1 Cơ sở vật lí 24
2.1.2 Các đặc trưng về âm tiết tiếng Việt 24
2.1.3 Âm vị 26
2.1.4 Hiện tượng biến đổi ngữ âm 30
2.2 Đặc điểm của từ 31
2.2.1 Định nghĩa từ 31
2.2.2 Các quan niệm về hình vị và từ trong tiếng Việt 32
2.2.3 Phương thức cấu tạo từ 32
2.3 Chữ viết và chính tả tiếng Việt 33
Chƣơng 3
PHÂN TÍCH VĂN BẢN CHO TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 39
3.1 Các modul 39
3.2 Từ điển 41
3.3 Xác định cấu trúc văn bản 41
3.3.1 Các tiêu đề của chương, mục 42
3.3.2 Danh sách 43
3.3.3 Các đoạn 44
3.3.4 Câu 45
3.3.5 Email 45
3.3.6 Trang Web 46
3.3.7 Hoạt động hội thoại 46
3.4 Chuẩn hoá văn bản 46
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
2
2
3.4.1 Chuẩn hoá y-i 47
3.4.2 Chuẩn hoá dấu thanh 47
3.4.5 Chữ viết tắt và các kí hiệu khác 48
3.4.4 Các con số 48
3.4.5 Ngày tháng 49
3.4.6 Thời gian 49
3.5 Phân tích ngôn ngữ 50
3.5.1 Tách từ 50
3.5.2 Gán nhãn từ loại 50
3.5.3 Phân tích cú pháp 51
3.5.4 Phân tích ngữ nghĩa 52
Chƣơng 4 BÀI TOÁN TÁCH TỪ 53
4.1 Các khó khăn trong nhận dạng từ tiếng Việt 53
4.2 Một số phương pháp tách từ 54
4.2.1 Dựa theo luật 54
4.2.2 Dùng thống kê 55
4.2.3 Các cách khác 55
4.3 Đề xuất mới 58
4.3.1 Từ điển 58
4.3.2 Các giả thiết 59
4.3.3 Giải pháp tách từ 63
4.4 Xử lí tên riêng 66
4.4.1 Tên người, tên địa lí 66
4.4.2 Tên tổ chức 67
4.4.3 Các tên riêng khác 67
4.5 Tách đoạn – Tách câu 68
4.6 Nhận xét đánh giá 68
4.6.1 Tập ngữ liệu thô 68
4.6.2 Nhận xét 70
Chƣơng 5 CÀI ĐẶT THỬ NGHIỆM ĐÁNH GIÁ 73
5.1 Chương trình thử nghiệm 73
5.1.1 Yêu cầu về cấu hình hệ thống 73
5.1.2 Ngôn ngữ lập tình và cơ sở dữ liệu 73
5.1.3 Giao diện chương trình 73
5.2 Cấu trúc chương trình 74
5.3 Các kết quả thực nghiệm 75
5.3.1 Kết quả phân tích 75
5.3.2. Đánh giá tốc độ thực hiện 77
Kết luận và định hƣớng nghiên cứu 79
Tài liệu tham khảo 80
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
3
3
DANH MỤC TỪ VIẾT TẮT
STT
Từ viết tắt
Nội dung
1
CART
Clasification And Regression Tree
2
CSDL
Cơ sở dữ liệu
3
DSP
Digital Sigal Procesing - Xử lí tín hiệu số
4
HMM
Hidden Markov Model
5
LTS
Letter To Sound – Biến đổi chữ viết thành dạng phát âm được
6
MMM
Maximal Matching Model
7
NLP
Natural Language Processing -Xử lí ngôn ngữ tự nhiên
8
TBL
Tranformation Based Learning
9
TTS
Text To Speech - Tổng hợp tiếng nói
10
WFST
Weigthed Finite State Transducer
11
MMM
Maximal Matching Model
12
TAM
Text Analyzer Modul
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
4
4
DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1 Hệ thống âm đầu 27
Bảng 2.2 Hệ thống âm chính 29
Bảng 4.1: Kết quả đánh giá phân tách từ 70
Bảng 5.1 Kết quả đánh giá phân tích văn bản 75
Bảng 5.1 Kết quả tốc độ thực hiện 77
DANH MỤC CÁC HÌNH VẼ VÀ BIỂU ĐỒ
Hình 1.1 Sơ đồ chức năng tổng quát của hệ thống TTS 8
Hình 1.2 Modul NLP của một hệ thống TTS 9
Hình 1.3 Qui trình tổng hợp tiếng nói theo qui luật 14
Hình 1.4. Mô hình tuyến tính tạo tiếng nói 15
Hình 1.5 Mô hình qui trình tổng hợp tiếng nói theo xích chuỗi 16
Hình 1.6 Mô hình tiên đoán tuyến tính tiếng nói 19
Hình 1.7 Mô hình tổng hợp LPC 20
Hình 2.1- Cấu trúc âm tiết 25
Hình 3.1. Cấu trúc modun hóa bộ phân tích văn bản và ngữ âm 39
Hình 3.2 Ví dụ về chú thích XML trong một cuốn sách 43
Hình 3.3 Ví dụ về một danh sách được đánh dấu 43
Hình 3.4 Ví dụ về một đánh dấu câu 44
Hình 3.5: Ví dụ về e-mail được đánh dấu bởi các thẻ đánh dấu XML 46
Hình 3.6: Phân tích cú pháp 51
Hình 4.1 Biểu đồ phân bố từ theo số lượng tiếng trong từ 59
Hình 4.2. Thuật toán tách từ 65
Hình 5. 1: Giao diện chính 73
Hình 5.2 Mô hình ứng dụng 74
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
5
5
LỜI NÓI ĐẦU
Trong những năm gần đây, trên thế giới và nhiều hệ thống tổng hợp và nhận
dạng tiếng nói cho nhiều ngôn ngữ như Anh, Pháp, Nhật đã được hoàn thiện. Sự
phát triển của công nghệ xử lí tiếng nói trên thế giới đã buộc chúng ta phải thừa
nhận rằng việc nghiên cứu tiếng Việt một cách toàn diện cả về ngôn ngữ , văn bản
và tiếng nói để có thể đạt được những kết quả so sánh được với các ngôn ngữ khác
là hoàn toàn hiện thực. Tổng hợp tiếng nói từ văn bản có chức năng ngược với nhận
dạng tiếng nói. Nó có rất nhiều ứng dụng quan trọng trong khoa học công nghệ và
đời sống. Một hệ tổng hợp tiếng nói bao gồm hai quá trình xử lí chính là : Xử lí
ngôn ngữ tự nhiên và Xử lí tín hiệu số. Trong đó phân tích văn bản là một giai đoạn
quan trọng của quá trình xử lí ngôn ngữ tự nhiên, nó bao gồm các nhiệm vụ chính
sau:
- Xác định cấu trúc văn bản
- Chuẩn hoá văn bản
- Phân tích ngôn ngữ
Với nhiệm vụ Phân tích ngôn ngữ thì một loạt các bài toán cơ bản cần được
giải quyết: phân tách từ, gán nhãn từ loại, phân tích cú pháp và phân tích ngữ
nghĩa. Trong đó bài toán phân tách từ là tương đối quan trọng, khi chưa giải quyết
được bài toán này thì ta không thể tiến xa thêm một bước nào trong xử lí ngôn ngữ
tự nhiên. Cho đến nay đã có khá nhiều phương pháp tách từ được đưa ra : các
phương pháp dựa theo luật, các phương pháp theo mô hình xác suất thống kê, các
phương pháp lai Tuy nhiên đối với từng ngôn ngữ cụ thể và phụ thuộc vào đặc
điểm của ngôn ngữ mà mỗi phương pháp có kết quả thực hiện với độ chính xác
khác nhau.
Trong phạm vi của luận văn này tôi xin đề xuất một yếu tố mới trong việc
phân tách từ tiếng Việt, đó là cường độ liên kết từ. Qua một số khảo sát thực
nghiệm, kết quả thu về là đáng khích lệ.
Nội dung của luận văn được trình bày cụ thể trong 5 chương
Chương 1: Tổng quan về tổng hợp tiếng nói
Chương 2: Cơ sở ngôn ngữ tiếng Việt
Chương 3: Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Chương 4 : Bài toán tách từ tiếng Việt
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
6
6
Chương 5: Cài đặt và đánh giá thử nghiệm
Những công việc được thực hiện trong luận văn này chưa phải là nhiều . Phần
thực hiện được chỉ là bước đầu nghiên cứu về tổng hợp tiếng nói và các vấn đề liên
quan đến phân tích văn bản cũng như xử lí ngôn ngữ tự nhiên nói chung.
Tôi xin được bày tỏ lòng cảm ơn sâu sắc tới Tiến sĩ Lương Chi Mai, người đã
tận tình hướng dẫn giúp đỡ và tạo mọi điều kiện thuận lợi cho công tác nghiên cứu
hoàn thành luận văn này.
Xin ghi nhớ công lao của những người thân trong gia đình đã luôn động viên,
chia sẻ, giúp đỡ để tôi hoàn thành khoá học và luận văn này.
Hà Nội, ngày 2 tháng 1 năm 2006
Nguyễn Hồng Quân
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
7
7
XỬ LÝ NGÔN NGỮ TỰ NHIÊN
- Các hình thức ngôn ngữ
- Các mô tơ suy diễn
- Các suy luận logic
XỬ LÝ TÍN HIỆU SỐ
- Các mô hình toán học
- Các thuật toán
- Các quá trình tính toán
BỘ TỔNG HỢP TIẾNG NÓI
Hình 1.1 Sơ đồ chức năng tổng quát của hệ thống TTS
Ngôn điệu
Văn bản
Tiếng nói
Chƣơng 1
TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI
Tiếng nói là phương tiện truyền thông chính giữa con người với nhau. Một hệ
thống tổng hợp tiếng nói (Text To Speech – TTS) là một hệ thống dựa trên máy tính
có khả năng đọc to bất kỳ văn bản nào, nó bao gồm việc chuyển đổi các mô tả về
mặt ngữ âm và ngữ điệu của văn bản đầu vào thành dạng sóng tiếng nói ở đầu ra.
Dữ liệu về tiếng nói có thể được mã hóa hay tham số hóa ở một dạng nào đó và
được lưu giữ trước ở trong bộ nhớ. Văn bản có thể được nhập vào máy tính từ bàn
phím, hoặc bằng hệ thống nhận dạng chữ viết, hoặc nhận được từ một CSDL nào đó
hay tải về từ Internet[14].
Công việc của hệ thống TTS có thể được xem như là ngược lại với nhận dạng
tiếng nói. Việc chuyển các từ ở dạng chữ viết ra thành tiếng nói không phải là việc
làm đơn giản. Thậm chí nếu chúng ta có thể lưu trữ một từ điển khổng lồ cho các từ
phổ biến nhất trong tiếng Việt thì hệ thống TTS vẫn cần phải đối mặt với hàng triệu
các tên riêng, các từ viết tắt vẫn phát sinh hàng ngày. Mặt khác để tiếng nói được
sinh ra một cách tự nhiên thì ngữ điệu của câu cần được kết hợp một cách hợp lý.
Hình 1.1 giới thiệu sơ đồ cơ bản của một bộ tổng hợp TTS nói chung [14].
Giống như việc đọc của con người, hệ thống bao gồm:
Modul xử lí ngôn ngữ tự nhiên (NLP): Có chức năng phân tích văn
bản đầu vào để sinh ra sự biến đổi ngữ âm cho việc đọc văn bản cùng với ngữ
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
8
8
điệu và nhịp điệu mong muốn (thường được gọi là ngôn điệu).
Modul xử lí tín hiệu số (DSP): có nhiệm vụ biến đổi các thông tin ở
dạng ký hiệu mà nó nhận được ở đầu vào thành tiếng nói ở đầu ra. Các thuật
toán và các hình thức được áp dụng để xử lí thường được dựa vào các tri thức
của các mô hình ngữ âm và toán học để phát triển. Tính chất quan trọng nhất
của hệ thống tổng hợp tiếng nói là chất lượng tiếng nói đầu ra. Các tiếp cận
hiện nay thường bỏ qua một số bước xử lí nào đó do bị hạn chế về vấn đề thời
gian thực và tài nguyên của hệ thống. Điều này dẫn đến chất lượng bị hạn chế
trong cách phát âm cũng như tính biểu cảm, ít nhất là so với con người.
1.1 Modul NLP
Hình 1.2 giới thiệu sơ đồ làm việc của modul NLP tổng quát cho nhiệm vụ
TTS [14].
HỆ
THỐNG
XỬ
LÝ
NGÔN
NGỮ
TỰ
NHIÊN
Bộ tiền xử lý
Bộ phân tích hình thái
Bộ phân tích ngữ cảnh
Bộ phân tích cú pháp,
ngôn điệu
Modul LTS
Modul sinh ngôn điệu
Văn bản
Văn bản được gán nhãn
Bộ phân
tích
văn bản
Hình 1.2 Modul NLP của một hệ thống TTS
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
9
9
1.1.1 Phân tích văn bản
Khối phân tích văn bản bao gồm các thành phần sau:
Module tiền xử lí: có nhiệm vụ tổ chức các câu đầu vào thành danh sách
các từ có khả năng xử lí được. Nó có nhiệm vụ nhận biết các con số, các chữ viết tắt
, các thành ngữ và biến đổi chúng thành dạng văn bản đầy đủ khi cần thiết. Một vấn
đề quan trọng mà chúng ta phải đối mặt ngay ở mức xử lí kí tự là: sự nhập nhằng
của các dấu chấm câu (bao gồm cả trường hợp chuẩn khi hết câu). Ở một vài phạm
vi có có thể được giải quyết nhờ các văn phạm chính quy cơ bản.
Module phân tích hình thái: có nhiệm vụ đưa ra tất cả các khả năng về từ
loại cho mỗi cách viết riêng biệt của từng từ trên cơ sở từ chính tả của chúng.
Những từ ghép, từ có nhiều biến tố, từ dẫn xuất được tách ra thành các đơn vị tự vị
cơ bản (hình thái) nhờ các văn phạm chính quy đơn giản sử dụng từ vựng gốc từ và
phụ tố. Module này là cần thiết cho xử lí các ngôn ngữ có hình thái.
Module phân tích ngữ cảnh: có nhiệm vụ xem xét các từ xuất hiện trong
ngữ cảnh, từ đó cho phép giảm bớt danh sách từ loại để hạn chế số lượng các giả
thuyết có thể xảy ra nhiều, cho biết từ loại tương ứng của các từ lân cận. Vấn đề
này này có thể được giải quyết theo :
- Mô hình n-grrams: theo đó sự phụ thuộc cú pháp cục bộ được biểu diễn theo
dạng otomat hữu hạn trạng thái xác suất, tức là mô hình Markov, hoặc một
phạm vi nhỏ hơn với mạng nơron nhiều tầng được huấn luyện để phát hiện ra
các luật viết theo ngữ cảnh.
- Tập văn phạm cục bộ, không ngẫu nhiên được cung cấp bởi các chuyên gia
ngôn ngữ hoặc được suy diễn một cách tự động từ một tập dữ liệu huấn luyện
với các kỹ thuật cây hồi quy và phân loại (CART).
Module phân tích cú pháp- ngôn điệu: có nhiệm vụ rà soát trong không
gian tìm kiếm còn lại và các cấu trúc văn bản tìm thấy (tức là sự tổ chức của chúng
thành mệnh đề và các thành phần giống như cụm từ) có liên quan mật thiết nhiều tới
thể hiện hiện ngôn điệu thực sự của nó.
1.1.2 Module LTS:
Module chịu trách nhiệm xác định tự động phiên âm ngữ âm cho văn bản
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
10
10
nhận được. Đối với các ngôn ngữ có biến đổi hình thái như hệ ngôn ngữ Ấn- Âu ,
đây là một module quan trọng vì có nhiều phiên âm không được đề cập đến trong
từ điển. Tuy nhiên, chữ viết tiếng Việt là loại chữ ghi âm nên số lượng các mục
trong từ diển được giảm bớt rất nhiều
1.1.3 Phát sinh ngôn điệu
Thuật ngữ ngôn điệu dùng để chỉ các thuộc tính nhất định về tín hiệu tiếng
nói liên quan đến khả năng nghe rõ sự thay đổi trong độ cao thấp; độ to nhỏ và độ
dài của âm tiết. Các đặc trưng của ngôn điệu có các chức năng cụ thể trong giao tiếp
bằng tiếng nói. Hiệu quả rõ ràng của ngôn điệu chính là sự nhấn mạnh. Ví dụ, có
các sự kiện nào đó về cao độ làm cho một âm tiết nổi bật trong lời nói, từ hoặc
nhóm cấu trúc cú pháp có chứa âm tiết đó một cách không trực tiếp sẽ được làm nổi
bật như một yếu tố quan trọng hay yếu tố mới chuyển tải ý nghĩa của lời nói. Sự có
mặt của dấu trọng âm có thể có những hiệu quả khác nhau như sự tương phản, phụ
thuộc vào vị trí mà trọng âm xuất hiện hoặc ngữ cảnh ngữ nghĩa của lời nói.
Các đặc trưng ngôn điệu tạo ra một sự phân đoạn chuỗi tiếng nói thành các
nhóm âm tiết, chúng làm cho các nhóm âm tiết hoặc nhóm các từ thành các chuỗi
lớn hơn. Một số đặc trưng ngôn điệu thể hiện quan hệ hai hay nhiều nhóm âm tiết
được liên kết với nhau theo vài cách khác nhau. Hiệu quả của việc nhóm như vậy có
tính chất phân cấp, mặc dù không cần phải giống hệt cấu trúc cú pháp của lời nói.
Như vậy quá trình tiên đoán ngữ điệu từ văn bản là phải xác định được độ dài,
cao độ tần số cơ bản của các ngữ đoạn tổng hợp sao cho phù hợp với các quy luật
về ngữ điệu của một ngôn ngữ. Đó là việc xác định vị trí trọng âm của từ được phát
âm. Lên xuống giọng ở các vị trí khác nhau trong câu, như đầu câu, cuối câu,v v
và xác định các biến thể kác nhau của các âm phụ thuộc vào ngữ cảnh khi được phát
âm trong một ngữ lưu liên tục. Bước này bao gồm cả việc xác định điểm dừng nghỉ
lấy hơi khi phát âm, nó hoặc đọc một văn bản. Từ đó tạo ra các thông tin để điều
khiển ngữ điệu thích hợp cho bộ tổng hợp tiếng nói.
1.2 Module DSP
Theo hình 1.1 thì giao diện giữa hai khối NLP và DSP được định nghĩa rõ
ràng và việc nghiên cứu về hai quá trình có thể được thực hiện riêng rẽ, độc lập với
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
11
11
nhau. Bây giờ ta giả thiết rằng thông tin chất lượng cao nhất đã được cung cấp tại
đầu vào của bộ phẩn xử lí tín hiệu số (DSP) giống như những gì con người đọc cảm
nhận được. Phần DSP trên phương diện nào đó phải xét đến các hạn chế phát âm,
bởi vì ta đã biết sự biến đổi ngữ âm (phần động, chuyển tiếp giữa các âm) quan
trọng đối với việc hiểu lời nói hơn là phần tĩnh của lời nói. Tổng hợp tiếng nói có
thể đạt được dựa trên cơ bản theo hai phương pháp sau :
- Phương pháp thứ nhất được thực hiện dựa trên một loạt các quy tắc mô tả
một cách chính thức các âm vị, sự ảnh hưởng lẫn nhau giữa các âm vị khi phát
ra một âm
- Phương pháp thức hai là lưu giữ các mẫu âm vị, biến đổi âm vị và đồng thời
phát âm vào CSDL tiếng nói và sử dụng chúng như chúng vốn có là các đơn vị
âm học cơ bản (ở vị trí của âm vị)
Hai hệ thống TTS đã xuất hiện từ hai phương pháp trên. Cả hai phương pháp
này nhanh chóng trở thành hai triết lí tổng hợp với sự khác biệt thể hiện trong nội
dung và mục tiêu của chúng. Đó là tổng hợp bằng quy luật và tổng hợp xích chuỗi.
Một số các phƣơng pháp tổng hợp tiếng nói hiện nay
1.2.1 Tổng hợp theo cấu âm
Tổng hợp theo cấu âm sử dụng mô hình mô phỏng sinh học. Trong mô hình
này tiếng nói được đặc trưng không chỉ bằng tín hiệu âm thanh mà cả bằng vị trí của
các cơ quan cấu âm, sự tham gia của khoang mũi, áp suất không khí trong phổi, lực
căng của dây danh. Nó bao gồm hoạt động tương tác phi tuyến giữa nguồn kích
(chấn động dây thanh hoặc nhiều loạn không khí) và trở thành kháng đầu vào và
thay đổi theo thời gian của ống thanh . Phương pháp này còn được gọi là tổng hợp
theo mô hình hệ thống.
Để xây dựng đặc trưng âm thanh của cơ quan phát âm, hệ thống phải tham số
hóa được hình khối ống thanh và ống mũi, phải lựa chọn được mô hình được mô
hình để mô tả sự lan truyền của sóng ống thanh và mô hình hóa nguồn âm (chấn
động dây thành và dòng không khí hỗn loạn) và sự tương tác của nó với ống thanh.
Phương pháp này hiện nay chỉ mới hình thành trên lý thuyết, thực tế ngành khoa
học phỏng sinh học chưa có thông tin đầy đủ để mô phỏng theo cấu âm
Lan truyền sóng trong ống thanh:
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
12
12
Trong nhiều cách tính đặc trưng truyền song trong ống thanh thì phương pháp
ma trận chuỗi được áp dụng nhiều nhất. Ma trận chuỗi, còn được gọi là ma trận
ABCD, thể hiện ống thanh ở miền tần số. Với bất kỳ phần nào của ống thanh hay
ống mũi ta có hệ phương trình truyền sóng như sau:
ininout
out
U
P
K
U
P
x
DC
BA
U
P
intint
Ma trận chuỗi K có thể thể hiện bất kỳ phần nào của bất kỳ độ dài hay mặt
phẳng cắt ngang nào của ống thanh. Tính các phần tử của K rất đơn giản nếu ống có
mặt cắt không đổi.
Nguyên lý tổng hợp cấu âm:
Thuật toán tổng hợp cấu âm theo mô hình cấu âm gồm các bước sau: Từ đặc
tả về các tham số cấu âm, ta tính được ma trận chuỗi từ thanh môn đến môi. Sau đó
tính hàm truyền và trở khánh đầu vào từ các phần tử A,B,C,D của ma trận. Chuyển
đổi Fourier ngược hàm truyền H và tỉ số trở kháng ta nhận được các giá trị tương
ứng ở miền thời gian. Sau đó tính áp suất p=p
s
-p
1
. Giá trị áp suất này tác động vào
bộ phận cộng hưởng điều khiển chuyển động dây thanh của mô hình hai khối lượng
tạo ra âm thanh tiếng nói.
Như vậy ngoài việc mô hình hóa cơ quan phát âm, tổng hợp theo cấu âm cần
phải xây dựng hai loại quy luật là luật ngôn ngữ và luật vật lí. Luật vật lí mô tả như
ở trên xác định ánh xạ cấu hình ống thanh cụ thể cho tín hiệu âm thanh, xác định
mối quan hệ giữa hoạt động cấu âm và tín hiệu âm thanh tiếng nói. Còn luật ngôn
ngữ xác định mối quan hệ giữa mô tả ngữ âm và các hoạt động cấu âm. Thông
thường, luật ngôn ngữ được thực hiện cho từng âm vị. Khi cấu âm cho một âm vị,
luật này xác định thời điểm các cơ quan chuyển động, tốc độ chuyển động và mối
quan hệ giữa cơ quan này với cơ quan khác. Vì phát ra một âm vị không nhất thiết
phải có sự chuyển động của tất cả các cơ quan, nên trong cùng một thời điểm cơ
quan phát âm cơ thể được xác định chp âm vị khác. Theo cách này thì tổng hợp
tiếng nói theo cấu âm có thể tạo ta các gải pháp hoàn hảo cho các trường hợp ngữ
âm khó như cụm phụ âm, nguyên âm ba. Hiện nay chúng ta chưa có kiến thức đầy
đủ về từng chi tiết của hai loại luật nói trên. Mô hình cấu âm cũng còn đơn giản vì
vậy chất lượng tiếng nói được tổng hợp theo cấu âm còn rất thấp. Phương pháp
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
13
13
tổng hợp cấu âm hiện này mới chỉ dừng ở trong phòng thí nghiệm hay các sản phẩm
mẫu mà chưa được ứng dụng thực tế. Các bộ tổng hợp theo cấu âm là công cụ lý
tưởng để nghiên cứu về cấu âm của tiếng nói và hứa hẹn các giải pháp lâu dài và
hoàn thiện nhất để tổng hợp tiếng nói giống như tiếng nói tự nhiên của con người.
1.2.2 Tổng hợp tiếng nói theo quy luật Formant
Quy trình xây dựng tổng hợp tiếng nói theo luật Formant được trình bày trên
hình 1.3 Bao gồm hai quá trình riêng biệt là :
- Phân tích âm thanh tiếng nói để tìm ra quy luật
- Tổng hợp lại tiếng nói dựa vào các quy luật đã tìm thấy
Phân tích tìm quy luật
Quá trình phân ích được tiến hành trên CSDL tiếng nói tự nhiên, chủ yếu bao
gồm các âm tiết có dạng C-V (phụ âm-nguyên âm) hay C-V-C (phụ âm-nguyên âm-
phụ âm) của nhiều giọng nói. CSDL này tốt nhất phải được bao phủ được tất cả các
hình thái ngữ âm của một ngôn ngữ.
Thuật toán tiên đoán tuyến tính LPC được sử dụng trong quá trình phân tích
phổ để xác định mẫu của tần số formant, băng thông formant, tần số âm cơ bản F
0
của tín hiệu tiếng nói. Tần số từ F
1
đến F
5
và băng thông W
1
đến W
5
ở phần ổn
định của các âm tố được lưu giữ dưới dạng bảng. Đó là các giá trị đích để tạo ra một
Tiếng nói
Tham số
tiếng nói
Phân tích
Phân tích
Hợp luật
Tổng hợp tín hiệu
Xử lí tín hiệu
Luật tao
tiếng nói
Ngữ âm
Âm vị và ngôn điệu
Tiếng nói
Hình 1.3 Qui trình tổng hợp tiếng nói theo qui luật
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
14
14
âm vị. Trong tiếng nói, phần mang thông tin được quan tâm nghiên cứu nhiều hơn
là các phần chuyển tiếp giữa các âm vị từ nguyên âm sang phụ âm và ngược lại (C-
V và V-C). Tần số formant chuyển tiếp từ âm vị này sang âm vị kia được mô hình
hóa và tạo thành các quy luật tổng hợp cho kỹ thuật tổng hợp formant và sự chuyển
tiếp của các formant từ âm vị này sang âm vị khác. Hệ thống quy luật gồm có:
- Luật để xác định vị trí đích của các formant của mỗi âm vị trong một ngữ lưu
cũng như thời gian tồn tại của các vị trí đó.
- Luật để làm trơn các formant đích.
- Luật để chuyển đổi các hàm thời gian thành dạng sóng âm thanh.
Hệ thống tổng hợp formant sẽ căn cứ vào các tham số điều khiển từ bảng tra
cứu và cùng với các thuật toán được xây dựng cho sự chuyển tiếp là các tín hiệu
điều khiển bộ tổng hợp để tạo ra các âm đoạn tính.
Tổng hợp formant được phân loại theo cấu hình mắc các bộ cộng hưởng song
song hay nối tiếp. Hàm truyền của bộ tổng hợp khi mắc nối tiếp bộ cộng hưởng
tương tự như hàm truyền ống thanh. Vì vậy bộ tổng hợp với các bộ cộng hưởng mắc
song song sẽ tạo ra cho các âm tắc, âm xát và âm mũi một chất lượng âm thanh tốt
hơn.
1.2.3 Tổng hợp xích chuỗi
F
0
Bộ tạo xung
tuần hoàn
Mô hình xung
thanh quản
G(z)
A(v)
Mô hình xung
thanh quản
G(z)
A(n)
Mô hình
ống thanh
V(z)
Mô hình
tán xạ
V(z)
Hình 1.4. Mô hình tuyến tính tạo tiếng nói
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
15
15
Nghiên cứu về tổng hợp tiếng nói và cách xích chuỗi các đơn vị âm được khởi
đầu từ những năm đầu 50 thế kỉ trước. Harris trong công trình tiên phong để “xây
các khối tiếng nói” đã đề xuất tổng hợp tiếng nói bằng cách xích chuỗi các đơn vị
âm cơ sở. Nguyên tắc này vẫn còn tạo ra nền tảng cho các hệ thống xích chuỗi hiện
nay.
Hệ thống tổng hợp xích chuỗi hoàn chỉnh đầu tiên do Josph Olive phát triển
và được trình diễn năm 1997. Phương pháp xích chuỗi nhằm vượt qua sự không
thoả đáng của các hệ thống sử dụng quy luật bằng cách loại bỏ sự cần thiết của một
số quy luật, thậm chí là tất cả các quy luật. Để thực hiện điều này, cách hiệu quả
nhất là lưu trữ trong kho dữ liệu không phải hệ thống quy luật mô tả các đơn vị hay
các quy luật của các tham số để tạo ra đơn vị âm mà trực tiếp từng đoạn âm của âm
thanh tiếng nói.
Tạo âm thanh
tiếng nói
CSDL tham số
đoạn tính
CSDL đơn vị
tổng họp
CSDL
Âm đoạn
Thông tin
phân đoạn
Phân âm đoạn
Phân tích tín hiệu
Mã hoá
Giải mã
Tạo danh
sách âm
đoạn
Xử lí ngữ điệu
Xích chuỗi
Tiếng nói
Văn bản
Phân tích
Tổng hợp
Tổng hợp
Hình 1.5 Mô hình qui trình tổng hợp tiếng nói theo xích chuỗi
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
16
16
Phương pháp tổng hợp xích chuỗi mang nhiều tính công nghệ, được quyết
định bởi sự phát triển của máy tính. So sánh về chất lượng trong các phương pháp
đã nói trên thì tổng hợp xích chuỗi hiện nay đã thành công nhất trong việc tạo ra
tiếng nói không chỉ để nghe mà còn đạt được độ tự nhiên gần với tiếng nói của con
người hơn cả. Phần lớn các hệ thống TTS chất lượng cao cho các ngôn ngữ có trên
thị trường hiện nay đều sử dụng phương pháp tổng hợp xích chuỗi.
Khi xây dựng một hệ thống tổng hợp xích chuỗi, tiếng nói chứa tập hợp các
đơn vị âm thanh cơ bản của một ngôn ngữ, thông thường tương ứng với một chuỗi
ngắn các âm vị có lựa chọn được đọc, ghi âm và lưu giữ trong CSDL. Các đơn vị
âm được lựa chọn, phân tích các tham số đặc trưng và sau đó có thể được mã hóa
bằng một phương pháp mã hóa tiếng nói nào đó tạo thành các mẫu cho một đơn vị
âm thanh. Các mẫu hoặc các tham số phân tích của chúng được lưu giữ lại trong
kho dữ liệu đơn vị tổng hợp.
Khi tổng hợp một phát ngôn mới, cho trước mô tả ngữ âm của phát ngôn đó,
hệ thống sử dụng các quy luật để định vị đơn vị thích hợp, truy xuất chúng ra khỏi
kho dữ liệu và xích chuỗi chúng lại với nhau. Thông thường một hệ thống tổng hợp
xích chuỗi có ít nhất một hoặc hai mẫu cho mỗi một đơn vị cơ bản. Do các tham số
và cao độ tần số cơ bản, độ dài và cường độ của các đơn vị này rất khác nhau
(chúng chỉ được trích ra từ tín hiệu tiếng nói trong các ngữ cảnh khác nhau) cho nên
khi tổng hợp, hệ thống tổng hợp xích chuỗi phải thực hiện hai công việc.
- Một là phải thay đổi các tham số siêu đoạn tính của các đơn vị để tiếng nói
tổng hợp thể hiện được ngữ điệu thích hợp như mong muốn.
- Hai là phải thực hiện việc lựa chọn hay thay đổi các đặc tính của âm đoạn
đơn vị tại các biên ghép nối của chúng sao cho việc ghép nối là mịn nhất để
bảo đảm chất lượng âm thanh tổng hợp tạo ra gần với tiếng nói tự nhiên.
Giả sử hai âm đoạn được xích chuỗi là L và R. Chúng ta xem xét tập hợp P
của các tham số {p
1
, p
2
,…,p
n
}, các giá trị P
L
0
là ở điểm cuối cùng của đoạn L và P
R
0
là điểm đầu tiên của đoạn R. Làm trơn được thực hiện tuyến tính phân bố đều
khoảng cách (P
L
0
-P
R
0
) cho số M
L
vectơ {P
L
-(ML-1)
, ,P
L
-1
,P
L
0
} của đoạn L và M
R
vectơ { P
L
0
,P
L
1
,…,P
L
(ML-1)
} . Với P’ là tham số sau khi làm trơn thì nội suy được
bằng công thức tính như sau:
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
17
17
L
L
LRLL
M
iM
PPPP
2
)(
)('
0011
(1.1)
R
L
RL
j
R
j
L
M
M
PPPP
2
)1(
)('
001
(1.2)
Với i=0 M
l
-1 và j=0 M
R
-1
Như vậy chất lượng của một hệ thống TTS sử dụng phương pháp tổng hợp
xích chuỗi được quyết định bởi các yếu tố sau:
- Sự lựa chọn tập âm vị cơ bản. Trong đó ngữ âm của ngôn ngữ tổng hợp là
yếu tố chính quyết định loại đơn vị cơ bản.
- Chất lượng âm thanh và mức độ bao phủ các tổ hợp âm đoạn cần thiết cho
một ngôn ngữ của CSDL âm.
- Khả năng cung cấp các tham số về ngữ điệu như đường nét tần số cơ bản,
cường độ âm thanh và độ dài các âm cho bộ tổng hợp. Các tham số này được
tiên đoán trong phần xử lí ngôn ngữ của bộ tổng hợp từ văn bản.
- Khả năng thay đổi tần số cơ bản F
0
và độ dài các đơn vị âm cơ bản phù hợp
với ngữ điệu được mô tả ở đầu vào của bộ tổng hợp mà không ảnh hưởng đến
chất lượng cảm thụ của âm đó.
- Thuật toán xích chuỗi mà mô hình tín hiệu cho phép dễ dàng làm trơn hai
điểm ghép nối của các âm đoạn được xích chuỗi.
Chính vì hai yếu tố sau nên một số hệ thống tổng hợp xích chuỗi thực hiện mã
hóa tham số tiếng nói. Với các thể hiện bằng tham số, đặc trưng phổ của ngữ điệu
của tiếng nói được thay đổi dễ dàng hơn mà không thay đổi đặc tính nhận dạng âm
đơn vị cơ bản. Phương pháp mã hóa tham số đặc trưng nhất là mã hóa tiên đoán
tuyến tính LPC và các biến thể của chúng.
1.2.4 Tổng hợp xích chuỗi sử dụng mã tiên toán tuyến tính LPC
Lý thuyết mã tiên đoán tuyến tính LPC đã được áp dụng rất thành công vào
các kỹ thuật xử lí tiếng nói từ nhiều năm nay không chỉ trong phân tích nhận dạng
mà còn cả trong tổng hợp tiếng nói.
Mô hình LPC
Ý tưởng cơ bản của mô hình LPC là một mẫu tiếng nói s(n) ở thời điểm n,
được xấp xỉ bằng tổng tuyến tính có trọng số của p mẫu trước nó với công thức:
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
18
18
s(n)
a
1
s(n-1
)+
a
2
s(n-2)+…+a
p
s(n-p) (1.3)
Trong dó a
1
, a
2
,…, a
p
được giả thiết là các hằng số trong khung thời gian tiến
hành phân tích và còn được gọi là hệ số tiên đoán tuyến tính LPC.
Thay đổi công thức nằy bằng cách thêm nguồn kích Gu(n) ,ta có:
p
i
i
nGuinsans
1
)()()(
(1.4)
Trong đó n(u) là nguồn kích tiêu chuẩn và G là hệ số khuyếch đại của nguồn
kích. Chuyển đổi sang miền z cho ta quan hệ là:
p
i
i
i
zGUzSzazS
1
)()()(
(1.5)
Và hàm truyền
)(
1
1
1
)(
)(
)(
1
zA
za
zGU
zS
zH
p
i
i
i
s (1.6)
Từ công thức này có thể xây dựng mô hình tiên đoan tuyến tính như sau :
Theo mô hình này, nguồn kích u(n) được khuyếch đại với hệ số G là đầu vào
tác động vào một hệ thống lọc toàn cục có hàm truyền
)(
1
)(
zA
zH
(1.7)
Sẽ tạo ra tiếng nói.
Nguồn kích là bộ tạo tần số cơ bản cho các âm hữu thanh hay tạo nhiều ngẫu
nhiên cho âm vô thanh. Từ đo, mô hình tổng hợp tiếng nói dựa trên LPC được thể
hiện như hình 1.8. Các tham số thay đổi chậm tho thời gian để điều khiển mô hình
bao gồm một bit để phân biệt âm hữu thanh/vô thanh ; chu kỳ cao độ tần số cơ bản
F
0
cho âm hữu thanh, hệ số khuyếch đại G và các hệ số tiên đoan tuyến tính của bộ
H(z)
G
u(n)
s(n)
Hình 1.6 Mô hình tiên đoán tuyến tính tiếng nói
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
19
19
lọc thay đổi theo thời gian {a
p
}. Quá trình LPC thực tế là để tính các hệ số của mô
hình này.
Xác định hệ số LPC
Dựa trên cơ sở mô hình tổng hợp LPC, ta có mối quan hệ giữa s(n) và u(n)
như sau :
)()()(
1
nGuknsans
p
k
k
(1.8)
Nếu giá trị tiên doán từ các mẫu trước đó là
p
i
k
knsas
1
)(
~
(1.9)
ta có thể tiên đoán được sai số của tiên toán tuyến tính e(n) :
p
k
k
knsansnsnsne
1
)()()(
~
)()(
(1.10)
Với hàm truyền là
p
k
k
k
za
zS
zE
zA
1
1
)(
)(
)(
(1.11)
Rõ ràng, nếu hệ thống hoàn toàn tuyến tính như hình trên thì sai số tiên đoán
e(n) chính bằng với nguồn kích Gu(n).
Vấn đê cơ bản của tiến đoán tuyền tính là xác định tập các hệ số tiên đoán
{a
k
} trực tiếp từ tín hiệu tiếng nói sao cho các đặc tính phổ của bộ lọc số tương
đương với phổ tiếng nói trong khung thời gian phân tích. Vì phổ của tiếng nói thay
đổi theo thời gian, hệ số tiên đoán ở thời điểm n phải tính từ các đoạn âm xung
quanh của thời điểm đó. Chính vì vậy hướng tiếp cận là tìm các tập hế số tiên đoán
Bộ tạo xung
Bộ tạo xung
Bộ lọc số thay đổi
theo thời gian
Tham số ống thanh
Vô thanh
Hữu thanh
G
u(n)
s(n)
F
0
Hình 1.7 Mô hình tổng hợp LPC
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
20
20
sao cho sai số trung bình bình phương ở khung thời gian đó là nhỏ nhất.
Ta định nghĩa tiếng nói thời gian ngắn và sai số ở thời điểm n là :
)()(
)()(
mnene
mnsms
(1.12)
Sai số bình phương trung bình ở thời điểm n là :
m
nn
meE )(
2
(1.13)
Có thể sử dụng theo định nghĩa 1.10 ở trên và được viết thành :
2
1
)()(
p
k
nknn
kmsamsE
(1.14)
Giải phương trình này để tìm hệ số tiên đoán, ta lấy vi phân theo E
n
theo từng
a
k
và cho
0
k
n
E
, k=1,2, ,p ta có hệ phương trình sau
m
p
k m
nknn
kmsimamsims
1
)())()(
(1.15)
Đây là hệ phương trình tuyến tính, do đó ta dùng phép toán ma trận để giải.
Trước tiên, xem xét ý nghĩa của hai tổng của hệ phương trình (1.15), thấy rằng :
m
nn
msims )()(
và
m
nn
kmsims )()(
(1.16)
Có dạng như hàm tự tương quan. Chúng được xem như hàm tự tương quan
thời gian ngắn nếu đoạn tiếng nói được lấy trong đoạn cửa sổ để
)(ms
n
=0 ngòai
khoảng từ (0-M). Vì
)(ms
n
=0 ngoài khoảng giới hạn của tổng nên
m
nn
msims )()(
là hàm tự tưong quan có độ trễ là i mẫu. Như vậy :
)()()(
0
iRmsims
M
m
nn
(1.17)
Tương tư như trên, dịch giới hạn của tổng :
iM
m
M
m
nn
kiRkimsmsmsims
10
)()()()()(
(1.18)
Hệ phương trình tuyến tính trên có thể viết lại thành :
p
i
i
kiRaiR
1
)(
ˆ
)(
k=1,2 ,p (1.20)
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
21
21
Hay dưới dạng ma trận :
i
akiRiR
)()(
(1.21)
Vì là các hàm tự tương quan nên ta có R(i-k)=r(k-i). Ma trận [R(i-k)] là đối
xứng, tất cả các phần từ của trục đối xứng bằng nhau. Đó chính là dạng của ma trận
Toplitz. Do vậy tính các hệ số tiên đóa trở nên đơn giản hơn nhiêu. Đây là phương
pháp tự tương quan để tính hệ số tiên đoán tuyến tính.
Tổng hợp tiên đoán tuyến tính
Quá trình tổng hợp tiên đoán tuyến tính được thực hiện theo hình 1.8 phần
trên. Một vấn đề cần phải giải quyết khi tổng hợp lại tín hiệu tiếng nói là xác định
hệ số khuyếch đại G sao cho biên độ tín hiệu tổng hợp có mức gần như biên độ tín
hiệu nguyên thủ. Có thể tính được G từ giá trị bình phương của e(m) trong khoảng
m=0 và m=M theo công thức sau :
n
M
m
n
EmeG
0
2
)(
(1.22)
Hay thông qua hàm tự tương quan
p
i
in
iRaRE
1
)()0(
(1.23)
Phương pháp LPC thực hiện việc thay đổi ngôn điệu một cách trực tiếp tương
đối mềm dẻo. Tần số âm cơ bản là một tham số hiện cho mô hình tổng hợp LPC.
Việc thay đổi cao độ tần số cơ bản được thực hiện bằng cách thay đổi tần số cơ bản
F
0
như mong muốn trước khi đưa vào lọc. Độ dài được thay đổi bằng cách cập nhật
các tham số cho bộ tổng hợp tiếng nói theo tần số nhanh hơn với tần số phân tích
khi giảm độ dài và chậm hơn khi kéo dài âm đó ra.
1.3 Các ứng dụng của TTS
TTS được sử dụng cho nhiều ứng dụng khác nhau. Một số lĩnh vực áp dụng
chính của TTS như sau [14]:
Các dịch vụ viễn thông : Các hệ thống TTS đã được sử dụng chính thức trong
ứng dụng trả lời tự động trực tuyến trên nhiều mạng viễn thống hiện đại. Tiêu biểu
là dự án MIVA với các dịch vụ điện thọi kích hoạt bằng âm thanh đa ngữ trực
tuyến. Các hệ thống thông tín tích hợp có khả năng đọc tự động nội dung các thư
điện tử, nội dung các bức fax và các thông tin trên Internet qua máy điện thoại cố
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
22
22
định và di động thông thường. Truy cập thông tin, CSDL qua điện thoại và tự động
tra cứu danh bạ điện thoại hai chiều
Giáo dục ngôn ngữ : Một bộ TTS chất lượng cao có thể được tích hợp với
một hệ thống học được hỗ trợ máy tính qua đó cung cấp một công cụ hữu ích để học
một ngôn ngữ mới.
Hỗ trợ người khuyết tật : Những người mù có thể được lợi nhiều qua các hệ
thống TTS. Họ nhận được các thông tin cần thiết và nếu được phối hợp với một hệ
thống quang học nhận dạng chữ viết OCR thì khả năng truy cập thông tin càng cao
hơn.
Sách điện tử và đồ chơi biết nói : Đây là một thị trường rộng lớn cho các
nhà sản xuất. Thực tế đã có nhiều loại đồ chơi kiểu này xuất hiện
Đa phương tiện, giao tiếp người-máy : Trong một thời gian dài, sự phát triển
của các hệ thống TTS chất lượng cao là một bước cần thiết về phía trung gian thông
tin giữa con người và máy tính hoàn thiện hơn. Đa phương tiện là một sự chuyển
dịch đầu tiên và đầy hứa hẹn theo hướng này.
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
23
23
Chƣơng 2
CƠ SỞ LÝ THUYẾT NGÔN NGỮ TIẾNG VIỆT
Đây là phần cơ sở lý thuyết quan trọng làm nền tảng cho việc phân tích ngữ
âm cũng như chính tả tiếng Việt. Trên cơ sở phân tích một số đặc điểm riêng của
tiếng Việt phục vụ cho việc phân tích văn bản.
2.1 Ngữ âm học
2.1.1 Cơ sở vật lý
Ngôn ngữ là một hệ thống tín hiệu, khi nói vỏ vật chất của tín hiệu là âm
thanh, khi viết nó được thể hiện bằng chữ. Không phải chữ viết lúc nào cũng phản
ảnh chính xác các âm tố tương ứng. Vì vậy các âm tố được biểu diễn bằng những ký
hiệu đặc biệt gọi là phiên âm.
Âm thanh của tiếng nói được tạo thành nhờ bộ máy phát âm của con người
bao gồm: môi, răng, lưỡi, khoang miêng, khoang mũi, yết hầu, thanh hầu, phổi
Mỗi âm được phân biệt bằng các yếu tố sau:
- Độ cao (pitch): phụ thuộc vào tần số dao động. Tần số càng lớn thì âm thanh
càng cao. Tai người có thể ghe được trong giới hạn từ 16-20.Hz.
- Độ vang (loudness): phụ thuộc vào biên độ dao động. Biên độ càng lớn thì
độ vang càng to. Cường độ âm thanh trong ngôn ngữ bảo đảm sự xác minh
trong giao tiếp và là cơ sở để tạo thành các kiểu trọng âm khác nhau
- Độ dài (duration): là khoảng thời gian kéo dài của âm thanh
- Âm sắc: là sắc thái riêng của âm. Âm nói chung là hợp thể của nhiều âm cơ
bản, trong đó âm cơ bản có tần số thấp và các họa âm có tần số bằng bội số
của tần số âm cơ bản. Âm sắc khác nhau do số lượng và tính chất của các họa
âm, mà tính chất của các họa âm bị tác động nhiều bởi hiện tượng cộng hưởng.
2.1.2 Các đặc trƣng về âm tiết tiếng Việt
Âm tiết tiếng Việt có cấu trúc chặt chẽ
Âm tiết tiếng Việt không phải là một khối không thể chia cắt được mà là một
cấu trúc chặt chẽ [4]. Các cứ liệu thực nghiệm cho thấy âm tiết tiếng Việt được cấu
Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn tốt nghiệp
24
24
tạo từ ba thành tố độc lập là : thanh điệu, phần đầu, phần sau:
Thanh điệu là thành phần có chức năng phân biệt các âm tiết với nhau về cao
độ. Nó là yếu tố luôn có mặt trong mọi âm tiết tiếng Việt. Tính độc lập về mặt ngữ
âm của thanh điệu ở chô nó có đường nét và trường độ tương đối ổn định tùy thuộc
vào các loại hình âm tiết
Phần đầu của âm tiết được xác định là Âm đầu, vì ở vị trí này chỉ có một âm
vị tham gia cấu tạo. Phụ âm đầu là yếu tố mở đầu của âm tiết. Tính chất độc lập của
phụ âm đầu thể hiện ở chỗ nó không tham gia vào việc đắp đổi về trường độ giữa
các yếu tố bên trong âm tiết.
Phần sau của âm tiết được gọi là phần Vần. Nó có từ một đến 3 yếu tố được
gọi là âm đệm, âm chính và âm cuối. Âm đệm là một bán nguyên âm chiếm vị trí
trung gian giữa âm đầu và phần còn lại. Âm chính là một nguyên âm âm tiết tính.
Âm cuối là một phụ âm hoặc bán nguyên âm cuối có vai trò kết thúc âm tiết. Để
đảm bảo cho tính chất cố định về trường độ của âm tiết, các yếu tố của phần sau có
sự đắp đổi cho nhau về trường độ: nếu nguyên âm dài thì phụ âm hay bán nguyên
âm cuối ngắn và ngược lại nếu nguyên âm ngắn thì âm cuối sẽ dài. Các yếu tố của
phần sau không có một trường độ cố định và do đó mức độ độc lập về mặt ngữ âm
của chúng thấp hơn so với phụ âm mở đầu âm tiết.
Hình 2.1- Cấu trúc âm tiết
Tóm lại các yếu tố của âm tiết tiếng Việt có mức độ độc lập khác nhau chia
làm hai bậc [4]:
o Bậc 1 là bậc của những yếu tố kết hợp với nhau lỏng lẻo có thể tách rời
nhau ra về mặt hình thái học. Đó là thanh điệu, âm đầu và phần vần.
o Bậc 2 là bậc của những yếu tố kết hợp với nhau khá chặt chẽ, có tính độc
lập thấp. Đó là các yếu tố của phần vần: âm đệm, âm chính và âm cuối.
THANH ĐIỆU
ÂM
ĐẦU
VẦN
Âm
đệm
Âm
chính
Âm
cuối