TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
LUẬN VĂN THẠC SĨ
Nhận biết các phụ âm cuối vô thanh trong tiếng Việt
sử dụng các tham số giả tần số formant
TRẦN BÌNH NHUNG
Chuyên ngành : Kỹ thuật điều khiển và tự động hóa
Giảng viên hướng dẫn: TS. Nguyễn Việt Sơn
Viện:
Điện
HÀ NỘI, 2019
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
LUẬN VĂN THẠC SĨ
Nhận biết các phụ âm cuối vô thanh trong tiếng Việt
sử dụng các tham số giả tần số formant
TRẦN BÌNH NHUNG
Chuyên ngành : Kỹ thuật điều khiển và tự động hóa
Giảng viên hướng dẫn:
TS. Nguyễn Việt Sơn
Viện: Điện
HÀ NỘI, 2019
Chữ ký của GVHD
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn: Trần Bình Nhung
Đề tài luận văn: Nhận biết các phụ âm cuối vô thanh trong tiếng Việt sử
dụng các tham số giả tần số formant
Chuyên ngành: Kỹ thuật điều khiển và tự động hóa
Mã số HV: CB170283
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận
tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày
31/10/2019 với các nội dung sau:
1. Bổ sung phương pháp xác định vị trí điểm bắt đầu, điểm kết thúc trong việc
xác định các tham số âm học tĩnh và âm học động: Trang 50, 51
2. Loại bỏ viền xám xung quanh của các hình vẽ trên Matlab và cải thiện chất
lượng hình vẽ: Trang 26, 27, 28, 31
Bổ sung tên trục tọa độ (thời gian, tần số): Trang 40 ÷ 48
3. Trình bày các bảng biểu, hình vẽ cùng nội dung trên cùng một trang.
Giảng viên hướng dẫn
Hà Nội, Ngày 22 tháng 11 năm 2019
Tác giả luận văn
TS. Nguyễn Việt Sơn
Trần Bình Nhung
CHỦ TỊCH HỘI ĐỒNG
PGS. TS. Nguyễn Quốc Cường
LỜI CAM ĐOAN
Tơi xin cam đoan Luận văn có tên “Nhận biết các phụ âm cuối vô thanh trong
tiếng Việt sử dụng các tham số giả tần số formant” là cơng trình nghiên cứu khoa
học độc lập của riêng tơi. Các số liệu sử dụng phân tích trong luận văn có nguồn
gốc rõ ràng, tin cậy và đã cơng bố theo đúng quy định. Kết quả nghiên cứu trong
luận văn do tơi tự tìm hiểu, phân tích một cách trung thực, khách quan và phù hợp
với thực tiễn của Việt Nam. Các kết quả này chưa từng được công bố trong bất kỳ
nghiên cứu nào khác.
Vậy tôi viết Lời cam đoan này đề nghị Viện Điện, trường Đại học Bách khoa
Hà Nội xem xét để tơi có thể bảo vệ luận văn theo quy định.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 22 tháng 10 năm 2019
Tác giả luận văn
Trần Bình Nhung
MỤC LỤC
LỜI CAM ĐOAN .................................................................................................. 0
LỜI NÓI ĐẦU ....................................................................................................... 1
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ......................................... 4
DANH MỤC CÁC BẢNG..................................................................................... 5
DANH MỤC CÁC HÌNH VẼ................................................................................ 6
CHƯƠNG 1. GIỚI THIỆU CHUNG ..................................................................... 9
1.1 Tổng quan về một số kết quả nghiên cứu trước đây ................................ 9
1.2 Mục tiêu của luận văn ............................................................................ 10
1.3 Cấu trúc luận văn.................................................................................... 11
CHƯƠNG 2. TỔNG QUAN VỀ MƠ HÌNH HĨA ĐẶC TÍNH ĐỘNG CỦA
TIẾNG NÓI .......................................................................................................... 13
2.1 Tổng quan về đặc trưng của tiếng nói .................................................... 13
2.1.1 Q trình tạo tiếng nói .................................................................... 13
2.1.2 Các đặc trưng cơ bản của tiếng nói ................................................ 14
2.2 Phân tích đặc trưng của tiếng nói ........................................................... 16
2.3 Đặc tính tĩnh của tiếng nói ..................................................................... 17
2.3.1 Tổng quan về đặc tính MFCC ........................................................ 18
2.3.2 Hạn chế của đặc tính MFCC........................................................... 21
2.4 Một số nghiên cứu về đặc tính động của tiếng nói ................................ 22
2.5 Tính tốn mơ hình hóa đặc tính động của tiếng nói ............................... 25
2.5.1 Tính SSCF theo định nghĩa cơ bản ................................................. 25
2.5.2 Ảnh hưởng của các bộ lọc băng con lên đặc tính SSCF................. 27
2.5.3 Thiết kế mới của các bộ lọc băng con trong tính tốn SSCF ......... 29
2.6 Kết luận chương ..................................................................................... 32
2
CHƯƠNG 3. SỬ DỤNG THAM SỐ SSCF ĐỀ NHẬN BIẾT, PHÂN BIỆT PHỤ
ÂM CUỐI VÔ THANH /P,T,K/ TRONG TIẾNG VIỆT .................................... 33
3.1 Cấu trúc âm tiết trong tiếng Việt ............................................................ 33
3.1.1 Đặc trưng của ngôn ngữ tiếng Việt................................................. 33
3.1.2 Hệ thống âm vị - âm tiết trong tiếng Việt hiện đại ......................... 34
3.2 Cơ sở dữ liệu tiếng Việt sử dụng khi phân biệt phụ âm cuối vô thanh /p,t,k/
..................................................................................................................... 37
3.2.1 Xây dựng cơ sở dữ liệu tiếng Việt .................................................. 37
3.2.2 So sánh đặc tính SSCF với tần số formant trên cơ sở dữ liệu tiếng
Việt .......................................................................................................... 39
3.3 Phân tích đặc tính phụ âm cuối vơ thanh /p, t, k/ ................................... 49
3.3.1 Phương pháp phân tích ................................................................... 49
3.3.2 Phân tích đặc tính âm học tĩnh........................................................ 51
3.3.3 Phân tích đặc tính âm học động ...................................................... 65
3.4 Kết luận chương ..................................................................................... 73
CHƯƠNG 4. KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN ....................................... 75
4.1 Kết quả ................................................................................................... 75
4.2 Hướng phát triển..................................................................................... 77
TÀI LIỆU THAM KHẢO .................................................................................... 79
3
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
C1V
Cấu trúc âm tiết Phụ âm đầu - Nguyên âm (Consonant1-Vowel)
C1VC2
Cấu trúc âm tiết Phụ âm đầu - Nguyên âm - Phụ âm cuối
(Consonant1-Vowel-Consonant2)
DFT
Discrete Fourier Transform
F
Formant
F0
Tần số dao động cơ bản của tiếng nói
FFT
Fast Fourier Transform
FIR
Finite Impulse Response
Fl
Female
LPC
Linear Predictive Coding
LPCC
Linear Prediction Cepstral Coefficients
MFCC
Mel-Frequency Cepstral Coefficient
MFCCs
Mel-Frequency Cepstral Coefficients
Ml
Male
PLP
Perceptional Linear Predictive Coefficients
SSCF
Spectral Subband Centroid Feature
VC2
Cấu trúc âm tiết Nguyên âm - Phụ âm cuối (Vowel-Consonant2)
V1-V2
Chuyển tiếp Nguyên âm – Nguyên âm (Vowel1-Vowel2)
4
DANH MỤC CÁC BẢNG
Bảng 3-1: Phân loại các phụ âm cuối tiếng Việt .................................................. 37
Bảng 3-2: Các tổ hợp cấu âm có thể có của 13 nguyên âm tiếng Việt với 3 phụ âm
cuối vô thanh /p, t, k/ .......................................................................... 38
Bảng 3-3: Độ dài trung bình và độ lệch chuẩn của các nguyên âm (ms) trong ngữ
cảnh VC2 đối với giọng nữ................................................................. 52
Bảng 3-4: Độ dài trung bình và độ lệch chuẩn của các nguyên âm (ms) trong ngữ
cảnh C1VC2 đối với giọng nữ ............................................................ 54
Bảng 3-5: Độ dài trung bình và độ lệch chuẩn của các nguyên âm (ms) trong cả
hai ngữ cảnh VC2 và C1VC2 đối với giọng nữ ................................. 55
Bảng 3-6: Độ dài chuyển tiếp trung bình(ms) và độ lệch chuẩn của các chuyển tiếp
nguyên âm sang phụ âm cuối vô thanh trong ngữ cảnh VC2 đối với
giọng nữ .............................................................................................. 58
Bảng 3-7: Độ dài chuyển tiếp trung bình (ms) và độ lệch chuẩn của các chuyển
tiếp nguyên âm sang phụ âm cuối vô thanh trong ngữ cảnh C1VC2 đối
với giọng nữ ........................................................................................ 60
Bảng 3-8: Độ dài chuyển tiếp trung bình (ms) và độ lệch chuẩn của các chuyển
tiếp nguyên âm sang phụ âm cuối vô thanh trongtrong cả hai ngữ cảnh
VC2 và C1VC2 đối với giọng nữ ...................................................... 62
Bảng 3-9: Giá trị độ dốc chuyển đổi trung bình (độ) và độ lệch chuẩn (S.d) của các
chuyển tiếp nguyên âm sang phụ âm cuối vô thanh /p, t, k/ trong ngữ
cảnh VC2 đối với giọng nữ................................................................. 67
Bảng 3-10: Giá trị độ dốc chuyển đổi trung bình (độ) và độ lệch chuẩn (S.d) của
các chuyển tiếp nguyên âm sang phụ âm cuối vô thanh /p, t, k/ trong
ngữ cảnh C1VC2 đối với giọng nữ ..................................................... 69
Bảng 3-11: Tổng hợp giá trị độ dốc chuyển đổi trung bình (độ) và độ lệch chuẩn
(S.d) của các chuyển tiếp nguyên âm sang phụ âm cuối vô thanh /p, t,
k/ trong hai ngữ cảnh VC2 và C1VC2 đối với giọng nữ .................... 71
5
DANH MỤC CÁC HÌNH VẼ
Hình 2-1: Mơ hình cơ học cơ quan phát âm người [20]. ..................................... 13
Hình 2-2: Dạng sóng tuần hồn (ngun âm [a]) và dạng sóng khơng tuần hồn
(phụ âm [s]) của tiếng Việt. ................................................................ 15
Hình 2-3: Sơ đồ khối thuật tốn tính tham số MFCC .......................................... 18
Hình 2-4: Băng lọc theo thang Mel ...................................................................... 20
Hình 2-5: Sơ đồ thuật tốn tính SSCF [22]. ......................................................... 25
Hình 2-6: Hình dạng 6 bộ lọc băng con xếp chồng trong thuật tốn tính SSCF [11]
............................................................................................................ 26
Hình 2-7: Trích xuất các tham số SSCF từ tín hiệu tiếng nói theo từng frame [11]
............................................................................................................ 27
Hình 2-8: Kết quả so sánh giữa tần số formant và đặc tính SSCF trong chuyển tiếp
/a-i/ khi sử dụng 6 bộ lọc băng con xếp chồng [11] ........................... 27
Hình 2-9: Hình dạng 5 bộ lọc băng con xếp chồng trong thuật tốn tính SSCF [11]
............................................................................................................ 28
Hình 2-10: Kết quả so sánh giữa tần số formant và đặc tính SSCF trong chuyển
tiếp /a-i/ khi sử dụng 5 bộ lọc băng con xếp chồng [11] .................... 28
Hình 2-11: Xác định bộ lọc băng con với độ dài bằng nhau trên thang tần số Mel:
a) 5 bộ lọc băng con xếp chồng, b) 6 bộ lọc băng con xếp chồng [14]
............................................................................................................ 29
Hình 2-12: Phương pháp xác định bộ lọc băng con mới trên thang tần số Mel: a)
5 bộ lọc băng con xếp chồng, b) 6 bộ lọc băng con xếp chồng,
c) bộ lọc băng con mới ....................................................................... 30
Hình 2-13: Hình dạng của bộ lọc băng con mới với 6 tam giác xếp chồng trong
thuật tốn tính SSCF [11] ................................................................... 31
Hình 2-14: Kết quả so sánh giữa tần số formant và đặc tính SSCF trong chuyển
tiếp /a-i/ khi sử dụng 6 bộ lọc băng con xếp chồng theo thiết kế mới
[11]. ..................................................................................................... 31
Hình 3-1: Sơ đồ cấu trúc âm tiết tiếng Việt [12].................................................. 35
6
Hình 3-2: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong
chuyển tiếp /ap/ của tiếng Việt với: a) giọng nam và b) giọng nữ ..... 40
Hình 3-3: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong
chuyển tiếp /ip/ của tiếng Việt với: a) giọng nam và b) giọng nữ ...... 41
Hình 3-4: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong
chuyển tiếp /up/ của tiếng Việt với: a) giọng nam và b) giọng nữ ..... 42
Hình 3-5: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong
chuyển tiếp /at/ của tiếng Việt với: a) giọng nam và b) giọng nữ ...... 43
Hình 3-6: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong
chuyển tiếp /it/ của tiếng Việt với: a) giọng nam và b) giọng nữ ....... 44
Hình 3-7: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong
chuyển tiếp /ut/ của tiếng Việt với: a) giọng nam và b) giọng nữ ...... 45
Hình 3-8: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong
chuyển tiếp /ak/ của tiếng Việt với: a) giọng nam và b) giọng nữ ..... 46
Hình 3-9: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong
chuyển tiếp /ik/ của tiếng Việt với: a) giọng nam và b) giọng nữ ...... 47
Hình 3-10: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong
chuyển tiếp /uk/ của tiếng Việt với: a) giọng nam và b) giọng nữ ..... 48
Hình 3-11: Cách xác định điểm chuyển tiếp, độ dài nguyên âm và độ dài phần
chuyển tiếp nguyên âm - phụ âm cuối dựa trên đặc tính SSCF.......... 51
Hình 3-12: Độ dài trung bình và độ lệch chuẩn của nguyên âm trong ngữ cảnh âm
tiết VC2 đối với giọng nữ ................................................................... 53
Hình 3-13: Độ dài trung bình và độ lệch chuẩn của nguyên âm trong ngữ cảnh âm
tiết C1VC2 đối với giọng nữ .............................................................. 55
Hình 3-14: Độ dài trung bình và độ lệch chuẩn của nguyên âm trong hai ngữ cảnh
âm tiết VC2 và C1VC2 đối với giọng nữ ........................................... 57
Hình 3-15: Độ dài chuyển tiếp trung bình (ms) và độ lệch chuẩn của các chuyển
tiếp nguyên âm sang phụ âm cuối vô thanh /p, t, k/ trong ngữ cảnh âm
tiết VC2 đối với giọng nữ ................................................................... 59
Hình 3-16: Độ dài chuyển tiếp trung bình (ms) và độ lệch chuẩn của các chuyển
tiếp nguyên âm sang phụ âm cuối vô thanh /p, t, k/ trong ngữ cảnh âm
tiết C1VC2 đối với giọng nữ .............................................................. 61
7
Hình 3-17: Độ dài chuyển tiếp trung bình (ms) và độ lệch chuẩn của các chuyển
tiếp nguyên âm sang phụ âm cuối vô thanh /p, t, k/ trong hai ngữ cảnh
âm tiết VC2 và C1VC2 đối với giọng nữ ........................................... 63
Hình 3-18: Độ dài tương đối (%) giữa nguyên âm và phần chuyển tiếp nguyên âm
- phụ âm cuối vô thanh /p, t, k/ của các nguyên âm /i/, /e/, /o/ và /ɯ/
trong ngữ cảnh âm tiết (C1)VC2 với giọng nữ ................................... 64
Hình 3-19: Cách xác định độ dốc chuyển tiếp của đặc tính SSCF trong q trình
chuyển đổi từ nguyên âm sang phụ âm cuối ...................................... 66
Hình 3-20: So sánh độ dốc chuyển đổi (độ) của các đặc tính SSCF1, SSCF2,
SSCF3 của 3 phụ âm cuối vô thanh /p, t, k/ với cùng một nguyên âm
chính là /a/ - (a), /i/ - (b) và /u/ - (c) trong ngữ cảnh âm tiết VC2 đối với
giọng nữ .............................................................................................. 68
Hình 3-21: So sánh độ dốc chuyển đổi (độ) của các đặc tính SSCF1, SSCF2,
SSCF3 của 3 phụ âm cuối vơ thanh /p, t, k/ với cùng một nguyên âm
chính là /a/ - (a), /i/ - (b) và /u/ - (c) trong ngữ cảnh âm tiết C1VC2 đối
với giọng nữ ........................................................................................ 70
Hình 3-22: So sánh độ dốc chuyển đổi (độ) của các đặc tính SSCF1, SSCF2,
SSCF3 của 3 phụ âm cuối vơ thanh /p, t, k/ với cùng một nguyên âm
chính là /a/ - (a), /i/ - (b) và /u/ - (c) trong hai ngữ cảnh âm tiết VC2 và
C1VC2 đối với giọng nữ .................................................................... 72
8
LỜI NÓI ĐẦU
Luận văn được thực hiện ở Viện Nghiên cứu quốc tế MICA, trường Đại học
Bách Khoa Hà Nội, do TS. Nguyễn Việt Sơn hướng dẫn. Em xin chân thành bày
tỏ lòng biết ơn sâu sắc đến TS. Nguyễn Việt Sơn - người đã tận tình hướng dẫn,
chia sẻ kinh nghiệm và đưa ra những ý kiến đóng góp quý báu cùng sự động viên
tinh thần trong suốt quá trình nghiên cứu và thực hiện luận văn.
Cũng qua đây, em cũng xin gửi lời cảm ơn chân thành đến ThS. Nguyễn
Hằng Phương, TS. Mạc Đăng Khoa, TS. Đỗ Thị Ngọc Diệp và các thầy cô, các
thành viên tại Viện Nghiên cứu quốc tế MICA đã tận tình giúp đỡ, hỗ trợ em xây
dựng cơ sở dữ liệu để hoàn thành luận văn.
Cuối cùng, xin cảm ơn gia đình, bạn bè và đồng nghiệp đã luôn bên cạnh
động viên và tạo điều kiện thuận lợi giúp em trong suốt quá trình học tập và hồn
thành luận văn.
Do thời gian thực hiện có hạn, kiến thức chun mơn cịn nhiều hạn chế nên
luận văn em thực hiện sẽ không tránh khỏi những thiếu sót. Em rất mong nhận
được những ý kiến đóng góp q báu của q thầy cơ và các bạn đọc.
Em xin chân thành cảm ơn!
Hà Nội, ngày 22 tháng 11 năm 2019
Trần Bình Nhung
CHƯƠNG 1. GIỚI THIỆU CHUNG
1.1 Tổng quan về một số kết quả nghiên cứu trước đây
Từ xưa đến nay, tiếng nói vẫn ln được biết đến là cách tự nhiên nhất có thể
sử dụng để giao tiếp giữa người với người. Hơn thế, với những tiến bộ về kỹ thuật,
công nghệ trong lĩnh vực điện tử, khoa học máy tính, tiếng nói cũng dần được đưa
vào sử dụng trong các giao tiếp giữa người và máy giúp dễ dàng kiểm sốt các ứng
dụng phức tạp bằng cách giải phóng đơi tay và tầm quan sát cho các hoạt động
khác. Trong xu hướng đó, việc phát triển các hệ thống tổng hợp và nhận dạng tiếng
nói là một nhu cầu tất yếu vì đây là hai thành phần cơ bản nhất tạo ra các tương
tác ngôn ngữ này.
Tại Việt Nam, nội dung nghiên cứu về nhận dạng tiếng Việt cũng đã được đề
cập đến từ khá sớm. Trong các chương trình nghiên cứu khoa học cơng nghệ, các
bài tốn liên quan đến vấn đề xử lý tiếng nói tiếng Việt (nhận dạng và tổng hợp
tiếng nói) ln là một trong những nội dung được ưu tiên.
Trong nghiên cứu về các phụ âm cuối vô thanh trong tiếng Việt, TS. Nguyễn
Việt Sơn đã chỉ ra rằng: (1) đối với 3 phụ âm cuối vô thanh /p, t, k/, khi xét trong
cùng một ngữ cảnh nguyên âm đứng trước, các đặc tính âm học tĩnh bao gồm độ
dài nguyên âm và thời gian chuyển tiếp của các tần số formant F1, F2, F3 tương
đối ổn định và không cho phép phân biệt các phụ âm cuối vô thanh; (2) trong tất
cả các ngữ cảnh (C1)VC2, các giá trị đặc tính âm học động (độ nghiêng của tần số
formant trong phần chuyển tiếp) cho phép phân biệt và nhận biết các phụ âm cuối
vô thanh /p, t, k/. Kết quả đánh giá thống kê đã chứng minh, trong cùng một ngữ
cảnh của nguyên âm trong cấu trúc âm tiết (VC2 hoặc C1VC2), các phụ âm cuối
vơ thanh /p, t, k/ có thể được phân biệt bởi độ nghiêng của một trong ba tần số
formant F1, F2, F3, trong đó độ nghiêng của tần số formant F2 có độ phân biệt tốt
nhất. Qua các thí nghiệm về nhận thức (perception test), kết quả cũng cho thấy,
bằng cách thay đổi độ dốc chuyển tiếp của các tần số formant F2 và F3, hầu hết
người nghe đều có thể nhận ra các phụ âm cuối vơ thanh /p, t, k/ trong tổ hợp VC2
[19].
Tuy nhiên, trong tiếng nói tự nhiên, việc đo đạc đặc tính biến đổi tần số formant
thường gặp rất nhiều khó khăn, đặc biệt là đối với các phụ âm. Vì vậy, một bộ
9
tham số mới đã được đề xuất sử dụng như các tham số “giả tần số formant” được
gọi là tham số SSCF (Spectral Subband Centroid Features).
Nghiên cứu về các đặc tính động của tiếng nói trong tiếng Việt, TS. Trần Thị
Anh Xn đã đề xuất mơ hình hóa các tính năng giọng nói và âm thanh với cách
tiếp cận tương tự với tần số formant trong chuyển tiếp nguyên âm - nguyên âm,
được gọi là các tham số SSCF. Dựa trên định nghĩa và cơng thức tính của các tham
số SSCF [7], cơ đã xây dựng được thuật tốn tính toán các tham số SSCF một cách
đơn giản với một vài thay đổi nhỏ liên quan đến bộ lọc băng con. Với kết quả tính
tốn tham số SSCF, một số phân tích trên nguyên âm đã được thực hiện để chỉ ra
rằng các tham số SSCF tương tự với các tần số formant, đồng thời vẫn có thể tính
tốn và biểu diễn trong đoạn chuyển tiếp của các phụ âm. Theo đó, các đặc tính
SSCF có thể thay thế cho các tần số formant và hoạt động như các tham số “giả
tần số formant”. Bên cạnh đó, cơ cũng đề xuất một phương pháp có thể mơ hình
hóa âm học và đặc tính động của tiếng nói từ các tham số SSCF (góc SSCF) được
sử dụng để tính tốn trong đoạn chuyển tiếp nguyên âm - nguyên âm. Nghiên cứu
này đã cho thấy việc trích chọn đặc trưng động của âm thanh có thể là một lợi thế
lớn cho nhận dạng tiếng nói tự động vì nó cho phép thiết kế một hệ thống nhận
dạng tiếng nói độc lập với người nói [22].
Một nghiên cứu khác liên quan đến các tham số SSCF của ThS. Nguyễn Hằng
Phương cũng đã góp phần khẳng định khả năng thay thế tần số formant bằng các
tham số SSCF. Đặc biệt, những cải tiến về độ rộng của các bộ lọc băng con trong
thuật toán tính SSCF đã mang lại kết quả tốt hơn, các tham số SSCF đã có hình
dạng và phạm vi giá trị tương đồng so với tần số formant trong các chuyển tiếp
nguyên âm – nguyên âm [11].
1.2 Mục tiêu của luận văn
Với mục đích thử nghiệm, đánh giá việc sử dụng các tham số SSCF với vai trò
như các tham số “giả tần số formant” để nhận biết, phân biệt các phụ âm cuối vô
thanh /p, t, k/ trong tiếng Việt, luận văn sẽ thực hiện ba mục tiêu chính:
Đầu tiên, luận văn sẽ xây dựng một bộ cơ sở dữ liệu tiếng nói tiếng Việt dựa
trên các thống kê về khả năng tổ hợp của 13 nguyên âm tiếng Việt với các phụ âm
cuối vô thanh /p, t, k/ trong các ngữ cảnh khác nhau của cấu trúc âm tiết tiếng Việt
10
(C1)VC2. Từ đó tính tốn các tham số “giả tần số formant” (SSCF) với 3 phụ âm
cuối vô thanh /p, t, k/ trên cơ sở dữ liệu thu được để đưa ra những đánh giá về khả
năng thay thế tần số formant của các tham số SSCF trong các chuyển tiếp nguyên
âm - phụ âm cuối vô thanh.
Thứ hai, để xác định vai trị của các phụ âm cuối vơ thanh /p, t, k/ trong quá
trình phối hợp với các nguyên âm chính trong cấu trúc âm tiết tiếng Việt, luận văn
thực hiện tính tốn, phân tích các đặc tính âm học tĩnh bao gồm độ dài nguyên âm
chính và thời gian chuyển tiếp từ nguyên âm chính sang các phụ âm cuối.
Cuối cùng, để đánh giá việc sử dụng các tham số SSCF trong việc nhận biết các
phụ âm cuối vô thanh /p, t, k/, luận văn sẽ thực hiện phân tích các đặc tính âm học
động của âm tiết tiếng Việt bằng việc tính tốn và so sánh độ dốc chuyển đổi của
đặc tính SSCF từ nguyên âm sang phụ âm cuối vô thanh trong ngữ cảnh âm tiết
(C1)VC2.
1.3 Cấu trúc luận văn
Luận văn được thực hiện bao gồm bốn chương.
Chương 1 là cái nhìn bao quát về một số cơng trình nghiên cứu có liên quan đến
lĩnh vực nhận dạng tiếng nói trong tiếng Việt, tạo tiền đề và cơ sở khoa học cho
việc nghiên cứu thử nghiệm, đánh giá việc sử dụng tham số SSCF để nhận biết,
phân biệt các phụ âm cuối vô thanh /p, t, k/ trong tiếng Việt.
Chương 2 đưa ra những nghiên cứu khái quát về một số đặc trưng cơ bản của
tiếng nói và phương pháp mơ hình hóa đặc tính động của tiếng nói. Những vấn đề
chung nhất của tiếng nói từ q trình tạo ra tiếng nói, những đặc trưng âm thanh
cơ bản của tiếng nói cho đến những phân tích, tính tốn mơ hình đặc tính tĩnh và
đặc tính động của tiếng nói sẽ được nêu chi tiết trong chương này.
Chương 3 trình bày ba nội dung cơ bản liên quan đến việc sử dụng các tham số
SSCF đối với dữ liệu tiếng Việt để thử nghiệm khả năng nhận biết, phân biệt các
phụ âm cuối vô thanh /p, t, k/ trong tiếng Việt qua các tham số “giả tần số formant”.
Một cơ sở dữ liệu tiếng Việt dựa trên các thống kê về khả năng tổ hợp của 13
nguyên âm với 3 phụ âm cuối vô thanh /p, t, k/ được xây dựng để tính tốn các
tham số SSCF với phụ âm cuối vô thanh và kiểm chứng, đánh giá sự tương đồng
của các tham số SSCF với tần số formant trên cơ sở dữ liệu tiếng Việt. Tiếp theo
11
là các phân tích, tính tốn đặc tính âm học tĩnh của âm tiết bao gồm độ dài nguyên
âm chính và thời gian chuyển tiếp nguyên âm - phụ âm cuối. Và nội dung cuối
cùng là phân tích các đặc tính âm học động của âm tiết tiếng Việt bằng việc tính
tốn và so sánh độ dốc chuyển đổi của đặc tính SSCF từ ngun âm sang phụ âm
cuối vơ thanh, từ đó đánh giá việc sử dụng các tham số SSCF trong việc nhận biết
các phụ âm cuối vô thanh /p, t, k/.
Toàn bộ kết quả nghiên cứu của luận văn sẽ được tổng hợp ngắn gọn trong
chương 4. Từ những phân tích về kết quả đạt được và những hạn chế, luận văn sẽ
đề xuất một số nội dung nghiên cứu có thể phát triển trong tương lai.
12
CHƯƠNG 2. TỔNG QUAN VỀ MƠ HÌNH HĨA ĐẶC TÍNH ĐỘNG
CỦA TIẾNG NÓI
2.1 Tổng quan về đặc trưng của tiếng nói
2.1.1 Q trình tạo tiếng nói
Tiếng nói được phân biệt với các âm thanh khác bởi các đặc tính âm học có
nguồn gốc từ cơ chế tạo ra tiếng nói của con người. Khơng khí bị ép từ phổi lên đi
qua các dây thanh âm dao động (theo sự điều khiển của não bộ) và đi dọc theo cơ
quan phát âm sẽ tạo ra tiếng nói. Bên cạnh sự dao động của các dây thanh âm, tiếng
nói tạo ra cịn phụ thuộc vào sự thay đổi hình dáng của cơ quan phát âm bao gồm:
vòm họng, lưỡi, miệng và khoang mũi. Trong quá trình phát âm người ta thấy rằng
hình dáng cơ quan phát âm thay đổi chậm, vì vậy trong một khoảng thời gian ngắn
10-30 ms, sự thay đổi hình dạng này là khơng đáng kể. Khi đó ta có thể biểu diễn
cơ quan phát âm bằng một hệ thống tuyến tính bất biến theo thời gian. Điều đó có
nghĩa là trong khoảng thời gian phát âm một âm vị, các tham số đặc trưng của hệ
thống phát âm sẽ gần như không thay đổi và chúng sẽ thay đổi rất lớn khi chuyển
từ âm vị này sang âm vị khác.
Hình 2-1: Mơ hình cơ học cơ quan phát âm người [20].
Tiếng nói con người tạo ra được chia làm hai loại âm: âm hữu thanh và âm vô
thanh. Những rung động đều đặn của dây thanh âm sẽ tạo ra âm thanh bán tuần
hoàn mà hầu như lặp lại cùng chu kỳ được gọi là âm hữu thanh. Vùng âm hữu
thanh chiếm thành phần chủ yếu của tín hiệu tiếng nói, chứa đựng năng lượng,
mang nhiều thơng tin nhất và chiếm thời gian lớn nhất trong quá trình nói. Phần
tín hiệu có dạng giống như tạp âm nhiễu có biên độ ngẫu nhiên được gọi là âm vơ
13
thanh. Âm vô thanh được tạo ra do sự co thắt, thay đổi đột ngột hình dạng của
tuyến âm và luồng khí khơng đồng đều chạy qua dây thanh âm với tốc độ lớn tạo
nên nhiễu loạn. Năng lượng do nguồn nhiễu loạn tạo ra sẽ kích thích tuyến âm tạo
nên âm vô thanh, và năng lượng của âm vô thanh thường nhỏ hơn so với âm hữu
thanh.
2.1.2 Các đặc trưng cơ bản của tiếng nói
2.1.2.1 Tần số cơ bản và phổ tần
Thể tích khơng khí đi qua thanh mơn trong một đơn vị thời gian (khoảng 1cm3/s)
được gọi là thơng lượng
Khi dây thanh rung với chu kỳ T0 thì thơng lượng của nó cũng biến đổi tuần
hồn theo chu kỳ này và người ta gọi T0 là chu kỳ cơ bản của tiếng nói.
Tần số dao động cơ bản của tiếng nói F0 (được tính theo cơng thức F0 = 1/T0)
thay đổi theo thanh điệu trong tiếng nói tiếng Việt và nó cũng ảnh hưởng đến ngữ
điệu của câu nói. Ngồi ra, vì F0 phụ thuộc vào khối lượng và sự căng của đơi dây
thanh do đó giá trị của tần số F0 sẽ thay đổi theo giới tính và lứa tuổi của người
phát âm. Thông thường, dây thanh của phụ nữ và trẻ em mảnh hơn và căng hơn
của đàn ơng hay người già do đó âm phát ra của phụ nữ và trẻ em sẽ có tần số cao
hơn. Kết quả dưới đây là khoảng biến thiên tần số cơ bản F0 theo các giọng
nam/nữ/trẻ em, trong đó giá trị trung bình đối với nam là 130Hz, nữ là 220Hz, và
trẻ em là 270Hz [10].
Người lớn nam: 80 - 200 Hz
Người lớn nữ:
150 - 300 Hz
Trẻ em:
200 - 500 Hz
Tiếng nói khi biểu diễn dưới dạng sóng theo thời gian sẽ là tín hiệu ngẫu nhiên.
Tuy nhiên, khi xét trong từng khoảng thời gian đủ nhỏ (10 - 30ms) thì tín hiệu
tiếng nói sẽ có dạng tuần hồn hoặc khơng tuần hồn. Các ngun âm có dạng
sóng tuần hồn, âm được thốt ra tự do (khơng bị cản trở), cịn các phụ âm thì có
sóng âm khơng tuần hoàn do âm phát ra bị cản trở tại các vị trí cấu âm (xem Hình
2-2).
14
a)
b)
Hình 2-2: Dạng sóng tuần hồn (ngun âm [a]) và dạng sóng khơng tuần
hồn (phụ âm [s]) của tiếng Việt.
2.1.2.2 Cao độ và cường độ
Hai thuộc tính sinh âm nổi bật giữ vị trí quan trọng trong việc miêu tả giọng nói
có thể kể đến là cao độ và cường độ.
“Cao độ là đại lượng cảm thụ, tương quan với tần số của sóng âm; trong tiếng nói,
cao độ tương quan với tần số âm thanh cơ bản của dây thanh” [15].
Cao độ thể hiện bằng vùng tần số cơ bản F0 là đáp ứng của sự rung động các
dây thanh âm, nó phản ánh những sự khác nhau có tính chất sinh học về thanh
quản, đặc biệt ở chiều dài và các cấu trúc cơ của các khe thanh ở nam giới, nữ giới
và trẻ em. Tần số càng lớn âm thanh phát ra càng cao. Cao độ thường được đo theo
tỉ lệ, ví dụ như tần số dao động của thanh quản trong q trình sinh âm, có thể được
đo trực tiếp từ dạng sóng tiếng nói.
“Cường độ - trị số chỉ năng lượng sóng âm đạt được, đo bằng decibel. Cường
độ tương quan với đại lượng về mặt cảm thụ là độ vang (loudness)” [15].
Cường độ của âm thanh không ảnh hưởng đến những đặc điểm về phẩm chất,
tức là về âm sắc của nguyên âm. Cường độ của nguyên âm tùy thuộc trước hết vào
mức độ to nhỏ của tồn câu nói, ngồi ra cũng tùy thuộc vào vị trí của nguyên âm
đối với trọng âm từ và trọng âm câu. Nếu trọng âm là trọng âm lực thì ngun âm
có trọng âm sẽ mạnh hơn ngun âm khơng có trọng âm, và ngược lại. Ngồi ra,
cường độ của nguyên âm còn gắn liền với phẩm chất của nó; chẳng hạn các nguyên
âm hẹp thường yếu hơn nguyên âm rộng. Cường độ không phải bất biến trong suốt
thời gian phát âm nguyên âm, nhưng phần nhiều sự thay đổi cường độ lệ thuộc vào
15
những điều kiện nhất định như vị trí của nguyên âm so với trọng âm, sự tiếp cận
với các loại phụ âm khác nhau… Song cũng có những ngơn ngữ trong đó sự thay
đổi về cường độ ở bên trong ngun âm có một tính chất độc lập.
Nghiên cứu cường độ là một cơng việc khơng đơn giản nhưng có thể thực hiện
bằng những phương pháp ngữ âm học thực nghiệm. Trên quan điểm ngữ âm học
chỉ cần khảo sát cường độ tương đối. Nghiên cứu cường độ tương đối là xác định
xem nguyên âm nào trong từ mạnh hơn nguyên âm nào yếu hơn.
2.1.2.3 Trường độ
Trường độ là độ dài của âm thanh hay nói cách khác là thời gian diễn ra dao
động sóng âm từ lúc bắt đầu đến khi kết thúc tạo nên sự tương phản giữa các bộ
phận của lời nói. Nó là yếu tố tạo nên sự đối lập giữa nguyên âm này với nguyên
âm khác trong một số ngôn ngữ.
Đơn vị đo trường độ tính bằng mili giây (ms). Khơng có quy luật chung về
trường độ tất yếu cho mọi ngôn ngữ. Quy luật duy nhất có thể được xem là phổ
biến đó là trường độ của nguyên âm phụ thuộc vào nhịp điệu nói. Đối với mỗi ngơn
ngữ trường độ trung bình của một nguyên âm ở một vị trí nhất định là một đại
lượng tương đối cố định. Trường độ thường phụ thuộc vào những điều kiện ngữ
âm, hay nói cách khác là phụ thuộc vào vị trí ngữ âm. Trường độ trong âm tiết
khép và trong âm tiết mở nhiều khi khác nhau, nó cũng có thể phụ thuộc vào tính
chất của phụ âm đi sau (hữu thanh hay vô thanh), vào số lượng phụ âm đi sau, vào
vị trí của trọng âm và vào số âm tiết có trong từ. Ngoài ra, trường độ của nguyên
âm cũng phụ thuộc một phần vào phẩm chất của nó.
2.2 Phân tích đặc trưng của tiếng nói
Tín hiệu tiếng nói ln biến thiên theo thời gian và có sự khác biệt lớn giữa
những người nói khác nhau, tốc độ nói, ngữ cảnh và mơi trường âm học khác nhau.
Do vậy, việc xác định những thơng tin biến thiên nào của tiếng nói là có ích và
những thơng tin nào là khơng có ích đối với nhận dạng tiếng nói là rất quan trọng.
Các nghiên cứu về nhận dạng tiếng nói đã chỉ ra rằng tín hiệu tiếng nói được biểu
diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term
amplitude spectrum). Nhờ vậy ta có thể trích ra các đặc trưng của tiếng nói từ
16
những khoảng thời gian ngắn và dùng các đặc trưng này làm dữ liệu hữu ích trong
q trình nhận dạng tiếng nói [11].
Nếu xét trong thời gian dài thì tín hiệu tiếng nói là một tín hiệu ngẫu nhiên,
nhưng trong một khoảng thời gian đủ ngắn 10 – 30ms thì tín hiệu tiếng nói có thể
được coi là tín hiệu ổn định (về năng lượng, tần số...). Do vậy, trong các hệ thống
phân tích âm thanh, tín hiệu tiếng nói sẽ được phân tích, tính tốn trong các khung
thời gian (Frame) có độ dài giống nhau từ 10 - 30ms.
Năng lượng thời gian ngắn của tiếng nói được tính bằng cách gán tín hiệu tiếng
nói vào trong các frame có N mẫu. Sau đó, năng lượng thời gian ngắn sẽ được tính
theo cơng thức:
𝑛+𝑁+1
𝐸𝑚 = ∑ [𝑥 (𝑛)𝑊 (𝑛 − 𝑚)]2
(2.1)
𝑛=𝑚
Trong đó, W(n) là hàm cửa sổ chữ nhật, được định nghĩa như sau:
𝑊 (𝑛 ) = {
1,
0,
0≤𝑛<𝑁
𝑛≥𝑁
(2.2)
Năng lượng thời gian ngắn thường được dùng để phân tich điểm bắt đầu và điểm
kết thúc của tín hiệu tiếng nói. Tín hiệu tiếng nói thường được đặc trưng bởi năng
lượng thời gian ngắn, và đó chính là các hệ số phổ trung tâm theo thang tần số Mel
(MFCCs - Mel-Frequency Cepstral Coefficients) sẽ được giới thiệu chi tiết hơn ở
phần tiếp theo.
2.3 Đặc tính tĩnh của tiếng nói
Năm 1952, hai nhà khoa học Gordon E.Peterson và Harold L.Barney đã công
bố nghiên cứu của họ về phương pháp điều khiển được sử dụng trong một nghiên
cứu về các nguyên âm [10]. Đây là một bài viết mang tính bước ngoặt, trong đó
các nguyên âm có thể được đặc trưng bởi 2 hoặc 3 tần số formant đầu tiên. Chúng
có thể được biểu diễn trong mặt phẳng tần số F1 - F2 bằng một dấu chấm. Fant
cũng đã đưa ra một nghiên cứu ngữ âm ban đầu về dữ liệu quang phổ dựa trên đặc
trưng vị trí, cách thức và phân bố thời gian của các thành phần mang thơng tin hữu
ích [4]. Các đặc trưng đó chính là đặc tính tĩnh của tín hiệu tiếng nói.
Cho đến nay, có rất nhiều phương pháp khác nhau để thực hiện trích chọn đặc
trưng mà có thể làm nổi bật lên các cách biểu diễn khác nhau của tín hiệu tiếng
17
nói. Những đặc trưng này có thể là các đặc tính tĩnh quan trọng. Đó là bởi vì những
đặc trưng này hầu hết được trích xuất từ phổ tín hiệu, tại đó nguồn tạo tiếng nói
của con người sẽ điều khiển phổ của tín hiệu và tai người sẽ đóng vai trị như cơ
quan phân tích phổ. Một vài đặc tính tĩnh có thể kể đến như: Cường độ, mã hóa dự
đốn tuyến tính (LPC - Linear Predictive Coding), các hệ số dự đốn tuyến tính
cảm nhận (PLP - Perceptional Linear Predictive Coefficients), các hệ số phổ trung
tâm theo thang tần số Mel (MFCCs - Mel-Frequency Cepstral Coefficients), các
hệ số phổ trung tâm dự đốn tuyến tính (LPCC - Linear Prediction Cepstral
Coefficients), các đặc trưng sóng cơ bản (Wavelet Based Features) và các đặc
trưng hệ số ma trận không âm (Non-Negative Matrix Factorization features).
Trong số những đặc tính đó, MFCC là phương pháp trích chọn đặc trưng phổ biến
nhất được sử dụng trong các hệ thống nhận dạng tiếng nói.
2.3.1 Tổng quan về đặc tính MFCC
Phương pháp trích chọn đặc trưng này được Bridle và Brown đề cập lần đầu
tiên vào năm 1974 và được phát triển xa hơn bởi Mermelstein vào năm 1976, sau
đó nó trở thành cơng nghệ tiên tiến nhất. Các bước tính tốn hệ số MFCC được thể
hiện như trên Hình 2-3.
Hình 2-3: Sơ đồ khối thuật tốn tính tham số MFCC
Để trích xuất một vector đặc trưng bao gồm tất cả các thông tin về thông điệp
ngôn ngữ, MFCC sẽ sao chép một vài phần về q trình tạo ra tiếng nói và sự cảm
nhận tiếng nói của con người trong các dải tần số khác nhau. Với tần số thấp (dưới
100Hz), cảm nhận của tai người là tuyến tính nhưng với tần số cao thì nó biến thiên
theo hàm Logarit. Do vậy, bộ lọc mà tuyến tính với tần số thấp và biến thiên theo
hàm Logarit với tần số cao sẽ được sử dụng để lọc các đặc trưng âm học quan trọng
18
của tiếng nói [1] [3]. MFCC cũng sẽ mơ phỏng nhận biết Logarit về cao độ và
cường độ âm của hệ thống thính giác con người và cố gắng loại bỏ các đặc tính
phụ thuộc người nói bằng cách loại trừ tần số cơ bản và các thành phần sóng hài
của chúng.
Tín hiệu tiếng nói đã được số hóa s(n) được đưa vào hệ thống số bậc thấp (điển
hình là bộ lọc FIR bậc 1) để san bằng phổ tín hiệu và giảm thiểu sự ảnh hưởng
không tốt của chúng đến độ chính xác hữu hạn, gây ảnh hưởng về sau trong q
trình xử lý tín hiệu. Hệ thống xử lý tín hiệu số được sử dụng trong khâu tiền xử lý
như một yếu tố cố định hay đáp ứng chậm (ví dụ như để tính giá trị trung bình các
điều kiện chuyển đổi, nhiễu nền hay thậm chí là phổ tín hiệu trung bình). Có lẽ hệ
thống tiền xử lý được sử dụng rộng rãi nhất chính là hệ thống bậc 1 được mô tả
như sau:
𝐻 (𝑧) = 1 − 𝑎. 𝑧 −1 với 0.9 ≤ 𝑎 ≤ 1.0
(2.3)
Khi đó, đầu ra s ̃(n) của khâu tiền xử lý sẽ có quan hệ với đầu vào s(n) theo
phương trình:
𝑠̃ (𝑛) = 𝑠(𝑛) − 𝑎. 𝑠(𝑛 − 1)
(2.4)
Giá trị của a thường nằm xung quanh 0.97
Tiếp theo, tín hiệu s ̃(n) được chia vào các frame có N mẫu với các frame lân
cận được tách biệt bởi M mẫu. Frame đầu tiên bao gồm N mẫu tín hiệu tiếng nói
đầu tiên; frame thứ hai bắt đầu với M mẫu sau mẫu đầu tiên, và lặp lại bởi (N-M)
mẫu. Tương tự như vậy, frame thứ ba bắt đầu với 2M mẫu sau frame đầu tiên (hoặc
M mẫu sau frame thứ hai) và xếp chồng với (N-2M) mẫu. Tiến trình này tiếp tục
cho đến khi tồn bộ tiếng nói được tính tốn bởi 1 hoặc nhiều frame.
Bước tiếp theo là lấy hàm cửa sổ đối với mỗi frame riêng lẻ để giảm thiểu nhất
sự khơng liên tục của tín hiệu ở điểm bắt đầu và điểm kết thúc của mỗi frame. Nếu
ta định nghĩa hàm của sổ là w(n), 0 ≤ n ≤ N-1, thì kết quả của việc tính hàm của sổ
sẽ là tín hiệu có dạng:
𝑥
̃𝑘 (𝑛) = 𝑥𝑘 (𝑛). 𝑤(𝑛)
0≤𝑛 ≤𝑁−1
(2.5)
Cửa sổ thông dụng nhất được sử dụng là cửa sổ Hamming được biểu diễn theo
công thức:
19
2πn
)
𝑤(𝑛) = 0.54 − 0.46. cos (
N−1
(2.6)
0≤𝑛 ≤𝑁−1
Đầu ra sau khi nhân với hàm cửa sổ sẽ là đầu vào của tiến trình FFT (biến đổi
Fourier nhanh). Tiến trình này được sử dụng để chuyển đổi từng frame với N mẫu
thành dải tần số. FFT là thuật toán nhanh được sử dụng để tính tốn DFT (biến đổi
Fourier rời rạc) như sau:
𝑁−1
2π
X(k) = ∑ x(n). 𝑒 −j N nk j2 = −1
(2.7)
𝑘=0
Sau đó, tín hiệu được đưa vào băng lọc (filter bank) theo thang Mel. Như ta đã
biết, tai người phân biệt được các tần số khơng tuyến tính thơng qua phổ âm thanh.
Băng lọc là một phép biến đổi Fourier đơn giản dựa trên cơ sở các băng lọc được
thiết kế để tạo ra độ phân giải bằng nhau một cách ước lượng trên thang Mel. Hình
2-4 mơ tả định dạng chung của băng lọc này.
Hình 2-4: Băng lọc theo thang Mel
Có thể thấy các băng lọc sử dụng là dạng tam giác, chúng có khoảng cách bằng
nhau trong thang Mel với công thức chuyển đổi từ thang tần số Hz sang thang tần
số Mel được định nghĩa như sau:
𝑀𝑒𝑙(𝑓) = 2595. 𝑙𝑜𝑔10 (1 +
𝑓
)
700
(2.8)
Về cơ bản, các bộ lọc tam giác được trải rộng qua dải tần số từ 0 đến tần số
Nyquist. Tuy nhiên giới hạn băng thông (từ LOFREQ đến HIFREQ) thường hữu
20
ích để loại bỏ các thành phần tần số không mong muốn hoặc lọc các thành phần
được định trước trong vùng tần số mà ở đó có năng lượng tín hiệu khơng hữu ích.
Một ví dụ là LOFREQ = 300Hz và HiFREQ = 3400Hz có thể được sử dụng để xử
lý tín hiệu tiếng nói thoại.
Biểu diễn phổ trung tâm (cepstral) của phổ tiếng nói sẽ mang lại sự minh họa
tốt nhất về các đặc trưng phổ địa phương của tín hiệu để phục vụ cho phân tích
frame. Một cải tiến trong cách biểu diễn phổ trung tâm có thể thực hiện bằng cách
mở rộng việc phân tích để bao gồm cả những thông tin về đạo hàm của phổ trung
tâm theo thời gian. Cơng thức tính được biểu diễn như sau:
𝑄
∆𝐶̂𝑖 =
∑𝜃=1 θ(ĉ
i+θ − ĉ
i−θ
2 ∑𝑄𝜃=1 𝜃 2
1≤𝑖≤𝑄
(2.9)
2.3.2 Hạn chế của đặc tính MFCC
Mặc dù được sử dụng rất rộng rãi trong các hệ thống nhận dạng tiếng nói tự
động nhưng vector đặc tính MFCC vẫn có một số điểm hạn chế:
Trước hết, có một giả định khi tính các hệ số phổ trung tâm là tần số cơ bản thấp
hơn nhiều so với các thành phần tần số khác của thông điệp ngôn ngữ. Giả định
này rất quan trọng bởi vì nếu khơng có nó, việc loại trừ tần số cơ bản và các thành
phần sóng hài của nó sẽ khơng thực hiện được, trong khi nó chứa đựng tồn bộ
thơng tin về thơng điệp ngơn ngữ. Tuy nhiên, rất nhiều người nói là giọng nữ sẽ
khơng đáp ứng được giả định này. Do vậy, rất khó để xác định được rằng các đặc
tính phụ thuộc người nói có thể bị loại bỏ đối với tất cả người nói hay khơng [6].
Một hạn chế khác của đặc tính MFCC là nằm ở bước tính FFT ngược, hiệu
chỉnh bù tham số cosin bậc thấp của phổ log được thực hiện hồn tồn trên cơ sở
tốn học mà khơng liên quan gì đến tiếng nói [17]. Chỉ có 2 hệ số phổ trung tâm
đầu tiên là C0 và C1 là có diễn giải phù hợp. Đặc tính MFCC đầu tiên (C0) mang
thơng tin về năng lượng của tín hiệu (nghĩa là có hiệu chỉnh bù với cosin tần số 0)
và C1 có một diễn giải phù hợp là để chỉ sự cân bằng năng lượng của toàn bộ các
thành phần tần số cao và thấp (dải tần thấp được hiệu chỉnh bù dương trong nửa
đầu tiên của chu kỳ cosin đơn và ngược lại với nửa chu kỳ tiếp theo). Các hệ số
phổ trung tâm khác thì khơng có diễn giải nào phù hợp ngồi việc chúng mang
thơng tin chi tiết về phổ tín hiệu để phân biệt các âm thanh. Bởi vì việc thiếu diễn
21