..
Hà Nội – Năm 2010
Mẫu 1b
MẪU TRANG PHỤ BÌA LUẬN VĂN
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
--------------------------------------DỖN THANH BÌNH
CÁC PHƯƠNG PHÁP MÃ HĨA THOẠI TRONG CÁC BỘ VOCODER
Chuyên ngành : KỸ THUẬT ĐIỆN TỬ
LUẬN VĂN THẠC SĨ KHOA HỌC
KỸ THUẬT ĐIỆN TỬ
NGƯỜI HƯỚNG DẪN KHOA HỌC :
1. TS. NGUYỄN HỮU TRUNG
Lời Cam Đoan
Tôi xin cam đoan luận văn là do bản thân tôi thực hiện dựa trên những kiến
thức đã được học và dựa trên những kinh nghiệm thực tiễn trong quá trình làm việc,
dưới sự hướng dẫn của TS.Nguyễn Hữu Trung. Tơi xin chịu hồn tồn trách nhiệm
về nội dung của bản luận văn này.
Hà Nội, ngày 25 tháng 10 năm 2010
Học Viên
Dỗn Thanh Bình
i
Mục Lục
Trang
Trang phụ bìa
Mục lục
Lời cam đoan
i
Danh mục các ký hiệu, các chữ viết tắt
ii
Danh mục bảng
iii
Danh mục các hình vẽ, đồ thị
iv
Mở Đầu
vi
Chương 1 – CÁC ĐẶC TRƯNG CƠ BẢN CỦA TÍN HIỆU THOẠI
1
1.1 Đặc trưng của âm thanh tương tự
1
1.2 Q trình tạo ra tiếng nói
3
1.2.1 Mơ hình hóa q trình tạo ra tiếng nói
3
1.2.2 Tính chất cơ bản của q trình tạo tiếng nói
4
Chương 2 – TỔNG QUAN VỀ Q TRÌNH XỬ LÝ TÍN HIỆU THOẠI
2.1 Hệ thống số xử lý âm thanh
5
5
2.1.1 Mơ hình hóa tín hiệu âm thanh
5
2.1.2 Kiến trúc hệ thống số xử lý âm thanh
6
2.1.3 Mơ hình xử lý âm thanh
9
2.2 Tổng quan các bước xử lý tín hiệu thoại
19
2.2.1 Lấy mẫu
19
2.2.2 Lượng tử hóa
20
2.2.3 Mã hóa
20
2.2.4 Nén giọng nói
20
2.3 Các tiêu chí đánh giá
20
2.3.1 Các tiêu chuẩn đánh giá một bộ Codec
20
2.3.2 Chỉ tiêu đánh giá thuật tốn mã hóa
21
Chương 3 – CÁC PHƯƠNG PHÁP XỬ LÝ TÍN HIỆU THOẠI
22
3.1 Mã hóa dạng sóng
22
3.1.1 PCM – G711
23
3.1.2 DM
24
3.1.2 DPCM
25
3.1.3 ADPCM – G726
25
3.2 Mã hóa tiếng nói kiểu Vocoder
26
3.3 Mã hóa lai
27
Chương 4 – PHÂN TÍCH DỰ ĐỐN TUYẾN TÍNH
4.1 Dự đốn tuyến tính
28
28
4.1.1 Bài tốn dự đốn tuyến tính
29
4.1.2 Dự đốn tuyến tính trong xử lý thoại
31
4.2 Mơ hình xử lý tín hiệu thoại
32
4.3 Cấu trúc của giải thuật dùng mơ hình LPC
35
4.3.1 Bộ mã hóa Encoder
35
4.3.2 Tính tốn cơng suất
36
4.3.3 Bộ giải mã
37
4.3.4 Giới hạn của mơ hình LPC
37
Chương 5 – PHƯƠNG PHÁP MÃ HĨA MELP/MELPe TRONG BỘ VOCODER
38
5.1 Mơ tả tổng quan
38
5.2 Thuật tốn Vocoder MELP/MELPe
39
5.2.1 Khối nén tiếng nói
41
5.2.2 Khối giải mã
48
Chương 6 – PHƯƠNG PHÁP MÃ HÓA CELP/ACELP TRONG BỘ VOCODER
54
6.1 Nguyên lý chung của bộ nén CELP
54
6.2 Phương pháp nén LD-CELP
56
6.3 Kỹ thuật nén CS-ACELP và G729
59
6.3.1 Nguyên lý kỹ thuật nén CS-ACELP
59
6.3.2 Nguyên lý bộ giải nén CS-ACELP
62
6.3.3 G729A
63
6.3.4 G729B
65
6.4 Kỹ thuật nén G723.1
67
6.4.1 Nguyên lý của bộ nén G723.1
68
6.4.2 Nguyên lý bộ giải nén G723.1
70
Chương 7 – PHƯƠNG PHÁP MÃ HÓA AMBE/IMBE TRONG BỘ VOCODER
71
7.1 Tổng quan
71
7.2 Kỹ thuật MBE
72
Chương 8 – KẾT QUẢ MÔ PHỎNG MỘT SỐ CHUẨN
73
8.1 LPC Vocoder
73
8.2 G729 Vocoder
74
KẾT LUẬN
77
TÀI LIỆU THAM KHẢO
78
Danh mục các bảng
Bảng 2.1
Các chuẩn mã hóa âm thoại chính
18
Bảng 6.2
Sự phân bố bit của các tham số của thuật toán CS-ACELP tốc độ 8Kbit/s
59
(Khung 10ms)
Các tham số bộ nén và giải nén CS-ACELP
63
Bảng 6.3
Các thông số WMOPS và MIPS của G 729 và G 729A
Bảng 6.1
iii
65
Danh mục các ký hiệu các chữ viết tắt
A/D
Analog/Digital
ACELP
Algebraic Code Excited Linear Prediction
ADPCM
Adaptive Differential Pusle Code Modulation
AMBE
Advanced Multi- Band Excitation
AR
Autoregressive
CDMA
Code Division Multiple Access
CELP
Code Excited Linear Prediction
CS_ACELP
Conjugate Structure Algebraic Code Excited Linear Prediction
DM
Delta Modulation
DPCM
Differential Pusle Code Modulation
DSVD
Digital Simultaneous Voice and Data
GSM
Groupe Speciale Mobile
IMBE
Improved Multi-Band Excitation
LD_CELP
Low Delay Code Excited Linear Prediction
LP
Linear Prediction
LPC
Linear Prediction Coding
LSF
Line spectrum frequency
MELP
Mixed - Excitation Linear Predictive
PCM
Pusle Code Modulation
SID
Silence Insertion Descriptor
VAD
Voice Activity Detector
ii
Danh mục các hình vẽ, đồ thị
Hình 1.1
Dạng sóng của tín hiệu ghi nhận được từ âm thanh của người
1
Hình 1.2
Mơ hình cơ học cơ quan phát âm người
3
Hình 1.3
Mơ hình dạng ống của cơ quan phát âm người
4
Hình 2.1
Dạng sóng âm thanh ngun thủy
6
Hình 2.2
Dạng sóng của tín hiệu
7
Hình 2.3
Ngõ ra của bộ chuyển đổi tín hiệu tương tự sang tín hiệu số
7
Hình 2.4
Thực hiện việc lấy mẫu
8
Hình 2.5
Kết quả của việc lấy mẫu các giá trị
8
Hình 2.6
Dạng sóng được tái tạo lại
8
Hình 2.7
Mơ hình hệ thống xử lý tín hiệu tương tự bằng phương pháp số
9
Hình 2.8
Phân tích các thành phần hình Sin của Stochastic
12
Hình 2.9
Cơ cấu tổ chức cho việc biểu diễn việc truyền tín hiệu âm nhạc
12
Hình 2.10 Phân tích tín hiệu âm thanh theo mơ hình Sin + Nhiễu + Nốt đệm
13
Hình 2.11 Tổng hợp LPC
14
Hình 2.12 Sơ đồ khối phân rã của quá trình thay đổi tần số lấy mẫu
15
Hình 2.13 Ví dụ về thay đổi tần số lấy mẫu với L/M = 3/2
16
Hình 3.1
Mơ hình tổng hợp tiếng nói theo phương pháp LPC
23
Hình 4.1
Hệ thống nhận dạng dưới dạng dự đốn tuyến tính
29
Hình 4.2
Bộ lọc lỗi dự đốn
30
Hình 4.3
Mơ hình LPC tổng hợp tiếng nói
33
Hình 4.4
Hình vẽ các khung phi thoại
33
Hình 4.5
Sơ đồ của một khung âm thanh phi thoại
34
Hình 4.6
Sơ đồ khung tín hiệu âm thanh thoại
34
Hình 4.7
Sơ đồ của một khung âm thanh thoại
35
Hình 4.8
Sơ đồ khối của bộ mã hóa LPC
36
Hình 5.1
Sơ đồ khối giải mã MELP
39
iv
Hình 6.1
Sơ đồ nguyên lý của phương pháp tổng hợp CELP
54
Hình 6.2
Sơ đồ khối của bộ nén và giải nén LD_CELP
58
Hình 6.3
Sơ đồ khối bộ nén CS_ACELP
60
Hình 6.4
Sơ đồ khối bộ giản nén CS_ACELP
62
Hình 8.1
Mơ phỏng LPC Vocoder
73
Hình 8.2
Tín hiệu ngun thủy
75
Hình 8.3
Tín hiệu tái tạo
76
v
Mở đầu
Tiếng nói là phương tiện chủ yếu mà con người sử dụng để liên lạc và giao
tiếp hằng ngày. Ngày nay khi các phương tiện truyền thông phát triển và số người
sử dụng các phương tiện liên lạc tăng lên thì mã hố tiếng nói được nghiên cứu và
ứng dụng rộng rãi trong các cuộc gọi điện thoại truyền thống, gọi qua mạng di
dộng, qua mạng Internet, qua vệ tinh, v.v...
Với sự xuất hiện của cáp quang thì băng thông dành cho các dịch vụ truyền
thông đã được cải thiện một cách đáng kể. Tuy nhiên, băng thông trong các cuộc
gọi đường dài, các cuộc gọi quốc tế, các cuộc gọi qua vệ tinh hay các cuộc gọi di
động thì cần phải duy trì ở một mức nhất định. Ngoài ra, việc sử dụng nhiều ứng
dụng và dịch vụ trên cùng một đường truyền dẫn đến một nhu cầu cấp thiết là cần
phải tối ưu hóa các dịch vụ đó. Chính vì thế việc mã hố tiếng nói là vơ cùng cần
thiết, giúp giảm thiểu số lượng tín hiệu cần truyền đi trên đường truyền nhưng vẫn
đảm bảo chất lượng của cuộc gọi. Trong số các công nghệ mã hóa thoại hiện nay thì
cơng nghệ Vocoder là một cơng nghệ rất ưu việt giúp nén tín hiệu thoại số xuống
tốc độ thấp hơn mà chất lượng thoại vẫn đảm bảo ở mức cao. Xuất phát từ những
vấn đề như vậy nên tôi đã quyết định chọn đề tài : "Nghiên cứu các phương pháp
mã hóa thoại trong các bộ Vocoder" với mục đích tìm hiểu q trình xử lý số tín
hiệu thoại nói chung và đặc biệt là một số chuẩn nén trong cơng nghệ Vocoder.
Trong q trình làm luận văn tốt nghiệp, mặc dù tôi cũng đã cố gắng rất
nhiều nhưng do trình độ và khả năng nghiên cứu cịn nhiều hạn chế nên khơng thể
tránh khỏi những sai sót. Tơi rất mong nhận được sự phê bình, hướng dẫn và giúp
đỡ của thầy cô, bạn bè.
vi
Tôi cũng chân thành cảm ơn sự giúp đỡ tận tình của thầy giáo TS Nguyễn
Hữu Trung, cùng các thầy cô trong khoa Điện Tử Viễn thông đã giúp tôi hoàn thành
luận văn tốt nghiệp này.
vii
CHƯƠNG 1:
CÁC ĐẶC TRƯNG CƠ BẢN CỦA TÍN HIỆU
THOẠI
Trong chương này, tơi sẽ trình bày một cách khái qt về những đặc trưng,
về mơ hình hóa và về tính chất cơ bản của q trình tạo ra tiếng nói. Có thể nói đây
là những kiến thức cơ bản nhất và là nền tảng cho những nghiên cứu về xử lý tín
hiệu thoại sau này.
1.1. Đặc trưng của âm thanh tương tự
Mục đích của lời nói là dùng để truyền đạt thơng tin. Có rất nhiều cách mơ tả
đặc điểm của việc truyền đạt thông tin. Dựa vào lý thuyết thông tin, lời nói có thể
được đại diện bởi thuật ngữ là nội dung thông điệp, hoặc là thông tin. Một cách
khác để biểu thị lời nói là tín hiệu mang nội dung thơng điệp, như là dạng sóng âm
thanh.
Hình 1.1. Dạng sóng của tín hiệu ghi nhận được từ âm thanh của người
Kỹ thuật ghi âm đầu tiên sử dụng các thông số về cơ, điện cũng như trường
giúp làm nên nhiều cách thức ghi âm ứng với các loại áp suất khơng khí khác nhau.
Điện áp đến từ một microphone là tín hiệu tương tự của áp suất khơng khí (hoặc đơi
khi là vận tốc).
1
Trong các thiết bị tương tự hiện đại ngày nay các tiêu chuẩn xử lý thì hầu
như khơng có gì thay đổi mặc dù công nghệ xử lý tốt hơn. Trong hệ thống xử lý âm
thanh tương tự, thông tin được truyền đạt bằng thông số liên tục biến thiên vô hạn.
Hệ thống xử lý âm thanh số lý tưởng có những tính năng tương tự như hệ
thống xử lý âm thanh tương tự lý tưởng: cả hai hoạt động một cách “trong suốt” và
tạo lại dạng sóng ban đầu không lỗi. Tuy nhiên, trong thế giới thực, các điều kiện lý
tưởng rất hiếm tồn tại, cho nên hai loại hệ thống xử lý âm thanh hoạt động sẽ khác
nhau trong thực tế. Tín hiệu số sẽ truyền trong khoảng cách ngắn hơn tín hiệu tương
tự và với chi phí thấp hơn.
Thông tin dùng để truyền đạt của âm thoại về bản chất có tính rời rạc, và nó
có thể được biểu diễn bởi một chuỗi ghép gồm nhiều phần tử từ một tập hữu hạn
các ký hiệu (symbol). Các ký hiệu từ mỗi âm thanh có thể được phân loại thành các
âm vị (phoneme). Mỗi ngơn ngữ có các tập âm vị khác nhau, được đặc trưng bởi
các con số có giá trị từ 30 đến 50. Ví dụ như tiếng Anh được biểu diễn bởi một tập
khoảng 42 âm vị.
Vậy tín hiệu thoại được truyền với tốc độ như thế nào? Đối với tín hiệu âm
thoại nguyên thủy chưa qua hiệu chỉnh thì tốc độ truyền ước lượng có thể tính được
bằng cách lưu ý giới hạn vật lý của việc nói lưu lốt của người nói tạo ra âm thanh
thoại là khoảng 10 âm vị trong một giây. Mỗi một âm vị được biểu diễn bởi một số
nhị phân, như vậy một mã gồm 6 bit có thể biểu diễn được tất cả các âm vị của
tiếng Anh. Với tốc độ truyền trung bình 10 âm vị/giây, và không quan tâm đến vấn
đề luyến âm giữa các âm vị kề nhau, ta có thể ước lượng được tốc độ truyền trung
bình của âm thoại khoảng 60bit/giây.
Trong hệ thống truyền âm thoại, tín hiệu thoại được truyền lưu trữ và xử lý
theo nhiều cách thức khác nhau. Tuy nhiên đối với mọi loại hệ thống xử lý âm
thanh thì có hai điều cần quan tâm chung là:
1. Việc duy trì nội dung của thơng điệp trong tín hiệu thoại
2
2. Việc biểu diễn tín hiệu thoại phải đạt được mục tiêu tiện lợi cho việc
truyền tin hoặc lưu trữ, hoặc ở dạng linh động cho việc hiệu chỉnh tín hiệu thoại sao
cho không làm giảm nghiêm trọng nội dung của thơng điệp thoại.
1.2. Q trình tạo ra tiếng nói
1.2.1. Mơ hình hóa q trình tạo ra tiếng nói
Khi khơng khí bị ép từ phổi lên đi qua các dây thanh âm dao động (theo sự
điều khiển của não bộ) và đi dọc theo cơ quan phát âm sẽ tạo ra tiếng nói. Sự dao
động của các dây thanh âm tạo ra sự đóng mở tương tự như một cánh cửa (thanh
mơn). Sự đóng mở này sẽ làm cho luồng khơng khí từ phổi đi lên bị ngắt qng
khác nhau, làm cho tiếng nói tạo ra cũng khác nhau. Ngồi sự tác động của các dây
thanh âm, tiếng nói tạo ra còn phụ thuộc vào sự thay đổi của cơ quan phát âm gồm:
vòm họng, lưỡi, miệng, khoang mũi và mũi. Hình 1.2 biểu diễn mơ hình cơ học của
cơ quan phát âm.
Hình 1.2. Mơ hình cơ học cơ quan phát âm người
Với mơ hình cơ học như trên, có thể biểu diễn cơ quan phát âm bằng một
mơ hình gần đúng gồm các hình trụ có độ dài bằng nhau nhưng có đường kính khác
nhau như trong Hình 1.3. Chính hình dáng này đã tạo ra sự cộng hưởng âm thanh và
các tần số cộng hưởng này gọi là các tần số formant. Các tần số này tạo ra các âm vị
khác nhau tuỳ theo hình dáng cơ quan phát âm. Mơ hình này có thể được biểu diễn
một cách chính xác bằng một tập hợp các phương trình tốn học. Trong q trình
phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm, do đó
3
trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay đổi là
khơng đáng kể. Vì vậy ta có thể biểu diễn cơ quan phát âm bằng một hệ thống tuyến
tính bất biến theo thời gian; có nghĩa là suốt trong một âm vị, các tham số của hệ
thống này sẽ gần như không đổi nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang
âm vị khác.
Hình 1.3. Mơ hình dạng ống của cơ quan phát âm người
Ngồi mơ hình hố cơ quan phát âm thì mơ hình hố sự kích thích của
luồng khơng khí từ phổi đi qua thanh mơn lên cơ quan phát âm cũng rất quan trọng.
Tuỳ theo loại âm thanh mà có cách mơ hình hố thích hợp để tiếng nói sau khi tái
tạo đạt được chất lượng theo u cầu.
1.2.2. Tính chất cơ bản của q trình tạo tiếng nói
Trong kỹ thuật mã hố tiếng nói, dựa vào sự dao động của các dây thanh
âm người ta chia tiếng nói ra thành hai loại âm chính sau đây:
- Âm hữu thanh (voiced sound): Âm hữu thanh được tạo ra khi các dây thanh
âm dao động đóng mở làm ngắt qng luồng khơng khí và sự ngắt qng này được
xem gần như là tuần hoàn tác động lên cơ quan phát âm. Theo thực nghiệm chu kì
tuần hồn này khoảng từ 2 - 20ms. Do đó với âm hữu thanh, tín hiệu kích thích
được mơ hình hố là các xung tuần hồn.
- Âm vơ thanh (unvoiced sound): Âm vơ thanh được tạo ra khi luồng khơng
khí đi qua thanh môn tác động lên cơ quan phát âm không theo một qui luật nào cả
(khơng tuần hồn). Do đó với âm vơ thanh, tín hiệu kích thích được mơ hình hố
tương tự như một nhiễu.
Nhìn chung, các âm của tiếng nói là một trong hai loại âm trên hoặc là sự
kết hợp của chúng. Theo thống kê, người ta đã xác định được hầu hết các âm là hữu
thanh.
4
CHƯƠNG 2 :
TỔNG QUAN VỀ Q TRÌNH XỬ LÝ TÍN
HIỆU THOẠI
Nội dung chính của chương 2 là những vấn đề cơ bản của xử lý tín hiệu
thoại như các kiểu mơ hình hóa tín hiệu, các mơ hình và kiến trúc xử lý âm thanh
đồng thời cũng nêu ra một số chuẩn đánh giá các hệ thống xử lý thoại làm cơ sở để
đánh giá tính ưu việt của những phương pháp mã hóa thoại trong các bộ Vocoder
được trình bày ở các chương sau. Ngoài ra cũng đưa ra một cách khái quát về các
bước tiến hành xử lý tín hiệu thoại.
2.1. Hệ thống số xử lý âm thanh
2.1.1. Mơ hình hóa tín hiệu âm thanh
Có rất nhiều kỹ thuật xử lý tín hiệu được mơ hình hóa và áp dụng các giải
thuật trong việc khôi phục âm thanh. Chất lựơng của âm thoại phụ thuộc rất lớn vào
mô hình giả định phù hợp với dữ liệu. Đối với tín hiệu âm thanh, bao gồm âm thoại,
nhạc và nhiễu khơng mong muốn, mơ hình phải tổng qt và khơng sai lệnh so với
giả định. Một điều cần lưu ý là trong thực tế hầu hết các tín hiệu âm thoại là các tín
hiệu động, mặc dù mơ hình thực tiễn thì thường giả định khi phân tích tín hiệu là tín
hiệu có tính chất tĩnh trong một khoảng thời gian đang xét. Mơ hình phù hợp với
hầu hết rất nhiều lãnh vực trong việc xử lý chuỗi thời gian, bao gồm việc phục hồi
âm thanh là mơ hình Autoregressive (viết tắt AR), được dùng làm mơ hình chuẩn
cho việc phân tích dự đốn tuyến tính.
Tín hiệu hiện tại được biểu diễn bởi tổng giá trị của P tín hiệu trước đó và tín
hiệu nhiễu trắng, P là bậc của mơ hình AR:
s [u ] =
p
∑ s [ n − i ]a
i =1
5
i
+ e [i ]
(2.1)
Mơ hình AR đại diện cho các q trình tuyến tính tĩnh, chấp nhận tín hiệu
tương tự nhiễu và tín hiệu tương tự điều hịa. Một mơ hình khác phù hợp hơn đối
với nhiều tình huống phân tích là mơ hình auto regressive moving-average (ARMA)
cho phép các điểm cực cũng như điểm 0. Tuy nhiên mơ hình AR có tính linh động
hơn trong phân tích hơn mơ hình ARMA, ví dụ một tín hiệu nhạc phức tạp cần mơ
hình có bậc P > 100 để biểu diễn dạng sóng của tín hiệu, trong khi các tín hiệu đơn
giản hơn chỉ cần biểu diễn bằng bậc 30. Trong nhiều ứng dụng, việc lựa chọn bậc
của mơ hình phù hợp cho bài tốn sao cho đảm bảo việc biểu diễn tín hiệu là thỏa
việc khơng làm mất đi thơng tin của tín hiệu là việc hơi phức tạp. Có rất nhiều
phương pháp dùng để ước lượng bậc của mơ hình AR như phương pháp maximum
likelihood/least-squares [Makhoul, 1975], và phương pháp robust to noise [Huber,
1981, Spath, 1991], v.v…Tuy nhiên, đối với việc xử lý các tín hiệu âm nhạc phức
tạp thì thơng thường sử dụng mơ hình Sin (Sinusoidal). Mơ hình Sin rất phù hợp
trong các phương pháp dùng để giảm nhiễu.
2.1.2. Kiến trúc hệ thống số xử lý âm thanh
Đối với máy tính số xử lý âm thanh, người ta thường dùng phương pháp
Điều chế xung (Pulse Code Modulation, viết tắt PCM). Dạng sóng âm thanh được
chuyển sang dãy số PCM như sau, xét tín hiệu hình sin làm ví dụ:
Tín hiệu gốc là tín hiệu như Hình 2.1
Hình 2.1 Dạng sóng âm thanh nguyên thủy
Kế đến, sử dụng một microphone để thu tín hiệu âm thanh (trong khơng
khí) và chuyển đổi thành tín hiệu điện, tầm điện áp ngõ ra của microphone ±1 volt
như Hình 2.2.
6
Hình 2.2 Dạng sóng của tín hiệu điện
Tín hiệu điện áp dạng tương tự sau đó được chuyển thành dạng số hóa bằng
thiết bị chuyển đổi tương tự-số (analog-to-digital converter). Khi sử dụng bộ
chuyển đổi 16bit tương tự-số, tầm số ngun cửa ra có giá trị –32,768 đến +32,767,
được mơ tả như hình 2.3.
Hình 2.3 Ngõ ra của bộ chuyển đổi tín hiệu tương tự sang tín hiệu số
Vì số lượng điểm dữ liệu là vô hạn nên không thể lấy tất cả các điểm thuộc
trục thời gian, việc lấy mẫu sẽ được thực hiện trong một khoảng thời gian đều đặn.
Số lượng mẫu trong một giây được gọi là tần số lấy mẫu (sampling rate). Hình 2.4
mơ tả 43 mẫu được lấy
7
Hình 2.4 Thực hiện việc lấy mẫu
Kết quả của việc lấy mẫu là một chuỗi gồm 43 chữ số biểu diễn cho các vị trí
của dạng sóng ứng thời gian gian là một chu kỳ (hình 2.5).
Hình 2.5 Kết quả của việc lấy mẫu các giá trị
Máy tính sau đó sẽ xây dựng lại dạng sóng của tín hiệu bằng việc kết nối các
điểm dữ liệu lại với nhau. Dạng sóng kết quả được mơ tả ở Hình 2.6.
Hình 2.6 Dạng sóng được tái tạo lại
Lưu ý rằng có một vài điểm khác biệt giữa dạng sóng nguyên thủy và dạng
sóng tái tạo (Hình 2.1 và Hình 2.6), lý do:
8
-
Các giá trị được tạo ra tại bộ chuyển đổi tín hiệu tương tự sang tín hiệu số là
các số ngun và được làm trịn giá trị.
-
Hình dáng của tín hiệu tái tạo phụ thuộc vào số lượng mẫu được ghi nhận.
Tổng quát, một dãy số hữu hạn (đại diện cho tín hiệu số) chỉ có thể biểu diễn cho
một dạng sóng tín hiệu tương tự với độ chính xác hữu hạn
2.1.3. Mơ hình xử lý âm thanh
2.1.3.1. Các mơ hình lấy mẫu và mã hóa thoại
a. Lấy mẫu tín hiệu ở miền thời gian và tái tạo tín hiệu liên tục
Để xử lý một tín hiệu liên tục bằng các phương tiện xử lý tín hiệu số, ta phải
đổi tín hiệu liên tục đó ra dạng một chuỗi số bằng các lấy mẫu tín hiệu liên tục một
cách tuần hồn có chu kỳ là T giây. Gọi x(n) là tín hiệu rời rạc hình thành do q
trình lấy mẫu, tín hiệu liên tục xa ( t ) , ta có
x( n) = xa ( nT)
−∞< n <∞
(2.2)
Các mẫu x(n) phải được lượng hóa thành một tập các mức biên độ rời rạc rồi
mới được đưa vào bộ xử lý số. Hình 2.7 minh họa một cấu hình tiêu biểu cho hệ
thống xử lý tín hiệu tương tự bằng phương pháp số. Trong các phần sau, ta bỏ qua
sai số lượng hóa phát sinh trong q trình biến đổi A/D
x
a
(
t
)
Hình 2.7 Mơ hình hệ thống xử lý tín hiệu tương tự bằng phương pháp số
Để xác định quan hệ giữa phổ của tín hiệu liên tục và phổ của tín hiệu rời
rạc tạo ra từ q trình lấy mẫu tín hiệu, liên tục đó, ta chú ý đến quan hệ giữa biến
độc lập t và n của tín hiệu xa ( t ) và x ( n )
t = nT =
9
n
Fs
(2.3)
Định lý lấy mẫu: một tín hiệu liên tục có băng tần hữu hạn, có tần số cao nhất là B
Hertz có thể khơi phục từ các mẫu của nó với điều kiện tần số lấy mẫu Fs ≥ 2 B .
b. Lấy mẫu tín hiệu ở miền tần số và tái tạo tín hiệu liên tục :
Ta đã biết tín hiệu liên tục có năng lượng hữu hạn thì có phổ liên tục. Trong
phần này, ta sẽ xét quá trình lấy mẫu của các tín hiệu loại đó một cách tuần hồn và
sự tái tạo ín hiệu từ các mẫu của phổ của chúng
Xét một tín hiệu liên tục xa ( t ) với một phổ liên tục X a ( F ) . Giả sử ta lấy
mẫu X a ( F ) tại các thời điểm cách nhau ∂F Hertz. Ta muốn tái tạo X a ( F ) hoặc
xa ( t ) từ các mẫu X a ( F ) .
Nếu tín hiệu tương tự xa ( t ) có giới hạn thời gian là ℑ giây và Ts được
chọn để Ts > 2ℑ thì aliasing khơng xảy ra và phổ X a ( F ) có thể được khơi phục
hồn tồn từ các mẫu.
c. Lấy mẫu tín hiệu ở miền tần số và tái tạo tín hiệu rời rạc :
Xét một tín hiệu rời rạc khơng tuần hồn x ( n ) có phép biến đổi Fourier:
X (ω ) =
∞
∑ x ( n )e
− jω n
(2.4)
n =−∞
Giả sử ta lấy mẫu X (ω ) tuần hoàn tại các điểm cách nhau ∂ω rad. Vì X (ω )
tuần hồn với chu kỳ 2π , chỉ có các mẫu trong phạm vi tần số cơ bản là cần thiết.
Để thuận tiện, ta lấy N mẫu cách đều nhau trong khoảng 0 ≤ ω ≤ 2π theo khoảng
cách ∂ω = 2π / N
⎛ 2π
Xét ω = 2π k / N , ta được X ⎜
⎝ N
Xét tín hiệu x p (n) =
∞
⎞
k ⎟ = ∑ x ( n )e− j 2π kn / N
⎠ n =−∞
k = 0,1,....N − 1
∞
∑ x ( n − lN ) nhận được bằng cách lặp lại tuần hoàn x ( n )
l =−∞
tại mỗi N mẫu, tín hiệu này tuần hồn với chu kỳ N, do đó có thể được triển khai
theo khai triển Fourier
10
x p ( n) =
1
N
N −1
⎛ 2π ⎞ j 2π kn / N
k ⎟e
⎠
∑ X ⎜⎝ N
k =0
n = 0,1,..., N − 1
(2.5)
Từ công thức x p (n) trên, ta nhận thấy có thể khơi phục tín hiệu x p (n) từ các
mẫu của phổ X (ω ) . Như vậy, ta phải tìm ra mối tương quan giữa x p (n) và x ( n ) để
có thể thực hiện khôi phục x ( n ) từ X (ω )
Vì x p (n) là sự mở rộng tuần hồn của x ( n ) , nên x ( n ) có thể được khơi phục
từ x p (n) nếu khơng có aliasing ở miền thời gian, nghĩa là nếu x ( n ) có thời gian giới
hạn nhỏ hơn hoặc bằng chu kỳ N của x p (n) .
2.1.3.2. Các mơ hình dùng trong xử lý âm thanh
a. Mơ hình quang phổ
Mơ hình sin
Tín hiệu âm thanh có thể được triển khai từ tập hợp các mơ hình sin nếu như
nó có dạng :
I
y ( t ) = ∑ Ai ( t ) e jΦi ( t )
(2.6)
i =1
t
Với Φ i ( t ) = ∫ ωi (τ ) dτ , Ai ( t ) và ωi ( t ) là thành phần biên độ và tần số
−∞
tương ứng của thành phần sin thứ i. Trong thực tế, tín hiệu được xem xét là tín hiệu
rời rạc thời gian thực, như vậy ta có thể viết lại :
I
y ( n ) = ∑ Ai ( n ) cos ( Φ i ( n ) )
(2.7)
i =1
Về cơ bản, nếu như I có giá trị vơ cùng lớn, thì bất cứ tín hiệu âm thanh
nào cũng có thể được triển khai từ mơ hình sin, phép tính gần đúng được áp dụng
tính tốn trong mơ hình này. Thực tế, tín hiệu nhiễu cũng được triển khai thành vơ
số các tín hiệu sin, và ta tách việc xử lý riêng tín hiệu này thành phần xử lý
Stochastic ( Λ ) được ký hiệu là e ( n )
I
. y ( n ) = ∑ Ai ( n ) cos ( Φ i ( n ) ) + e ( n )
i =1
11
(2.8)
Thành phần Λ có thể được tính bằng phép biến đổi Short-Time Fourier sử
dụng lưu đồ ở hình 2.8.
Hình 2.8 Phân tích các thành phần hình sin của phần stochastic
Mơ hình sin là một mơ hình hữu dụng vì nó cho phép áp dụng việc truyền
các âm thanh nhạc lấy từ việc ghi băng thực tế. Hình 2.9 mơ tả một các bước thực
hịên cho việc hiệu chỉnh tín hiệu âm nhạc
Hình 2.9 Cơ cấu tổ chức cho việc biểu diễn việc truyền tín hiệu âm nhạc
12
Tín hiệu sin-nhiễu-nốt đệm :
Trong mơ hình sin + nhiễu, điều cơ bản là các tín hiệu âm thanh là tổng hợp
của nhiều tín hiệu sin tần số thấp và các loại nhiễu băng rộng hầu như ở dạng tĩnh.
Khi đó, một thành phần của âm thanh khơng được xem xét đến, đó là nốt đệm. Việc
hiệu chỉnh âm thanh có thể được thực hiện dễ dàng bằng cách tách riêng thành phần
nốt đệm để xét riêng. Thực tế, hầu hết các dụng cụ âm nhạc mở rộng trường độ của
một nốt nhạc không làm ảnh hưởng đến chất lượng xử lý.
Với lý do này, một mơ hình mới là sin + nhiễu + nốt đệm được phát họa
dùng trong việc phân tích âm thanh. Ý tưởng chính của việc trích âm đệm trong
thực tế từ việc quan sát rằng, các tín hiệu hình sin trong miền thời gian được ánh xạ
qua miền tần thành các đỉnh có vị trí xác định, trong khi đó các xung ngắn đối ngẫu
trong miền thời gian khi được ánh xạ qua miền tần lại có dạng hình sin. Như vậy,
mơ hình sin có thể được ứng dụng trong miền tần số biểu diễn các tín hiệu hình sin.
Sơ đồ của việc phân tích SNT được mơ tả trong Hình 2.10.
Hình 2.10 Phân tích tín hiệu âm thanh theo mơ hình sin + nhiễu + nốt đệm
Khối DCT trong Hình 2.10 mơ tả hoạt động của phép rời rạc cosin. Phép biến đổi,
được định nghĩa như sau:
N−1
⎛ ( 2n +1) kπ ⎞
C( k) =α∑x( n)cos⎜
⎟
n=0
⎝ 2N ⎠
(2.9)
Phép biến đổi DCT thực hiện việc một xung được biến đổi thành dạng cosin và
ngược lại
13
Mơ hình LPC :
Mã hóa dự đốn tuyến tính có thể được sử dụng để mơ hình phổ tĩnh. Tổng
hợp LPC được mơ tả trong lưu đồ trong Hình 2.11. Về bản chất, mơ hình chính là
giải thuật trừ tổng hợp thực hiện một tính hiệu có phổ “đặc” được lọc bởi một bộ
lọc cực. Tín hiệu kích thích có thể sử dụng chính tín hiệu thặng dư e có được qua
q trình phân tích, hoặc có thể dử dụng các thơng tin của tín hiệu thoại/phi thoại.
Hình 2.11 Tổng hợp LPC
b. Mơ hình miền thời gian :
Việc mơ tả âm thanh trong miền tần số rất có hiệu quả, tuy nhiên trong một
vài ứng dụng, để tiện việc nghiên cứu việc tổng hợp âm thanh, việc phân tích trong
miền thời gian lại có ưu thế hơn..Tơi xin trình bày một số mơ hình miền thời gian
ứng dụng trong việc mã hóa thoại.
Máy tạo dao động số :
Máy tạo dao động số đặc biệt hữu ích trong việc biểu diễn tổng hợp tín hiệu
đối với các bộ vi xử lý đa mục đích, khi các phép tốn trên dấu chấm động được
triển khai. Tuy nhiên, phương pháp này dùng cho việc tạo tín hiệu sin có hai bất lợi:
- Việc cập nhật thơng số u cầu tính tốn trên hàm cosin. Đây là một điều khó
đối với điều chế tốc độ âm thanh, do phải thực hiện phép tính cosin ứng với từng
mẫu trong miền thời gian
- Thay đổi tần số của máy dao động số sẽ làm thay đổi biên độ tín hiệu sin. Khi
đó bộ phận logic điều khiển biên độ cần được sử dụng để điều chỉnh hạn chế này.
14