Tải bản đầy đủ (.docx) (36 trang)

Mã hóa nén âm thoại theo chuẩn ITU

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (885.83 KB, 36 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
BÁO CÁO BÀI TẬP LỚN
TRUYỀN THÔNG ĐA PHƯƠNG TIỆN
ĐỀ TÀI 6 :
Mã hóa nén âm thoại theo chuẩn ITU
Giảng Viên Hướng Dẫn : Nguyễn Thị Hoàng Lan
Nhóm thực hiện : Nhóm 6
`Đinh Hồng Đạt 20104837
Nguyễn Văn An 20114626
Phan Minh Tân 20104834
Hoàng Anh Đức 20093795
Hà Nội 12/2014
MỤC LỤC
Lời nói đầu ……
Chương 1: Tìm hiểu chung về công nghệ nén âm thanh thoại dùng trong VoIP
1. Một số khái niệm cơ bản về âm thanh thoại …….
2. Dịch vụ VoIP……………………………………………………………………
3. Các phương pháp mã hóa tiếng nói ……
4. Kiến trúc của hệ thống mã hóa âm thoại ……
5. Kiến trúc tổng quát của bộ mã hóa – giải mã âm thoại ……
6. Các yêu cầu của bộ mã hóa âm thoại ……
7. Đánh giá chất lượng âm thanh thoại ……
Chương 2:Tìm hiểu sơ đồ nén âm thanh thoại của ITU-T, GSM theo các chuẩn
G726, GSM06-10………………………………………….
1.Sơ đồ nén âm thanh thoại GSM06-10…………………………………….
1.1 Bộ mã hóa GSM 06.10…………………………………………………
1.2 Bộ giải mã GSM06-10…………………………………………………
2. Sơ đồ nén âm thanh thoại theo chuẩn ITU G726………………………….
2.1Sơ đồ đơn giản hóa bộ mã hóa G726( G726 Encoder)……………………
2.2Sơ đồ đơn giản hóa bộ giải mã G726( G726 Decoder)………………….


Chương 3: Khảo sát tìm hiểu các 1 sốbộCODEC của dịch vụVOIP và giải thích ứng
dụng của chuẩn mã hóa nén âm thanh thoại ITU trong các bộCODEC hiện nay
1. Các chuẩn mã hóa âm thanh trong Asterirk
a. G711
b. G722
c. G723.1
d. G726
e. G729
2. Quản lý các chuẩn codec trong Asterisk
3. Cấu hình codec cho người dùng
4. Cấu hình tham số cho codec trong Asterisk
Lời nói đầu
Liên minh Viễn thông Quốc tế ITU - International Telecommunication Union là
tổ chức của Liên Hiệp Quốc có trụ sở tại Genève (Thuỵ Sĩ) nhằm tiêu chuẩn hoá
viễn thông quốc tế. Các hoạt động của ITU bao trùm tất cả các vấn đề thuộc ngành
Công nghệ Viễn thông và Thông tin gồm có điều phối các quốc gia trên toàn cầu
trong việc chia sẻ và sử dụng các tài nguyên Viễn thông như tần số vô tuyến điện,
quỹ đạo vệ tinh, hỗ trợ phát triển cơ sở hạ tầng viễn thông tại các nước đang phát
triển và xây dựng các tiêu chuẩn chung trên thế giới về kết nối các hệ thống liên
lạc. ITU cũng đang tham gia nghiên cứu và tìm giải pháp cho các thách thức chung
trên toàn cầu trong thời đại hiện nay như biến đổi khí hậu và bảo mật, an toàn
thông tin. Trong đó ITU-T (ITU - Telecom) là bộ phận chú trọng vào các hệ thống
điện thoại và truyền thông dữ liệu (data communication).
Trong thời đại bùng nổ thông tin hiện nay, truyền thông là trái tim của mọi hoạt
động của các tổ chức, doanh nghiệp lẫn cá nhân và Voice over IP (hay viết tắt là
VoIP) nghĩa là truyền giọng nói trên giao thức IP là một trong những công nghệ hỗ
trợ rất đắc lực. Sử dụng giao thức TCP/IP, nó sử dụng các gói dữ liệu IP trên mạng
LAN, WAN hay Internet để truyền tải âm thanh dưới dạng mã hóa. VoIP đã được
ITU-T xây dựng các chuẩn luôn được cập nhật nên ngày càng hoàn chỉnh. Chính vì
vậy, chúng em đã quyết định chọn đề tài số 5 - "Mã hóa âm thanh thoại dùng theo

chuẩn ITU trong VoIP" làm đề tài bài tập lớn học phần IT4681 - Truyền thông đa
phương tiện.
Nội dung báo cáo gồm 4 phần chính:
- Phần 1: Tìm hiểu chung về công nghệ nén âm thanh thoại dùng trong VoIP.
- Phần 2: Tìm hiểu sơ đồ nén âm thanh thoại của ITU-T, GSM theo các chuẩn
G726,GSM06-10.
- Phần 3: Khảo sát và phân tích các ứng dụng của chuẩn mã hóa âm thanh
thoại ITU đang được sử dụng hiện nay trong các bộ CODEC của dịch vụ
VoIP.
- Phần 4: Thử nghiệm ứng dụng đánh giá ảnh hưởng của nén âm thanh đến
chất lượng dịch vụ VoIP.}
Do thời gian nghiên cứu trình độ hiện tại của nhóm có hạn nên chắc chắn trong
quá trình thực hiện đề tài không tránh khỏi những sai lầm, thiếu sót cả về nội dung
lẫn hình thức. Trong suốt quá trình thực hiện, nhóm đã liên tục nhận được sự nhắc
nhở, góp ý, bổ sung cả về kiến thức lẫn thái độ từ cô Nguyễn Thị Hoàng Lan -
giảng viên hướng dẫn của nhóm. Chúng em xin chân thành cảm ơn cô!
Nhóm cũng gửi lời cảm ơn đến tất cả các bạn học đã giúp đỡ rất nhiều để
nhóm có thể hoàn thành nội dung của đề tài.
Chương 1:
Tìm hiểu chung về công nghệ nén âm thanh thoại dùng trong VoIP
1 Một số khái niệm cơ bản về âm thanh thoại
Âm thanh (Sound) các dao động cơ học của các phần tử, nguyên tử hay các hạt
vật chất lan truyền trong không gian, được cảm nhận trực tiếp qua tai người bởi sự
va đập vào màng nhĩ và kích thích bộ não. Sóng âm tần được đặc trưng bởi biên
độ, tần số (bước sóng) và vận tốc lan truyền. Đối với tai người, âm thanh cảm nhận
được bởi sóng có dao động trong dải tần từ 20Hz đến 20kHz. Tín hiệu âm thanh
được chia thành 2 loại dựa trên dải tần:
- Âm thanh dải tần cơ sở (âm thanh tiếng nói thoại, gọi tắt là âm thanh thoại):
có dải tần từ 300Hz đến 4kHz.
- Âm thanh dải rộng (tiếng nói trình diễn, hát, âm nhạc…): có dải tần số từ

100Hz đến 20kHz
Audio là âm thanh được thu nhận, xử lý và tái tạo bởi các thiết bị điện tử, đối
tượng truyền thông đa phương tiện.
Trong báo cáo này chỉ đề cập đến âm thanh tiếng nói thoại. Một số đặc điểm
của âm thanh thoại được chỉ ra:
- Giới hạn dải phổ tín hiệu, như đã nói ~ 4kHz.
- Tần số lấy mẫu f
s
= 8kHz tương đương với chu kỳ T
e
= 125µs.
- Lượng tử hóa giá trị với mã hóa 8bit.
- Tốc độ cần thiết = 8bit x 8kHz = 64Kbit/s
2 Dịch vụ VoIP
VoIP (viết tắt của Voice over Internet Protocol, nghĩa là Truyền giọng nói trên
giao thức IP) là công nghệ truyền tiếng nói của con người (thoại) qua mạng thông
tin sử dụng bộ giao thức TCP/IP. Nó sử dụng các gói dữ liệu IP (trên mạng LAN,
WAN, Internet) với thông tin được truyền tải là mã hoá của âm thanh.
Công nghệ này bản chất là dựa trên chuyển mạch gói, nhằm thay thế công nghệ
truyền thoại cũ dùng chuyển mạch kênh. Nó nén (ghép) nhiều kênh thoại trên một
đường truyền tín hiệu, và những tín hiệu này được truyền qua mạng Internet, vì thế
có thể giảm giá thành.
Để thực hiện việc này, điện thoại IP, thường được tích hợp sẵn các giao thức
báo hiệu chuẩn như SIP hay H.323, kết nối tới một tổng đài IP (IP PBX) của doanh
nghiệp hay của nhà cung cấp dịch vụ. Điện thoại IP có thể là điện thoại thông
thường (chỉ khác là thay vì nối với mạng điện thoại qua đường dây giao tiếp RJ11
thì điện thoại IP nối trực tiếp vào mạng LAN qua cáp Ethernet, giao tiếp RJ45)
hoặc phần mềm thoại (soft-phone) cài trên máy tính.
3 Các phương pháp mã hóa tiếng nói
Mã hóa tiếng nói gồm 3 phương pháp chính:

- Phương pháp mã hóa tín hiệu dạng sóng (waveform), bao gồm 2 loại
chính:
1 Mã hóa trong miền thời gian: bao gồm các chuẩn từ G.710 đến G.719
o Mã hóa điều xung mã Pulse Code Modulation – PCM – lương tử hóa
đã được chuẩn hóa với chuẩn G.711: là phương pháp mã hóa cơ bản,
mã hóa trực tiếp tín hiệu lấy mẫu tiếng nói, âm thanh dùng các luật
lượng tử hóa µ-law, a-law
o Mã hóa dự đoán – điều xung mã sai phân Differential Pulse Code
Modulation - DPCM.
 Mã hóa dự đoán thích nghi – điều xung mã sai phân thích nghi
Adaptive Differential Pulse Code Modulation - ADPCM với
chuẩn G.726.
2 Mã hóa trong miền tần số:
o Mã hóa các dải tần con Subband Coding – SBC với chuẩn G.722
o Mã hóa dựa trên phép biến đổi Transform Coding.
- Phương pháp mã hóa nguồn:
o Nguyên lý mã hóa nguồn dựa trên bộ mô phỏng hệ thống phát âm con
người Vocoder, tạo ra âm thanh tiếng nói từ tập các tham số. Vocoder
làm việc với 2 kiểu nguồn kích thích là nguồn xung tạo ra âm hữu
thanh và nguồn nhiễu trắng tạo ra âm vô thanh. Từ đó, nó mô phỏng
hệ thống phát âm bằng hệ thống lọc dự đoán tuyến tính PLC được
kích thích bằng hai trạng thái nguồn.
o Ưu điểm của phương pháp này là đạt được tốc độ dòng bit thấp, phân
tích được các tham số nguồn kích thích, có thể sửa đổi nội dung tiếng
nói theo ý muốn. Tuy nhiên, nhược điểm của nó là tiếng nói nhận
được là tiếng nói tổng hợp không phải là giọng nói con người.
- Phương pháp mã hóa lai:
o Phổ biến là mã hóa dựa trên kết hợp phân tích bằng cách tổng hợp
Analysis-by-Synthesis AbS. Phương pháp này sử dụng mô hình phát
âm của người của mã hóa nguồn, nhưng mặt khác, tín hiệu kích thích

đạt được từ bộ phân tích tín hiệu tiếng nói của chính người nói và
được chọn sao cho dạng sóng tiếng nói tái tạo giống với dạng sóng
tiếng nói ban đầu nhất. Thuật toán tìm ra sóng kích thích này quyết
định độ phức tạp của bộ mã hóa.
o Các loại mã hóa lai khác nhau theo kỹ thuật phân tích tạo ra tín hiệu
kích thích CELP, RPE-LTP, MPE…
Đánh giá chung về 3 phương pháp: Mã hóa dạng sóng nói chung không cho
phép đạt chất lượng tiếng nói tốt ở tốc độ bit dưới 16Kbps. Mã hóa Vocoder có thể
đạt được tốc độ bit rất thấp nhưng nhược điểm là rất khó nhận diện được người
nói. Còn mã hóa lai thường được dùng theo chuẩn GSM.
4 Kiến trúc của hệ thống mã hóa âm thoại
Hình 1 mô tả sơ đồ khối của hệ thống mã hóa âm thoại. Tín hiệu âm thoại tương
tự liên tục có từ nguồn cho trước – Speech source sẽ được số hóa bởi bộ một bộ
lọc chuẩn - Filter, bộ lấy mẫu (bộ chuyển đổi thời gian rời rạc, lượng tử hóa -
Sampler), và bộ chuyển tín hiệu tương tự sang tín hiệu số - A/D converter. Tín
hiệu ngõ ra là tín hiệu âm thoại thời gian rời rạc với các giá trị lấy mẫu cũng rời rạc
hóa. Tín hiệu này được xem là tín hiệu âm thoại số.
Hình 1.1: Sơ đồ khối của hệ thống xử lý tín hiệu thoại
Thông thường, hầu hết các hệ thống mã hóa âm thoại được thiết kế để hỗ trợ
các ứng dụng viễn thông, với tần số giới hạn giữa 300 và 3400Hz. Tần số lấy mẫu
tối thiểu phải lớn hơn hai lần băng thông của tín hiệu liên tục thời gian. Giá trị
8kHz thường được lựa chọn là tần số lấy mẫu chuẩn cho tín hiệu thoại. Bộ mã hóa
kênh – Channel encoder thực hiện việc mã hóa hiệu chỉnh lỗi của chuỗi bit truyền
trước khi tín hiệu được truyền trên kênh truyền - Channel, nơi mà tín hiệu sẽ bị
thay đổi do nhiễu cũng như giao thoa tín hiệu… Bộ giải mã Channel decoder thực
hiện việc hiệu chỉnh lỗi để có được tín hiệu đã mã hóa, sau đó tín hiệu được đưa
vào bộ giải mã Source decoder để có được tín hiệu âm thoại số có cùng tốc độ với
tín hiệu ban đầu. Lúc này, tín hiệu số sẽ được chuyển sang dạng tương tự thời gian
liên tục nhờ D/A converter. Như vậy, bộ phận thực hiện việc xử lý tín hiệu thoại
chủ yếu của mô hình hệ thống xử lý thoại là bộ mã hóa và giải mã.

Liên hệ với các mô hình thực tế, các khối Filter, Sampler và A/D converter
nằm trên các thiết bị thu âm thanh như micro, có nhiệm vụ thu và số hóa âm thanh
chuyển cho bộ mã hóa – giải mã CODEC. Tương tự, ở nên người nhận, các khối
D/A Converter và Filter là một phần của hệ thống phát âm như tai nghe, loa. Bộ
CODEC chỉ có thể làm việc với tín hiệu số. Bộ CODEC ở bên gửi có nhiệm vụ mã
hóa, làm giảm dung lượng của âm thanh, sau đó đóng gói vào các chunk để đặt vào
các gói dữ liệu chuyển đi trên mạng IP. CODEC ở bên người nhận sẽ nhận, giải mã
các gói tin, lấy ra các mẫu, tiếp tục đưa vào khối Source decoder để có được âm
thanh số, chuyển cho bộ phát âm. Việc điều phối và quản lý các kênh được thực
hiện thông qua một hệ thống máy chủ chuyển mạch. Hệ thống máy chủ có thể là
một phần mềm cài trên máy chủ như Asterisk.
Thông thường, khi xử lý các bài toán về truyền thoại, mô hình được đơn giản
hóa như Hình 1.2.
Hình 1.2: Sơ đồ khối đơn giản hóa của bộ mã hóa âm thoại
5 Kiến trúc tổng quát của bộ mã hóa – giải mã âm thoại

Hình 1.3: Mô tả sơ đồ khối tổng quát của bộ mã hóa và giải mã âm thoại
Đối với bộ mã hóa, tín hiệu âm thoại đầu vào được phân tích và xử lý (Analysis
and processing) nhằm thu được các thông số đại diện cho một khung truyền. Các
thông số (parameter) này được mã hóa và lượng tử hóa với mã chỉ số nhị phân và
được gửi đi như là một chuỗi bit đã được nén. Các chỉ số này được đóng gói và
biểu diễn thành chuỗi bit, chúng được sắp xếp thứ tự truyền dựa vào các thông số
đã quyết định trước và được truyền đến bộ giải mã.
Bộ giải mã thực hiện việc phân tích chuỗi bit nhận được, các chỉ số nhị phân
được phục
hồi sau quá trình phân tích và dùng để kết hợp với các thông số tương ứng của bộ
giải mã để có được các thông số đã được lượng tử. Các thông số giải mã này sẽ kết
hợp với nhau và được xử lý để tạo lại tín hiệu âm thoại tổng hợp – Synthetic
speech.
6 Các yêu cầu cần có của một bộ mã hóa âm thoại

Mục tiêu chính của của mã hóa thoại là tối đa hóa chất lượng nghe tại một tốc
độ bit nào đó, hoặc tối thiểu hóa tốc độ bit ứng với một chất lượng đặc thù. Tốc độ
bit tương ứng với âm thoại nào sẽ được truyền hoặc lưu trữ phụ thuộc vào chi phí
của việc truyền hay lưu trữ, chi phí của mã hóa tín hiệu thoại số, và các yêu cầu về
chất lượng của âm thoại đó. Trong hầu hết các bộ mã hóa âm thoại, tín hiệu được
xây dựng lại sẽ khác với tín hiệu nguyên thủy. Tốc độ bit truyền bị giảm bởi việc
biểu diễn tín hiệu âm thoại (hoặc các thông số trong mô hình tạo âm thoại) với độ
chính xác bị giảm, và bởi quá trình loại bỏ các thông tin dư thừa của tín hiệu. Các
yêu cầu lý tưởng của một bộ mã hóa thoại bao gồm:
- Tốc độ bit thấp: đối với chuỗi bit mã hóa có tốc độ bit tỉ lệ thuận với băng
thông cần cho truyền dữ liệu. Điều này dẫn đến nếu tốc độ bit thấp sẽ làm
tăng hiệu suất của hệ thống. Yêu cầu này lại xung đột với các các đặc tính
tốt khác của hệ thống, như là chất lượng của âm thoại. Trong thực tế, việc
đánh đổi giữa các lựa chọn phụ thuộc vào áp dụng vào ứng dụng gì.
- Chất lượng thoại cao: tín hiệu âm thoại đã giải mã phải có chất lượng có
thể chấp nhận được đối với ứng dụng cần đạt. Có rất nhiều khía cạnh về mặt
chất lượng bao gồm tính dễ hiểu, tự nhiên, dễ nghe và cũng như có thể nhận
dạng người nói.
- Nhận dạng tiếng nói / ngôn ngữ khác nhau: kỹ thuật nhận dạng tiếng nói
có thể phân biệt được giọng nói của người lớn nam giới, người lớn nữ giới
và trẻ con cũng như nhận dạng được ngôn ngữ nói của người nói.
- Cường độ mạnh ở trong kênh truyền nhiễu: đây là yếu tố quan trọng đối
với các hệ thống truyền thông số với các nhiễu ảnh hưởng mạnh đến chất
lượng của tính hiệu thoại.
- Hiệu suất cao đối với các tín hiệu phi thoại (ví dụ như tín hiệu tone điện
thoại): trong hệ thống truyền dẫn kinh điển, các tín hiệu khác có thể tồn tại
song song với tín hiệu âm thoại. Các tín hiệu tone như là đa tần tone đôi –
Dual tone multifrequency(DTMF) của tín hiệu âm bàn phím và nhạc thông
thường bị chèn vào trong đường truyền tín hiệu. Ngay cả những bộ mã hóa
thoại tốc độ thấp cũng có thể không thể tạo lại tín hiệu một cách hoàn chỉnh.

- Kích thước bộ nhớ thấp và độ phức tạp tính toán thấp: nhằm mục đích
sử dụng được bộ mã hóa âm thoại trong thực tế, chi phí thực hiện liên quan
đến việc triển khai hệ thống phải thấp, bao gồm cả việc bộ nhớ cần thiết để
hỗ trợ khi hệ thống hoạt động cũng như các yêu cầu tính toán. Các nhà
nghiên cứu mã hóa âm thoại đã nổ lực trong việc tìm kiếm hiện thực bài toán
triển khai trong thực tiễn sao cho có hiệu quả nhất.
- Độ trễ mã hóa thấp: trong quá trình xử lý mã hóa và giải mã thoại, độ trễ
tín hiệu luôn luôn tồn tại, chính là thời gian trượt giữa âm thoại ngõ vào của
bộ mã hóa với tín hiệu ngõ ra của bộ giải mã. Việc trễ quá mức sẽ sinh ra
nhiều vấn đề trong việc thực hiện trao đổi tiếng nói hai chiều trong thời gian
thực.
7 Đánh giá chất lượng âm thanh thoại
Việc đánh giá chất lượng thoại trong mạng có thể được thực hiện bằng cách
đánh giá các tham số truyền dẫn có ảnh hưởng đến chất lượng thoại và xác định tác
động của các tham số này đối với chất lượng tổng thể. Tuy nhiên, việc đánh giá
từng tham số rất phức tạp và tốn kém. Hiện nay, việc đánh giá chất lượng thoại
được dựa trên một tham số chất lượng tổng thể là MOS (Mean Opinion Score).
Những phương pháp sử dụng MOS đều mang tính chất chủ quan do chúng phụ
thuộc vào quan điểm của người sử dụng dịch vụ. Tuy vậy, chúng ta có thể phân
chia các phương pháp đánh giá chất lượng thoại ra làm hai loại cơ bản:
- Các phương pháp đánh giá chủ quan: việc đánh giá theo quan điểm của
người sử dụng về mức chất lượng được thực hiện trong thời gian thực.
Phương pháp này được quy định trong khuyến nghị ITU-T P.800.
- Các phương pháp đánh giá khách quan: sử dụng một số mô hình để ước
lượng mức chất lượng theo thang điểm MOS. Phương pháp đánh giá khách
quan có thể được phân thành:
o Các phương pháp so sánh: dựa trên việc so sánh tín hiệu thoại truyền
dẫn với một tín hiệu chuẩn đã biết.
o Các phương pháp ước lượng tuyệt đối: dựa trên việc ước lượng tuyệt
đối chất lượng tín hiệu thoại (phương pháp này không sử dụng các tín

hiệu chuẩn đã biết); vd: INMD (sử dụng trong khuyến nghị P.561 của
ITU-T).
o Các mô hình đánh giá truyền dẫn: phương pháp này xác định giá trị chất lượng
thoại mong muốn dựa trên những hiểu biết về mạng; vd: mô hình ETSI Model.
Chương 2:
Tìm hiểu sơ đồ nén âm thanh thoại của ITU-T, GSM theo các chuẩn
G726, GSM06-10.
Theo định lấy mẫu Nyquist và Shannon, tần số lấy mẫu quyết định tần số cao nhất
của tín hiệu phục hồi.Để tái tạo lại dạng song có tần số là f, cần phải lấy 2f mẫu
trong một giây.Tần số này được gọi là tần số Nyquist.
Thông thường, khi xử lý các bài toán về truyền thoại, mô hình được đơn giản hóa
như hình 1
Input Encoded Output
Speech bit-stream Speech(128 kbps)
(128 kbps) (<128 kbps)
Hình 2.1: Sơ đồ khối đơn giản hóa của bộ mã hóa âm thoại
1.Sơ đồ nén âm thanh thoại GSM06-10.
1.1 Bộ mã hóa GSM 06.10.
Hình 2.2: Sơ đồ đơn giản hóa bộ mã hóa GSM 06-10
Các khung tín hiệu tiếng nói đầu vào bao gồm 160 mẫu tín hiệu(theo mẫu PCM 13
bit) đầu tiên sẽ được tiền xử lý tạo đối tượng tín hiệu xử lý cho bộ lọc làm rõ nét
trước. 160 mẫu tín hiệu đạt được sẽ được phân tích để xác định các tham số cho bộ
lọc phân tích ngắn hạn(LPC analysis).
Các thông số này được sử dụng để lọc chính 160 mẫu tín hiệu đó.Kết quả ta sẽ có
được 160 mẫu tín hiệu dư ngắn hạn.Các thông số của bộ lọc, hệ số phản xạ tới hạn
sẽ được truyền đến LAR(log area ratios) trước khi được truyền đi. Khung tín hiệu
Encod
er
Decod
er

sẽ được phân tách thành 4 khung con với 40 mẫu trong mỗi khung. Mỗi khung con
sẽ được xử lý theo từng block bởi các thành phần chức năng nối tiếp sau:
- Trước khi xử lý từng khối nhỏ của 40 mẫu tín hiệu ngắn han, các thông số
của bộ lọc phân tích dài hạn: trễ LTP và tăng LTP sẽ được ước lượng và cập
nhật trong bộ phân tích LTP dựa trên cơ sở của khối hiện tại và dãy 120 mẫu
tín hiệu ngắn hạn trước đó được lưu trữ
- Một block 40 tín hiệu dài hạn sẽ được tạo ra bằng việc trừ 40 mẫu tín hiệu
ngắn hạn cho chính 40 ước lượng của chúng. Các block đạt được sẽ được
đưa vào bộ phân tích kích xung đều để thực hiện quá trình nén cơ bản của
thuật toán
- Kết quả sau quá trình phân tích RPE, block 40 mẫu tín hiệu dài hạn được
biểu diễn bởi 4 chuỗi con mỗi chuỗi gồm 13 xung. Sự chọn lọc sau đó được
xác định bởi vị trí lưới RPE. 13 xung RPE sẽ được mã hóa sử dụng APCM
với ước lượng biên độ block con-thông số cũng sẽ được chuyển đến bộ giải
mã. Thông số RPE cũng được chuyển tới bộ giải mã RPE cục bộ và module
tái tạo để tạo ra 40 mẫu tín hiệu dài hạn đã được lượng tử hóa.
- Bằng việc cộng 40 mẫu tín hiệu dài hạn đã lượng tử hóa vào block các ước
lượng tín hiệu ngắn hạn trước đó, ta sẽ có các tín hiệu ngắn hạn được xây
dựng lại. Các tín hiệu này sau đó được đưa vào bộ lọc phân tích dài hạn để
tạo 40 ước lượng tín hiệu ngắn hạn sẽ được sử dụng cho block con tiếp theo
và tiếp tục vòng lặp.
1.2Bộ giải mã GSM06-10
Hình 2.3: Sơ đồ đơn giản hóa bộ giải mã GSM 06-10
Hầu hết các block con cũng cần thiết trong bộ mã hóa và đã được mô tả. Chỉ có các
bộ lọc tổng hợp ngắn hạn và các bộ lọc tập trung được thêm vào trong các bộ giải
mã như nhữngblock con mới.Các bộ giải mã gồm 4 phần.
• Phần giải mã RPE(RPE decoding section)
• Phần dự báo dài hạn(Long term prediction section)
• Phần lọc tổng hợp ngắn hạn(Short term synthesis filtering section)
• Hậu xử lý Postprocessing)

Sơ đồ khối hoàn chỉnh cho bộ giải mã được mô tả trong hình 3.Các biến và các
thông số của bộ giải mã được đánh dấu bởi các chỉ số R để phân biệt các giá trị
nhận được từ các giá trị mã hóa.
Hình 2.4: Sơ đồ khối hoàn chỉnh của bộ giải mã GSM06-10
1.2.1 Phần giải mã RPE
Các tín hiệu đầu vào của bộ lọc tổng hợp dài hạn (tái thiết của tín hiệu dư dài
hạn) được tạo ra bởi bộ giải mã và “denormalizing” các RPE-mẫu (APCM
lượng tử ngược -3.1.21) và bằng cách đặt chúng vào vị trí đúng thời điểm
(định vị lướiRPE-3.1.22). ở giai đoạn này, các tần số lấy mẫu được tăng lên
bởi một yếu tố của 3 bằng cách chèn số lượng thích hợp các mẫu không có
giá trị trung gian.
1.2.2 Phần dự báo dài hạn
Việc xây dựng lại tín hiệu dư dài hạnđược áp dụng cho các bộ lọc tổng hợp
hạn trong đó sản xuất các tín hiệu dư ngắn hạn tái tạo Dr cho các bộ tổng
hợp ngắn hạn.
1.2.3Phần lọc tổng hợp ngắn hạn
Các hệ số của bộ lọc tổng hợp ngắn hạn được tái áp dụng các quy trình
giống như trong các bộ mã hóa. Các bộ lọc tổng hợp ngắn hạn được thực
hiện theo các cấu trúc mạng tinh thể được mô tả trong hình 4
Hình 2.5: short term synthesis filter
1.2.4Hậu xử lý
Đầu ra của bộ lọc tổng hợp được đưa vào các bộ lọc IIR-deemphasis dẫn
đến tín hiệu đầu ra
= + β*; β = 28180*
2. Sơ đồ nén âm thanh thoại theo chuẩn ITU G726
2.1Sơ đồ đơn giản hóa bộ mã hóa G726( G726 Encoder)
 Bộ mã hóa G726 thực hiện các hoạt động sau đây:
• Chuyển đổi luật –A hoặcluật - μ tín hiệu đầu vào để đồng nhất (tuyến
tính) PCM.
• Tính toán một tín hiệu khác bằng cách trừ đi một ước lượng của tín hiệu

đầu vàotừ đầu vào tín hiệu của chính nó.
• Thực thi 31, 15-, 7-, hoặc 4 cấp thích ứng lượng tử hóa của một tín hiệu
khácđể gán năm, bốn, ba hoặc hai chữ số nhị phân, tương ứng giá trị của
tín hiệu khác để chuyển giao cho các bộ giải mã G726.
• Tính toán một ước lượng của tín hiệu đầu vào dự kiến.
Một lượng tử nghược tạo ra một tín hiệulượng tử khác từ những năm, bốn,
ba hoặc hai chữ số nhị phân tương ứng.Dự toán tín hiệu được thêm vàođể tín
hiệu lượng tửkhác biệt này để tạo ra các phiên bản xây dựng lại củacác tín
hiệu đầu vào.Cả hai tín hiệu được xây dựng lại và sự khác biệt lượng tửtín
hiệu sẽ hoạt động bởi một dự đoán thích nghi trong đó tái tạo những ước
lượngcủa tín hiệu đầu vào, do đó hoàn tất các vòng lặp thông tin phản hồi.
Hình 2.6: Sơ đồ đơn giản hóa G726 Encoder
 Tích hợp dòng
Để tích hợp G.726 mã hóa thành một khuôn khổ cho người sử dụng nên làm
theocác bước sau:
• Bước 1: Tạo một cấu trúc G726G711_Params, khởi tạo giá tỷ lệ(16, 24,
32 hoặc 40 kb / s) và pháp luật (một-pháp luật, μ-luật hoặc luật tuyến tính)
của G.726 encoder.
• Bước 2: Gọi G726G711_create để tạo ra các thể hiện của một bộ mã hóa
G.726.
• Bước 3: Tạo một vùng đệm của các mẫu đầu vào (8 kHz, 14 bit cho luật
tuyến tính hoặc 8 bit cho luật-a hoặc luật-μ).
• Bước 4: Gọi G726G711_encode để nhận được đầu ra đã được lượng tử
hóa tín hiệu khác biệt từ bộ đệm.
• Bước 5: Lặp lại một cuộc gọi đến G726G711_encode (Bước 4) cho mẫu
đầu vào mới.
• Bước 6: Gọi G726G711_delete để xóa các ví dụ của một bộ mã hóa
G.726.
Hình 2.7.Sơ đồ khối bộ mã hóa G.726
2.2Sơ đồ đơn giản hóa bộ giải mã G726( G726 Decoder)

 Bộ giải mã G726 thực hiện các hoạt động sau đây:
• Một lượng tử ngược tạo ra một tín hiệu khác lượng tử từ nhữngnăm,
bốn, ba hoặc hai chữ số nhị phân tương tự, tương ứng.
• Dự toán tín hiệu được thêm vào tín hiệu này khác lượng tử để tạo
ranhững phiên bản được xây dựng lại của những tín hiệu đầu vào.
Hình 2.8: Sơ đồ đơn giản hóa G726 Decoder
• Cả hai tín hiệu được xây dựng lại và những tín hiệu khác lượng tử hóa
được xử lýbởi những dự đoán thích nghi mà tính ra một ước tính của
dựtín hiệu đầu ra, xây dựng lại tín hiệu từ mẫu khác để đồng nhất(tuyến
tính) PCM.
• Nén các tín hiệu PCM tuyến tính theo luật -A hoặc luật- μ, do đóhoàn tất
những vòng lặp thông tin phản hồi.
 Tích hợp dòng
• Để tích hợp bộ giải mã G.726 vào một khung cho người sử dụng nên làm
theocác bước sau (như minh họa trong hình 2.9):
• Bước 1: Tạo một cấu trúc G726G711_Params và khởi tạo nó với các tỷ lệ
yêu cầu
• (16, 24, 32 hoặc 40 kb / s) và kiểu PCM ( luật-A, luật- μ hoặc tuyến tính)
của một bộ giải mã G.726.
• Bước 2: Gọi G726G711_create để tạo ra các thể hiện của bộ giải mã
G.726.
• Bước 3: Tạo một vùng đệm của các mẫu đầu vào (8 kHz, 2-5 bit).
• Bước 4: Gọi G726G711_decode để có được những tín hiệu đầu ra bộ
đệm.
• Bước 5: Lặp lại gọi G726G711_decode cho mẫu đầu vào mới.
• Bước 6: Gọi G726G711_delete để xóa các ví dụ của bộ giãi mã G.726
Hình 2.9.Sơ đồ khối bộ giải mã G.726
Chương 3: Khảo sát và phân tích các ứng dụng của chuẩn
mã hóa âm thanh thoại ITU đang được sử dụng hiện nay trong
các bộ CODEC của dịch vụ VoIP.

Trong mục này, chúng em tiến hành khảo sát, phân tích các ứng dụng của các chuẩn mã hóa âm
thanh thoại ITU trong một giải pháp VoIP cụ thể. Đó là SIP Asterisk.
1. Các chuẩn mã hóa âm thanh ITU trong Asterisk
Asterisk là một nền tảng mở cho việc xây dựng các ứng dụng đa phương tiện. Asterisk là giải
pháp phầm mềm cho việc xây dựng các ứng dụng IP PBX, VOIP Gateway, conference server,
Asterisk được sử dụng rất phổ biến hiện nay, tại hơn 170 quốc gia, được cài đặt trên hàng triệu
server. Asterisk hỗ trợ các chuẩn nén audio theo chuẩn ITU sau:
• G.711 u-law và a-law
• G.722
• G.723.1
• G.726
• G.729
• GSM
Các codec này được tổ chức thành dạng thư viện động (.so). Trên Linux, chúng ta có thể tìm
thấy chúng trong thư mục /usr/lib/asterisk/modules và có tên dạng: codec_tenchuan.so. Ví dụ
codec_g722.so
a. G.711
G.711 là một chuẩn nén-giãn âm thanh của ITU-T thường được sử dụng ở điện thoại. Chuẩn
được đưa vào sử dụng năm 1972. Tên chính thức của chuẩn là Phương pháp điều biến mã xung
cho tần số giọng nói (Pulse Code Modulation – PCM). Có hai phiên bản khác nhau: µ-law sử
dụng chính ở Bắc Mĩ và Nhật Bản, và A-law, được sử dụng ở hầu hết các quốc gia còn lại. µ-law
và A-law mã hóa mẫu tuyến tính 14 bit và 13 bit thành mẫu logarit 8 bit. A-law tính toán đơn
giản hơn nhưng µ-law có phổ âm rộng hơn.
Chuẩn G.711 được
khuyên dùng bởi nhiều
công nghệ, ví dụ như chuẩn
H.320 và H.323. Chuẩn còn
được dùng trong fax qua IP,
như được định nghĩa trong chuẩn T.38. G.711, còn được goi là điều biến mã xung, là bộ codec
đặc trưng cho mã hóa dạng sóng. G.711 yêu cầu cung cấp băng thông 64Kbit/s. G.711 truyền tín

hiệu âm thanh trong khoảng 300-3400Hz và lấy mẫu chúng với tốc độ 8000 mẫu một giây.
Phương pháp lượng tử hóa logarit sử dụng 8 bit để biểu diễn một mẫu, kết quả là tốc độ 64
Kbit/s. Theo PSQM, kiểm tra trong điều kiện lí tưởng cả hai phiên bản điều cho điểm MOS là
4.45. Kiểm tra stress test, µ-law được 4.13, A-law được 4.1.
Có hai phiên bản nâng cấp của G.711: G.711.0 bổ sung phương pháp nén dữ liệu lossless
nhằm giảm băng thông và G.711.1 tăng chất lượng âm thanh bằng cách tăng băng thông.
b. G.722
G.722 là chuẩn codec âm thanh dải rộng của ITU-T hoạt động ở tốc độ 48, 56 bà 64 Kbit/s.
Chuẩn được công bố bởi ITU-T năm 1988. Công nghệ của codec dựa trên subband ADPCM
(SB-ADCPM).
Trong bộ mã hóa băng con (subband), tín hiệu được chia thành các băng con tần số sử dụng
một bộ lọc Quadrature Mirror Filter (QMF). Bộ mã hóa băng con (SBC) khai thác số liệu thống
kê của tín hiệu và/hoặc các tiêu chí nhận thức để mã hóa các tín hiệu trong mỗi băng tần sử dụng
một số lượng khác nhau của các bit. Ví dụ, các băng tần số thấp hơn thường được phân bổ nhiều
bit hơn các băng tần số cao hơn để bảo tồn các cao độ quan trọng của giọng nói. Thiết kế của bộ
lọc được coi là rất quan trọng trong SBC. Trong trường hợp không có tiếng ồn lượng tử hóa, việc
tái dựng tiếng nói một cách hoàn hảo có thể đạt được bằng cách sử dụng các QMF. Tiêu chuẩn
ITU G.722 tốc độ 7 kHz cho audio băng rộng ở 64 Kbit/s dựa trên SBC 2 băng tần và được sử
dụng chủ yếu cho hội nghị qua điện thoại ISDN (Integrated Services Digital Network). Các băng
con tần số thấp được lượng tử hóa với tốc độ 48 Kbit/s, trong khi các băng con tần số cao được
mã hóa ở mức 16 Kbit/s. Quy định cho tốc độ thấp hơn được thực hiện bằng cách lượng tử hóa
băng con tần số thấp ở 40 hoặc 32 Kbit/s. Các bộ lượng tử hóa trong G.722 tương tự như các bộ
lượng tử hóa ADPCM quy định tại G.726. Điểm MOS ở tốc độ 64 Kbit/s lớn hơn 4 cho tiếng nói
và hơi ít hơn 4 cho âm nhạc, và độ trễ của G.722 khoảng 1,5 ms. Sự phức tạp của G.722 được
ước tính là 5 MIPS. Hiện nay ITU đang nỗ lực phát triển một bộ mã hóa tiếng nói băng rộng hoạt
động ở tốc độ 16, 24, và 32 Kbit/s.

×