CNDPT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (414.27 KB, 21 trang )

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

BÀI
LỚN

TẬP

MÔN: CÔNG NGHỆ ĐA PHƯƠNG TIỆN
ĐỀ TÀI: TÌM HIỂU VỀ KĨ THUẬT NÉN
ÂM THANH MPEG
Giảng viên hướng dẫn : Nguyễn Thị Mỹ Bình
Lớp : ĐH-CNTT1-K10
Nhóm 15:
1. Trần Thị Mỹ Duyên
2. Đỗ Thị Thu Hà
3. Nguyễn Đức Huynh

Hà Nội 2018

Mục lục
Chương 1: Tìm hiểu chung về kĩ thuật nén âm thanh............................................................3
1.1. Tổng quan về kỹ thuật nén âm thanh...........................................................................3
1.1.1. Âm thanh là gì.......................................................................................................3
1.1.2. Nén âm thanh là gì................................................................................................3
1.1.3. Tại sao phải nén âm thanh?...................................................................................3
1.1.4. Các chuẩn nén âm thanh.......................................................................................3
1.1.5. Phân loại...............................................................................................................5
1.2. Giới thiệu về kĩ thuật nén MPEG Audio Compression...............................................5
1.2.1. Lịch sử hình thành................................................................................................5
1.2.2. Giới thiệu về MPEG.............................................................................................5

1.2.3. Các khái niệm trong âm thanh MPEG..................................................................6
1.2.4. Các lớp của âm thanh MPEG..............................................................................10
1.2.5. Các thông số dùng trong MPEG.........................................................................12
Chương 2: Kỹ thuật MPEG Audio Compression.................................................................16
2.1. Thuật toán MPEG Audio Compression.....................................................................16
2.2. Cơ chế hoạt động.......................................................................................................18
2.3. Ưu và nhược điểm.....................................................................................................19
Chương 3: Ứng dụng MPEG Audio Compression trong kĩ thuật nén âm thanh..................19
Kết luận................................................................................................................................20
Tài liệu tham khảo................................................................................................................20

MPEG Audio Compression

Page 1

Lời nói đầu
Công nghệ đa phương tiện là ngành ứng dụng công nghệ thông tin để sáng tạo, thiết
kế, xây dựng những ứng dụng đa phương tiện trong lĩnh vực truyền thông (quảng
cáo, truyền hình, Internet…), giải trí (game, điện ảnh, hoạt hình…), y học (mô
phỏng, tư vấn khám chữa bệnh từ xa…), giáo dục (học qua mạng Internet, minh họa
trực quan…) và nhiều lĩnh vực khác của cuộc sống . Sự phát triển này không thể
đáp ứng được những đòi hỏi về lưu trữ, internet ngày càng phát triển, số lượng
người tham gia truy cập ngày càng lớn và nhu cầu lại càng phong phú hơn. Do đó,
tốc độ truy cập, tốc độ truyền tải trên mạng được quan tâm hơn để cho người dùng
không phải sốt ruột ngồi chờ những trang web mình truy cập, họ không phải bực
mình khi download những file âm thanh và những bài hát mà họ yêu thích vì đường
truyền quá chậm. Vì vậy nhà nghiên cứu phát triển phần mềm đã tạo ra những
chương trình phần mềm hỗ trợ tích cực phần cứng. Một nhóm các chuyên gia về
hình ảnh động (Moving Picture Experts Group) gọi tắt là MPEG, được thành lập để

nghiên cứu đưa ra những phần mềm nén hình ảnh, âm thanh, video để tạo ra những
dạng âm thanh, video, hình ảnh...với dung lượng lưu trữ vô cùng nhỏ mặc dù chất
lượng có giảm đi nhưng không đáng kể so với những gì nó đạt được để truyền tải,
truy cập nhanh hơn.
Do trình độ và kiến thức có hạn nên không tránh khỏi những thiếu sót, em kính
mong cô tham gia góp ý và giúp đỡ chúng em để hoàn thành đề tài này tốt hơn.
Em xin chân thành cảm ơn cô đã tạo điều kiện thuận lợi giúp em hoàn thành bài tập
lớn này.

MPEG Audio Compression

Page 2

Chương 1: Tìm hiểu chung về kĩ thuật nén âm thanh
1.1. Tổng quan về kỹ thuật nén âm thanh
1.1.1. Âm thanh là gì
Âm thanh là các dao động cơ học (biến đổi vị trí qua lại) của các phân
tử, nguyên tử hay các hạt làm nên vật chất và lan truyền trong vật chất như
các sóng. Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước
sóng, chu kỳ, biên độ và vận tốc lan truyền (tốc độ âm thanh).
-

Đối với thính giác của người, âm thanh thường là sự dao động, trong dải tần
số từ khoảng 20 Hz đến khoảng 20000 Hz, của các phân tử không khí, và lan
truyền trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích
thích bộ não. Tuy nhiên âm thanh có thể được định nghĩa rộng hơn, tuỳ vào
ứng dụng, bao gồm các tần số cao hơn hay thấp hơn tần số mà tai người có
thể nghe thấy, không chỉ lan truyền trong không khí mà còn truyền trong bất
cứ vật liệu nào. Trong định nghĩa rộng này, âm thanh là sóng cơ học và

theo lưỡng tính sóng hạt của vật chất, sóng này cũng có thể coi là dòng lan
truyền của các hạt phonon, các hạt lượng tử của âm thanh.

-

Cả tiếng ồn và âm nhạc đều là các âm thanh. Trong việc truyền tín hiệu bằng
âm thanh, tiếng ồn là các dao động ngẫu nhiên không mang tín hiệu.

-

Sóng âm thanh( sound ware) thường có đặc tính :phản xá, khúc xạ và nhiễu
xạ.

-

Các tín hiệu âm thanh là những tín hiệu dạng tương tự(Analog): âm thanh
nghe được từ 16Hz đến 22000Hz, tần số(cao độ) và thời gian (cường độ) đều
là các số nên mã hóa được.

1.1.2. Nén âm thanh là gì
Nén âm thanh là phương pháp mã hóa dữ liệu số nhằm giảm dung lượng
và đòi hỏi băng thông phải truyền đi. Thực chất của việc này chính là sử dụng
một thuật toán giúp loại bỏ những phần tử được cho là không có ích trên một nội
dung đa phương tiện để làm cho nó nhỏ hơn
1.1.3. Tại sao phải nén âm thanh?
-

Tiết kiệm dung lượng lưu trữ của ổ cứng, hosting...

-

Sắp xếp gọn gàng, ngăn nắp hơn.

-

Thuận tiện trong việc sao chép, đính kèm khi gửi email.

-

Chia sẻ file trên internet dễ dàng và nhanh chóng.

1.1.4. Các chuẩn nén âm thanh
- MP3 (MPEG 1 layer 3): ra đời năm 1980 từ viện nghiên cứu Fraunhoufer
Institute (Đức).
MPEG Audio Compression

Page 3

-

-

-

+ Là định dạng nén dữ liệu phổ biến nhất, thì có vô số các định dạng khác
có sẵn. Mỗi loại sử dụng một loại thuật toán khác nhau để xác định dữ
liệu nào cần loại bỏ và sự khác biệt về âm thanh có thể dao động từ tinh
tế đến khá rõ ràng
+ MP3 là nhóm MPEG-1 lớp 3 cung cấp chất lượng audio gần giống với

chất lượng CD ở tốc độ bit thấp
+ MP3 hỗ trợ các tần số lấy mẫu khác nhau như: 32kHz; 44,1kHz; 48kHz;
tốc độ bit có thể thay đổi từ 32 đến 448kbps
ACC(MPEG-2): Ra đời năm 1997 từ Fraunhofer Institue (Đức) kết hợp với
một số công ty như AT&T, Sony, Dolby, là định dạng cải tiến của MP3.
+ Mã hóa âm thanh nâng cao được thiết kế để trở thành người kế thừa cho
MP3, và mặc dù nó là một cải tiến âm thanh, nhưng sự nổi tiếng của nó
chưa bao giờ thực sự được cất cánh. AAC là một chuẩn mặc định cho
iTunes, iPod, iPhone, cũng như PlayStation và Nintendo DS. Nó cũng
thường được sử dụng làm thành phần âm thanh cho các định dạng video
QuickTime và MP4 của Apple. Nói chung, nếu bạn định cung cấp định
dạng mã hóa thứ hai trực tuyến, AAC là một trong những điều cần xem
xét.
+ Tiêu chuẩn MPEG-2 được sử dụng rộng rãi, vì nó là phương tiện tiêu
chuẩn cho DVD
+ Chuẩn mã hóa âm thanh nâng cao MPEG-2 (AAC) nhằm mục đích tái tạo
âm thanh trong suốt cho nhà hát.
+ MPEG-2 AAC có khả năng cung cấp âm thanh nổi chất lượng cao ở tốc
độ bit dưới 128 kbps
OGG: Là định dạng nguồn mở được Xiph.org Foundation đề xuất năm 1993,
nén tốt và có chất lượng ở tốc độ bit thấp.Ở tần âm khoảng giữa quang phổ
(3KHz-4KHz), OGG xử lý tín hiệu âm trung âm không trong trẻo như MP3
trong khi các tầng âm cao của MP3 lại không "sạch" bằng OGG.
WMA: Định dạng âm thanh của Microsoft, ra mắt năm 1999, trên lý thuyết
có thể nén 96 kbps với chất lượng của MP3 128 kbps. WMA cũng phổ biến
trong thế giới âm thanh phát trực tuyến.
+ Thường được cung cấp dưới dạng thay thế cho MP3 trên các trang web
tải xuống nhạc và video. Nó cũng phổ biến trên các trang web cung cấp
các tệp âm thanh và video trực tuyến tương thích với Windows Media
Player. Trong khi nhiều người cảm thấy chất lượng âm thanh vượt trội so

với MP3, các tệp WMA có xu hướng âm thanh quá sáng và dễ vỡ, với
hình ảnh âm thanh nổi tối ưu.
+ WMA có thể nén âm thanh với tốc độ cao hơn, nó có thể chứa âm thanh
chất lượng cao và yêu cầu lưu trữ ít .
+ Không phụ thuộc vào tần số lấy mẫu, khi nén file ở bất kì tần số nào,
dung lượng file vẫn không thay đổi

MPEG Audio Compression

Page 4

1.1.5. Phân loại
Nén âm thanh cho phép lưu trữ và truyền dữ liệu hiệu quả. Có thể có số
lượng nén khác nhau trong dữ liệu âm thanh. Có thể có các mức độ phức tạp
khác nhau của hệ thống và chất lượng dữ liệu âm thanh được nén. Dạng sóng
được ghi lại được giảm với số lượng khác nhau cho mục đích truyền dẫn có hoặc
không có tổn thất. Dữ liệu âm thanh kỹ thuật số được xử lý dễ dàng thông qua
trộn, lọc và cân bằng. Điều này hiện đang phải chịu một bộ mã hóa sử dụng ít bit
hơn so với hiện tại trong dữ liệu âm thanh gốc. Điều này dẫn đến việc giảm băng
thông truyền dẫn của luồng âm thanh kỹ thuật số và dung lượng lưu trữ của các
tệp âm thanh. Vì vậy nó được chia làm 2 loại: mất dữ liệu và không mất dữ liệu
-

Nén mất dữ liệu: là loại nén dữ liệu mà có sự khác biệt giữa dữ liệu gốc và
dữ liệu được phục hồi lại sau khi nén
Nén không mất dữ liệu: Là kiểu nén mà dữ liệu có thể hục hồi lại hoàn
toàn sau khi nén

1.2. Giới thiệu về kĩ thuật nén MPEG Audio Compression

1.2.1. Lịch sử hình thành
Trên thế giới hoạt động nghiên cứu về các phương pháp nén âm thanh
diễn ra rất sớm và ngày càng phát triển. Đặc biệt phương pháp nén âm thanh
chuẩn MPEG là phổ biến và được quan tâm hơn cả. Hội nghị MPEG đầu tiên
diễn ra vào tháng 5 năm 1988 tại Ottawa, Canada. Tính đến cuối năm 2005,
MPEG đã lên tới hơn 350 thành viên tham gia hội nghị từ các lĩnh vực công
nghiệp, các trường đại học và viện nghiên cứu khác nhau. Điều này càng cho
thấy tầm quan trong và ý nghĩa thực tiễn của chuẩn MPEG trong việc nén âm
thanh.
1.2.2. Giới thiệu về MPEG
MPEG viết tắt của cụm từ” Moving Picture Experts Group”, là một nhóm
chuyên nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo
chuẩn ISO/IEC. Ngày nay nhóm làm việc MPEG đã phát triển và phát hành các
tiêu chuẩn MPEG-1, MPEG-2, MPEG-4. Chuẩn MPEG-3 được kết hợp vào
MPEG-2 và không còn tách riêng nữa. Nhóm MPEG hiện nay đã phát triển đến
chuẩn MPEG-7. MPEG chỉ là một tên riêng, tên chính thức của nó là: ISO/IEC
JTC1 SC29 WG11.
ISO: Internation Organization for Standardization
IEC: Internation Electro-technical Commission
JTC1: Joint Technial Committee 1
SC29: Sub-committee 29
MPEG Audio Compression

Page 5

WG11: Work Group 11(moving picture with audio)
Về cơ bản, âm thanh MPEG sẽ làm giảm kích thước lưu trữ 1 tập tin âm
thanh đi rất nhiều. Một đĩa Audio_CD lưu trữ được khoảng 650 Mbyte dữ liệu
âm thanh thô với cách mã hóa 16 bit và tần số lấy mẫu 44,1kHz. Nếu đem phát ra

thì cũng chỉ được 60-72 phút.
1.2.3. Các khái niệm trong âm thanh MPEG
a. Hiệu ứng che(Masking)
-

Nói đơn giản âm lớn át âm bé, âm mạnh át âm yếu

Hình 1: Hiệu ứng che

b. Ngưỡng nghe và mức nhạy cảm
Thí nghiệm: Đặt một người trong phòng yên tĩnh. Tăng mức to của âm 1KHz lên
cho đến ngay khi có thể nghe được rõ ràng. Lặp lại thí nghiệm với các tần số
khác nhau, ta vẽ được đồ thị sau:

MPEG Audio Compression

Page 6

Hình 2: Ngưỡng nghe

- “Ngưỡng nghe”: Là mức mà dưới nó một âm thanh không thể nghe được. Nó
thay đổi theo tần số âm thanh giữa mỗi người khác nhau. Hầu hết mọi người đều
nhạy cảm ở mức 2 đến 5 KHz. Một người có nghe được âm thanh hay không tùy
thuộc vào tần số của âm và độ to của âm đó ở trên hay dưới ngưỡng nghe tại tần
số đó. Tai nhạy cảm ở mức 2 đến 5 KHz.
- Ngưỡng nghe cũng có tính thích nghi thay đổi bởi âm thanh mà ta nghe
được.
Ví dụ: Một cuộc nói chuyện bình thường trong một phòng thì có thể nghe được
rõ ràng ở điều kiện bình thường. Tuy nhiên cũng cuộc trò chuyện đó nằm trong

vùng lân cận của những tiếng ồn lớn, như là tiếng ồn do một chiếc phản lực bay
ngang bên trên, là hoàn toàn không thể nghe được do lúc này ngưỡng nghe đã bị
sai lệch. Khi chiếc phản lực đã đi rồi thì ngưỡng nghe trở lại bình thường. Âm
thanh mà chúng ta không thể nghe được do sự thích nghi động của ngưỡng nghe
gọi là bị “che”(Masked).
c. Che tần số (Frequency Masking)
Thí nghiệm:
-

-

Phát ra một âm có tần số 1KHz với mức to cố định là 60dB, gọi là “âm
che”(Masking Tone). Phát ra một âm khác( gọi là Test Tone) ở mức tần số
khác( ví dụ: 1,1KHz) và tăng mức to của âm này cho đến khi có thể nghe
được nó (phân biệt được âm 1,1KHz và âm che 1KHz).
Làm lại thí nghiệm với các âm thử( Test Tone) và vẽ ra một ngưỡng mà tại
đó các âm thử bắt đầu có thể phân biệt được.

Hình 3: Test Tone

- Làm thí nghiệm với các “Masking Tone” có các tần số khác nhau, ta có được
hình vẽ:
MPEG Audio Compression

Page 7

Hình 4: Masking Tone

d. Che nhất thời( che thời gian)

Nếu ta nghe một âm thanh lớn, rồi ngưng nó lại, mãi một lúc sau ta mới có
thể nghe được âm lân cận nhỏ hơn.
Thí nghiệm: Phát ra một âm che”Masking Tone”có tần số 1KHz ở mức
60dB, kèm 1 âm thử( Test Tone) 1,1KHz ở mức 40dB. Ta không nghe được âm
thử này( nó đã bị che).
-

Dừng âm che lại, đợi một lúc( Delay Time) ta dừng tiếp âm thử(Test
Tone).
Điều chỉnh thời gian Delay để cho ta vừa có thể nghe được âm chủ( ví dụ:
khoảng 5ms).
Lặp lại thí nghiệm cho các mức to khác nhau của âm thử, ta vẽ được đồ thị
sau:

Hình 5: Che thời gian

-

Làm thí nghiệm tương tự với các tần số khác nhau cho âm thử. Hiệu quả
che sẽ được như hình vẽ:

MPEG Audio Compression

Page 8

Hình 6

e. Âm thanh MPEG
Khả năng của âm thanh MPEG về cơ bản âm thanh MPEG sẽ làm giảm kích

thước lưu trữ một tập tin âm thanh đi rất nhiều. Một đĩa Audio-CD lưu trữ được
khoảng 650MB dữ liệu âm thanh thô với các mã hóa 16 bit( Bitdepth) và tần số
lấy mẫu (Sample Rate) 44,1KHz. Nếu đem phát ra thì cũng chỉ được 60 đến 72
phút.
-

Bitdepth: Mô tả mức biên độ lớn nhất mà một mẫu âm thanh có thể đạt
tới.

Ví dụ: 8 Bit = 256 Mức, 16 Bit = 65536 Mức, Về hình ảnh thì đó chính là độ
phân giải
-

Sample Rate: Mô tả số mẫu âm thanh được lấy trong 1 giây

Ví dụ: 22 KHz = 22000 Mẫu/s
Phương pháp cổ điển để giảm kích thước lưu trữ là giảm lượng thông tin. Nếu
đổi cách lưu trữ âm thanh từ 16 Bit sang 8 Bit chúng ta có thể giảm kích thước
lưu trữ đi một nửa, tuy nhiên chất lượng âm thanh sẽ giảm đi một nửa.

MPEG Audio Compression

Page 9

Hình 7: Âm thanh MPEG

1.2.4. Các lớp của âm thanh MPEG
Có nhiều sự nhầm lẫn về lớp âm thanh MPEG. Tất cả các lớp đều dựa trên
cùng một lược đồ mã hóa (mã hóa theo nhận thức). Mức độ phức tạp của bộ mã

hóa và giải mã tùy thuộc vào mỗi lớp. Sau đây là hình ảnh cho thấy tỉ số nén mà
ta cần phải đạt tới 100% chất lượng CD với các bộ mã hóa và giải mã khác nhau.

Hình 8: Các lớp của âm thanh MPEG

Sau đây là chi tiết về các lớp:
a. Lớp I( Layer I)
MPEG Audio Compression

Page 10

Đây là lớp đơn giản nhất phù hợp cho ứng dụng của con người. Mô hình
âm học tâm lý của lớp này chỉ sử dụng các tần số che. Điều này có nghĩa rằng nó
sẽ bỏ qua các tần số bị khuất sau các tần số khác. Phạm vi tốc độ bit từ 32 kbit/s
(mono) đến 448 kbit/s(stereo). Tùy thuộc vào mức độ phức tạp của bộ mã hóa,
một âm thanh chất lượng cao (gần với ân thanh CD) yêu cầu tốc độ bit khoảng
256-384 kb/s trên một chương trình stereo. Không cần mã hóa với mức nén cao
hơn 384 kb/s. Độ phức tạp của bộ giải mã thấp, độ phức tạp của bộ mã hóa cao
hơn 1.5 – 3 lần. Lớp I được dùng nhiều trong DDC và Solid State Audio.
b. Lớp II( Layer II)
Lớp II đề nghị mức độ nén cao hơn lớp I và mức độ lọc sâu hơn. Nó có
những ứng dụng số cho cả âm thanh chuyên nghiệp và tài tử, như qua đài phát
thanh, Tivi… Phạm vi tốc độ bit từ 32 – 192 kb/s cho âm thanh mono và từ
64 – 384 kb/s cho âm thanh stereo. Tùy thuộc vào mức độ phức tạp của bộ mã
hóa, một âm thanh chất lượng cao (gần với ân thanh CD) yêu cầu tốc độ bit
khoảng 256-384 kb/s trên một chương trình stereo. Mức độ phức tạp của bộ giải
mã 25% cao hơn so với lớp I, và bộ mã hóa có mức phức tạp cao hơn 2 – 4 lần.

c. Lớp III(Layer III)

Lớp III còn đưa ra mức độ nén và lọc cao hơn cả lớp II và sử dụng một bộ
mã hóa Huffman

Hình 9

Trong bảng trên, độ phức tạp của bộ giải mã lớp I được dùng để so sánh.
1.2.5. Các thông số dùng trong MPEG
Chuẩn MPEG cho phép ta chọn lựa các thông số cho việc nén âm thanh
tốt nhất phù hợp với ứng dụng mà ta sử dụng. Lược đồ mã hóa cho các loại là
tổng quát. Các thông số có thể chọn lựa trong bộ mã hóa MPEG bao gồm: Mode,
Sampling frequency, bitrate, và Layer.
MPEG Audio Compression

Page 11

a. Mode
Chuẩn MPEG có 4 chế độ:
-

Mono.

-

Dual channel.

-

Stereo.

-

Intensity Stereo (còn gọi là Joint Stereo).

Chế độ Mono rõ ràng được dùng cho âm thanh 1 kênh.
Để chọn chế độ cho các ứng dụng 2 kênh, đầu tiên ta phải xác định đâu là
tín hiệu trài và đâu là tín hiệu phải để chia chúng ra thành 2 files khác nhau,
nhằm sau này ta có thể làm việc độc lập trên kênh trái hoặc phải. Lúc đó ta sẽ
chọn chế độ Mono. Nếu 2 kênh không cần hoạt động độc lập, ta chọn Stereo,
Dual hay Intensity Stereo để tạo ra một file duy nhất.
Chế độ Stereo hay kênh Dual là hoàn toàn đồng nhất khi chúng cùng sinh ra
một file duy nhất cho tín hiệu stereo. Tuy nhiên một bit chỉ thị sẽ nhận dạng xem
một file là ở chế độ nào và có thể được dùng cho những áp dụng nào…
Chế độ Intensity Stereo xem xét sự dư thừa giữa các kênh trái và phải nhằm tối
ưu hóa. Chất lượng chủ quan của Intensity Stereo thay đổi theo hình ảnh stereo
của tín hiệu đã mã hóa. Tuy nhiên nó đặc biệt thích hợp cho tốc độ truyền bit
thấp.
b. Sampling Frequency(tốc độ lấy mẫu)
-

Một số tốc độ lấy mẫu:

32kHz, 44.1kHz và 48kHz đối với MPEG1 (Tiêu chuẩn ISO/IEC 11172- 3).
16kHz, 22.05kHz và24kHz đối với MPEG2 (Tiêu chuẩn ISO/IEC13818-3).
-

Khi chọn lựa tốc độ lấy mẫu cần xem xét các vấn đề:
+ Tần số lấy mẫu càng lớn thì chất lượng âm thanh càng cao(độ dài frame
nhỏ hơn).
+ Băng thông tín hiệu giới hạn ở mức 15 kHz khi lấy mẫu ở tốc độ 32 kHz

và 8 kHz ở tốc độ 16 kHz.
+ Tấn số lấy mẫu (kHz) và tốc độ của âm thanh mã hóa (kbps) có thể chọn
độc lập

MPEG Audio Compression

Page 12

+ Tần số lấy mẫu 44.1 kHz hay 22.05 kHz là không thiết thực cho việc
chọn lọc vì độ dài frame (byte) là thay đổi.
+ Những file được lấy mẫu ở những tần số khác nhau thì rất khó khăn khi
hòa trộn.
+ Khi dùng đường nhập số AES/EBU, tần số lấy mẫu bị cố định bởi tín
hiệu nhập.
Nếu không bắt buộc, Digigram yêu cầu lấy mẫu ở 48 kHz hoặc 44.1 kHz cho
phát thanh hay ứng dụng multimedia. Nếu ta phải sử dụng tốc độ bit thấp cho sự
truyền có hiệu quả, tốc độ 24 kHz là thích hợp.
c. Bit Rate
Mỗi Layer và chế độ có nhiều cách chọn lựa tốc độ bit (bit rate). Việc chọn tốc
độ bit tùy thuộc trước tiên vào chất lượng âm yêu cầu. Băng thông tín hiệu là hẹp
hơn nếu tốc độ bit thấp, khiến cho nó không thực tế đối với một số ứng dụng.
Tốc độ bit được đo theo kilobits/sec (kbps).
-

Khi chọn lựa tốc độ bit cần xem xét các vấn đề:
+ Tại 128 kbps trên mỗi kênh (hay 256 kbps stereo), chất lượng âm thanh
CD sẽ đạt được với Layer I hay Layer II.
+ Tại 192 kbps trên mỗi kênh, chất lượng âm thanh là hoàn toàn trong suốt.

Tốc độ 128 kbps/kênh được dùng phổ biến nhất trong phát thanh. Nó tương ứng
với tí số nén 1:6 ở tốc độ lấy mẫu 48 kHz. Tốc độ thấp hơn 128 kbps/kênh được
dùng trong các ứng dụng yêu cầu tỉ số nén lớn hơn do giới hạn của băng thông
truyền hay thiết bị lưu trữ
-

Một số tốc độ bit cung cấp bởi chuẩn âm thanh MPEG:
+ MPEG 1: 32 kHz, 44.1 kHz vaø 48 kHz
 Layer I :
32, 64, 96, 128, 160, 192, 224, 256, 288, 320, 352, 384, 416, 448 kbps.
Những tốc độ này là có thể ở chế độ Mono hay stereo.
 Layer II :
32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320, 384 kbps.
32, 48, 56, 80 kbps chỉ có thể ở chế độ Mono; 64, 96, 112, 128, 160,
192 kbps có thể ở cả hai chế độ Mono và Stereo; 224, 256, 320, 384
kbps chỉ có thể ở chế độ Stereo.
+ MPEG 2 : 16 kHz, 22.05 kHz vào 24 kHz
 Layer I :
32, 48, 56, 64, 80, 96, 112, 128, 144, 160, 176, 192, 224, 256 kbps

MPEG Audio Compression

Page 13

Những tốc độ này là có thể ở chế độ Mono hay stereo.
 Layer II:
8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbps
Những tốc độ này là có thể ở chế độ Mono hay stereo.
d. Layers

Chuẩn MPEG có 3 layer.
-

Khi chọn lựa tốc độ bit cần xem xét các vấn đề:
+ Ở cùng tốc độ bit, Layer II mang lại chất lượng âm thanh tốt hơn Layer I.
Kết luận này là chủ quan, vì sự chênh lệch rất khó phân biệt ở tốc độ bit
128 kbps và lớn hơn.
+ Dùng Layer I thì việc chọn lọc chính xác hơn Layer II bởi vì độ phân giải
của Layer I gấp ba lần Layer II.

Resolution Table

MPEG Audio Compression

Page 14

Hình 10:Layer

+ Các điểm kỹ thuật mấu chốt.
Chuẩn mã hóa âm thanh MPEG chỉ định việc ghi một số cố định các mẫu
(384 cho Layer I và 1152 cho Layer II) để tạo ra một chuỗi các bytes gọi là
“frame”. “Frame” là thực thể nhỏ nhất được điều khiển bởi một ứng dụng.
Việc chọn tốc độ bit thiết lập nên kích thước của frame đó theo byte.
Ví dụ:
Ở 48 kHz, 128 kbps, chế độ Mono, Layer II:
-

48 000 mẫu, tương ứng 1000 ms hay 1s, 1152 mẫu tương ứng 24 ms.

-

Ở tốc độ bit 120 000 bits/s, 3072 bits (384 bytes) cần cho 24 ms.

-

Chiều dài frame ví thế là 384 byte.

-

Để lưu 1 phút, cần 960 000 byte (hay khoảng 1 Megabyte) đĩa trống.

Chương 2: Kỹ thuật MPEG Audio Compression
2.1. Thuật toán MPEG Audio Compression

MPEG Audio Compression

Page 15

Hình
11:
Bộ
mã
hóa
âm

thanh MPEG cơ bản và bộ giải mã

-

Phương pháp nén MPEG dựa vào:
+ Lượng tử hóa
+ Hệ thống thính giác của con người không chính xác trong chiều rộng của
một ban nhạc quan trọng (cảm nhận được độ ồn và khả năng nghe của tần
số)
- Bộ mã hóa MPEG sử dụng một bộ lọc ngân hàng để:
+ Phân tích các thành phần tần số (“quang phổ”) của âm thanh tín hiệu
bằng cách tính toán biến đổi tần số của một cửa sổ của các giá trị tín hiệu
+ Phân chia tín hiệu thành các băng con bằng cách sử dụng một ngân hang
bộ lọc (Lớp 1 & 2: “cầu phương”, lớp 3: thêm một DCT; mô hình tâm lý
học: biến đổi Fourier)

- Thuật toán nén âm thanh theo chuẩn MPEG bao gồm 3 bước:
+ Bước 1: tín hiệu audio PCM được chuyển sang miền tần số, toàn bộ dải
phổ của nó được chia thành 32 băng con thông qua bộ lọc băng con
+ Bước 2: Với mỗi băng con ta xác định mức biên độ tín hiệu và mức nhiễu
bằng mô hình tâm sinh lý nghe. Đây là thành phần chính của bộ mã hóa
MPEG Audio Compression

Page 16

MPEG audio và chức năng của nó là phân tích tín hiệu vào. Mô hình tâm
sinh lý nghe xác định tỷ lệ signal- mask cho mỗi băng.
+ Bước 3: Mỗi băng con đó được lượng tử hóa thông qua lượng tử các
thành phần nghe thấy trong mỗi băng. Nó đi kèm với mã Huffman để mã
hóa các giá trị phổ tín hiệu và cho nén số liệu tốt hơn và định dạng số liệu
-

Ví dụ:
+ Thuật toán cơ bản . Nó tiến hành bằng cách chia đầu vào thành 32 băng
tần số, thông qua một ngân hàng lọc. Đây là một hoạt động tuyến tính lấy
làm đầu vào của nó một tập hợp 32 mẫu PCM, lấy mẫu trong thời gian,
và tạo ra như là hệ số tần số đầu ra 32 của nó. Nếu tốc độ lấy mẫu
là fs, giả sử fs = 48 ksps (kilosamples trên giây, tức là 48 kHz), sau đó
theo định lý Nyquist, tần số tối đa được ánh xạ sẽ là fs / 2. Do đó băng
thông được ánh xạ được chia thành 32 chiều rộng bằng nhau phân đoạn,
mỗi chiều rộng fs / 64 (các phân đoạn này chồng lên nhau).
+ Trong bộ mã hóa lớp 1, bộ 32 giá trị PCM đầu tiên được tập hợp thành
một nhóm gồm 12 nhóm 32. Do đó, coder có độ trễ thời gian cố hữu,
tương đương với thời gian tích lũy 384 mẫu (tức là 12 x 32). Ví dụ, nếu
lấy mẫu tiến hành ở tốc độ 32 kbps, thì thời gian yêu cầu là 12 msec vì
mỗi bộ 32 mẫu được truyền mỗi mili giây. Những bộ 12 mẫu này, mỗi
mẫu có kích thước 32, được gọi là phân đoạn. Điểm lắp ráp chúng là
kiểm tra 12 bộ giá trị cùng một lúc trong mỗi 32 băng con, sau khi phân
tích tần số đã được thực hiện, sau đó lượng tử cơ sở chỉ là một con số tóm
tắt cho tất cả 12 giá trị.
+ MPEG có thể nén 1 dòng bit 32kbit/s đến 384kbit/s. Một dòng bit âm
thanh PCM thô thì khoảng 705 kbit/s, do đó tỉ số nén tối đa có thể là 22.
Tỉ số nén bình thường là 1:6 hay 1:7. 96kbit/s là xem như trong suốt cho
hầu hết các mục đích thực tế. Có nghĩa rằng ta không cần phải lưu tâm
đến bất kỳ sự khác biệt nào giữa tín hiệu gốc và tín hiệu nén đối với nhạc
pop hay nhạc rock roll. Đối với một số ứng dụng khác như là hòa tấu
piano, tốc độ bit có thể lên tới 128kbit/s.

MPEG Audio Compression

Page 17

2.2. Cơ chế hoạt động
-

-

-

Khi đưa ra phương pháp mã hóa âm thanh, nền tảng vẫn là yếu tố” hệ thống
nghe ” của con người. Thật không may đó không phải một thiết bị hoàn hảo
để nhận biết âm thanh nhưng là thiết bị duy nhất chúng ta có được. Nhưng
chúng ta có thể chuyển những khuyết điểm của nó thành ưu điểm: Đó là đặc
tính phi tuyến của ngưỡng che và khả năng thích hợp của nó.
MPEG hoạt động dựa trên hệ thống nghe của con người đó là cảm giác về
âm và mang đặc tính sinh lý và tâm lý.
Âm thanh CD ghi lại tất cả tần số, kể cả tần số bị che.
Âm thanh MPEG chỉ ghi lại những tần số mà tai người có thể nghe.
Như vậy, MPEG sẽ bỏ qua những thông tin quan trọng. Dựa trên nghiên cứu
về nhận thức âm thanh của con người, bộ mã hóa sẽ quyết định những thông
tin nào là căn bản và những thông tin nào có thể bỏ qua.
Hiệu quả này là do bao quát nhưng đặc biệt quan trọng trong âm nhạc.
Nếu trong một dàn nhạc có một nhạc cụ chơi cực mạnh, làm át tiếng của các
nhạc cụ khác ta không thể nghe được. Nhưng máy thu âm vẫn ghi lại đầy đủ
tất cả tần số của tất cả nhạc cụ, nghĩa là thiết bị thu âm hoàn toàn không có
khả năng thích nghi động như con người. Nhưng khi phát lại ta vẫn không
nghe được âm thanh của những nhạc cụ bị át. Vì vậy việc lưu trữ những tần
số này là thừa, làm chiếm dung lượng khá nhiều. Các ghi âm tuyến tính trên
đĩa CD là hoàn toàn không hiệu quả. Do đó thay vì phải ghi lại thông tin của
những âm không nghe được, ta sẽ dành chỗ cho các âm có thể nghe được.
Theo các này dung lượng của thiết bị ghi âm cần thiết có thể xem như giảm

đi mà không làm giảm chất lượng âm thanh.

-

Trước khi chúng ta nghe được điều gì, thông tin sẽ được phân tích bởi bộ não
của chúng ta. Não bộ sẽ dịch âm thanh và lọc bỏ những thông tin không cần
thiết. Kĩ thuật âm thanh MPEG làm việc này thay thế cho não bộ. Như vậy,
những thông tin lẽ ra phải được lọc bởi não bộ bây giờ không còn cần phải
lưu trữ chiếm giữ không gian đĩa.

2.3. Ưu và nhược điểm của MPEG Audio Compression
- Ưu điểm
+ Dung lượng nhỏ hơn
+ Thời gian truyền nhanh hơn
+ Giảm chi phí truyền tải
+ Giảm băng thông do dung lượng nhỏ hơn
- Nhược điểm
+ Cần xử lý cả mã hóa và giải mã
MPEG Audio Compression

Page 18

+ Nếu sử dụng phương pháp nén mất dữ liệu, chất lượng giảm

Chương 3: Ứng dụng MPEG Audio Compression
Công nghệ MPEG là một công nghệ ngày càng phát triển trong lĩnh vực
truyền thông tiến bộ từng ngày vì âm thanh là phương tiện chính được người nhận
sử dụng trong giao tiếp. Hiện tại MPEG được sử dụng trong truyền thông vệ tinh,
DBS TV, mạng truyền hình món ăn TATSKY sử dụng MPEG- 4, MPEG-1, MPEG2 và MPEG-DASH. MPEG-D đang được sử dụng trong các công nghệ âm thanh

như MPEG SURROUND, SAOC (Mã hóa đối tượng âm thanh không gian) và
USAC (UNIFIED SPEECH AND AUDIO CODING). giúp tăng cường và duy trì
độ trung thực của tín hiệu âm thanh.
-

MPEG với phát sóng và sản xuất chương trình
+ Sản xuất tin thời sự: Chất lượng audio đòi hỏi cao khi đi quay ngoại cảnh,
nhưng tín hiệu không phải in đi in lại nhiều lần. Thiết bị nhỏ, gọn, xách
tay và dùng ắc quy. Do vậy các thiết bị này có thể sử dụng tốc độ bit thấp
18Mb/s. Cấu trúc GOP đơn giản, thuận tiện cho công đoạn dựng hình
+ Lưu trữ: Cần chất lượng cao. Công nghệ lưu trữ cần sử dụng tốc độ bit
lớn và cấu trúc IB-GOP. Tốc độ lưu trữ là 30Mb/s.
+ Sản xuất: Đòi hỏi cả chất lượng và mức độ cao về tính năng dựng hình.
Tốc độ 50Mb/s sản xuất và cáu trúc I-GOP là sự lựa chọn thích hợp
+ Phân phối chương trình: đòi hỏi khả năng lưu trữ về chất lượng phát sóng
quảng bá. Tốc độ 20Mb/s hoặc 15Mb/s để cung cấp cho máy phát
NTSC/PAL thậm chí thấp hơn cho dịch vụ phát trực tiếp từ vệ tinh DBS.

Kết luận
MPEG là tiêu chuẩn cơ bản để thiết kế, nén cả tín hiệu âm thanh và video, sau đó
được truyền đến đầu thu. MPEG 1 và MPEG 4 là các tiêu chuẩn dành riêng cho nén
âm thanh bằng kỹ thuật mã hóa nén tín hiệu âm thanh và tín hiệu ồn ào hoặc không
mong muốn được lọc.

Tài liệu tham khảo
Sách: Fundamentals of Multimedia

MPEG Audio Compression

Page 19

MPEG Audio Compression

Page 20

CNDPT

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về