Tải bản đầy đủ (.pdf) (85 trang)

Nghiên cứu tiêu chuẩn nén h.264 và ứng dụng trong truyền hình có độ phân giải cao (HDTV) (LV thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.32 MB, 85 trang )

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------

Nguyễn Đức Thiệp
NGHIÊN CỨU TIÊU CHUẨN NÉN H.264 VÀ ỨNG DỤNG TRONG
TRUYỀN HÌNH CÓ ĐỘ PHÂN GIẢI CAO (HDTV)

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI – 2017


HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------

Nguyễn Đức Thiệp
NGHIÊN CỨU TIÊU CHUẨN NÉN H.264 VÀ ỨNG DỤNG TRONG
TRUYỀN HÌNH CÓ ĐỘ PHÂN GIẢI CAO (HDTV)
CHUYÊN NGÀNH: KỸ THUẬT VIỄN THÔNG
MÃ SỐ: 60.52.02.08

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. NGUYỄN QUÝ SỸ

HÀ NỘI – 2017


i



LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất kỳ công trình nào khác.
Học viên

Nguyễn Đức Thiệp


ii

MỤC LỤC
LỜI CAM ĐOAN

i

MỤC LỤC

ii

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT

vi

DANH SÁCH BẢNG

ix

DANH SÁCH HÌNH VẼ


x

LỜI MỞ ĐẦU

1

CHƢƠNG 1: NGHIÊN CỨU VỀ CƠ SỞ LÝ THUYẾT CỦA
SỐ HÓA TÍN HIỆU VIDEO VÀ NÉN VIDEO SỐ
1.1 Mục đích của nén tín hiệu

2
2

1.1.1 Nhu cầu của công nghệ nén trong truyền hình

2

1.1.2 Mục đích của nén tín hiệu

2

1.2 Quá trính số hóa tín hiệu

3

1.2.1 Lấy mẫu

3


1.2.2 Lượng tử hóa

4

1.2.3 Mã hóa

5

1.3 Tốc độ bít và thông lƣợng kênh truyền tín hiệu số

5

1.3.1 Tốc độ bit

5

1.3.2 Thông lượng kênh truyền tín hiệu số

5

1.4 Quá trình biến đổi tín hiệu màu

6

1.5 Các tiêu chuẩn lấy mẫu video tín hiệu số

7

1.6 Mô hình nén tín hiệu Video


9

1.6.1 Nén tín hiệu Video

10

1.6.2 Lượng tin trung bình

10

1.7 Phân loại kĩ thuật nén

13

1.8 Quá trình biến đổi

13

1.8.1 Điều xung mã vi sai DPCM

14

1.8.2 Mã hóa biến đổi

14


iii

1.9 Quá trình lƣợng tử


16

1.9.1 Lượng tử vô hướng

16

1.9.2 Lượng tử vector

16

1.10 Quá trình mã hóa

17

1.10.1 Mã hóa độ dài thay đổi

17

1.10.1.1 Mã hóa Huffman

18

1.10.1.2 Mã hóa mức dọc chiều dài RLC

18

1.11 Tiêu chuẩn đánh giá chất lƣợng ảnh nén

19


1.12 Kết luận chƣơng 1

20

CHƢƠNG 2: NGHIÊN CỨU TIÊU CHUẨN NÉN H.264/AVC
2.1 Tổng quan về các chuẩn video
2.1.1 Dòng H.26x

21
21
21

2.1.1.1 Chuẩn H.261

21

2.1.1.2 Chuẩn H.263

22

2.1.1.3 Chuẩn H.264/AVC

22

2.1.2 Dòng MPEG

23

2.1.2.1 Chuẩn MPEG – 1


23

2.1.2.2 Chuẩn MPEG – 2

23

2.1.2.3 Chuẩn MPEG – 4

23

2.2 Cấu trúc H.264

24

2.2.1 Không gian màu YCrCb và kiểu lấy mẫu 4:2:0

24

2.2.2 Macroblock

24

2.2.3 Slice

25

2.2.4 Profile

27


2.3 Qui trình nén và giải nén của H.264
2.3.1 Quy trình nén

28
28

2.3.1.1 Dự đoán

29

2.3.1.1.1 Dự đoán Inter

29

2.3.1.1.2 Dự đoán Intra

35


iv

2.3.1.2 Biến đổi và lượng tử hóa

38

2.3.1.2.1 Biến đổi DCT và lượng tử vô hướng

39


2.3.1.2.2 Quá trình biến đổi và lượng tử với block khác biệt 4x4

41

2.3.1.2.3 Biến đổi và lượng tử block 4x4 luma gồm các hệ số DC

45

2.3.1.2.4 Biến đổi và lượng tử các block 2x2 chroma gồm các
hệ số DC

45

2.3.1.3 Tái sắp xếp

46

2.3.1.4 Mã hóa luồng bit nén hay mã hóa Entropy

47

2.3.1.4.1 Mã hóa Entropy Exp-Golomb

47

2.3.1.4.2 Mã hóa chiều dài thay đổi ứng ngữ cảnh CAVLC

49

2.3.1.4.3 Mã hóa nhị phân số học ứng ngữ cảnh CABAC


50

2.3.1.5 Lọc tách khối

50

2.3.2 Quy trình giải nén

51

2.3.2.1 Giải mã luồng bit nén

52

2.3.2.2 Rescaling và biến đổi ngược

52

2.3.2.3 Tái xây dựng

52

2.4 Những ƣu điểm của chuẩn nén H.264 so với các chuẩn trƣớc đó

52

2.5 Kết luận chƣơng 2

55


Chƣơng 3: ỨNG DỤNG TIÊU CHUẨN NÉN H.264/AVC TRONG
TRUYỀN HÌNH CÓ ĐỘ PHÂN GIẢI CAO HDTV

56

3.1 Các thông số kỹ thuật cơ bản đặc trƣng cho hệ thống
Truyền hình độ phân giải cao HDTV
3.1.1 Một số khái niệm cơ bản về truyền hình
3.1.1.1 Các thông số kỹ thuật của màn hình

56
56
56

3.1.1.1.1 Điểm ảnh (pixel)

56

3.1.1.1.2 Độ phân giải của màn hình

56

3.1.1.1.3 Tần số quét, cách quét

56

3.1.1.1.4 Tỉ lệ khuôn hình

57


3.1.1.1.5 Thời gian đáp ứng (Response Time)

57


v

3.1.1.2.6 Độ tương phản
3.1.2 Công nghệ HDTV

57
58

3.1.2.1 Khái niệm Truyền hình HDTV

58

3.1.2.2 Kỹ thuật xử lý tín hiệu và các thông số đặc trưng cơ bản

58

3.1.2.2.1 Đối với truyền hìn số độ phân giải tiêu chuẩn (SDTV)

58

3.1.2.2.2 Đối với truyền hình số độ phân giải cao (HDTV)

58


3.2 Ứng dụng H.264 trong truyền dẫn phát sóng HDTV
3.2.1 Sơ đồ tổng quan truyền dẫn phát sóng của một Đài Truyền hình

61
61

3.2.1.1 Nhiệm vụ của phòng Tổng khống chế

61

3.2.1.2 Khảo sát nguyên lý hoạt động của một phòng phát sóng

62

3.2.2 Truyền dẫn phát sóng HDTV của kênh Truyền hình Quốc Phòng

63

3.2.2.1 Chuẩn file phát sóng của kênh

63

3.2.2.2 Sơ đồ tổng quan của Kênh

64

3.2.2.3 Ưu nhược điểm của việc ứng dụng triển khai chuẩn nén H.264/AVC
cho truyền dẫn phát sóng của Kênh

67


3.2.2.4 Sơ đồ đấu nối thiết bị truyền dẫn phát sóng

68

3.3 Kết luận chƣơng 3

69

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI

70

DANH MỤC TÀI LIỆU THAM KHẢO

71


vi

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
Viết tắt
AVC
CABAC

CAVLC

Tiếng Anh

Tiếng Việt


Advanced Video Coding

Chuẩn mã hóa video tiên tiến

Context-based Apdaptive

Mã hóa entropy dùng thuật toán mã

Binary Arithmetic Coding

hóa số học ứng ngữ cảnh

Context-based Adaptive

Mã hóa chiều dài thay đổi ứng ngữ

Variable Length Coding

cảnh
Định dạng mã hóa hình ảnh có kích

CIF

Common Intermediate Format

CODEC

Coder and Decoder


Bộ mã hóa và giải mã

DCT

Discrete Cosine Transform

Biến đổi cosin rời rạc

DPCM
DWT
ExpGolomb
GOP

Differential Pulse Code
Modulation

thước 352 x 288

Điều xung mã vi sai

Discrete Wavelet Transform

Biến đổi Wavelet rời rạc

Exponential Golomb

Mã Exponential Golomb

Group of Picture


Nhóm ảnh
Là một chuẩn nén tín hiệu tiến tiến
hay còn gọi là AVC/MPEG-4 Part

H.264

10
HDTV
IEC

IDCT

High Definition Television
International Electrotechnical
Commission
Inverse Discrete Cosine
Transform

Truyền hình phân giải cao
Ủy ban Kỹ thuật Điện tử Quốc tế
Biến đổi ngược Cosine rời rạc


vii

Viết tắt

Tiếng Anh
International Standards


ISO
ITU

Organization
International
Telecommunication Union

Tiếng Việt
Tổ chức tiêu chuẩn hóa quốc tế
Liên minh Viễn thông quốc tế
Kỹ thuật nén ảnh không tổn hao

LOSSLESS

(không mất dữ liệu)
Kỹ thuật nén ảnh có tổn hao (có mất

LOSSY

dữ liệu)

MAE

Mean Absolute Error

Sai số tuyệt đối trung bình

MB

Macroblock


Đa khối(khối macro)

MC

Motion Compensation

Bù chuyển động

ME

Motion Estimate

Ước lượng chuyển động

MSE

Mean squared error

Sai số bình phương trung bình

MF

Multipy Factor

Hệ số nhân

MPEG

Moving Pictures Experts

Group

Nhóm chuyên gia nén ảnh động

NAL

Network Abstraction Layer

Lớp trừu tượng mạng

SNR

Signal-to-noise ratio

Tỉ số tín hiệu trên nhiễu

PCM

Pulse Code Modulation

Điều xung mã

PSNR

Peak to Signal to Noise Ratio

QCIF
QP

Tỉ số tín hiệu trên nhiễu đỉnh


Quarter Common Intermediate Định dạng hình ảnh có kích thước
Format

176 x 144

Quantization Parameter

Thông số lượng tử


viii

Viết tắt
RGB

MDCT

Tiếng Anh
Red/Green/Blue

Ba màu cơ bản màu đỏ/Xanh/Lam

Modified Discrete Cosine

Chuyển đổi cosine rời rạc sửa đổi

Transform
Truyền hình tiêu chuẩn


SDTV

Standard Televison

VCEG

Video Coding Experts Groups

VCL

Video Coding Layer

VLC

Variable Length Code

VRML

Tiếng Việt

Virtual Reality Modeling
Language

Nhóm chuyên gia về mã hóa Video
Lớp mã hóa Video
Mã có chiều dài thay đổi
Ngôn ngữ mô hình thực tại ảo

Luminance, Blue
YCbCr


chrominance, Red
chrominance

Độ chói, màu lam, màu đỏ


ix

DANH SÁCH BẢNG
Bảng 1.1: Kích thước 4x8 pixels

11

Bảng 1.2: Độ dư thừa của các pixel trong ảnh

11

Bảng 1.3: Mức xám thực tế

12

Bảng 1.4: Chênh lệch mức xám của 2 pixel liên tiếp

12

Bảng 2.1: Các loại slice mã hóa trong H.264

26


Bảng 2.2: Ví dụ về tổ chức bộ nhớ ảnh tham chiếu
với ảnh hiện tại là 250, số ảnh tham chiếu là 5

31

Bảng 2.3: Các kích thước bước lượng tử trong H.264/AVC Codec

43

Bảng 2.4: Hệ số nhân MF

44

Bảng 2.5: Hệ số scaling V

44

Bảng 2.6: Các từ mã Exp-Golomb

48

Bảng 2.7: Ánh xạ các code-Num cho các syntax elements có dấu

48

Bảng 3.1: Các thông số cơ bản đặc trưng cho hệ thống truyền hình
độ phân giải tiêu chuẩn SDTV

59


Bảng 3.2: Các thông số cơ bản đặc trưng cho hệ thống truyền hình
độ phân giải cao HDTV

60


x

DANH SÁCH HÌNH VẼ
Hình 1.1: Sơ đồ quá trình tạo tín hiệu số

4

Hình 1.2: Quá trình biến đổi tín hiệu màu

6

Hình 1.3: Tiêu chuẩn 4:4:4

7

Hình 1.4: Tiêu chuẩn 4:2:2

8

Hình 1.5: Tiêu chuẩn 4:2:0

8

Hình 1.6: Tiêu chuẩn 4:1:1


9

Hình 1.7: Sơ đồ khối nén tín hiệu video

9

Hình 1.8: Mô hình hệ thống nén tổn hao

13

Hình 1.9: Bộ mã hóa và giải mã DPCM

14

Hình 1.10: Quá trình lượng tử vector

17

Hình 1.11: Cây mã Huffman

18

Hình 1.12: Minh họa mã hóa RLC

19

Hình 2.1: Quá trình phát triển các dòng video H.26x và MPEG

21


Hình 2.2: Một ảnh video được nén với cùng bitrate dùng MPEG-2 (trái),
MPEG-4 (giữa) và h.264 (phải)

23

Hình 2.3: Macroblock 16x16 được đại diện bởi các block thành phần
Y, Cr, Cb theo tỷ lệ lấy mẫu (4:2:0) trong H.264

25

Hình 2.4: Minh họa cách phân chia ảnh thành nhiều slice

25

Hình 2.5: Cấu trúc slice

27

Hình 2.6: Các profile của H.264/AVC và các công cụ
với ứng dụng mỗi profile

27

Hình 2.7: Tổng quan về qui trình nén và giải nén của H.264

28

Hình 2.8: Quá trình nén H.264/AVC


29

Hình 2.9: Mô tả ước lượng chuyển động trong dự báo Inter

30

Hình 2.10: Sự phân chia marcoblock khi mã hóa

32

Hình 2.11: Các phần chia khác nhau trong một ảnh

32

Hình 2.12: Các điểm ảnh sub-sample trong ảnh tham chiếu

33


xi

Hình 2.13: Nội suy các điểm ảnh tại các vị trí half-pixel
trong ảnh tham chiếu

34

Hình 2.14: Nội suy các điểm ảnh tại các vị trí quarter-pixel

35


Hình 2.15: Mô hình dự báo Intra

35

Hình 2.16: Block 4x4 luma cần được dự đoán Intra

36

Hình 2.17: Các điểm ảnh đã được nén dùng để tham chiếu

36

Hình 2.18: Các mode dự đoán cho block 4x4 luma

36

Hình 2.19: Macroblock 16x16 (luma) cần dự đoán

37

Hình 2.20: Các block được dự đoán Intra 16x16

37

Hình 2.21: Thứ tự truyền dẫn của các block bên trong macroblock

39

Hình 2.22: Minh họa biến đổi DCT và lượng tử hóa


40

Hình 2.23: Quét Zig-Zag đối với block 4x4 luma

46

Hình 2.24: Mô hình biến đổi block 4x4 thành mảng sau khi tái sắp xếp

46

Hình 2.25: Thứ tự lọc các cạnh của thành phần luma và
chroma trong 1 macroblock
Hình 2.26: Quy trình giải nén video của chuẩn H.264/AVC

51
51

Hình 2.27: MPEG-4 AVC có thể phân chia thành phần chói của từng
Macroblock theo nhiều cách để tối ưu hóa việc bù chuyển động

53

Hình 3.1: Các tín hiệu vào và ra của phòng tổng khống

61

Hình 3.2: Sơ đồ khối đơn giản của hệ thống phát sóng

62


Hình 3.3: Phần mềm convert Adobe Premiere Pro CC 2017

62

Hình 3.4: Sơ đồ truyền dẫn phát sóng của kênh Truyền hình Quốc phòng

66

Hình 3.5: Nén video H.264 và MPEG-2

66

Hình 3.6: Phần mềm mã hóa và giải mã video định dạng H.264

68

Hình 3.7: Sơ đồ đấu nối thiết bị

69


1

LỜI MỞ ĐẦU
Trong kỹ thuật truyền hình, việc nén Video là một vấn đề quan trọng cho
việc truyền tải các chương trình truyền hình. Những Video này thường là những
dữ liệu có dung lượng rất lớn, với truyền hình có độ phân giải cao (HDTV) không
nén sẽ tiêu thụ khoảng 1,5 Gb/s đến 2Gb/s băng thông, như vậy để truyền tải được
là rất khó. Với chuẩn H.264/MPEG-4 AVC hiện nay, các nhà cung cấp nội dung có
thể mã hóa video HD (High Definition) full HD với dung lượng chỉ còn từ 5Mb/s

đến 10Mb/s, tùy thuộc vào độ phân giải, chất lượng yêu cầu và phương thức mã
hóa. Do vậy các chuẩn nén video ra đời nhằm loại bỏ những dữ liệu dư thừa mà vẫn
đảm bảo chất lượng. Tiêu chuẩn mã hóa (nén) H.264 là một chuẩn tiên tiến, nó đã
tạo ra sự đột phá, cho phép nén video một cách tốt hơn đồng thời cải thiện được
chất lượng so với các tiêu chuẩn nén trước đó.
Với mong muốn đóng góp thêm nghiên cứu về tiêu chuẩn nén H.264 và ứng
dụng của H.264, người viết đã lựa chọn đề tài “Nghiên cứu tiêu chuẩn nén H.264 và
ứng dụng trong truyền hình có độ phân giải cao (HDTV)”.
Luận văn của em gồm 3 chương:
Chương 1: Nghiên cứu về cơ sở lý thuyết của số hóa tín hiệu và nén video số
Chương 2: Nghiên cứu tiêu chuẩn nén H.264/AVC
Chương 3: Ứng dụng tiêu chuẩn nén H.264/AVC trong truyền hình có độ
phân giải cao HDTV
Em xin gửi lời cảm ơn chân thành tới thầy Nguyễn Quý Sỹ đã tận tình hướng
dẫn em thực hiện luận văn này. Em cũng xin gửi lời cảm ơn tới gia đình, các thầy
cô, đồng nghiệp và các bạn đã giúp đỡ em trong suốt thời gian học tập.


2

CHƢƠNG 1: NGHIÊN CỨU VỀ CƠ SỞ LÝ THUYẾT CỦA
SỐ HÓA TÍN HIỆU VIDEO VÀ NÉN VIDEO SỐ
1.1 Mục đích của nén tín hiệu
1.1.1 Nhu cầu của công nghệ nén trong truyền hình
Tín hiệu video sau khi được số hóa 8 bit có tốc độ 216 Mbps, với tốc độ này
vượt quá khả năng truyền của một kênh truyền hình, vì vậy trong lĩnh vực truyền
hình việc sử dụng công nghệ nén gần như là tất yếu để giảm tốc độ bit mà vẫn đảm
bảo chất lượng dữ liệu cần lưu trữ hoặc truyền tải.
Trung tâm của mạng phát sóng video số bao gồm hệ thống nén, nó cung cấp
chương trình video, audio chất lượng cao cho người xem bằng cách chỉ sử dụng một

phần nhỏ độ rộng băng tần mạng.

1.1.2 Mục đích của nén tín hiệu
Với sự phát triển của khoa học kỹ thuật, ngày nay đã sản xuất được bộ cảm
biến màu có độ phân giải lên đến 16 triệu pixel tương đương với một bức ảnh có độ
phân giải 4096x4096 pixels, nhưng thực tế ứng dụng cần độ phân giải cao nhất hiện
nay cũng chỉ dùng lại ở 1920x1080 pixel, do đó để có thể tiết kiệm không gian lưu
trữ và băng thông kênh truyền thì cần nén tín hiệu[1].
Quá trình nén ảnh thực hiện được là do thông tin trong bức ảnh có tổ chức,
có trật tự, vì vậy nếu xem xét kỹ tính trật tự, cấu trúc ảnh sẽ phát hiện và loại bỏ
được các lượng thông tin dư thừa, chỉ giữa lại các thông tin quan trọng nhằm giảm
số lượng bit khi lưu trữ cũng như khi truyền mà vẫn đảm bảo tính thẩm mỹ của bức
ảnh. Tại đầu thu, bộ giải mã sẽ tổ chức, sắp xếp lại được bức ảnh xấp xỉ gần chính
xác so với ảnh gốc nhưng vẫn đảm bảo thông tin cần thiết[1].
Tín hiệu video thường chứa đựng một lượng lớn các thông tin dư thừa, chúng
thường được chia thành 5 loại như sau:
+ Có sự dư thừa thông tin về không gian: giữa các điểm ảnh lân cận trong phạm vi
một bức ảnh hay một khung video, còn gọi là thừa tĩnh bên trong từng frame.
+ Có sự dư thừa thông tin về thời gian: giữa các điểm ảnh của các khung video


3

trong chuỗi ảnh video, còn gọi là thừa động giữa các frame
+ Có sự dư thừa thông tin về phổ: giữa các mẫu của các dữ liệu thu được từ các bộ
cảm biến trong camera, máy quay…
+ Có sự dư thừa do thống kê: do bản thân của các ký hiệu xuất hiện trong dòng bit
với các xác suất xuất hiện không đồng đều.
+ Có sự dư thừa thị giác: thông tin không phù hợp với hệ thống thị giác con người,
những tần số quá cao so với cảm nhận của mắt người.

Ưu điểm của việc nén tín hiệu:
+ Tiết kiệm băng thông kênh truyền ( trong thời gian thực hoặc nhanh hơn).
+ Kéo dài thời giản sử dụng, giảm chi phí đầu tư cho thiết bị lưu trữ.
+ Giảm dung lượng thông tin mà không làm mất tính trung thực của hình ảnh. Có
nhiều phương pháp nén tín hiệu, phương pháp nén bằng cách số hóa tín hiệu vẫn tỏ
ra hữu hiệu trong mọi thời đại; nó có thể làm giảm lượng thông tin không quan
trọng một cách đáng kể, mặt khác nó còn giúp cho tín hiệu được bảo mật hơn[6].

1.2 Quá trính số hóa tín hiệu
Quá trình số hoá tín hiệu tương tự, bao gồm quá trình lọc trước (prefiltering),
lấy mẫu, lượng tử và mã hoá minh họa như hình 1.1. Quá trình lọc trước nhằm loại
bỏ các tần số không cần thiết ở tín hiệu cũng như nhiễu, bộ lọc này còn gọi là bộ lọc
chống nhiễu xuyên kênh Aliasing[1].

1.2.1 Lấy mẫu
Thực chất đây là một phép toán rời rạc hay là một phép điều biên xung PAM
và được thực hiện bằng các mạch Op-amp có cực khiển strobe. Nó tạo ra giá trị tín
hiệu tương tự tại một số hữu hạn các giá trị có biến rời rạc gọi là các mẫu. Các mẫu
được lấy cách đều nhau gọi là chu kỳ lấy mẫu. Tần số lấy mẫu phải thoả mãn định
lý Nyquist-Shannon [4]:
fs  2 fmax
Trong đó:

(1.1)

+ fs là tần số lấy mẫu.
+ fmax là tần số cực đại của phổ tín hiệu tương tự.


4


1.2.2 Lượng tử hóa
Quá trình lượng tử là quá trình chuyển một xung lấy mẫu thành một xung có
biên độ bằng mức lượng tử gần nhất hay nói cách khác là lượng tử chuyển đổi các
mức biên độ của tín hiệu đã lấy mẫu sang một trong các giá trị hữu hạn các mức nhị
phân. Lượng tử hoá biến đổi tín hiệu liên tục theo thời gian thành tín hiệu có biên
độ rời rạc, nhằm làm giảm ảnh hưởng của tạp âm trong hệ thống, hạn chế các mức
cho phép của tín hiệu lấy mẫu và chuẩn bị truyền tín hiệu gốc từ tương tự sang số.
Giá trị thập phân của các mẫu sau khi lượng tử hoá sẽ được biểu diễn dưới
dạng số nhị phân n bit (N= 2n), với n là độ phân giải lượng tử hoá, n càng lớn thì độ
chia càng mịn, do đó độ chính xác càng cao[5]. Do làm tròn các mức nên tín hiệu bị
méo dạng do sai số lượng tử gọi là méo lượng tử, tỷ số tín hiệu trên méo lượng tử
(S/N) được xác định bởi:
S 1
 6,02n + 1,76(dB)
N n

Hình 1.1: Sơ đồ quá trình tạo tín hiệu số[4]

Lượng tử hóa có hai loại:
+ Lượng tử tuyến tính: phép nén tín hiệu theo quy luật đường cong đồng
đều, bước lượng tử bằng nhau.


5

+ Lượng tử phi tuyến: phép nén tín hiệu theo quy luật đường cong không
đồng đều, tập trung nhiều mức lượng tử ở những vùng tín hiệu nhỏ. Trong kỹ thuật
nén ảnh, nén video thì loại lượng tử phi tuyến được dùng nhiều hơn vì nó giảm
dung lượng đến mức tối đa với độ méo lượng tử có thể chấp nhận được[5].


1.2.3 Mã hóa
Là quá trình thay thế mỗi mức điện áp cố định sau khi lượng tử bằng một dãy
nhị phân gọi là từ mã.Tất cả các từ mã đều chứa số xung nhị phân cố định và được
truyền trong khoảng thời gian giữa 2 thời điểm lấy mẫu cạnh nhau.Bộ mã được sử
dụng để tái tạo các xung nhị phân hoặc các từ mã từ các giá trị đã lượng tử xuất hiện
ở đầu ra của bộ lượng tử hoá[5].

1.3 Tốc độ bít và thông lƣợng kênh truyền tín hiệu số
1.3.1 Tốc độ bit
Tốc độ bit là số lượng bit được truyền đi hay lưu trữ trong một đơn vị thời
gian[5].
C = fs * n (bit/s)

(1.3)

Trong đó :
+ fs là tần số lấy mẫu (Hz).
+ n là số bit nhị phân trong một ký hiệu.
+ C là tốc độ bit (bps).
1.3.2 Thông lượng kênh truyền tín hiệu số
Là tốc độ số liệu cực đại có thể truyền được trên kênh truyền có độ rộng
băng tần B.
C = B.log2(1 +

S
) (bps)
N

Trong đó:

+ C là tốc độ bit (bps)
+

S
là tỷ số tín hiệu trên nhiễu trắng
N

+ B là băng thông kênh truyền (Hz)

(1.4)


6

Tốc độ bit càng lớn thì tín hiệu tương tự khôi phục lại càng trung thực tuy
nhiên nó sẽ là cho dung lượng lưu trữ và băng thông kênh truyền càng lớn[3].
Trong thực tế để truyền tín hiệu có tốc độ bit là C (bps) thì cần băng thông kênh
truyền là:
B

3
C (Hz)
4

Ví dụ: với n = 4, fs = 44,1Khz thì:
Tốc độ truyền thông tin là : C = n x fs = 4 x 44,1 = 176,4.103 bits/s
Và độ rộng băng tần là B 

3
3

C = x176,4.103 = 132,3 Khz
4
4

1.4 Quá trình biến đổi tín hiệu màu

Hình 1.2: Quá trình biến đổi tín hiệu màu[6]

Một bức ảnh được chuyển từ RGB sang YUV (Y là thành phần độ chói, UV
là 2 thành phần màu) nhằm giảm dung lượng lưu trữ cũng như truyền đi, trong quá
trình giải mã, trước khi hiển thị ảnh thì nó được biến đổi ngược lại thành RGB[9].
Công thức minh họa ( với k là hằng số, Cr, Cb là những thành phần màu sắc):
Y = krR + (1- kb – kr)G + kbB, với Cr =

0,5
(R – Y)
1  kr

Cb =

0,5
(B – Y)
1  kb

(1.5)

Với Kb + Kr + Kg = 1, Kb = 0.114; Kr = 0,299; Thay vào công thức (1.5)
ta được:

Y = 0.229R + 0.587G + 0,114B



7

Cb =

0,5
(B – Y) = - 0,169R – 0,331G + 0,5B
1  0,114

Cr =

0,5
(R – Y) = 0,5R – 0,419G – 0,081B
1  0, 299

Nên ta có ma trận biến đổi từ RGB sang YUV như sau:
 Y   0, 299 0,587 0,114   R 
Cb  =  0,169 0,331 0,5  G 
  
  
 Cr   0,5
0, 419 0, 081  B 

(1.6)

Thực hiện tương tự ta suy ra được ma trận biến đổi từ YUV sang RGB như sau:
0
1, 402 
 R  1

G  = 1 0,344 0, 71 4 

  
 B  1 1, 772
0 

Y 
Cb 
 
 Cr 

(1.7)

1.5 Các tiêu chuẩn lấy mẫu video tín hiệu số
Kiểu lấy mẫu cho ảnh video cũng là một vấn đề khá quan trọng của kỹ thuật
nén ảnh[6].
Một số kiểu lấy mẫu phổ biến:
+ Tiêu chuẩn 4:4:4
- Mẫu tín hiệu chỉ được lấy với các thành phần tích cực của tín hiệu video
- Các tín hiệu chói Y, tín hiệu màu Cr, Cb được lấy mẫu tại tất cả các điểm lấy mẫu
trên dòng tích cực của tín hiệu video.

Hình 1.3: Tiêu chuẩn 4:4:4

Tần số lấy mẫu: Y: 13,5 MHz; Cr/Cb: 13,5 MHz
Ví dụ: tốc độ truyền ( hệ màu Pal):
+> Lấy mẫu 8 bít: (720 + 720 + 720) x 576 x 8 x 25 = 249 Mbit/s


8


+ Tiêu chuẩn 4:2:2
- Điểm đầu lấy mẫu toàn bộ 3 tín hiệu Y, Cr, Cb, điểm kế tiếp chỉ lấy mẫu tín hiệu
chói, tín hiệu màu không lấy mẫu. Khi giải mã sẽ suy ra từ màu của tín hiệu trước.
Điểm sau nữa lại lấy đủ 3 tín hiệu, tuần tự như thế, cứ 4 lần lấy Y thì có 2 lần lấy
mẫu Cr và 2 lần lấy Cb.

Hình 1.4: Tiêu chuẩn 4:2:2

Tần số lấy mẫu: Y: 13,5 MHz; Cr/Cb: 6,75 MHz
+ Tiêu chuẩn 4:2:0
Lấy mẫu tín hiệu Y tại các điểm ảnh của dòng, còn tín hiệu màu cứ cách 1 điểm
sẽ lấy mẫu cho 1 tín hiệu màu. Tín hiệu màu sẽ được lấy xen kẽ, nếu hàng chẵn lấy
mẫu cho tín hiệu màu Cr thì hàng lẻ lấy mẫu cho tín hiệu Cb.

Hình 1.5: Tiêu chuẩn 4:2:0

Tần số lấy mẫu:

Y: 13,5 MHz;

Cr/Cb: 3,375 MHz

+ Tiêu chuẩn 4:1:1
Trước điểm ảnh đầu, lấy mẫu 3 tín hiệu, 3 điểm ảnh sau chỉ lấy tín hiệu chói, không
lấy 2 tín hiệu màu. Khi giải mã, màu của 3 điểm ảnh sau sẽ suy từ 3 điểm ảnh ban
đầu. Tuần tự như vậy, cứ 4 lần lấy mẫu chói, có 1 lần lấy mẫu Cr và 1 lần Cb.


9


Hình 1.6: Tiêu chuẩn 4:1:1

Tần số lấy mẫu:

Y: 13,5 MHz;

Cr/Cb: 3,375 MHz

Trong kiểu 4:4:4, tổng số mẫu cần thiết là 12 mẫu, do đó tổng số bit là 12 × 8
= 96 bits, và trung bình là 96/4 = 24 bits/pixel. Trong kiểu 4:2:0, tín hiệu được quét
xen kẽ, do đó chỉ cần thiết 6 mẫu, 4 mẫu cho thành phần Y, 1 mẫu cho thành phần
Cb, 1 mẫu cho thành phần Cr, do đó tổng số bits cần thiết là 6 × 8 = 48 bits, và
trung bình là 48/4 =12 bits/pixel. Ta thấy kiểu lấy mẫu 4:2:0 giảm một ½ số lượng
bits so với 4:4:4, đó cũng là lý do mà kiểu lấy mẫu này được sử dụng phổ biến.

1.6 Mô hình nén tín hiệu Video

Hình 1.7: Sơ đồ khối nén tín hiệu video[9]

Các khối chính là:
- Khối nén dư thừa thời gian.
+ Dự đoán chuyển động
+ Bù chuyển động
- Khối nén dư thừa theo không gian.
+ Biến đổi DCT, DWT
+ Lượng tử hóa


10


+ Xắp xếp lại trật tự và mã hóa Entropy

1.6.1 Nén tín hiệu Video
Tín hiệu video có dải phổ nằm trong khoảng 0 -> 6Mhz, do thành phần tần số
cao chỉ xuất hiện ở các đường viền của hình ảnh nên năng lượng phổ rất ít tập trung
ở miền tần số cao mà chủ yếu tập trung ở miền tần số thấp. Điều đó có nghĩa là số
lượng bit ở miền tần số thấp sẽ nhiều hơn ở miền tần số cao[1]. Trong các hệ thống
nén, tỉ số nén chính là tham số quan trọng đánh giá khả năng nén của hệ thống, ta
gọi n1, n2 là số lượng bit của tín hiệu trước và sau khi nén nên ta có công thức như
sau:
Tỷ số nén sẽ là Nb =

n1
n2

Phần trăm nén hay còn gọi là độ dư thừa dữ liệu tương đối.
R = (1 -

n1
n n
)x100% = 1 2 x100%
n1
n2

(1.8)

Nếu n1= n2 thì ta có C =1, và R = 0 nghĩa là không có sự dư thừa dữ liệu.
Nếu n2 ≤ n1 thì C → ∞, R→1, ta nói rằng có sự dư thừa dữ liệu lớn.
Ví dụ : n1 = 100Mb/s, n2 = 20Mb/s thì C = 5:1, R = 80%. Tức là ảnh có sự dư thừa

lớn, hiệu quả nén đạt 80%.

1.6.2 Lượng tin trung bình
Trước khi nghiên cứu các phương pháp nén, ta cần đánh giá lượng thông tin
chủ yếu được chứa đựng trong hình ảnh, từ đó xác định dung lượng tối thiểu cần sử
dụng để miêu tả, truyền tải thông tin về hình ảnh[1].
Thông tin được ký hiệu là ai và có xác suất p(ai) thì lượng tin được xác định theo
công thức sau:
I(ai) = log2[

1
] = -log2 p(ai)
p (ai )

(1.9)

Theo công thức (1.9) ta thấy lượng tin chứa đựng trong một hình ảnh sẽ tỉ lệ
nghịch với khả năng xuất hiện của ảnh đó, nghĩa là sự kiện ít xảy ra sẽ chứa đựng
nhiều thông tin hơn và bằng tổng số lượng thông tin của từng phần tử ảnh. Gọi


11

lượng tin trung bình của hình ảnh là H(X) và được tính bằng công thức sau:
N

H(X) =

 p(ai) * log2[
1


N
1
] = -  p(ai) * log2 p(ai)
p (ai )
1

(1.10)

Xác suất phân bố càng nhiều thì lượng tin trung bình entropy càng nhỏ.
Entropy đạt giá trị cực đại đối với phân bố đều, do đó nếu một ký hiệu có xác suất
lớn sẽ có số Entropy nhỏ.
Ví dụ: Giả sử có một ảnh đen trắng với độ phân giải lượng tử 8 bit. Ký hiệu i là mức
xám của pixel và bộ ký hiệu A là tập hợp tất cả các mức xám từ 0 → 255, mức xám
0 tương ứng với màu đen, mức xám 255 tương ứng với màu trắng. Do đó, Entropy
255

của ảnh là:

H(X) =

 p(i)log2p(i)
0

Giả sử ta có kích thước 4x8 pixels như sau:
Bảng 1.1: Kích thƣớc 4x8 pixels

21

21


21

95

169

243

243

243

21

21

21

95

169

243

243

243

21


21

21

95

169

243

243

243

21

21

21

95

169

243

243

243


Ta xét các độ dư thừa của các pixel trong ảnh, hoặc giữa các ảnh liên tiếp như sau.
+ Giả sử các mức xám của tín hiệu hình đen trắng độc lập thống kê với nhau, dựa
vào số liệu thống kê cụ thể là.
Bảng 1.2: Độ dƣ thừa của các pixel trong ảnh

Mức xám

Số lượng pixel

Xác suất

21

12

3/8

95

4

1/8

169

4

1/8


243

12

3/8
3
8

3
8

Entropy của phần ảnh tĩnh này là: H(x) = - log2 -

1
1 1
1 3
3
log2 - log2 - log2
8
8 8
8 8
8


12

=

6
3 2

1
log2 - log2 = -0,75.1,58 + 3 = 1,815 bits/pixel
8
8 8
8

Tuy nhiên, trong thực tế các mức xám của các pixel không độc lập thống kê với
nhau, nên ta có thể biểu diễn theo từng cặp pixel liên tiếp như sau:
Bảng 1.3: Mức xám thực tế

H(x) = =-

Giá trị cặp mức xám

Số lượng cặp

Xác suất

(21, 21)

8

1/4

(21, 95)

4

1/8


(95, 169)

4

1/8

(169, 243)

4

1/8

(243, 243)

8

1/4

(243, 21)

4

1/8

1
1 1
1 1
1 1
1 1
1 1

1
log2 - log2 - log2 - log2 - log2 - log2
4
4 8
8 8
8 8
8 4
4 8
8
2
1 4
1
log2 - log2 = 2,5 bits/pixels
4
4 8
8

Ta có thể biểu diễn theo phần chênh lệch mức xám của 2 pixel liên tiếp như sau:
Bảng 1.4: Chênh lệch mức xám của 2 pixel liên tiếp[3]

21

0

0

74

74


74

0

0

21

0

0

74

74

74

0

0

21

0

0

74


74

74

0

0

21

0

0

74

74

74

0

0

Giá trị mức xám

Số lượng

Xác suất


21

4

1/8

0

16

1/2

74

12

1/8


×