Phương pháp tạo thông tin phụ trợ dựa trên kỹ thuật học máy cho mã hóa video Wyner-Ziv

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.38 MB, 7 trang )

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

Phương pháp tạo thông tin phụ trợ dựa trên kỹ
thuật học máy cho mã hóa video Wyner-Ziv
Nguyễn Thị Hương Thảo & Vũ Hữu Tiến
Học Viện Cơng Nghệ Bưu Chính Viễn Thơng
Email: { thaonth, tienvh}@ptit.edu.vn
xét mức độ méo tín hiệu thì sẽ khơng có sự tổn thất về
hiệu suất nén khi so với trường hợp mã hóa kết hợp.
Dựa trên các định lý này, một số sơ đồ mã hóa video
WZ thực tế được đề xuất từ năm 2002 bởi một số nhóm
nghiên cứu. Trong số đó phải kể đến kiến trúc
DISCOVER [3] của nhóm dự án Châu Âu. Trong kiến
trúc này, các khung hình của chuỗi được chia thành hai
tập khung hình: các khung hình chính và khung hình
WZ. Nhóm ảnh (GOP) có kích thước n được định
nghĩa là một tập gồm n khung hình trong có có một
khung hình chính và n  1 khung hình WZ. Các khung
hình chính được mã hóa và giải mã độc lập sử dụng các
kỹ thuật mã hóa chế độ Intra ví dụ như H.264/AVC
Intra [4] hoặc HEVC Intra [5]. Các khung hình WZ
được mã hóa một cách độc lập, được biến đổi sang
miền tần số và được lượng tử hóa. Tại phía bộ giải mã,
các khung hình chính đã giải mã được sử dụng để tạo
ra thông tin phụ trợ - đây là một ước lượng của khung
hình WZ cần giải mã. Để ước lượng thông tin phụ trợ,
kiến trúc DISCOVER sử dụng kỹ thuật nội suy thời
gian bù chuyển động (MCTI) [6].
Tuy nhiên, mã hóa video WZ vẫn chưa đạt được
hiệu năng nén như mã hóa video dự đốn. Một phần là
do chất lượng của thơng tin phụ trợ vì thơng tin phụ trợ

có ảnh hưởng lớn đến hiệu năng nén của hệ thống. Đã
có rất nhiều đề xuất được đưa ra nhằm cải tiến chất
lượng của thông tin phụ trợ. Trong bài báo này, chúng
tôi đề xuất một phương pháp mới để cải tiến chất lượng
của thơng tin phụ trợ trong mã hóa video WZ miền
biến đổi. Trong giải pháp này, chúng tôi tạo ra thông
tin phụ trợ bằng cách kết hợp hai SI ứng viên. SI ứng
viên thứ nhất là SI được tạo ra theo phương pháp
truyền thống và ứng viên SI thứ hai được tạo ra dựa
trên mạng nơ-ron. Sau đó hai ứng viên này được kết
hợp với nhau để tạo ra SI cuối cùng. Phương pháp này
có thể tạo ra thơng tin phụ trợ chính xác hơn và càng
giống với khung hình WZ gốc bằng cách lựa chọn kỹ
thuật học máy phù hợp.
Bài báo được cấu trúc như sau. Phần II giới thiệu các
nghiên cứu liên quan bao gồm giới thiệu ngắn gọn về
kiến trúc bộ mã hóa được sử dụng trong bài báo và các
nghiên cứu trước đó về tạo thông tin phụ trợ. Phần III
mô tả hệ thống đề xuất. Các tham số mô phỏng và kết
quả mô phỏng được trình bày trong Phần IV và kết
luận được đưa ra trong Phần V.

Abstract— Mã hóa video Wyner-Ziv (WZ) là một trường
hợp đặc biệt của mã hóa video phân tán – sơ đồ mã hóa
video dựa trên các định lý Slepian-Wolf và Wyner-Ziv.
Ngược lại với bộ mã hóa video dự đốn, mã hóa video
WZ khai thác thống kê nguồn tại phía bộ giải mã để giữ
cho bộ mã hóa có độ phức tạp thấp. Tuy nhiên, cho đến
hiện nay mã hóa video WZ vẫn chưa đạt được hiệu năng
nén như các giải pháp mã hóa video dự đốn truyền

thống. Lý do chính là đến từ việc tạo thơng tin phụ trợ một dự đốn của khung hình WZ gốc, có chất lượng
chưa cao. Để khắc phục vấn đề này, bài báo đề xuất một
kỹ thuật tạo thông tin phụ trợ cải tiến cho mã hóa video
WZ bằng cách kết hợp hai ứng viên thông tin phụ trợ để
tạo ra thơng tin phụ trợ có chất lượng tốt trong q trình
giải mã. Các kết quả mơ phỏng cho thấy các cải tiến đáng
kể của chất lượng thông tin phụ trợ, và do đó là hiệu
năng nén của bộ mã hóa video phân tán trong các điều
kiện khác nhau như sự thay đổi của nội dung chuỗi
video, kích thước video.
Keywords- Video WZ, thơng tin phụ trợ.

I.

GIỚI THIỆU

Mã hóa video WZ là sơ đồ mã hóa video khai thác
sự giống nhau giữa các khung hình liên tiếp của chuỗi
video tại phía giải mã chứ khơng phải phía mã hóa như
các giải pháp mã hóa video dự đốn truyền thống. Do
đó, các bộ mã hóa trong kiến trúc mã hóa video WZ
thường có độ phức tạp thấp và điều này phù hợp với
các ứng dụng mới như mạng giám sát video, mạng cảm
biến đa phương tiện. Các ứng dụng này yêu cầu bộ mã
hóa có độ phức tạp thấp trong khi cho phép bộ giải mã
có độ phức tạp cao hơn. Ngồi ra, kiến trúc mã hóa
video WZ cịn có khả năng phân bố linh hoạt độ phức
tạp giữa bộ mã hóa và bộ giải mã tùy theo yêu cầu cụ
thể.
Từ quan điểm lý thuyết thông tin, định lý SlepianWolf [1] đối với nén khơng tổn thất phát biểu rằng có

thể mã hóa các nguồn có tương quan với nhau một
cách độc lập và giải mã chúng bằng cách kết hợp mà
vẫn đạt được cùng tốc độ như trường hợp mã hóa và
giải mã kết hợp. Định lý này sau đó được mở rộng với
tên gọi định lý Wyner-Ziv [2] phát biểu rằng khi mã
hóa hóa độc lập với một số thơng tin phụ trợ sẵn có tại
phía giải mã với một số điều kiện nào đó, nghĩa là khi
và là các nguồn Gauss kết hợp khơng nhớ và có xem

ISBN 978-604-80-5958-3

402

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

II.

vector chuyển động trước. Tiếp đó, ước lượng chuyển
động song hướng lọc các vector chuyển động thu được
ở bước trước với ràng buộc về phép chiếu tuyến tính
giữa khung hình tham chiếu trước và sau. Để cải thiện
độ mượt không gian, bộ lọc trung vị có trọng số sẽ
được sử dụng. Cuối cùng, bù chuyển động song hướng
được thực hiện để tạo ra thông tin phụ trợ, một ước
lượng của WZF tương ứng.

CÁC NGHIÊN CỨU LIÊN QUAN

A. Kiến trúc bộ mã hóa WZ-HEVC

Phần này giới thiệu về bộ mã hóa WZ miền biến đổi
với tên gọi WZ-HEVC. Khác với bộ mã hóa
DISCOVER ban đầu [3], các khung hình chính trong
bộ mã hóa này được mã hóa bằng bộ mã hóa HEVCIntra. Vì vậy nó có tên gọi là WZ-HEVC và được mơ
tả trong Hình 1.
Biến đổi
DCT

Bộ lượng tử
đồng nhất

Bộ mã hóa
LDPCA

Bộ
đệm

Bộ giải mã
LDPCA

Mơ hình nhiễu tương quan: Thống kê dư thừa giữa
các hệ số DCT của WZF gốc và khung hình SI tương
ứng được giả định tuân theo phân bố Laplace như sau:

WZF đã
giải mã

Mặt phẳng bit
WZF

Tái tạo

IDCT

Kênh phản hồi

Mơ hình hóa nhiễu
tương quan

f X / y ( x) 

DCT

Tạo SI

Bộ mã hóa
HEVC Intra

Bộ giải mã
HEVC Intra

KF đã
giải mã



Hình 1. Kiến trúc bộ mã hóa WZ-HEVC

Q trình mã hóa
Chuỗi video đầu vào được phân tách thành các

khung hình chính (KF) X 2t 1 và các khung hình WZ
(WZF) X t . Các KF được mã hóa bằng bộ mã hóa
HEVC Intra và WZF được mã hóa theo nguyên tắc
phân tán như sau:

e

 x  y

(1)

2

(2)

2

Trong công thức (2),  2 là phương sai của dư thừa
giữa khung hình WZF gốc và khung hình SI tương
ứng. Trong bộ mã hóa được sử dụng ở bài báo này,
tham số  của phân bố Laplace được ước lượng trực
tuyến tại bộ giải mã ở mức dải hệ số.
Bộ giải mã LDPCA: Khi đã có các hệ số DCT của
khung hình SI và nhiễu tương quan đối với một dải hệ
số DCT, các mặt phẳng bit của dải hệ số
được giải
mã LDPCA với sự hỗ trợ của các bit chẵn lẻ được gửi
từ bộ mã hóa thơng qua kênh phản hồi. Để quyết định
có cần gửi thêm các bit chẵn lẻ để giải mã thành công
cho một mặt phẳng bit nào đó, tiêu chí dừng u cầu

được sử dụng. Để phát hiện và sửa các lỗi còn lại trong
mỗi mặt phẳng bit, tổng kiểm tra dư thừa vịng (CRC)
được tính cho mỗi mặt phẳng bit tại bộ mã hóa và gửi
tới bộ giải mã. Bộ giải mã sẽ tính CRC tương ứng cho
mỗi mặt phẳng bit đã giải mã LDPCA thành công và so
sánh với CRC nhận được từ bộ mã hóa để đảm bảo loại
bỏ xác suất lỗi cho mỗi mặt phẳng bit được giải mã.
Sau khi một mặt phẳng bit được giải mã LDPCA thành
công, các mặt phẳng bit còn lại của cùng một dải hệ số
sẽ được xử lý tiếp theo cách tương tự.

Biến đổi DCT: Mỗi WZF được chia thành các khối
không chồng nhau có kích thước 4  4 và biến đổi
DCT được áp dụng cho mỗi khối để tạo thành các hệ số
DCT tương ứng với các pixel trong mỗi khối.
Lượng tử hóa: Để giảm tốc độ bit, các hệ số DCT
được lượng tử hóa. Các hệ số DCT được nhóm thành
16 dải hệ số bk (k  0;15) ở đó mỗi dải hệ số gồm các
hệ số có cùng vị trí trong các khối khác nhau. Các dải
DCT này được lượng tử đồng nhất với bộ lượng tử
2M k ở đó M k là số bit biểu diễn cho các hệ số DCT
của dải hệ số bk . Các ma trận lượng tử được chọn
tương ứng với các mức tốc độ bit khác nhau như trong
[7].
Bộ mã hóa LDPCA: Mỗi mặt phẳng bit được đưa
vào bộ mã hóa LDPCA để tạo ra các bit chẵn lẻ tương
ứng. Các bit chẵn lẻ này được lưu tại bộ đệm khung
hình và các bit hệ thống bị loại bỏ. Các bit chẵn lẻ được
truyền tới bộ giải mã theo từng cụm tùy theo yêu cầu từ
bộ giải mã.

Tái tạo: Các mặt phẳng bit đã giải mã LDPCA
cùng với khung hình SI và thống kê dư thừa cho mỗi
dải hệ số DCT được sử dụng cùng nhau để tái tạo lại hệ
số DCT ban đầu. Giá trị tái tạo cho mỗi hệ số DCT của
mỗi dải hệ số DCT được cho trong [9]:

Quá trình giải mã
Tại bộ giải mã, các KF được giải mã bằng bộ giải
mã HEVC Intra và các WZF được giải mã với sự trợ
giúp của các KF này.

u

x '  E  x | q ', y  

Tạo thông tin phụ trợ: Khối nội suy thời gian bù
chuyển động tạo ra thông tin phụ trợ, một ước lượng
của WZF ở bộ mã hóa, bằng cách sử dụng các KF đã
giải mã trước và sau như trong [8]. Trong mô-đun này,
hai khung hình tham chiếu được lọc thơng thấp để
giảm nhiễu cho q trình ước lượng chuyển động. Sau
đó thực hiện ước lượng chuyển động trước để có được

ISBN 978-604-80-5958-3

2

ở đó f X / y là hàm mật độ xác suất của X với y cho
trước.  là tham số của phân bố Laplace được xác định

bởi công thức sau:

Bộ đệm
khung hình
KF



 xf

X|y

( x | y )dx

l
u



(3)

f X | y ( x | y )dx

l

ở đó x ' là hệ số DCT tái tạo, y là hệ số DCT tương
ứng của WZF và E[.] là toán tử kỳ vọng. l , u là các
biên dưới và trên tương ứng của q ' .

403

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

Biến đổi DCT ngược (IDCT): Cuối cùng, các hệ số
DCT tái tạo được biến đổi DCT ngược để nhận được
khung hình miền pixel.

thêm từ bộ mã hóa gửi tới [15][16]. Trong các giải
pháp này, bộ mã hóa thường tạo ra mã băm cho mỗi
khối và gửi tới bộ giải mã để hỗ trợ quá trình giải mã
nhằm cải thiện chất lượng SI. Tuy nhiên, nhược điểm
của các phương pháp này là độ phức tạp của bộ mã
hóa sẽ tăng lên. Một hướng tiếp cận khác là SI ban đầu
được lọc liên tục qua nhiều vịng lặp trong q trình
giải mã LDPCA bằng cách sử dụng các dữ liệu đã giải
mã trước đó [17][18][19][20]. Với cách tiếp cận này,
sự tương đồng giữa SI và khung hình WZ gốc sẽ tăng
liên tục trong quá trình giải mã và vì vậy sẽ cải thiện
chất lượng cuối cùng và giảm tốc độ bit yêu cầu. Hơn
nữa, do không cần phải tạo và gửi thông tin thêm về
khung hình hiện thời nên bộ mã hóa vẫn giữ được độ
phức tạp thấp. Nhược điểm của các cách tiếp cận này
là độ phức tạp bộ giải mã sẽ tăng lên so với các giải
pháp trước đó.
Trong bài báo này đề xuất một phương pháp tạo SI
bằng cách kết hợp SI được tạo ra ban đầu bằng
phương pháp MCTI với SI được tạo ra bằng mạng nơron. Điều này giúp tạo ra các SI có chất lượng tốt hơn
so với việc chỉ sử dụng SI ban đầu.

B. Các phương pháp tạo thơng tin phụ trợ
Trong mã hóa video dự đốn, các kỹ thuật ước
lượng và bù chuyển động góp phần cải tiến chất lượng
của các khung hình dự đốn dẫn đến các cải tiến đáng
kể hiệu năng nén của hệ thống. Cũng như vậy, các kỹ
thuật tạo thông tin phụ trợ tại bộ giải mã góp phần
quan trọng vào việc cải tiến hiệu năng nén trong mã
hóa video WZ để rút ngắn khoảng cách hiệu năng so
với mã hóa video dự đốn. Tương quan giữa thơng tin
phụ trợ tại bộ giải mã giữa thông tin phụ trợ tại bộ giải
mã và khung hình WZ hiện thời tại bộ mã hóa càng
cao thì số lượng bit cần gửi từ bộ mã hóa đến bộ giải
mã càng ít để đạt được chất lượng nào đó. Vì vậy, chất
lượng SI đóng vai trị trung tâm giúp đạt hiệu năng nén
cho bộ mã hóa WZ. Tuy nhiên, câu hỏi đặt ra là: làm
thế nào để tạo ra thông tin phụ trợ tại bộ giải mã trong
khi khung hình WZ gốc khơng sẵn có tại bộ giải mã?
Câu trả lời là rất khó để dự đốn một cách chính xác
tuyệt đối khung hình WZ gốc mà chỉ có thể dự đốn
với mức độ chính xác nào đó dựa trên các khung hình
chính đã giải mã trước đó. Cho đến hiện nay, có rất
nhiều nghiên cứu tập trung vào các giải pháp tạo SI.
Có thể phân loại các kỹ thuật tạo SI thành hai loại
chính là tạo SI cơ bản và tạo SI nâng cao. Các kỹ thuật
tạo SI cơ bản thường là tạo ra các SI có thể sử dụng
trực tiếp trong q trình giải mã. Ngược lại, các kỹ
thuật tạo SI nâng cao thường thực hiện cải tiến chất
lượng của SI ban đầu trong suốt quá trình giải mã, các
SI ban đầu được tạo ra bằng các kỹ thuật tạo SI cơ bản.
Với các kỹ thuật tạo SI cơ bản thường phát triển

theo hai hướng chính. Cách tiếp cận thứ nhất là tạo ra
SI tương ứng cho mỗi khung hình WZ tại bộ giải mã
trước khi quá trình giải mã LDPCA bắt đầu. SI được
tạo ra dựa trên các khung hình đã giải mã trước đó mà
khơng cần bất cứ dữ liệu bổ sung nào từ phía bộ mã
hóa [10][11][12]. Các giải pháp này có ưu điểm là bộ
mã hóa khơng cần tạo và gửi các thơng tin bổ sung về
khung hình hiện thời nhưng có nhược điểm là khó ước
lượng chuyển động một cách chuẩn xác khi kích thước
GOP lớn cũng như tại các vùng có chuyển động bất
thường hay chuyển động nhanh. Cách tiếp cận thứ hai
là SI được tạo ra bằng cách thử lần lượt dựa vào các
khung hình đã giải mã trước đó và một số dữ liệu điều
khiển từ bộ mã hóa gửi lới. Theo cách tiếp cận này, bộ
giải mã kênh sẽ chạy một số lần cho mỗi ứng viên SI
và ứng viên tốt nhất sẽ được chọn dựa theo tiêu chí đã
định trước [13][14]. Có thể thấy cách tiếp cận này có
ưu điểm là có khả năng thích ứng tốt với nội dung
video do có thực hiện một số kỹ thuật ước lượng đơn
giản. Tuy nhiên nó lại làm tăng thêm độ phức tạp cho
bộ mã hóa cũng như cần phải truyền thêm dữ liệu điều
khiển sang phía giải mã.
Để cải tiến hơn nữa chất lượng của SI, các giải pháp
tạo SI nâng cao được đề xuất. Các SI vẫn có thể được
tạo ra trước khi giải mã LDPCA nhưng có sử dụng
thêm một số thơng tin bổ sung hay còn gọi là các gợi ý

ISBN 978-604-80-5958-3

HỆ THỐNG ĐỀ XUẤT

III.

Hình 2 mơ tả bộ mã hóa video miền biến đối dựa
trên cấu trúc bộ mã hóa WZ-HEVC được đề cập ở
mục II.
Bộ mã hóa
DCT

Bộ lượng
tử hóa
đồng nhất

Khung hình
WZ đã giải mã

Bộ giải mã
Bộ mã
hóa
LDPCA

Bộ đệm

Bộ giải
mã
LDPCA

IDCT

Tái tạo

Các mặt phẳng bit
Kênh phản hồi
Mơ hình nhiễu
tương quan

Khung
hình WZ

MCTI

DCT

Tạo SI

Mơ hình mạng
Nơ-ron

Chuỗi video
Khung hình
đầu vào
chính
Chia tách
khung hình

Bộ đệm
khung hình
Bộ mã hóa
HEVC Intra

Bộ giải mã
HEVC Intra

Khung hình
chính đã giải mã

Hình 2. Kiến trúc mã hóa video WZ đề xuất
Cụ thể, trong phương pháp này, khung hình SI được
tạo ra bằng cách kết hợp từ hai khung hình: khung
hình SI MCTI được tạo ra bằng kỹ thuật MCTI như được
mô tả trong [11] và khung hình SI NN được tạo ra bằng
mạng nơ-ron với đầu vào là các tham số của hai khung
hình chính.
Hai khung hình SI MCTI và SI NN được kết hợp để
tạo ra khung hình SI cuối cùng. Các bước tạo khung
hình SI được mơ tả chi tiết như sau.
Bước 1: Tạo khung hình SI MCTI

SI MCTI là khung hình được tạo ra bằng kỹ thuật
MCTI và được mô tả ngắn gọn theo sơ đồ Hình 3.
Hai KF tham chiếu trước và sau được lọc thông
thấp và được sử dụng như các tham chiếu trong thuật
toán ước lượng chuyển động tìm kiếm đầy đủ sử dụng

404

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

đầu ra là hệ số DC hoặc AC được dự đốn của khối

hình trong khung hình SI NN . Hàm kích hoạt ReLU
được sử dụng tại mỗi nơ-ron.

tiêu chí đối sánh cải tiến. Tiêu chí đối sánh này ưu tiên
các vector chuyển động ở gần tâm. Sau đó thực hiện
ước lượng chuyển động song hướng. Trong bước này,
các vector chuyển động tương ứng với mỗi khối của SI
được lựa chọn và lọc. Tiếp theo, bộ lọc vector trung vị
có trọng số được sử dụng để cải thiện độ mịn không
gian của trường chuyển động. Cuối cùng, với vector
chuyển động có được, các khối của SI được tạo ra bằng
cách lấy trung bình của bù chuyển động cho các khối
của các KF.

Bước 3: Tạo khung hình SI
Khung hình SI cuối cùng dùng cho việc giải mã
khung hình WZ được tạo bằng cách kết hợp hai khung
hình SI MCTI và khung hình SI NN như sau:

SI  1.SI MCTI   2 .SI NN

Bước 2: Tạo khung hình SI NN

Trong đó 1 và  2 là hai trọng số đo mức độ quan
trọng của hai khung hình SI MCTI và SI NN trong việc
tạo ra khung hình SI. Trong phương pháp đề xuất, các
hệ số 1 và  2 được tìm bằng thực nghiệm với các giá
trị tương tứng là 0,25 và 0,75.

Trong phương pháp này, mơ hình mạng nơ-ron

được sử dụng để dự đốn khung hình SI NN từ hai
khung hình chính.

IV.

Cụ thể, hai KF được chia thành các khối kích thước
4  4 và được biến đổi cosin rời rạc (DCT). Các hệ số
DC và AC của hai khối tương ứng trong hai khung
hình chính được đưa vào mạng nơ-ron để dự đốn các
hệ số DC và AC cho khối hình 4  4 của khung hình
SI NN .

Phương pháp tạo SI đề xuất được đánh giá khi áp
dụng trong bộ mã hóa Wyner-Ziv và so sánh với các
phương pháp tạo SI khác.

Dữ liệu được sử dụng để huấn luyện là các khối ảnh
4  4 trong các khung hình của các chuỗi video
"Harbor", "Husky", "Mobile", News" và "Pamphlet"
với độ phân giải không gian 176 144 , số lượng các
khung hình của mỗi chuỗi là 300. Các chuỗi được chọn
có sự đa dạng về kết cấu ảnh và đặc tính chuyển động
của chuỗi. Các chuỗi này được mã hóa và giải mã
HEVC Intra với bốn tham số lượng tử. Tổng số khối
hình dùng để huấn luyện mơ hình là 1.188.000 khối.

Bảng II. Điều kiện thử nghiệm
Chuỗi
Video

Độ phân
giải

Số khung
hình

Tham số
lượng tử

Carphone
{25,29,34,40}
Foreman
{25,29,34,40}
176x144
300
Akiyo
{25,29,34,40}
Coastguard
{26,30,34,38}
Phần đánh giá này sử dụng các bộ mã hóa sau:
 HEVC Intra: Bộ mã hóa này sử dụng phần mềm
tham chiếu HM với chệ độ mã hóa Intra. Đây là bộ
mã hóa đại diện cho mã hóa video dự đốn được
lựa chọn để so sánh vì có độ phức tạp bộ mã hóa
thấp.

Để huấn luyện cho tập dữ liệu xây dựng ở trên,
phương pháp đề xuất sử dụng mạng nơ-ron nhiều lớp.
Để quyết định cấu trúc mạng nơ-ron với số lớp ẩn và số
nơ-ron trong mỗi lớp, một số cấu trúc mạng khác nhau

đã được thử nghiệm. Kết quả thử nghiệm một số cấu
trúc mạng được thể hiện trong bảng I.

 WZ-HEVC: Đây là bộ mã hóa Wyner-Ziv tuân
theo kiến trúc DISCOVER với khung hình chính
được mã hóa bởi HEVC Intra và SI được tạo ra
bằng phương pháp MCTI.

Bảng I. Độ chính xác của một số cấu trúc mạng nơ-ron
Sai số tuyệt đối trung bình
(MAE)

 ReSI-WZ-HEVC: Đây là bộ mã hóa WZ-HEVC
với mơ-đun tạo SI cải tiến được nhóm tác giả đề
xuất trong [20].

{2,1}
1,91
{2,2,1}
0,85
{2,2,2,1}
0,82
{2,3,2,1}
0,78
{2,4,2,1}
0,82
Như kết quả chỉ ra trong bảng I, cấu trúc mạng nơron gồm một lớp đầu vào, hai lớp ẩn và một lớp đầu ra
được lựa chọn. Lớp đầu vào gồm hai giá trị là các hệ số
DC hoặc AC của hai khối hình trong hai khung hình
chính. Lớp ẩn 1, 2 tương ứng gồm 3 và 2 nơ-ron. Lớp

ISBN 978-604-80-5958-3

ĐIỀU KIỆN THỬ NGHIỆM VÀ KẾT QUẢ
THỬ NGHIỆM

A. Điều kiện thử nghiệm
Để đánh giá hiệu năng của giải pháp tạo thông tin
phụ trợ đề xuất so với các phương pháp khác, bốn
chuỗi video sau được sử dụng là “Akiyo”,
“Carphone”, “Foreman” và “Coastguard” với các
đặc điểm được mô tả trong Bảng II.

Hình 3. Kỹ thuật tạo thơng tin phụ trợ bằng nội suy
khung hình

Cấu trúc mạng

(4)

 NN-WZ-HEVC: Đây là bộ mã hóa được xây dựng
trên WZ-HEVC với mơ-đun tạo SI bằng mạng nơron như đề xuất trong mục III.
Hiệu năng ở đây là hiệu năng méo – tốc độ bit (RD)
của phương pháp đề xuất với một số phương pháp
trước đó. Hai đại lượng BD-PSNR và BD-Rate [21]

405

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

 NN-WZ-HEVC so với các bộ mã hóa WZ khác:
Hiệu năng RD của bộ mã hóa NN-WZ-HEVC đạt
được mức cải thiện đáng kể so với hai bộ mã hóa
WZ cịn lại. Khi so với bộ mã hóa WZ-HEVC, mức
cải tiến BD-PSNR lên tới 6,21 dB và mức tiết kiệm
tốc độ bit đạt tới 151,28% đối với chuỗi Akiyo. Đối
với các chuỗi chuyển động phức tạp và nhanh thì
việc tạo SI vẫn gặp khó khăn nên chất lượng SI
chưa cao. Tuy nhiên, về tổng thể, NN-WZ-HEVC
vẫn đạt được mức giảm tốc độ bit trung bình là
59,28% khi so với bộ mã hóa WZ-HEVC và 8,13%
khi so với bộ mã hóa ReSI-WZ-HEVC.

cũng được sử dụng trong các đánh giá. Đại lượng BDPSNR cho biết mức cải thiện tương đối giữa hai
phương pháp bằng cách đo lường sự sai khác trung
bình giữa hai đường cong RD trong đó một đường
cong RD được chọn làm đường cong cơ sở. Trong
nghiên cứu này, NN-WZ-HEVC được chọn làm đường
cong cơ sở. Nếu BD-PSNR âm, điều đó có nghĩa là bộ
mã hóa NN-WZ-HEVC có hiệu năng tốt hơn. Tương tự
như vậy, đại lượng BD-Rate cho biết mức độ tiết kiệm
tốc độ bit giữa hai phương pháp. Nếu BD-Rate có giá
trị dương, điều đó có nghĩa là đường cong cơ sở NNWZ-HEVC có mức tiết kiệm tốc độ bit tốt hơn.
B. Kết quả và phân tích
Bảng III, IV và Hình 4, 5, 6, 7 mô tả và so sánh
hiệu năng (trên phương diện tốc độ bit và chất lượng
khung hình sau giải nén) của phương pháp đề xuất (thể
hiện bằng hiệu năng RD của bộ mã hóa NN-WZHEVC) so với các phương pháp tạo SI khác (thể hiện
bằng hiệu năng RD của các bộ mã hóa WZ-HEVC,

ReSI-WZ-HEVC) và bộ mã hóa truyền thống HEVCIntra đại diện cho bộ mã hóa có độ phức tạp thấp.
Bảng III. So sánh BD-Rate [%] của bộ mã hóa NN-WZHEVC với các bộ mã khác
Chuỗi Video

Carphone
Foreman
Akiyo
Coastguard
Trung bình

WZHEVC
70,74
10,65
151,28
4,45
59,28

ReSI-WZHEVC
8,43
6,64
16,09
1,37
8,13

HEVC
Intra

Hình 4. RD của các phương pháp với chuỗi Carphone

4,72

90,64
62,28
-26,36
32,83

Bảng IV. So sánh BD-PSNR [dB] của bộ mã hóa NN-WZHEVC với các bộ mã hóa khác
Chuỗi Video

Carphone
Foreman
Akiyo
Coastguard
Trung bình

WZHEVC
-3,59
-0,54
-6,21
-0,18
-2,63

ReSI-WZHEVC
-0,66
-0,33
-1,11
-0,02
-0,53

HEVC
Intra

-0,35
-3,74
-3,56
1,51
-1,54

Hình 5. RD của các phương pháp với chuỗi Foreman

Từ kết quả được chỉ ra trong bảng III và IV, ta
nhận thấy:
 NN-WZ-HEVC so với HEVC Intra: Hiệu năng
RD của NN-WZ-HEVC tốt hơn so với HEVC cho
hầu hết các chuỗi ngoại trừ chuỗi Coastguard là
chuỗi có chuyển động nhanh và phức tạp. Đối với
các chuỗi chuyển động chậm, NN-WZ-HEVC cho
kết quả tốt hơn bởi vì SI có chất lượng tốt. Khi đo
bằng đại lượng BD-Rate, NN-WZ-HEVC có thể tiết
kiệm đến 90,64% đối với chuỗi chuyển động chậm,
ví dụ Foreman. Tổng thể, NN-WZ-HEVC đạt được
mức tiết kiệm tốc độ bit trung bình là 32,83% và
mức cải thiện BD-PSNR lên tới 1,54dB.

ISBN 978-604-80-5958-3

Hình 6. RD của các phương pháp với chuỗi Akiyo

406

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2021)

[5]

[6]

Hình 7. RD của các phương pháp với chuỗi Soccer

V.

[7]

KẾT LUẬN

Trong bài báo này, chúng tôi đề xuất phương pháp
cải tiến chất lượng của thơng tin phụ trợ cho mã hóa
Wyner-Ziv bằng cách kết hợp hai ứng viên SI. Ứng
viên SI đầu tiên chính là SI được tạo ra theo cách
truyền thống sử dụng kỹ thuật MCTI và ứng viên SI
thứ hai được tạo ra bằng mạng nơ-ron. Hai ứng viên
này sau đó được kết hợp với nhau để tạo thành SI cuối
cùng. Các kết quả thực nghiệm cho thấy khi so với các
phương pháp trước đó, phương pháp tạo SI đề xuất có
thể tạo ra SI chất lượng tốt hơn và do đó cải thiện được
BD-PSNR và tiết kiệm được BD-Rate cho hệ thống mã
hóa video Wyner-Ziv.
Hướng phát triển tiếp theo của nghiên cứu này có
thể mở rộng theo một số cách. Đầu tiên là thực hiện tối
ưu hóa cho mạng nơ-ron để có kết quả tốt hơn. Sau đó
có thể nghiên cứu xây dựng các mạng nơ-ron cho phù

hợp với các ứng dụng cụ thể. Ví dụ, mạng nơ-ron có
thể được xây dựng riêng cho ứng dụng thoại hội nghị
bằng cách thay đổi dữ liệu huấn luyện để phản ánh
đúng bản chất của loại ứng dụng này. Với sự phát triển
nhanh chóng của các nghiên cứu về học sâu, việc áp
dụng mạng nơ-ron có thể mang lại các kết quả tốt hơn
rất nhiều.

[8]

[9]

[10]

TÀI LIỆU THAM KHẢO
[1]

[2]

[3]

[4]

[11]

D. Slepian, J. K. Wolf, and D. Slepian,
“Noiseless Coding of Correlated Information
Sources,” IEEE Trans. Inf. Theory, vol. 19, no.
4,
pp.

471–480,
1973,
doi:
10.1109/TIT.1973.1055037.
A. Wyner and J.Ziv, “The Rate-Distortion
Function for Source Coding with Side
Information at the Decoder,” IEEE Trans. Inf.
Theory., vol. 22, no. 1, pp. 1–10, 1976.
X. Artigas, J. Ascenso, M. Dalai, S. Klomp, D.
Kubasov, and M. Ouaret, “The DISCOVER
codec:
architecture,
techniques
and
evaluation.,” Proc. Pict. Coding Symp., pp. 6–
9, 2007.
T. Wiegand, G. J. Sullivan, S. Member, G.
Bjøntegaard, A. Luthra, and S. Member,

ISBN 978-604-80-5958-3

[12]

[13]

407

“Overview of the H.264/AVC Video Coding
Standard,” IEEE Trans. Circuits Syst. Video
Technol., vol. 13, no. 7, pp. 560–576, 2003.

H. Standard, G. J. Sullivan, J. Ohm, W. Han,
and T. Wiegand, “Overview of the High
Efficiency Video Coding,” IEEE Trans.
Circuits Syst. Video Technol., vol. 22, no. 12,
pp. 1649–1668, 2012.
C. Brites and F. Pereira, “Improving frame
interpolation with spatial motion smoothing
for pixel domain distributed video coding,”
EURASIP Conf. Speech Image Process.
Multimed. Commun. Serv. Smolenice, Slovak
Repub., no. January, 2005.
J. Park, B. Jeon, D. Wang, and A. Vincent,
“Wyner-Ziv video coding with region adaptive
quantization and progressive channel noise
modeling,” 2009 IEEE Int. Symp. Broadband
Multimed. Syst. Broadcast. BMSB 2009, vol.
0, 2009, doi: 10.1109/ISBMSB.2009.5133844.
C. Brites, J. Ascenso, and F. Pereira,
“Improving transform domain Wyner-Ziv
video coding performance,” in ICASSP, IEEE
International Conference on Acoustics, Speech
and Signal Processing - Proceedings, 2006,
vol.
2,
pp.
525–528,
doi:
10.1109/icassp.2006.1660395.
D. Kubasov, J. Nayak, and C. Guillemot,
“Optimal reconstruction in Wyner-Ziv video

coding with multiple side information,” 2007
IEEE 9Th Int. Work. Multimed. Signal
Process. MMSP 2007 - Proc., pp. 183–186,
2007, doi: 10.1109/MMSP.2007.4412848.
A. Aaron, S. D. Rane, E. Setton, and B. Girod,
“Transform-domain Wyner-Ziv codec for
video,” Vis. Commun. Image Process. 2004,
vol.
5308,
p.
520,
2004,
doi:
10.1117/12.527204.
J. Ascenso, C. Brites, and F. Pereira,
“Improving Frame Interpolation with Spatial
Motion Smoothing for Pixel Domain
Distributed Video Coding,” 5th EURASIP
Conf. Speech Image Process. Multimed.
Commun. Serv., no. Dvc, pp. 1–6, 2005.
D. Kubasov, C. Guillemot, C. U. De Beaulieu,
and G. Leclerc, “Mesh-Based MotionCompensated
Interpolation
for
Side
Information Extraction in Distributed Video
Coding , 2006, pp. 26,” in International
Conference on Image Processing, Atlanta, GA,
2006, pp. 261–264.
R. Puri, A. Majumdar, and K. Ramchandran,

“PRISM: A video coding paradigm with
motion estimation at the decoder,” IEEE
Trans. Image Process., vol. 16, no. 10, pp.

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

[14]

[15]

[16]

[17]

[18]

2436–2448,
2007,
doi:
10.1109/TIP.2007.904949.
R. Puri and K. Ramchandran, “PRISM: A new
robust video coding architecture based on
distributed compression principles,” 2002.
A. Aaron, S. Rane, and B. Girod, “Wyner-Ziv
video coding with hash-based motion
compensation at the receiver,” in 2004
International
Conference
on

Image
Processing, 2004. ICIP ’04., Singapore, 2004,
pp. 3097–3100.
F. Pereira and J. Ascenso, “Adaptive HashBased Side Information Exploitation for
Efficient Wyner-Ziv Video Coding,” in EEE
International
Conference
on
Image
Processing, San Antonio, TX, 2007, vol. 9, pp.
29–32.
A. Abou-Elailah, F. Dufaux, M. Cagnazzo, B.
Pesquet-Popescu, and J. Farah, “Successive
refinement of side information using adaptive
search area for long duration GOPs in
distributed video coding,” 2012 19th Int. Conf.
Telecommun. ICT 2012, no. Ict, 2012, doi:
10.1109/ICTEL.2012.6221275.

ISBN 978-604-80-5958-3

[19]

[20]

[21]

408

H. Van Luong, L. L. Raket, and S.

Forchhammer, “Re-estimation of motion and
reconstruction for distributed video coding,”
IEEE Trans. Image Process., vol. 23, no. 7,
pp.
2804–2819,
2014,
doi:
10.1109/TIP.2014.2320364.
R. Martins, C. Brites, J. Ascenso, and F.
Pereira, “Refining side information for
improved transform domain wyner-ziv video
coding,” IEEE Trans. Circuits Syst. Video
Technol., vol. 19, no. 9, pp. 1327–1341, 2009,
doi: 10.1109/TCSVT.2009.2022783.
T. V. Huu, T. Nguyen Thi Huong, M. N.
Ngoc, and X. Hoangvan, “Improving
performance of distributed video coding by
consecutively refining of side information and
correlation noise model,” Proc. - 2019 19th
Int. Symp. Commun. Inf. Technol. Isc. 2019,
pp.
502–506,
2019,
doi:
10.1109/ISCIT.2019.8905187.
G. Bjontegaard, “Calculation of average PSNR
differences between RD curves,” 2001.

Phương pháp tạo thông tin phụ trợ dựa trên kỹ thuật học máy cho mã hóa video Wyner-Ziv

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về