Tải bản đầy đủ (.pdf) (6 trang)

Phương pháp lựa chọn hệ số lượng tử trên bộ nén H265/HEVC theo đặc trưng thị giác bằng mạng Neural tích chập

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.91 MB, 6 trang )

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

Phương pháp lựa chọn hệ số lượng tử trên bộ
nén H265/HEVC theo đặc trưng thị giác bằng
mạng Neural tích chập
Phạm Thanh Tùng∗ , Đinh Triều Dương† , Đặng Văn Trọng




và Lê Thanh Hà



Khoa Khoa học cơ bản và Ngoại ngữ, Đại học Phòng cháy chữa cháy
† Khoa Điện tử viễn thông, Đại học Công nghệ
‡ Khoa Công nghệ thông tin, Đại học Công nghệ
Tác giả liên hệ: Đinh Triều Dương (email:)

Tóm tắt—Trong bài báo này chúng tơi phát triển mơ
hình dự đốn chất lượng hình ảnh video khi nén bằng
mạng Neural tích chập trích chọn đặc trưng thị giác của
khối ảnh từ đó đề xuất phương pháp lựa chọn hệ số lượng
tử (QP) áp dụng vào bộ nén video H265/HEVC. Bộ dữ liệu
thực nghiệm đánh giá chất lượng ảnh chủ quan của 40286
khối ảnh dùng cho huấn luyện mơ hình. Mơ hình dự đốn
chất lượng hình ảnh được tùy chỉnh trên nền tảng kiến
trúc mạng Resnext-50 nhằm mô phỏng theo cách đánh
giá chủ quan của con người. Mơ hình dự đốn này làm
cơ sở cho phương pháp lựa chọn hệ số lượng đơn vị mã
hóa khối (CU) khi nén video theo chất lượng thị giác cho


trước. Thực nghiệm trên bộ nén H265/HEVC phiên bản
HM 16.20 cho thấy chất lượng đánh giá chủ quan có cải
thiện so với bộ nén ban đầu với cùng tốc độ bit.
Từ khóa—lựa chọn hệ số lượng tử, bộ nén H265/ HEVC,
đặc trưng thị giác.

biết nhất trong khi các lỗi xuất hiện ở tường tịa nhà ít
nhìn thấy. Hình 1 khơng chỉ cho thấy có nhiễu tạo ra
bởi nén video mà còn thể hiện mức độ nhạy cảm với
nhiễu theo yếu tố thị giác con người (HVS) với không
thời gian khác nhau. Những vấn đề này đã được tìm hiểu
vào đầu những năm 1990 [2] và được bổ sung trong các
nghiên cứu tiếp theo [1]. Nhận định này cho thấy có
thể tạo ra một bộ nén video theo nhận thức, trong đó
áp dụng nén sâu hơn cho các khu vực hình ảnh mà thị
giác của con người ít nhạy cảm hơn với biến dạng và
nén tốt hơn ở những khu vực còn lại. Để thực hiện mục
tiêu này, câu hỏi chính cần được giải quyết là làm thế
nào để dự đoán các vùng nhạy cảm với biến dạng nhằm
áp dụng QP thấp nhằm đảm bảo chất lượng cho những
vùng này.

I. GIỚI THIỆU
Trong mã hóa video, đánh giá chất lượng hình ảnh
có ý nghĩa quan trọng trong việc tính tốn hiệu năng
và làm căn cứ để lựa chọn cách mã hoá tối ưu. Tất cả
các bộ nén video thuộc họ MPEG-x và H.26x đều là các
bộ nén dự đoán chuyển động theo khối. Chúng đạt được
hiệu suất nén cao bằng cách sử dụng phương pháp lượng
tử hóa có tổn thất trong miền tần số. Hậu quả mất mát

thông tin của việc nén trong các bộ mã hóa video là việc
xuất hiện các biến dạng hình ảnh trong video được giải
mã. Dễ nhận thấy nhất là sự sai khác dọc theo các cạnh
trong các khối nơi áp dụng lượng tử hóa hoặc làm mất
chi tiết hình ảnh [1]. Ví vụ trong Hình 1, khung hình
đầu tiên của video thử nghiệm thường dùng Foreman
được nén với cùng một hệ số lượng tử trên tồn khung.
Khung hình sau khi nén suy giảm chất lượng đáng kể
so với khung hình ban đầu. Đồng thời, sự thay đổi chất
lượng được cảm nhận không đồng đều trên tồn khung.
Các nhiễu xuất hiện trên khn mặt nhân vật dễ nhận

ISBN 978-604-80-5958-3

90

Hình 1: Khung hình đầu tiên của video thử nghiệm
Foreman trước và sau khi nén.
Trong nhiều bộ nén video, thuật tốn tối ưu hóa tốc
độ bit - biến dạng (RDO) trong kiến trúc phần mềm
HEVC (HM) [3], [4] được sử dụng để cải thiện hiệu
năng nén [5]. Việc lựa chọn chế độ tối ưu hiệu năng
nén của từng đơn vị mã hóa cơ bản bằng cách chọn chế
độ mã hóa tốt nhất dưới một giá trị QP nhất định, trong
đó đơn vị cơ bản có thể là khung, lát (slice) hoặc đơn
vị mã hóa (CU). Tùy thuộc vào loại khung hình, bộ nén


Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)


video thực hiện tối ưu hóa tỷ lệ nén với biến dạng bằng
cách cực tiểu hàm chi phí [4]. Hàm chi phí ở đây là
hàm kết hợp giữa tốc độ nén và độ biến dạng. Trong
đó thang đo biến dạng là sai số bình phương trung bình
(MSE) giữa các giá trị pixel trong khối hình ảnh gốc
và các giá trị pixel trong khối tạo lại sau khi giải nén.
MSE đã được sử dụng rộng rãi trong nén hình ảnh và
video do cơng thức tính tốn đơn giản, có thể dễ dàng
giải quyết trong toán học (cụ thể là trong bài toán tối
ưu). Tuy nhiên, MSE được xác định là tương quan kém
với chất lượng cảm nhận thị giác [6], [7].
Hiện nay, các nghiên cứu vẫn tiếp tục phát triển
phương pháp lựa chọn QP nhằm tăng hiệu năng theo
đánh giá chủ quan của con người. Một số nghiên cứu
đưa ra cách tiếp cận cải thiện tỷ lệ nén hoặc tăng chất
lượng thị giác bằng kỹ thuật lựa chọn QP. Nói chung,
những nghiên cứu này xem xét mối quan hệ QP − λ
trong quá trình tối ưu mã hóa RDO. Một số nghiên cứu
gần đây ứng dụng học sâu (DNN) cho hiệu quả khả quan
đối với nén video [8], [9], [10], [11]. Tuy nhiên, chưa
có thuật toán dựa trên nền tảng DNN nhằm lựa chọn
QP để cải thiện chất lượng cảm nhận tri giác. Chính vì
vậy, bài báo này trình bày phương pháp DNN lựa chọn
QP được huấn luyện, điều chỉnh và kiểm tra trên bộ dữ
liệu đánh giá chất lượng ảnh chủ quan mà tác giả đề
xuất trong nghiên cứu trước đây [12].
Phần còn lại của bài báo được tổ chức như sau: phần
II sẽ giới thiệu về quá trình huấn luyện, hiệu chỉnh và kết
quả kiểm tra mơ hình mạng CNN dự đốn. Tiếp theo,
thuật toán của phương pháp lựa chọn QP được trình bày

trong phần III. Phần IV tiến hành đánh giá hiệu năng
phương pháp đề xuất cài đặt trên bộ nén H.265/HEVC
khi nén một số mẫu video so với bộ nén chuẩn. Cuối
cùng, chúng tôi kết luận bài báo trong phần V.
II. MƠ HÌNH DỰ ĐỐN CHẤT LƯỢNG HÌNH ẢNH
KHI NÉN
A. Dữ liệu
Trong nghiên cứu trước đây [12], chúng tôi đã xây
dựng bộ dữ liệu thực nghiệm đánh giá chất lượng hình
ảnh HMII gồm 40286 mẫu. Quá trình thực nghiệm tiến
hành theo quy chuẩn ITU-R BT.500-11 của tổ chức viễn
thông quốc tế [13] với sự tham gia của 2189 lượt người
đánh giá. Mỗi mẫu trong bộ dữ liệu gồm 1 khối ảnh gốc,
1 khối ảnh biến dạng sau mã hố có cùng kích thước
128 × 128, hệ số lượng tử QP dùng để mã hoá khối gốc
và kết quả chất lượng chủ quan DMOS đã được tiền xử
lý loại bỏ nhiễu như đề cập trong nghiên cứu [12]. Mẫu
dữ liệu được chuẩn hoá lại thành 3 thành phần màu của
khối gốc ghép thêm thành phần hệ số lượng tử QP để

ISBN 978-604-80-5958-3

91

thành dữ liệu đầu vào phù hợp với kiến trúc trình bày
trong Hình 2. Tồn dữ liệu được chia thành 10 phần
theo tỷ lệ 8:1:1 (tương ứng 32000: 4000: 4286 mẫu)
dành lần lượt cho việc huấn luyện, hiệu chỉnh và đánh
giá mơ hình dự đốn chất lượng.
B. Kiến trúc học sâu của mơ hình

Phương pháp đánh giá sự suy giảm chất lượng hình
ảnh theo [14] tương đối đơn giản nhưng cũng đã phần
nào cho thấy ảnh hưởng của nội dung khối ảnh đến sự
suy giảm chất lượng khi mã hóa video. Từ kết quả này,
chúng tôi sử dụng phương pháp học sâu sử dụng mạng
Neural tích chập (CNN) trích chọn đặc trưng cơ sở dữ
liệu thực nghiệm quy mô lớn (bộ dữ liệu HMII) nhằm
ước lượng chất lượng khối ảnh sau khi mã hóa. Sau khi
thực hiện huấn luyện mơ hình đánh giá chất lượng hình
ảnh sử dụng học sâu như nội dung trình bày trong [15],
kiến trúc mạng tích chập trích chọn đặc trưng ResNeXt50 (Hình 3) cho thấy hiệu quả tốt hơn so với các kiến
trúc khác. Do đó, trong mơ hình đề xuất tiếp tục sử
dụng kiến trúc này nhưng có sự điều chỉnh phù hợp với
mục đích đề ra biểu diễn theo Hình 2.
Trong Hình 2, dữ liệu đầu vào có kích thước 128 ×
128 × 4, trong đó có 3 lớp đầu tiên là 3 thành phần màu
RGB của khối ảnh gốc, lớp thứ 4 là hệ số lượng tử dùng
để mã hoá khối. Như vậy, mơ hình khơng sử dụng khối
biến dạng sau mã hoá mà dự đoán chất lượng dựa trên
khối gốc và hệ số lượng tử. Sau khi qua mạng tích chập
ResNeXt-50, các đặc trưng sẽ được trích chọn qua lớp
hồi quy để dự đoán chất lượng khối ảnh sau mã hoá.
C. Kết quả huấn luyện của mơ hình
Các tham số tối ưu ADAM được chọn theo khuyến
nghị trong [16] gồm: β1 = 0.9, β2 = 0.999, ϵ = 10−8
và tốc độ học α ấn định là 5 × 10−4 . Kết quả đánh giá
hiệu năng mơ hình trong q trình huấn luyện sau 100
epoch như Hình 4. Kết quả kiểm tra trên tập dữ liệu
đánh giá gồm 4286 mẫu cho kết quả tương quan tuyến
tính Pearson (PLCC) giữa kết quả dữ đoán với kết quả

thực nghiệm bằng 0.9505 và hệ số tương quan xếp hạng
Spearman (SRCC) bằng 0.9088. So sánh với kết quả
tương quan giữa hệ số lượng tử và chất lượng lần lượt
PLCC=-0,807 và SRCC= -0,8438 cho thấy ảnh hưởng
quan trọng của nội dung khối đến chất lượng hình ảnh
biến dạng của nó khi nén.
III. ĐỀ XUẤT PHƯƠNG PHÁP LỰA CHỌN HỆ SỐ
LƯỢNG TỬ THEO CHẤT LƯỢNG
Trong nén video, có 2 cách thiết lập QP chính: đồng
nhất trên tồn video và tùy biến theo các đơn vị mã hóa
cơ bản. Ở thiết lập thứ nhất, tất cả các khối trên tất cả


Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

Siamese Network
RGB original
CTU block +QP

Resnext-50
feature Extractor

Patch Qualiy
Estimate

Regression

Hình 2: Kiến trúc mạng CNN của phương pháp đánh giá chất lượng hình ảnh.

Input

Patch

B
Conv 7x7
R

Feature
Vector

max-pool
2x2

Conv

Iden�ty

Conv

x3

x2

Global
avg-pool

Iden�ty

Iden�ty

Conv


Iden�ty

x2

Conv

x5

Hình 3: Trích xuất đặc trưng bằng ResNeXt-50.

QC,ΔQC,w, CUorg

qp = 1;
QC=QC+w*ΔQC

False
Hình 4: Kết quả huấn luyện mơ hình.

PIQA(CUorg, qp)>QC
True
qp++

các khung hình đều nén với cùng một hệ số lượng tử
nên tốc độ mã hố nhanh hơn, nhưng có nhược điểm là
chất lượng không đồng đều, dễ bị phát hiện biến dạng.
Ở thiết lập thứ hai bộ nén đặt ra giá trị QP ban đầu
qp và ngưỡng điều chỉnh qpf actor. Khi đó, hệ số QP
cho các đơn vị mã hóa được lựa chọn tối ưu theo RDO
trong khoảng [qp − qpf actor , qp + qpf actor ). Ngoài ra,

người sử dụng có thể thiết lập tốc độ bit cho video cần
nén phù hợp với cấu hình thiết bị, nhu cầu chất lượng
và tốc độ đường truyền. Do đó cần thiết phải điều chỉnh
QP cho từng đơn vị mã hóa nhằm đảm bảo tốc độ bit
với chất lượng cao nhất theo đơn vị đo MSE. Như đã
đề cập trên, MSE không thể hiện được chất lượng theo
nhận thức tri giác của con người. Do đó, trong nghiên
cứu này chúng tơi đề xuất phương pháp lựa chọn QP

ISBN 978-604-80-5958-3

92

qpselected=qp

qpselected
Hình 5: Sơ đồ thuật toán PAPS.

theo chất lượng thị giác cần đạt được của video nén.
Mục tiêu chính của phương pháp đảm bảo chất lượng


Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2021)

QC, DQC
PAPS

CUOrg
-


Reference
Frame

Intra/Inter
Prediction

Constructed
Frame

In-loop Filter

+

Res

+

Transform

Quantization

Inv.
Transform

Inv.
Quantization

Bin

CABAC


Hình 6: Sơ đồ tổng quát của bộ mã hoá H.265/HEVC cải tiến.

thị giác trên tồn khung hình đồng thời tăng cường chất
lượng ở các vùng thu hút chú ý của người quan sát. Một
khối ảnh tham chiếu CUorg trong khung hình được mã
hố bởi hệ số lượng tử qp có chất lượng dự đoán theo
nhận thức thị giác là:
y = QIQA(CUorg , qp),

(1)

trong đó QIQA là mơ hình CNN dự đốn chất lượng
hình ảnh trình bày bên trên. Thuật tốn xác định hệ số
lượng tử cho các khối của một khung hình video (thuật
tốn PAPS) biểu diễn như Hình 5. Dữ liệu đầu vào của
thuật toán bao gồm khối ảnh gốc CUorg , chất lượng cần
đạt được QC và ngưỡng chất lượng điều chỉnh ∆QC.
Ngưỡng chất lượng điều chỉnh giới hạn mức tăng hoặc
giảm QC phụ thuộc tỷ lệ vào trọng số thu hút sự chú ý
w của khối xác định theo [17]. Kết quả của thuật toán là
hệ số lượng tử qpselected ước lượng để chất lượng khối
biến dạng sau nén tối thiểu cần đạt QC.
IV. ĐÁNH GIÁ HIỆU NĂNG PHƯƠNG PHÁP ĐỀ
XUẤT
Để đánh giá hiệu quả của phương pháp lựa chọn hệ
số lượng tử theo chất lượng thị giác, chúng tơi cài đặt
thuật tốn của phương pháp vào bộ nén H.265/HEVC
phiên bản HM 16.20 theo sơ đồ như Hình 6. Trong đó,
mỗi khung hình gốc phân chia thành các khối kích thước

64 × 64 lấy mở rộng thành 128 × 128 và đưa vào PAPS.
Đồng thời, khung hình gốc cũng được sử dụng để xác
định trọng số thu hút sự chú ý. Kết quả thu được là một
ma trận hệ số lượng tử được xác định tương ứng với các
khối của khung hình làm cơ sở cho quá trình lượng tử
hố.

ISBN 978-604-80-5958-3

93

Bộ nén cải tiến theo trong nghiên cứu được sử dụng
nén nội khung (All-intra) các mẫu video thử nghiệm
chuẩn gồm 2 video thuộc nhóm A (độ phân giải 2K), 5
video thuộc nhóm B (độ phân giải FHD), 3 video thuộc
nhóm C (độ phân giải 768 × 480), 3 video thuộc nhóm
D (độ phân giải 400×240) và 3 video thuộc nhóm E (độ
phân giải HD). Mỗi video nén dưới 4 mức chất lượng thị
giác QC gồm: 3.0, 3.5, 4.0 và 4.5; giá trị ngưỡng chất
lượng điều chỉnh ∆QC = 0.5. Tương tự, bộ nén chuẩn
HM 16.20 thực hiện nén nội khung các mẫu video thử
nghiệm chuẩn với cùng tốc độ bit như với bộ nén cải
tiến. Ngoài ra, để làm rõ hiệu năng nén theo nhận thức
tri giác là mục tiêu chính của nghiên cứu, chúng tơi đã
tiến hành thực nghiệm đánh giá chất lượng hình ảnh chủ
quan các video tái tạo sau khi nén. Trong thực nghiệm,
người quan sát được yêu cầu đánh giá chất lượng video
tái tạo theo thang đo M OS từ 1 đến 5 tương ứng với
chất lượng tăng đần. Hiệu năng DM OSR so sánh giữa
chất lượng M OSpro nén theo bộ mã cải tiến với chất

lượng M OSHM nén theo bộ mã gốc như công thức sau:
DM OSR = M OSpro − M OSHM .

(2)

Kết quả so sánh hiệu năng theo thang đo SSIM và
đánh giá chủ quan giữa bộ mã cải tiến so với bộ mã
gốc HM 16.20 trình bày trong Bảng 1. Bảng kết quả
cho thấy bộ mã cải tiến với phương pháp đề xuất cho
hiệu năng theo thang đo SSIM cơ bản tốt hơn so với
bộ mã gốc. Theo thực nghiệm đo chất lượng chủ quan,
bộ mã cải tiến cũng có hiệu suất tốt hơn cho các mẫu
video với độ phân giải cao hơn (nhóm A và nhóm E).
Đối với các video thử nghiệm có nhiều vùng đồng nhất,
vùng nền lớn, các đối tượng trong khung có độ tương


Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2021)

(a) Khung hình gốc

(b) Trọng số chú ý

(c) Khung hình kết quả theo bộ nén cải tiến

(d) QP theo bộ nén cải tiến

(e) Khung hình kết quả theo bộ nén gốc

(f) QP theo bộ nén gốc


Hình 7: Kết quả nén video trên khung hình đầu tiên mẫu video ‘Johnny’.

phản cao, thuật tốn được đề xuất cho hiệu quả mã hóa
tốt hơn. Các đặc điểm hình ảnh của video thử nghiệm
như vậy có thể thấy trong video ‘Johnny’, ‘FourPeople’,
‘BasketballDrive’, ‘KristenAndSarra’, ‘BasketballPass ‘
trong đó tăng chất lượng đáng kể nhất về mặt cảm
nhận. Mặt khác, phương pháp đề xuất hiệu quả kém
trên ‘BQTerrace và ‘Cactus’ có nhiều họa tiết hơn và
độ tương phản thấp hơn. Ví dụ trong Hình 7 cho thấy
chất lượng hình ảnh khung hình đầu tiên video ‘Johnny’
theo bộ nén cải tiến có sự cải thiện so bộ nén gốc đặt
biệt là vùng mặt của nhân vật và vùng biên giữa nhân
vật với phần nền.

ISBN 978-604-80-5958-3

94

V. KẾT LUẬN
Trong bài báo này, chúng tôi đề xuất phương pháp lựa
chọn QP theo đặc trưng thị giác áp dụng cho đơn vị mã
hóa khối của khung hình video. Phương pháp đề xuất sử
dụng một mơ hình trên nền tảng mạng CNN Resnext-50
để trích xuất các đặc trưng dự đốn chất lượng hình ảnh
sau nén của khối dưới một mức lượng tử xác định. Kết
quả áp dụng với cách nén nội khung trên H.265/HEVC
cho thấy hiệu năng theo SSIM tăng trung bình 5.5% đối
với thành phần độ sáng và 0.124 theo chất lượng chủ

quan thực nghiệm. Đánh giá chất lượng chủ quan cho
thấy rằng phương pháp được đề xuất có thể tạo ra chất
lượng hình ảnh tốt hơn về nhận thức thị giác so với bộ
nén gốc với cùng tốc độ bít.


Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

Bảng I: So sánh chất lượng hình ảnh theo thang đo SSIM và đánh giá chủ quan bộ nén dùng phương pháp đề xuất
so với bộ nén gốc
Nhóm
A

B

C

D

E

TÀI LIỆU

Video mẫu
Traffic
PeopleOnStreet
Kimono
ParkScene
Cactus
BasketballDrive

BQTerrace
BasketballDrill
BQMall
PartyScene
BasketballPass
BQSquare
RaceHorses
FourPeople
Johnny
KristenAndSara
Class A
Class B
Class C
Class D
Class E
All

Y
-6.9%
-7.6%
-2.9%
-4.9%
-6.8%
-4.7%
-7.8%
-2.5%
-2.6%
-5.1%
-7.4%
-7.3%

-3.4%
-3.5%
-6.2%
-8.3%
-7.3%
-5.4%
-4.0%
-6.0%
-6.0%
-5.5%

THAM KHẢO

[1] N. Jayant, J. Johnston, and R. Safranek, “Signal compression
based on models of human perception,” Proceedings of the IEEE,
vol. 81, no. 10, pp. 1385–1422, 1993.
[2] H. R. Wu, K. Rao, and A. Kassim, “Digital video image
quality and perceptual coding,” Journal of Electronic Imaging
- J ELECTRON IMAGING, vol. 16, 01 2007.
[3] I. Marzuki and D. Sim, “Overview of potential technologies for
future video coding standard (fvc) in jem software : Status and
review,” IEIE Transactions on Smart Processing and Computing,
vol. 7, pp. 22–35, 02 2018.
[4] G. Sullivan and T. Wiegand, “Rate-distortion optimization for
video compression,” IEEE Signal Processing Magazine, vol. 15,
no. 6, pp. 74–90, 1998.
[5] B. Li, J. Xu, D. Zhang, and H. Li, “Qp refinement according
to lagrange multiplier for high efficiency video coding,” in 2013
IEEE International Symposium on Circuits and Systems (ISCAS),
2013, pp. 477–480.

[6] Z. Wang and A. C. Bovik, “Mean squared error: Love it or
leave it? a new look at signal fidelity measures,” IEEE Signal
Processing Magazine, vol. 26, no. 1, pp. 98–117, 2009.
[7] B. Girod, “Psychovisual aspects of image processing: What’s
wrong with mean squared error?” in Proceedings of the Seventh
Workshop on Multidimensional Signal Processing, 1991, pp. P.2–
P.2.
[8] S. Ma, X. Zhang, C. Jia, Z. Zhao, S. Wang, and S. Wanga,
“Image and video compression with neural networks: A review,”
IEEE Transactions on Circuits and Systems for Video Technology, vol. PP, pp. 1–1, 04 2019.
[9] Y. Li, B. Li, D. Liu, and Z. Chen, “A convolutional neural
network-based approach to rate control in hevc intra coding,”

ISBN 978-604-80-5958-3

BD SSIM-rate
U
V
-4.6%
-3.2%
-6.7%
-6.9%
-5.0%
-5.3%
-4.4%
-4.8%
-7.0%
-7.8%
-4.2%
-5.3%

-5.0%
-4.6%
-2.8%
-1.5%
-12.0%
-13.1%
-3.0%
-2.8%
-4.7%
-6.5%
-0.8%
-5.1%
-3.3%
-1.5%
-4.8%
-4.9%
-4.4%
-5.3%
-4.3%
-5.2%
-5.6%
-5.1%
-5.1%
-5.5%
-6.0%
-5.8%
-2.9%
-4.4%
-4.5%
-5.1%

-4.8%
-5.2%

95

[10]

[11]
[12]

[13]
[14]

[15]

[16]
[17]

DMOSR
0.125
0.191
0.168
0.017
-0.105
0.211
-0.076
0.249
0.041
0.139
0.218

0.052
0.140
0.194
0.237
0.180
0.158
0.043
0.143
0.137
0.204
0.124

in 2017 IEEE Visual Communications and Image Processing
(VCIP), 2017, pp. 1–4.
S. Ki, S.-H. Bae, M. Kim, and H. Ko, “Learning-based justnoticeable-quantization- distortion modeling for perceptual video
coding,” IEEE Transactions on Image Processing, vol. 27, no. 7,
pp. 3178–3193, 2018.
H. Choi and I. V. Baji´c, “Deep frame prediction for video
coding,” IEEE Transactions on Circuits and Systems for Video
Technology, vol. 30, no. 7, pp. 1843–1855, 2020.
T. P. Thanh, C. Ma Thi, T. N. Manh, L. Le Dinh, and
H. Le Thanh, “Compression artifacts image patch database
for perceptual quality assessment,” in 2020 12th International
Conference on Knowledge and Systems Engineering (KSE), 2020,
pp. 55–60.
I. T. Union, “Methodology for the subjective assessment of the
quality of television pictures,” International Telecommunication
Union, vol. 23, no. 5, pp. 1937–1952, 2013.
T. T. Pham, T. D. Dinh, V. X. Hoang, T. Vu Huu, and T. H. Le,
“Distortion model based on perceptual of local image content,”

In 4th International Conference on Consumer Electronics Asia,
06 2019.
T. T. Pham, X. V. Hoang, N. T. Nguyen, D. T. Dinh, and L. T.
Ha, “End-to-end image patch quality assessment for image/video
with compression artifacts,” IEEE Access, vol. 8, pp. 215 157–
215 172, 2020.
D. Kingma and J. Ba, “Adam: A method for stochastic optimization,” International Conference on Learning Representations, 12
2014.
Z. Liu, W. Zou, and O. Le Meur, “Saliency tree: A novel saliency
detection framework,” IEEE Transactions on Image Processing,
vol. 23, no. 5, pp. 1937–1952, 2014.



×