H
ỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Trần Mạnh Tuấn
NÉN ẢNH TRONG THÔNG TIN SỐ
THẾ HỆ SAU
Chuyên ngành: Kỹ thuật Viễn thông
Mã số: 62.52.02.08
TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT
HÀ N
ỘI – 2013
Công trình
được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học:
1- TS. Phùng Kim Anh
2- TS. Nguyễn Hữu Hậu
Phản biện 1: PGS. TS. Đào Thanh Tĩnh
Phản biện 2: PGS. TS. Nguyễn Văn Khang
Phản biện 3: PGS. TS. Nguyễn Thế Hiếu
Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ
cấp Học viện họp tại Học viện Công nghệ Bưu chính Viễn
thông vào hồi 14 giờ 00, ngày 10 tháng 12 năm 2013.
Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia
- Thư viện Học viện Công nghệ Bưu chính Viễn thông
1
M
Ở ĐẦU
Tính cấp thiết của đề tài
Hiện nay, với việc triển khai mạng thông tin thế hệ sau, nhiều
ứng dụng mới ra đời như truyền tín hiệu video trên các phương tiện
thông tin di động, đa môi trường. Nâng cao hiệu quả sử dụng tài
nguyên băng tần của các phương tiện đó là bài toán phải nén tín hiệu
video hiệu quả nhất. Vì vậy, đề tài này là một chủ đề cấp thiết cho
việc ứng dụng truyền video trên các mạng viễn thông đa môi trường
thế hệ mới.
Mục tiêu nghiên cứu
Tìm các thuật toán hợp lý để ước lượng chuyển động của ảnh
trong video sao cho dễ tính toán, đảm bảo độ bám chuyển động của
ảnh một cách tốt nhất.
- Nghiên cứu đề xuất ứng dụng thuật toán ước lượng chuyển
động trong không gian nhiều chiều với nghiệm ước lượng chuyển
động tối ưu, độ bám tốt.
- Tăng hiệu quả sử dụng băng tần truyền dẫn bằng các thuật toán
không cần sử dụng tín hiệu đào tạo.
- Thuật toán ước lượng làm việc ổn định trong điều kiện kênh có
nhiễu.
Đối tượng, phạm vi và phương pháp nghiên cứu
Luận án nghiên cứu các phương pháp nén video số, ứng dụng
truyền video trong mạng thông tin di động thế hệ mới. Đây là một
phạm vi rộng, bao gồm: lượng tử hóa, ước lượng chuyển động của
ảnh, mã hóa - giải mã.
Luận án tập trung vào việc nghiên cứu các thuật toán ước lượng
chuyển động của ảnh, phân tích các kết quả nghiên cứu chuyển động
ảnh đã có trước đây; nghiên cứu các thuật toán ước lượng về mặt
toán học từ đó tìm ra thuật toán ước lượng hợp lý để đạt mục tiêu đề
ra. T
ừ phân tích toán học, luận án dùng công cụ mô phỏng để kiểm
chứng.
2
Ý ngh
ĩa khoa học và thực tiễn của đề tài
Ý nghĩa khoa học: Làm phong phú hơn về lý luận ước lượng
chuyển động của ảnh bằng thuật toán lặp, đó là:
- Dùng thuật toán Kalman: Đây là phương pháp lặp, sử dụng
trong không gian nhiều chiều và chỉ ra nghiệm tối ưu của ước lượng
chuyển động.
- Dùng thuật toán mù: Đây là phương pháp lặp, không cần sử
dụng tham chiếu trước mà chỉ cần mối tương quan giữa hai khung
ảnh là ước lượng được chuyển động của ảnh.
Ý nghĩa thực tiễn: Mở ra khả năng tính toán mới để ước lượng
ảnh nhanh hơn, có độ bám chuyển động tốt hơn, tránh được những
thông tin dư thừa do độ bám chuyển động không tốt gây ra.
Nội dung của luận án
Mở đầu: Giới thiệu bài toán và phương pháp nghiên cứu.
Chương 1 - Tổng quan về nén video: Giới thiệu vai trò, vị trí,
yêu cầu, mô hình hệ thống và một số kỹ thuật nén video.
Chương 2 - Tổng quan về ước lượng chuyển động của ảnh: Đây
là chương đưa ra những kiến thức cơ bản về ước lượng chuyển động
của ảnh, những thuật toán hiện có, đánh giá ưu điểm và nhược điểm
của những thuật toán hiện có.
Chương 3 - Ước lượng chuyển động bằng các giải pháp mới: Đề
xuất áp dụng những thuật toán mới cho việc ước lượng chuyển động
của ảnh, đó là thuật toán Kalman và thuật toán mù.
Chương 4 - Một số kết quả tính toán số: Trình bày một số kết
quả mô phỏng từ đó đưa ra nhận xét, so sánh hiệu năng giữa phương
pháp Bayes và phương pháp Kalman.
Kết luận và kiến nghị: Nêu lên các kết quả đã đạt được của luận
án và chỉ ra các hướng nghiên cứu tiếp theo.
3
CH
ƯƠNG 1
TỔNG QUAN VỀ NÉN VIDEO
1.1. Giới thiệu
Để truyền được các chương trình video trên các hệ thống thông
tin di động, một bài toán đặt ra là phải nén hình ảnh để tiết kiệm
băng tần truyền dẫn mà vẫn đảm bảo chất lượng hình ảnh. Trong
hoàn cảnh mạng NGN và di động thế hệ sau tiếp tục đòi hỏi phải
hoàn thiện hơn các thuật toán nén - giải nén tín hiệu video với mục
đích làm cho chất lượng hình ảnh tốt hơn, sử dụng băng tần truyền
dẫn hiệu quả hơn.
1.2. Độ dư trong tín hiệu video, nhu cầu cần thiết nén video
1.2.1. Độ dư trong tín hiệu video
Mục này trình bày về độ dư trong tín hiệu video, gồm: Độ dư
thống kê của ảnh (độ dư không gian, độ dư thời gian, độ dư mã) và
độ dư khả năng nhìn thấy. Việc nhận biết độ dư trong tín hiệu video
và tìm kiếm giải pháp để loại bỏ độ dư đó chính là nén dữ liệu.
1.2.2. Nhu cầu cần thiết nén video
Những thành tựu đạt được trong công nghệ điện tử - viễn thông -
tin học đã tạo điều kiện phát triển các kỹ thuật truyền video đáp ứng
nhu cầu ngày càng tăng trong các ứng dụng cuộc sống hàng ngày
như điện thoại video, hội nghị video, truyền hình độ phân giải cao…
Để làm được điều đó, cần thiết phải nén video.
1.3. Khái niệm về nén video
Mục này trình bày khái quát về: Khái niệm về nén video, mô
hình, chức năng cơ bản, đặc điểm của các phần tử trong hệ thống nén
video. Hình 1.5 chỉ ra mô hình nén video tổng quát.
1.4. Yêu cầu về ứng dụng nén video, một số kỹ thuật nén video
1.4.1. Yêu cầu về ứng dụng nén video
Mục này trình bày một số yêu cầu về ứng dụng nén video, gồm:
Các
đặc tính video, yêu cầu truyền dẫn, các đặc tính và hiệu năng của
hệ thống nén, yêu cầu về tỷ lệ méo và yêu cầu về tiêu chuẩn.
4
Hình 1.5 H
ệ thống nén video tổng quát
1.4.2. Một số kỹ thuật nén video
Mục này trình bày một số kỹ thuật nén video cơ bản, bao gồm:
- Mã entropy và mã dự đoán: Là mã tiếp cận entropy của nguồn;
DPCM sử dụng mô hình nguồn Markov được dùng trong các chuẩn
MPEG-1 và H.261. Tuy nhiên, bộ mã hoá này tương đối phức tạp;
VLC được dùng kết hợp với DPCM để giảm tốc độ bit.
- Mã chuyển đổi khối bằng biến đổi DCT: Gói hầu hết năng lượng
tín hiệu gốc vào một số ít các hệ số biến đổi, bỏ qua hệ số chứa ít
hoặc không chứa năng lượng. Có ưu điểm là IDCT không tạo ra bất
kỳ sự gián đoạn rõ nét nào ở các rìa khối; các biến đổi rời rạc tạo nên
tín hiệu được tái cấu trúc có chu kỳ; nhược điểm là tính toán chủ yếu
trên giải tích cổ điển, khá phức tạp.
- Bù và ước lượng chuyển động: Dựa vào nền tĩnh và sự chuyển
động của các ảnh gần. Nếu nền không thay đổi giữa hai khung thì
hiệu của chúng bằng 0 và hai khung có thể được mã hoá thành một.
Các vật thể chuyển động có thể được phát hiện bằng cách phối hợp
v
ật thể cận cảnh giữa hai khung
5
CH
ƯƠNG 2
TỔNG QUAN VỀ ƯỚC LƯỢNG CHUYỂN ĐỘNG CỦA ẢNH
2.1. Giới thiệu
Ước lượng chuyển động là quá trình quan trọng trong việc mô tả,
phân tích dãy ảnh, bám mục tiêu và mã hóa video. Việc mô tả và ứng
dụng có những yêu cầu khác nhau, do đó phải sử dụng các phương
pháp ước lượng chuyển động khác nhau. Chương 2 của luận án tập
trung vào việc nghiên cứu các phương pháp ước lượng chuyển động
video và so sánh các phương pháp đó, từ đó định hướng cho các giải
pháp mới được đề xuất ở chương 3 của luận án.
2.2. Ước lượng chuyển động và các phương pháp ước lượng
chuyển động
2.2.1. Ước lượng chuyển động
Ước lượng chuyển động là một bộ phận cấu thành trong bài toán
mã hoá nén video. Trong ước lượng chuyển động, điểm s=[h, v]
T
trong khung hiện tại ở thời điểm t sẽ liên quan đến một điểm trong
khung tham chiếu trước đó ở thời điểm t-∆t:
( ) ( ( ))
t t t
f f
−∆
= −
s s x s
(2.1)
Mục đích của ước lượng chuyển động là đi tìm véctơ chuyển
động x(s)=[x
h
(s), x
v
(s)]
T
. Chú ý rằng x(s) không nhất thiết phải là
véctơ chuyển động toàn điểm. Như vậy, phương pháp ước lượng
chuyển động có thể cần phải truy cập các giá trị cường độ tại các vị
trí không lấy mẫu trong khung tham chiếu. Phương pháp nội suy
song tuyến tính thường được sử dụng vì nó dung hòa tốt giữa chất
lượng nội suy và độ phức tạp tính toán. Nó được định nghĩa như sau:
( , ) (1 )(1 ) ( , ) (1 ) ( 1, )
(1 ) ( , 1) ( 1, 1)
f f i i f f i i
f f i i f f i i
f h v h v f h v h v f h v
h v f h v h v f h v
= − − + − +
+ − + + + +
(2.3)
trong đó (h
i
,v
i
) và (h
f
,v
f
) tương ứng là các phần nguyên và phần phân
c
ủa các tọa độ điểm (h,v).
6
Các mô hình t
ất định và xác suất
Trong mô hình tất định, chuyển động được xem là một đại lượng
tất định chưa biết. Bằng cách cực đại xác suất của dãy video quan sát
được theo sự chuyển động chưa biết có thể ước lượng được đại lượng
tất định này. Công thức ước lượng tương ứng thường được xem là
bài toán ML. Trong mô hình xác suất, chuyển động được xem là một
biến ngẫu nhiên. Tập các véctơ chuyển động tạo thành trường ngẫu
nhiên. Trường này thường được mô hình hoá bằng trường ngẫu nhiên
Markov (MRF). Việc ước lượng chuyển động có thể được công thức
hoá bằng bài toán MAP.
Các mô hình tham số và phi tham số
Trong mô hình tham số, chuyển động được biểu thị bằng một tập
các tham số chuyển động. Như vậy, bài toán ước lượng chuyển động
trở thành bài toán ước lượng các tham số chuyển động. Với mô hình
tham số, ràng buộc để làm theo đúng quy tắc bài toán ước lượng
chuyển động giả định sai được đưa vào trong mô hình chuyển động
một cách đầy đủ. Trong mô hình phi tham số, sự ràng buộc rõ ràng
(ví dụ: tính trơn tru của trường chuyển động) được đưa vào để làm
theo đúng quy tắc bài toán giả định sai về ước lượng chuyển động.
Vùng hỗ trợ
Vùng hỗ trợ là một tập các điểm mà mô hình chuyển động áp
dụng. Vùng hỗ trợ có thể lớn như một khung hoặc nhỏ như một
điểm, có thể có kích thước cố định hoặc thay đổi và có thể có hình
dạng cân đối hoặc hình dạng tùy ý.
2.2.2. Các phương pháp ước lượng chuyển động
Mục này giới thiệu một số phương pháp ước lượng chuyển động
thường được sử dụng, đưa ra nhận xét những ưu điểm và nhược điểm
của từng phương pháp, bao gồm:
- Các phương pháp vi phân: Dựa vào mối quan hệ giữa các biến
đổi về không gian và thời gian của cường độ. Các phương pháp này
chấp nhận một số giả thiết hạn chế là véctơ chuyển động x phải nhỏ,
7
trái l
ại thì nghiệm của bài toán sẽ kém chính xác và nhạy cảm đối với
nhiễu.
- Các phương pháp hồi quy điểm: Dựa vào sự tối thiểu theo
gradient lặp đi lặp lại của lỗi dự đoán. Ước lượng phụ thuộc nhiều
vào gradient không gian. Các phương pháp này phải chọn cỡ bước
điều khiển phù hợp để dung hoà giữa tốc độ hội tụ và độ chính xác
ước lượng. Có thể dễ hội tụ đến các điểm tối ưu cục bộ trong bề mặt
lỗi. Vùng có cường độ ít thay đổi, các gián đoạn trong trường chuyển
động và những dịch chuyển lớn là không thể xử lý hiệu quả.
- Các phương pháp miền tần số: Dựa trên thuộc tính khai triển
Fourier, khi dịch chuyển tịnh tiến trong miền không gian tương ứng
với dịch pha tuyến tính trong miền tần số. Phương pháp tương quan
pha có một số tính chất đặc biệt: Độ phức tạp tính toán nhỏ, đặc biệt
khi sử dụng FFT; không nhạy cảm với những thay đổi độ sáng.
- Các phương pháp phối hợp khối: Dựa vào việc chia khung ảnh
thành các khối con và ước lượng chuyển động cho từng khối. Tuỳ
vào việc lựa chọn hàm phối hợp (như NCCF, SSD, SAD) mà có hiệu
quả khác nhau. So sánh về chất lượng dự đoán thì: SSD > SAD >
NCCF. So sánh về độ phức tạp tính toán thì SAD có độ phức tạp tính
toán thấp nhất bởi vì nó không đòi hỏi có phép nhân.
- Các phương pháp lặp truyền thống: Đều thuộc họ thuật toán độ
dốc, dựa trên toán tử gradient do đó vẫn còn hạn chế là tốc độ hội tụ
chậm, độ bám thay đổi của hình ảnh không cao; độ ổn định không
cao và vẫn cần có giá trị tham chiếu để so sánh.
8
CH
ƯƠNG 3
ƯỚC LƯỢNG CHUYỂN ĐỘNG BẰNG CÁC GIẢI PHÁP MỚI
3.1. Giới thiệu
Trong chương 3, luận án đề xuất những giải pháp ước lượng mới
và được phân ra thành hai loại chính là:
- Ước lượng chuyển động của ảnh bằng thuật toán Kalman: Mục
tiêu đạt được là sử dụng ưu thế của thuật toán Kalman là lặp và có độ
bám chuyển động tốt hơn so với các phương pháp gradient đồng thời
phát huy được ưu thế của thuật toán Bayes là xét đặc điểm tự nhiên
của dãy ảnh.
- Ước lượng chuyển động của ảnh bằng các thuật toán mù: Mục
tiêu đạt được là giải quyết bài toán không cần các thông tin huấn
luyện thuật toán như đòi hỏi trong các phương pháp gradient nhằm
nâng cao độ sử dụng băng tần truyền dẫn và mở rộng cho trường hợp
nhiễu loạn bất kỳ.
3.2. Ước lượng chuyển động bằng Kalman
3.2.1. Đặt bài toán
Giả thiết: z biểu diễn khung của một dãy ảnh tại thời điểm t.
Trường chuyển động x
1
biểu thị độ lệch giữa z
1
và z
2
cho mỗi pixel
tại các thời điểm t
1
, t
2
tương ứng. Trường phân vùng z bao gồm một
số nhãn tại mọi pixel, mỗi nhãn biểu thị một mục tiêu chuyển động:
( 1,2, , )
n
x n n N
= =
cho mỗi vị trí của pixel trên lưới Λ; N là tổng
số mục tiêu chuyển động. Mục tiêu bài toán là ước lượng sự chuyển
động x với các giá trị z đã cho. Trong nghiên cứu này, luận án giả
thiết:
a) Tập các giá trị đo
1 2
, , ,
k
z z z
ký hiệu bằng véctơ z là các giá
trị biết trước.
b) Mối quan hệ vật lý giữa trạng thái tự nhiên sẽ được ước lượng
và các giá trị đo được biểu thị bằng quan hệ:
( , )
g
=
z x v
(3.1)
Thực tế mối quan hệ giữa z và độ dịch chuyển x là tuyến tính:
9
= +
z Hx v
(3.2)
trong đó z là véctơ đo (k×1), x là véctơ trạng thái (n×1) và v là véctơ
nhiễu (q×1).
c) Hàm mật độ phân bố xác suất đồng thời p(x,v) và hàm mật độ
biên tương ứng p(x,) và p(v).
d) Hàm mật độ xác suất của nhiễu và trạng thái là độc lập:
( , ) ( ) ( )
p p p
=
x v x v
(3.3)
( )
p
x
là Gauss với
0
ˆ
( )
( )
E
Cov
=
=
x x
x P
(3.4)
( )
p
v
là Gauss với
( ) 0
( )
E
Cov
=
=
v
v R
(3.5)
3.2.2. Ước lượng chuyển động của ảnh bằng thuật toán Kalman
1- Ước lượng chuyển động của ảnh bằng thuật toán Kalman
một bước
Trước đây, hầu hết các công trình đánh giá chuyển động, người ta
thường sử dụng luật Bayes để ước lượng véctơ trạng thái chuyển
động x. Việc giải quyết bài toán này trở nên rất khó khăn khi số trạng
thái tăng lên, và mối quan hệ giữa chúng là phi tuyến. Để giải quyết
vấn đề này, nghiên cứu sinh xuất phát từ suy nghĩ kế thừa được điểm
mạnh của phương pháp Bayes là xét được bản chất của nội dung ảnh
và tìm cách hạn chế nhược điểm của phương pháp Bayes là tốc độ
hội tụ chậm, độ bám chuyển động của ảnh không cao để đưa ra giải
pháp sử dụng thuật toán Kalman trong ước lượng trạng thái chuyển
động x.
Dựa vào định luật Bayes, thực hiện các bước tính như sau:
1) Tính
( )
p
z
2) Tính
( )
p
x,z
và
( )
p
z x
3) Tính
( )
p
x z
: Sử dụng một số phép biến đổi toán học,
( )
p
x z
được tính như sau:
10
( )
1 2
0
1 2 1 22
0
1
( )
2
ˆ ˆ
exp{ 1 2( ) ( )}
T
n
T
p
π
−
+
=
⋅ − − −
HP H R
x z
P R
x x P x x
(3.11)
1
0 0 0 0
( )
T T −
= − +
P P P H HP H R HP
(3.13)
1
ˆ ˆ
( )
T −
= + −
x x PH R z Hx
ɶ
(3.14)
[ ]
E
=
x x
ɶ
4) Vì
( )
p
x z
là Gauss, ước lượng trung bình có điều kiện và
ước lượng minimax đều trùng nhau và được tính bởi
ˆ
x
.
Từ định luật Bayes, bằng một số biến đổi đơn giản ta đã nhận
được phương pháp lặp (3.14). Trong (3.14) chỉ đúng khi xét ảnh
chuyển từ trạng thái t-1 sang t, nghĩa là chuyển một bước.
2- Ước lượng chuyển động của ảnh bằng thuật toán Kalman
nhiều bước
Giải quyết bài toán ước lượng chuyển động ảnh qua nhiều bước
cũng tương tự như bài toán ước lượng chuyển động ảnh một bước,
chỉ khác là trạng thái thay đổi từ trạng thái này sang trạng thái khác
theo mối quan hệ động. Nếu coi giá trị cần tính của trạng thái ảnh tại
thời điểm thứ k+1 là x
k+1
khi đã tính được giá trị trước đó là x
k
, mối
quan hệ đó được biểu thị bằng một cặp phương trình:
1
1 1 1
( , )
( , )
k k k
k k k
f
h
+
+ + +
=
=
x x w
z x v
(3.15)
ở đây x
k+1
là véctơ trạng thái ảnh tại thời điểm k+1, v
k+1
là nhiễu đo
tại thời điểm k+1, z
k+1
là giá trị đo có được tại thời điểm k+1, w
k
là
véctơ nhiễu tại thời điểm k. Tập giá trị đo Z
k+1
= (z
1
,…,z
k+1
). Hàm
mật độ xác suất
1
( , , ) ( )
k k k k
p p
=
x z z x Z
và
1
( , )
k k k
p
+
w v x
đại
diện cho các thành phần nhiễu phụ thuộc vào x
k
.
Bài toán đặt ra là ước lượng trạng thái ảnh x
k+1
dựa vào các đại
l
ượng đo z
1
,…,z
k+1
. Xuất phát từ luật Bayes và trình tự tính như được
nêu trong phần 1 mục 3.2.2 ta có:
11
1) Tính
1
( )
k k
p
+
x x
: Có thể đạt được qua thí nghiệm hoặc theo
phép giải tích khi biết
1
( , )
k k k
p
+
w v x
,
( )
k k
p
x Z
và (3.15).
2) Tính
1 1
( , )
k k k
p
+ +
z x x
: Suy ra từ
1
( , )
k k k
p
+
w v x
và (3.15).
3) Tính
1 1
( , )
k k k
p
+ +
x z Z
để từ đó có thể trực tiếp tính được hàm
mật độ biên
1
( )
k k
p
+
x Z
và
1
( )
k k
p
+
z Z
.
4) Tính
1 1
( )
k k
p
+ +
x Z
5) Ước lượng x
k+1
từ
1 1
( )
k k
p
+ +
x Z
giống hệt như được nêu tại
phần 1 mục 3.2.2.
Sử dụng thuật toán Kalman, với mô hình vật lý trạng thái ảnh,
bằng một số phép biến đổi toán học ta có:
( )
1 2
1
1 1
1 2 1 2
2
1
1
1 1 1 1 1
( )
2
ˆ ˆ
exp{ 1 2( ) ( )}
T
k
k k
n
k
T
k k k k k
p
π
+
+ +
+
−
+ + + + +
+
=
⋅ − − −
HM H R
x Z
R M
x x P x x
(3.27)
1
1 1 1 1
ˆ ˆ ˆ
( ) ( )
T T
k k k k k k
−
+ + + +
= Φ + + − Φ
x x M H HM H R z H x
(3.28)
1
1 1 1 1 1
( )
T T
k k k k k
−
+ + + + +
= − +P M M H HM H R HM (3.30)
1
T T
k k+
= Φ Φ + Γ Γ
M P Q (3.31)
Như vậy từ bài toán ước lượng trạng thái chuyển động của ảnh
trực tiếp bằng luật Bayes, luận án đã chuyển sang tính bằng thuật
toán Kalman rất thuận lợi vì là phương pháp lặp nên dễ thực hiện
bằng các bộ xử lý số; đồng thời do chuyển sang dạng các phương
trình trạng thái, giải bằng thuật toán Kalman nên tốc độ hội tụ, độ
bám chuyển động ảnh tốt hơn.
Nhận xét: Ước lượng chuyển động của ảnh là một vấn đề rất quan
trọng nhằm loại bỏ các thông tin thừa trong chuyển động ảnh, làm
cho hiệu quả nén ảnh tốt hơn. Các giải pháp từ trước tới nay người ta
thường dùng ước lượng trên cơ sở luật Bayes và tính toán trực tiếp
theo các phân bố xác suất có điều kiện của nó. Đây là một bài toán
giải rất khó khi số biến tăng lên đặc biệt khi cần nén ảnh màu, ảnh 3
chi
ều. Để giải quyết bài toán đó, chúng tôi đã kế tục luật Bayes và
biến nó sang dạng đại số, sử dụng phương pháp lặp trên cơ sở thuật
12
toán Kalman v
ừa giảm được độ phức tạp tính toán, vừa tăng tốc độ
tính toán và độ bám quĩ đạo chuyển động của ảnh theo các ưu điểm
của thuật toán Kalman.
3.3. Ước lượng chuyển động tối ưu của ảnh trong video
3.3.1. Đặt bài toán
Trong mục 3.2, từ ước lượng chuyển động ảnh bằng Bayes, luận
án đã đưa ra giải pháp dùng thuật toán lặp Kalman để ước lượng
chuyển động của ảnh trong video nhằm hạn chế nhược điểm của
phương pháp Bayes nhưng vẫn giữ được bản chất nội dung chuyển
động của ảnh. Từ đây xuất hiện bài toán tìm ước lượng tốt nhất của
chuyển động
ˆ
k
x
tại thời điểm
k
t
. Ở đây luận án sử dụng thuật toán
Kalman để ước lượng chuyển động tối ưu của dãy ảnh sao cho sai số
trung bình bình phương trong ước lượng chuyển động của dãy ảnh là
bé nhất.
3.3.2. Ước lượng chuyển động tối ưu của ảnh trong video
Luận án ứng dụng thuật toán đã nêu tại mục 3.2 vào trường hợp
khi chuyển động của ảnh được đặc trưng bằng phương trình sai phân
tuyến tính đồng nhất:
, 1 1
k k k k
− −
= Φ
x x
(3.32)
Khi có ước lượng
1
ˆ
k
−
x
tại thời điểm
1
k
t
−
, có thể dự đoán ước
lượng chuyển động của ảnh tại thời điểm
k
t
là
, 1 1
ˆ ˆ
k k k k
− −
′
= Φ
x x
. Giá trị
đo
k
z
tại thời điểm
k
t
có thể được sử dụng để cải tiến ước lượng
này. Trên cơ sở
ˆ
k
′
x
và giá trị đo
k
z
:
k k k k
= +
z H x v
(3.33)
Khi
[ ] 0
k
E
=
v thì giá trị đo trung bình tại thời điểm
k
t
là
ˆ
k k
′
H x
.
Sai số trong ước lượng được phản ảnh bằng sai số theo giá trị đo kỳ
vọng
, 1 1
ˆ
k k k k k k
− −
= − Φ
e z H x
. Ước lượng là một hàm tuyến tính của
các giá trị đo mới. Ở đây ta phải xác định một ma trận chưa biết
k
K
sao cho ước lượng
ˆ
k
x
được cho bởi:
, 1 1 , 1 1
ˆ ˆ ˆ
[ ]
k k k k k k k k k k
− − − −
= Φ + − Φ
x x K z H x (3.34)
Bài toán đặt ra ở đây là phải xác định ma trận
k
K
sao cho:
13
ˆ ˆ
[( ) ( )]
T
k k k k
E − −
x x x x
(3.35)
là bé nhất và khi đó giá trị
ˆ
k
x
được gọi là tốt nhất theo nghĩa sai số
trung bình bình phương bé nhất. Ma trận
k
K
này còn được gọi là ma
trận trọng số hoặc ma trận độ lợi.
Với một số giả thiết, sử dụng các phép biến đổi toán học ta có:
, 1 1 , 1
T
k k k k k k
− − −
′
Φ ΦP P
≜
(3.37)
1
[ ]
T T
k k k k k k k
−
′ ′
= +K P H H P H R (3.42)
k k k k k
′ ′
= −
P P K H P
(3.43)
Các phương trình (3.34), (3.37), (3.42) và (3.43) chính là các giá
trị ước lượng chuyển động của ảnh tối ưu theo giải pháp lọc Kalman.
Nhận xét: Với việc sử dụng lọc Kalman để ước lượng chuyển
động của ảnh, chúng ta đã đưa việc giải một bài toán xác suất theo
luật Bayes khó khăn về việc giải bằng phương pháp lặp. Ở đây còn
chỉ ra được nghiệm để đảm bảo sai số trung bình bình phương là bé
nhất. Đồng thời luận án cũng chỉ ra được việc chọn độ lợi
k
K
tối ưu
trong thuật toán Kalman để ước lượng chuyển động ảnh nhằm đảm
bảo nghiệm là tốt nhất.
3.4. Ước lượng chuyển động của ảnh bằng phương pháp mù
3.4.1. Đặt bài toán
Tuy phương pháp Kalman đem lại hiệu quả rất tốt trong ước
lượng chuyển động của ảnh do độ bám tốt nhưng có những điều kiện
ràng buộc mà nội thân thuật toán Kalman đòi hỏi là hàm mật độ xác
suất của h, v, d là Gauss. Trong thực tế, những điều kiện ràng buộc
đó là khá chặt. Ngoài ra, chúng ta cũng biết rằng thuật toán mù có
một số đặc điểm:
- Khi kênh có can nhiễu đủ mạnh hoặc các tham số kênh biến đổi
nhanh, lúc đó nếu dùng các dãy đào tạo từ bên phát truyền đến bên
thu thì sẽ bị sai lệch và làm cho quá trình đào tạo không còn chính
xác và hiệu quả.
- N
ếu phải dùng các thuật toán có đào tạo thì nó sẽ chiếm dụng
một phần kênh truyền dẫn, làm giảm hiệu suất sử dụng của kênh.
14
- Trong h
ệ thống đa truy nhập, di động, quá trình đào tạo cần
đồng bộ hoặc cần gửi các tập đào tạo theo từng thời điểm kết nối mới
và phải cài đặt lại đồng bộ. Đây là điều khó thực hiện được.
Để khắc phục hạn chế đó và không cần các mẫu đào tạo trong tính
toán của thuật toán, luận án đưa ra giải pháp mù.
3.4.2. Ước lượng chuyển động của ảnh bằng phương pháp mù
1- Ước lượng chuyển động của ảnh bằng thuật toán kỳ vọng
hợp lý max.max
Trong các bài toán ước lượng chuyển động trước đây thì điều kiện
ràng buộc đối với ma trận H là
*
( ) 0
>
H x . Đây là điều kiện ràng
buộc chặt mà không phải các hệ thống thực bao giờ cũng đúng.
Trong thực tế, với các bài toán ước lượng, có thể viết hệ thống
phương trình tuyến tính dưới dạng tổng quát như sau:
+ = = −
Hx v z Hx z v
hoaëc
(3.44)
trong đó H=[h
ij
]∈IR
m×n
là mô hình ma trận, z∈IR
m
là véctơ đo
chuyển động của ảnh, v∈IR
m
là véctơ sai số đo, x∈IR
n
là véctơ
chuyển động của ảnh cần ước lượng.
Ở mục này, lựa chọn của nghiên cứu sinh là đi tìm véctơ x sao
cho tối thiểu hàm mục tiêu:
( ) ( ) , 1
p
p p
J p
= = ≥
x z - Hx v x (3.45)
trong đó véctơ sai số đo v có dạng:
[
]
1 2
( ) ( ), ( ), , ( )
T
m
v v v=
v x x x x
(3.46)
với các thành phần của v được biểu thị:
1
( ) , ( 1,2, , )
n
T
i i i i ij j
j
v z z h x i m
=
= − = − =
∑
x h x (3.47)
Với một vài giả thiết, sử dụng các phép biến đổi toán học, thuật
toán kỳ vọng hợp lý max.max có dạng:
1
( )
( 1) , ( 1,2, , )
( )
m
j
i
j ij
T
m
i
i
ij i
x k
z
x k h j n
h k
=
+ = =
∑
∑
h x
(3.57)
Nh
ận xét: Với bài toán ước lượng chuyển động của ảnh bằng
thuật toán kỳ vọng hợp lý max.max đã giúp chúng ta vượt qua được
15
khó kh
ăn là các phần tử của ma trận H không nhất thiết phải dương
và không cần tính giá trị đào tạo trong thuật toán lặp.
2- Ước lượng chuyển động của ảnh bằng thuật toán kỳ dị
Tikhonov
Đặt bài toán là phải ước lượng chuyển động x khi có nhiễu tác
động vào véctơ kết quả đo chuyển động z và các thành phần của ma
trận H. Trong hoàn cảnh này, nghiệm của bài toán đã giải ở phần 1
mục 3.4.2 bây giờ sẽ bị sai lệch nhiều và thường không có giá trị. Để
làm giảm bớt ảnh hưởng đó, phần này của luận án sẽ sử dụng giải
pháp ước lượng mù của Tikhonov.
Theo lý thuyết kỳ dị thì hàm năng lượng kỳ dị (hàm sẽ được cực
tiểu) là tổng trọng số của hai thành phần:
( , ) ( ) ( )
d x
J J J
α α
= +
x x x
(3.58)
trong đó J
d
là năng lượng số liệu và J
x
là ràng buộc làm trơn (còn
được gọi là năng lượng của bộ ổn định). Khi (3.58) có dạng biểu diễn
thống kê Bayes
{
}
( ) exp ( )
x
J
ω α
= −
x x
thì phân bố có điều kiện của x
và z có thể viết dưới dạng:
{
}
( , ) exp ( ) ( )
d x
p c J J
α
= − −
z x x x
(3.60)
Do đó, tiêu chí cực đại phân bố tiên nghiệm
( )
p
x z
của x tương
đương với cực tiểu hàm mục tiêu J(x,
α
). Từ hàm mục tiêu trên, để
giải quyết bài toán suy biến, chọn p = 2 trong (3.45), ta có:
( ) ( )
2
2
2
1
1 1
( )
2 2
1 1
2 2
T
m
T
i
i
J
v
=
= − = − −
= =
∑
x z Hx z Hx z Hx
v v
(3.61)
1
( )
n
T
i i i i ij j
j
v z z h x
=
= − = −
∑
x h x (3.62)
Hàm mục tiêu đạt cực tiểu toàn bộ khi gradient của nó bằng 0:
(
)
( ) 0
T
J
∇ = − =
x H z Hx (3.63)
Do
đó
1
*
( )
T T
−
=
x H H H z
. Từ (3.61), nghiệm kỳ dị có thể được
xác định đơn giản bằng nghiệm của bài toán sau:
16
IR
( ) argmin ( , )
n
J
α α
∈
=
x
x x (3.64)
(
)
2 2
2 2
1
( , ) , 0
2
J
α α α
= − + >
x z Hx x (3.65)
Ở đây tham số suy biến
α
điều khiển làm trơn nghiệm kỳ dị. Sử
dụng phương pháp gradient dốc nhất ta thu được một hệ thống
phương trình vi phân:
( )
T
d
dt
µ α
= − −
x
H z Hx x
(3.66)
Chú ý rằng việc cực tiểu hàm năng lượng J(x,
α
) trong (3.65) theo
x tương đương với việc giải phương trình:
( )
T T
α
+ =
H H I x H z
(3.67)
Có thể sử dụng lý thuyết khai triển kỳ dị (SVD) để giải phương
trình (3.67). Giả thiết ma trận
H
, cấp
m n
×
có hạng
n
( )
m n
≥
, có
khai triển kỳ dị như sau:
1
n
T T
i i i
i
σ
=
= =
∑ ∑
H U V u v
(3.69)
trong đó cả
1 2
[ , , , ] IR
m m
m
×
= ∈U u u u và
1 2
[ , , , ] IR
n n
n
×
= ∈V v v v
là các ma trận trực giao và Σ là ma trận giả đường chéo
m n
×
với
n
hàng trên cùng chứa đường chéo
1 2
diag{ , , , }
n
σ σ σ
với
1 2
n
σ σ σ
≥ ≥ ≥
và
( )
m n
−
hàng phía dưới bằng 0. Có thể chỉ ra
rằng nếu
{ }
i
u
và
{ }
i
v
tương ứng là các cột của U và V, thì nghiệm
suy biến Tikhonov cực tiểu tiêu chuẩn bình phương bé nhất đối với
phương trình (3.67) được xấp xỉ bằng:
2
*
2
1 1
( )
T
n n
i i i
i i
i i
i i i i
σ β
α
σ α σ σ α σ
= =
= ⋅ ⋅ = ⋅
∑ ∑
+ +
u z
x v v
(3.70)
trong đó
T
i i
β
=
u z
và
0
α
>
là tham số kỳ dị.
Một phương pháp khác để giải quyết bài toán kỳ dị (3.61) gọi là
phương pháp khai triển kỳ dị cắt cụt, trong đó người ta bỏ qua các
giá trị suy biến nhỏ nhất bằng cách cắt bỏ những thành phần trong
t
ổng của (3.70) ứng với r < n.
Nhận xét: Phương pháp kỳ dị Tikhonov liên quan chặt chẽ với
ước lượng Bayes. Trong phương pháp này, thống kê bậc hai của tập
17
quan sát
được sử dụng để tạo nên mô hình thông tin tiên nghiệm cho
giải pháp kỳ dị. Phương pháp này giải quyết được khó khăn như đã
nói về ước lượng Bayes.
3- Ước lượng chuyển động của ảnh bằng thuật toán
Kaczmarz và thuật toán Kaczmarz mở rộng
Bài toán đặt ra là khi véctơ kết quả đo chuyển động z và các thành
phần của ma trận H đều bị ảnh hưởng bởi nhiễu thì sẽ giải quyết ra
sao. Phần này của luận án sẽ trả lời câu hỏi đó.
Giả thiết trong quá trình ước lượng chuyển động của ảnh, nhiễu N
tác động vào các thành phần của ma trận số liệu đặc trưng bằng ma
trận H và véctơ kết quả đo chuyển động z có sai số n. Khi đó,
phương trình hệ thống có dạng:
(
)
+ ≈ + =
H N x z n z
®óng ®óng
(3.82)
trong đó H
đúng
là ma trận số liệu khi không có nhiễu. z
đúng
là véctơ kết
quả đo chuyển động của ảnh khi không có sai số.
Hãy xác định nghiệm x của mô hình (3.82) trong trường hợp:
- Nhiễu Gauss có trung bình bằng 0.
- Nhiễu là bất kỳ.
Để giải bài toán này, luận án chọn giải pháp tìm x sao cho cực
tiểu đại lượng:
2 2
(1 )
F F
γ γ
∆ + − ∆
H z
(3.83)
trong đó
2
2
1
n
N
σ
γ
β
γ σ
−
= = , ∆H và ∆z tương ứng là nhiễu loạn của ma
trận H và véctơ z.
Khảo sát hàm mục tiêu sai số trung bình bình phương chuẩn:
( ) { ( ) ( )}
T
J E k k
=x e e
ɶ
(3.84)
trong đó véctơ sai số e được xác định theo công thức sau:
( ) ( ) ( ) ( ) ( )
k k k
= − = + − +
e z Hx z n H N x
®óng ®óng
(3.85)
với H
đúng
và z
đúng
là các tham số đúng chưa biết. Việc cực tiểu hàm
mục tiêu
( )
J
x
ɶ
theo x sẽ cho ta nghiệm chệch vì các thành phần
18
nhi
ễu là các hàm của x. Để tránh vấn đề này, luận án sử dụng hàm
mục tiêu sai số trung bình bình phương cải tiến để tạo nên ước lượng
không chệch trên cơ sở bài toán tổng bình phương bé nhất (TLS). Để
đưa ra thuật toán thích nghi lặp, luận án biểu diễn hàm mục tiêu như
sau:
1
( ) ( )
m
i
i
J J
=
=
∑
x x
(3.88)
trong đó
2
2
{ ( )}
1
( ) { ( )}
2 +
i
i
T
E e k
J E k
ε
β
= =x
x x
và
T
i i i
e z= −
h x
(
T
i
h
là hàng
thứ i của H). Do đó, thuật toán lặp thời gian rời rạc lợi dụng phương
pháp gradient dốc nhất có thể được viết dưới dạng:
( 1) ( ) ( ) ( )[ + ( ) ( )]
modulo( 1)
i i i
k k k e k e k k
i k m
η
+ = +
= +
x x h x
ɶ ɶ
(3.90)
(
)
( )
( )
( ) ( ) ( ) ( )
T
i i
i
i
T T
z k
e k
e k
k k k k
β β
−
= =
+ +
h x
x x x x
ɶ
(3.91)
Vì thành phần
1
( ( ) ( ))
T
k k
β
−
+ x x
luôn luôn dương, do đó có thể
đưa (3.90) về dạng đơn giản hơn:
( 1) ( ) ( ) ( )[ + ( ) ( )]
modulo( 1)
i i i
k k k e k e k k
i k m
η
+ = +
= +
x x h x
ɶ
(3.92)
Kaczmarz đã sử dụng khái niệm trung bình khối đối với tất cả các
chỉ số i trong một chu trình lặp để đưa ra một thuật toán lặp mới và
luận án đã sử dụng nó để ước lượng chuyển động của ảnh:
2
1
1
ij
( ) ( )
( 1) ( ) ( ) ( )
( ) ( )
T T
m
i i i i
i
T
n
i
j
j
z k z k
k k k k
r h k k
η
β
=
=
− −
+ = + +
∑
+
∑
h x h x
x x h x
x x
(3.93)
trong đó
0 ( ) 2
k
η
< <
là tốc độ học đã chuẩn hóa và r
j
là số các phần
tử h
ij
khác không của cột j.
Nhận xét: Trong trường hợp có nhiễu tác động vào các thành
ph
ần của ma trận H và véctơ kết quả đo chuyển động z có sai số,
bằng cách sử dụng hàm mục tiêu (3.88) luận án đã sử dụng thuật toán
19
l
ặp mù đơn giản để ước lượng chuyển động của ảnh mà phương pháp
Bayes và các phương pháp lặp trước đây chưa tính đến.
4- Ước lượng chuyển động của ảnh bằng thuật toán tổng bình
phương thích nghi mở rộng
Bài toán đặt ra là nếu các thành phần của nhiễu có tương quan
tương hỗ thì sẽ giải nó như thế nào. Để giải quyết bài toán đó, nghiên
cứu sinh sử dụng thuật toán bình phương thích nghi mở rộng với giả
thiết:
- Các thành phần của nhiễu là có tương quan tương hỗ.
- Ma trận phương sai của nhiễu đã biết trước hoặc có thể ước
lượng được.
- Nhiễu và véctơ x(k) độc lập thống kê.
Trong hoàn cảnh tổng quát này, sử dụng hàm mục tiêu có dạng
như sau:
1 1
( )
1 1
T
T
T
NN
J
− −
=
− −
H H
x x
x
R
x x
(3.94)
Tiếp đó là cực tiểu hàm mục tiêu (3.94). Để đơn giản và tăng tốc
độ tính toán, việc chọn các hệ số phụ thuộc vào mỗi bước lặp sao cho
làm giảm hàm mục tiêu tức thời:
1 1
( ) ( )
( ( ))
1 1
( )
( ) ( )
T
i
T
i i
i
T
NN
z
z
k k
J k
k
k k
− −
=
− −
h
h
x x
x
R
x x
(3.95)
theo từng bước lặp bằng cách dịch các hệ số dọc theo hướng ngược
với hướng gradient của J(x(k)) đối với các giá trị hệ số hiện tại.
Chúng ta s
ẽ sử dụng chỉ số thời gian rời rạc k cho ma trận tương
quan của nhiễu để chỉ ra rằng thống kê của nhiễu có thể thay đổi theo
20
th
ời gian. Chúng ta cũng giả thiết rằng có thể khai triển ma trận
tương quan của nhiễu
( )
NN
k
R như sau:
( ) ( ( ))
( )
( ) ( )
T
nn nN
NN
nN NN
r k k
k
k k
=
r
R
r R
(3.96)
trong đó r
nn
(k) là đại lượng tương ứng với tự tương quan của nhiễu
trong z, r
nN
(k) là véctơ chứa thành phần tương quan chéo của các
thành phần nhiễu trong z
i
và h
i
, R
NN
(k) là ma trận tự tương quan của
các thành phần nhiễu trong véctơ hồi quy h
i
. Việc tính toán gradient
của J(x(k)) theo véctơ hệ số được cho bởi:
2
( ( ))
2( ( ) ( )( ( ) ( ) ( )))
( ( ))
i i i nN NN
J k
e k e k k k k
k
∂
= − + − +
∂
x
h r R x
x
(3.97)
trong đó
( )
i
e k
là chuẩn hóa lỗi ước lượng được xác định như sau:
( )
( )
1 1
( )
( ) ( )
i
i
T
NN
e k
e k
k
k k
=
− −
R
x x
(3.98)
Luận án sử dụng thuật toán tổng bình phương mở rộng:
( 1) ( ) ( )( + ( )( ( ) ( ) ( )))
i i i nN NN
k k e k e k k k k
η
+ = + − +x x h r R x
(3.99)
Nhận xét: Những công trình ước lượng chuyển động của ảnh
trước đây người ta mới dừng lại ở giả thiết khi nhiễu hoặc sai số đo
chuyển động của ảnh có phân bố Gauss, trung bình bằng 0. Ở mục
này luận án đã mở rộng:
- Không những chỉ có nhiễu tác động vào giá trị đo chuyển động
của ảnh mà còn có nhiễu tác động vào các phần tử của ma trận H.
- Không dừng lại ở giả thiết là nhiễu Gauss mà là nhiễu bất kỳ.
21
CH
ƯƠNG 4
MỘT SỐ KẾT QUẢ TÍNH TOÁN SỐ
Để đánh giá kiểm chứng các phương pháp ước lượng chuyển
động được đề xuất ở chương 3, luận án thực hiện mô phỏng các thuật
toán ước lượng chuyển động của ảnh trong video bằng phương pháp
Bayes và phương pháp Kalman. Trên cơ sở kết quả mô phỏng, luận
án sẽ đưa ra nhận xét, so sánh về hiệu quả của từng giải pháp ước
lượng chuyển động của ảnh theo các tiêu chí về: tốc độ tính toán, độ
bám chuyển động của ảnh, độ chính xác trong ước lượng chuyển
động của ảnh.
Hình 4.1 a) Khung 1512 và b) Khung 1513 của videoclip-1
Hình 4.2 a) Khung 434 và b) Khung 435 của videoclip-2
b
a
b
a
22
Hình 4.3 Trường chuyển động
của videoclip-1, phương pháp
Bayes (λ=100)
Hình 4.5 Trường chuyển động
của videoclip-1, phương pháp
Kalman (L=10)
Hình 4.7 Trường chuyển động
của videoclip-2, phương pháp
Bayes (λ=100)
Hình 4.8 Trường chuyển động
của videoclip-2, phương pháp
Kalman (L=100)
Hình 4.9
Đồ thị biểu diễn thời
gian tính toán theo phương
pháp Bayes
Hình 4.10 Đồ thị biểu diễn thời
gian tính toán theo phương
pháp Kalman
23
K
ết quả mô phỏng đã minh chứng phương pháp lặp Kalman có
những ưu điểm hơn hẳn so với phương pháp Bayes, đó là:
- Về tốc độ tính toán: Phương pháp Kalman có độ phức tạp thấp
hơn phương pháp Bayes cho nên thời gian tính toán thực tế trong
phương pháp Kalman nhỏ hơn rất nhiều so với phương pháp Bayes.
- Về độ bám chuyển động của ảnh: Thực nghiệm minh chứng
phương pháp Kalman có độ bám chuyển động của ảnh tốt hơn
phương pháp Bayes. Trong phương pháp Kalman, kết quả mô phỏng
trên hình 4.5 và hình 4.8 cho thấy các véctơ dịch chuyển hầu như tập
trung ở các chi tiết chuyển động của đối tượng chuyển động. Trong
khi đó, với phương pháp Bayes, kết quả mô phỏng trên hình 4.3 và
hình 4.7 cho thấy số lượng véctơ nhiều hơn và trải rộng hơn trên toàn
bộ ảnh.
- Về độ chính xác trong ước lượng chuyển động của ảnh: Do mức
độ dịch chuyển tính toán theo phương pháp Kalman đạt đến phần
thập phân của điểm ảnh nên kết quả thực nghiệm minh chứng trường
chuyển động thu được từ phương pháp Kalman mịn hơn so với
phương pháp Bayes và số lượng các véctơ của trường chuyển động
trong phương pháp Kalman cũng ít hơn so với phương pháp Bayes.
KẾT LUẬN
Trong khuôn khổ của luận án, nghiên cứu sinh đã nghiên cứu các
phương pháp ước lượng chuyển động của ảnh trong video, kế thừa
những lý luận cơ bản, những điểm mạnh của các đồng nghiệp đi
trước và bổ sung làm phong phú thêm về lý luận ước lượng chuyển
động của ảnh. Đó là:
1- Ước lượng chuyển động của ảnh bằng phương pháp Kalman:
Chuyển ước lượng chuyển động của ảnh từ phương pháp Bayes sang
ước lượng chuyển động của ảnh bằng phương pháp Kalman. Thực
ch
ất của nó là kế thừa điểm mạnh trong ước lượng chuyển động bằng
phương pháp Bayes, chuyển sang phương pháp ước lượng chuyển