Tải bản đầy đủ (.pdf) (100 trang)

MÔ HÌNH đa kỹ THUẬT CHO bài TOÁN THEO vết đối TƯỢNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (21.97 MB, 100 trang )

ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
cêd

LÊ QUANG THÁI

MÔ HÌNH ĐA KỸ THUẬT
CHO BÀI TOÁN THEO VẾT ĐỐI TƯỢNG
LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01.01

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS LÊ HOÀNG THÁI

TP HỒ CHÍ MINH – 2017


Lời cam đoan
Tôi xin cam đoan: Luận văn thạc sĩ này là công trình nghiên cứu thực sự của
cá nhân, được thực hiện dưới sự hướng dẫn khoa học của Phó giáo sư Tiến sĩ Lê
Hoàng Thái.
Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn này
trung thực và chưa từng được công bố dưới bất cứ hình thức nào.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã
được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc.
Tôi xin chịu trách nhiệm về nghiên cứu của mình.
TP. HCM, ngày 9 tháng 10 năm 2017
Học viên thực hiện

Lê Quang Thái




Lời cảm ơn
Đầu tiên, tôi xin gửi lời cảm ơn sâu sắc nhất tới Phó giáo sư Tiến sĩ Lê
Hoàng Thái. Thầy đã hướng dẫn khoa học, đã tận tình chỉ bảo, giúp đỡ tôi thực hiện
luận văn.
Tôi xin cảm ơn các thầy cô Trường Đại học Công nghệ thông tin – Đại học
quốc gia thành phố Hồ Chí Minh đã giảng dạy và truyền đạt nhiều kiến thức quý
báo cho tôi.
Cuối cùng, tôi xin cảm ơn những người thân và các bạn bè chia sẻ, giúp đỡ
tôi hoàn thành luận văn này.
Mặc dù đã hết sức cố gắng hoàn thành luận văn với tất cả sự nổ lực của bản
thân, nhưng luận văn cẫn còn những thiếu sót. Kính mong nhận được những ý kiến
đóng góp của quý Thầy, Cô và các bạn.
Tôi xin chân thành cảm ơn!
TP. HCM, ngày 9 tháng 10 năm 2017
Học viên thực hiện

Lê Quang Thái


Mục lục


Lời cam đoan
Lời cảm ơn
Mục lục.................................................................................................................................. 1
Danh mục các bảng .............................................................................................................. 4
Danh mục các hình vẽ và đồ thị .......................................................................................... 5
MỞ ĐẦU ............................................................................................................................... 8

CHƯƠNG 1: TỔNG QUAN ............................................................................................. 11
1.1

Bài toán theo vết đối tượng chuyển động ......................................................................... 11

1.2

Khảo sát tình hình nghiên cứu hiện nay .......................................................................... 13

1.2.1

Trong nước ......................................................................................................................... 13

1.2.2

Ngoài nước ........................................................................................................................... 14

1.3

Hướng tiếp cận và giải pháp cho bài toán theo vết đối tượng ....................................... 17

1.4

Tóm tắt những đóng góp của luận văn ............................................................................ 18

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN .............. 19
2.1

Các khái niệm cơ bản......................................................................................................... 19


2.1.1

Video .................................................................................................................................... 19

2.1.2

Xử lý ảnh và video ............................................................................................................... 22

2.1.3

Theo vết đối tượng ............................................................................................................... 24

2.2

Phương pháp theo vết đối tượng TLD ............................................................................. 25

2.2.1

Ý tưởng giải thuật ................................................................................................................ 25

2.2.2

Sơ đồ tổng quát .................................................................................................................... 26

2.2.3

Các bước thực hiện .............................................................................................................. 28

2.2.3.1 Quá trình theo vết (Tracking)............................................................................................... 28
2.2.3.2 Quá trình phát hiện đối tượng (Detection) ........................................................................... 29

2.2.3.3 Quá trình học (Learning)...................................................................................................... 37
2.3

Phương pháp CMT ............................................................................................................ 39

2.3.1

Ý tưởng giải thuật ................................................................................................................ 39

2.3.2

Thuật toán CMT ................................................................................................................... 40

2.3.2.1 Kết hợp và theo vết các điểm trọng yếu ............................................................................... 42
2.3.2.2 Bình chọn ............................................................................................................................. 43

1


2.3.2.3 Sự đồng thuận ...................................................................................................................... 46
2.4

Đánh giá phương pháp TLD và CMT .............................................................................. 48

2.5

Tiểu kết ............................................................................................................................... 51

CHƯƠNG 3: MÔ HÌNH ĐA KỸ THUẬT THEO VẾT ĐỐI TƯỢNG ........................ 52
3.1


Giới thiệu tổng quát về mô hình ....................................................................................... 52

3.2

Quá trình xử lý ................................................................................................................... 54

3.3

Nhận xét ưu nhược điểm của Mô hình đề xuất ............................................................... 64

3.4

Tiểu kết ............................................................................................................................... 68

CHƯƠNG 4: THỰC NGHIỆM VÀ BÀN LUẬN ........................................................... 70
4.1

Cơ sở dữ liệu ....................................................................................................................... 70

4.1.1

Bộ dữ liệu 1 (Vojir) .............................................................................................................. 70

4.1.2

Bộ dữ liệu 2 (Bộ dữ liệu thu thập thực tế của công ty Titan) .............................................. 73

4.2


Môi trường thực nghiệm ................................................................................................... 75

4.2.1

Bộ kỹ thuật phát triển hệ thống ............................................................................................ 75

4.2.2

Giao diện hệ thống ............................................................................................................... 77

4.3

Kết quả và bàn luận ........................................................................................................... 78

4.3.1

Kết quả thực nghiệm trên bộ dữ liệu 1 ................................................................................. 79

4.3.2

Kết quả thực nghiệm trên bộ dữ liệu 2 ................................................................................. 87

4.4

Tiểu kết ............................................................................................................................... 90

CHƯƠNG 5: KẾT LUẬN VÀ KHUYẾN NGHỊ ............................................................ 92
5.1

Kết luận ............................................................................................................................... 92


5.2

Khuyến nghị ....................................................................................................................... 92

DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ ................................................ 94
TÀI LIỆU THAM KHẢO ................................................................................................. 95

2


Danh mục các ký hiệu và chữ viết tắt

TLD: Tracking-Learning-Detection
CMT: Clustering of Static-Adaptive Corresponsedences for Deformable
Object Tracking
fps: Frame per second

3


Danh mục các bảng

Bảng 1.1. Tóm tắt các phương pháp theo vết đối tượng. ................................... 16
Bảng 4.1. Tổng hợp các đối tượng không biến dạng và các đối tượng biến dạng
(defomal) trong bộ dữ liệu Vojir. ......................................................................... 71
Bảng 4.2. Tổng hợp các đối tượng và số lượng hình của đối tượng trong bộ dữ
liệu thử nghiệm. ................................................................................................... 72
Bảng 4.3. Kết quả thử nghiệm trung bình của 3 phương pháp TLD, CMT,
TLD_CMT bộ dữ liệu 1 trong trạng thái hoạt động của máy ở 3 trường hợp –

Đơn vị fps (số khung hình mỗi giây). .................................................................. 79
Bảng 4.4. Kết quả độ chính xác của 3 phương pháp TLD, CMT, TLD_CMT bộ
dữ liệu 1 trong trạng thái hoạt động của máy ở 3 trường hợp – Đơn vị %. ......... 84
Bảng 4.5. Kết quả thử nghiệm trung bình của 3 phương pháp TLD, CMT,
TLD_CMT bộ dữ liệu 2 trong trạng thái hoạt động của máy ở 3 trường hợp –
Đơn vị fps (số khung hình mỗi giây). .................................................................. 87
Bảng 4.6. Kết quả độ chính xác của 3 phương pháp TLD, CMT, TLD_CMT bộ
dữ liệu 2 trong trạng thái hoạt động của máy ở 3 trường hợp – Đơn vị %. ......... 89

4


Danh mục các hình vẽ và đồ thị

Hình 1.1. Minh hoạ một số hệ thống giám sát thông minh trên thế giới hiện nay
như nhận dạng chuyển động, nhận dạng đám đông hoặc nhận dạng các hành vi
đáng nghi ngờ, … ................................................................................................ 11
Hình 1.2. Bài toán theo vết đối tượng cơ bản. .................................................... 12
Hình 1.3. Theo vết đối tượng bằng phương pháp CMT. Nguồn: [14] ................ 15
Hình 1.4. Theo vết đối tượng bằng phương pháp TLD. Nguồn: [11] ................. 15
Hình 2.1. Cấu trúc video ..................................................................................... 19
Hình 2.2. Sơ đồ cấu trúc của hệ thống xử lý ảnh và video tổng quát. Nguồn: [20]
.............................................................................................................................. 23
Hình 2.3. Mô hình hệ thống theo vết đối tượng chuyển động. ........................... 24
Hình 2.4. Sơ đồ hoạt động phương pháp TLD. Nguồn: [10] .............................. 26
Hình 2.5. Sơ đồ tổng quát TLD. Nguồn: [10] ..................................................... 27
Hình 2.6. Quá trình theo vết đối tượng. Nguồn: [10] .......................................... 28
Hình 2.7. Phương pháp tiếp cận “cửa trượt”. Phương pháp này được thực hiện
theo thứ tự để giảm thời gian tính toán trong chương trình. ................................ 30
Hình 2.8. Quá trình thực hiện phương pháp trừ nền. Nguồn [10] ....................... 31

Hình 2.9. Giải thuật dán nhãn. Nguồn [10] ......................................................... 32
Hình 2.10. Ví dụ subwindow có độ lệch thấp và cao trong một bức ảnh. Nguồn:
[10] ....................................................................................................................... 34
Hình 2.11. Sơ đồ tính toán fern đơn lẻ. Nguồn: [10] .......................................... 35
Hình 2.12. Ví dụ phân loại quần thể sử dụng ba fern ngẫu nhiên. Nguồn: [10] . 36
Hình 2.13. Minh hoạ hoạt động phân lớp theo trọng tâm. .................................. 39
Hình 2.14. Ví dụ thuật toán phân nhóm dữ liệu theo hướng bottom-up. Nguồn:
[28] ....................................................................................................................... 40
Hình 2.15. Mô tả xác định trọng tâm đối tượng từ các điểm trọng yếu. Nguồn:
[15] ....................................................................................................................... 44
Hình 2.16. Minh hoạ thay đổi góc quay của các điểm trọng yếu để tính toán góc
thay đổi của đối tượng. Nguồn: [15] .................................................................... 45
5


Hình 2.17. Minh hoạ quá trình tìm kiếm điểm trọng tâm của đối tượng. Nguồn
[15] ....................................................................................................................... 47
Hình 2.18. Tốc độ xử lý của các phương pháp nghiên cứu đã có. Nguồn: [14] . 49
Hình 2.19. Độ chính xác theo vết đối tượng của các phương pháp nghiên cứu đã
có. Nguồn: [14] .................................................................................................... 49
Hình 3.1. Mô hình theo vết đối tượng đề xuất. ................................................... 52
Hình 3.2. Ví dụ về đối tượng biến dạng (deformable). Nguồn: [14] .................. 53
Hình 3.3. Minh hoạ sơ đồ mô hình đa kỹ thuật kết hợp hai phương pháp TLD và
CMT cho bài toán theo vết đối tượng. ................................................................. 54
Hình 3.4. Ví dụ bộ dữ liệu đầu vào của mô hình đề xuất. ................................... 55
Hình 3.5. Cấu trúc Convolutional Neural Network. Nguồn [24] ........................ 57
Hình 3.6. Kết quả thực thi mô hình nLmF-CNN để xác định loại đối tượng. .... 58
Hình 3.7. Ví dụ đối tượng có tính biến dạng (deformable). ................................ 59
Hình 3.8. Ví dụ đối tượng có tính không biến dạng. ........................................... 59
Hình 3.9. Kết quả theo vết đối tượng chuyển động. ........................................... 61

Hình 3.10. Mô hình theo vết đối tượng với đối tượng không biến dạng sử dụng
phương pháp TLD. ............................................................................................... 62
Hình 3.11. Mô hình theo vết đối tượng với đối tượng biến dạng (deformable) sử
dụng phương pháp CMT. ..................................................................................... 63
Hình 3.12. Theo vết chính xác đối tượng chuyển động. ..................................... 67
Hình 3.13. Theo vết đối tượng chuyển động không chính xác ở một số thời điểm.
.............................................................................................................................. 68
Hình 4.1. Bộ dữ liệu Vojir................................................................................... 70
Hình 4.2. Tỉ lệ giữa đối tượng biến dạng (deformable) và đối tượng không biến
dạng trong bộ dữ liệu Vojir. ................................................................................. 72
Hình 4.3. Bộ dữ liệu thực tế thu thập được từ camera an ninh Công ty cổ phần
công nghệ Titan.................................................................................................... 74
Hình 4.4. Một số đối tượng trong bộ dữ liệu 2. .................................................. 75
Hình 4.5. Bộ công cụ phát triển mô hình TLD_CMT theo vết đối tượng. ......... 75
Hình 4.6. Giao diện chính của chương trình. ...................................................... 77
Hình 4.7. Theo vết đối tượng không biến dạng................................................... 77
6


Hình 4.8. Theo vết đối tượng biến dạng (deformable). ....................................... 78
Hình 4.9. Biểu đồ tốc độ xử lý trung bình 3 phương pháp TLD, CMT,
TLD_CMT trên bộ dữ liệu 1. ............................................................................... 80
Hình 4.10. Biểu đồ tốc độ xử lý trung bình 3 phương pháp TLD, CMT,
TLD_CMT với đối tượng không biến dạng trên bộ dữ liệu 1. ............................ 81
Hình 4.11. Biểu đồ tốc độ xử lý trung bình 3 phương pháp TLD, CMT,
TLD_CMT với đối tượng biến dạng (deformable) trên bộ dữ liệu 1. ................. 82
Hình 4.12. Biểu đồ tốc độ xử lý trung bình 3 phương pháp TLD, CMT,
TLD_CMT với đối tượng người trên bộ dữ liệu 1............................................... 83
Hình 4.13. Biểu đồ độ chính xác trung bình 3 phương pháp TLD, CMT,
TLD_CMT trên bộ dữ liệu 1. ............................................................................... 85

Hình 4.14. Biểu đồ độ chính xác trung bình 3 phương pháp TLD, CMT,
TLD_CMT đối tượng không biến dạng trên bộ dữ liệu 1.................................... 85
Hình 4.15. Biểu đồ độ chính xác trung bình 3 phương pháp TLD, CMT,
TLD_CMT đối tượng biến dạng trên bộ dữ liệu 1............................................... 86
Hình 4.16. Biểu đồ độ chính xác trung bình 3 phương pháp TLD, CMT,
TLD_CMT đối tượng người trên bộ dữ liệu 1. .................................................... 87
Hình 4.17. Biểu đồ tốc độ xử lý trung bình 3 phương pháp TLD, CMT,
TLD_CMT đối tượng biến dạng trên bộ dữ liệu 2............................................... 88
Hình 4.18. Biểu đồ độ chính xác trung bình 3 phương pháp TLD, CMT,
TLD_CMT đối tượng biến dạng trên bộ dữ liệu 2............................................... 90

7


MỞ ĐẦU
• Mục tiêu, nội dung đề tài
Như đã nêu ở các phần trên, mục tiêu chính của đề tài là phát hiện và theo
vết đối tượng theo thời gian thực trong một đoạn video hay qua camera. Đề tài
này tuy đã được thực hiện nhiều năm qua, nhưng nó vẫn có ý nghĩa thực tiễn to
lớn.
Để thực hiện được mục tiêu đó, dựa trên sự kết hợp hai phương pháp TLD
và CMT, mô hình kết hợp sẽ được xây dựng và giải quyết bài toán theo vết đối
tượng đã được đặt ra.
Thực nghiệm, kiểm tra độ khả thi của mô hình đề xuất.
• Đối tượng, phạm vi nghiên cứu
Đối tượng:
Nghiên cứu các định dạng phim ảnh, các chuẩn loại phim cũng như các
khái quát về xử lý video để có những bước đi thích hợp. Tiếp sau đó cần tìm hiểu
các nghiên cứu liên quan về việc giám sát chuyển động của đối tượng trong
video.

Khảo sát, phân tích ưu nhược điểm của các phương pháp phát hiện và theo
vết đối tượng, kết hợp các mô hình tính toán trong các phương pháp sẵn có để
xây dựng một tính toán thích hợp cho bài toán theo vết đối tượng chuyển động.
Phạm vi nghiên cứu:
Đề tài được thực hiện chủ yếu trong việc theo vết đối tượng chuyển động
thông qua camera. Giới hạn mô hình tính toán áp dụng cho một camera theo vết
đối tượng tại một thời điểm. Tập dữ liệu thực hiện có thể là các video chuẩn dành
cho nghiên cứu trong lĩnh vực theo vết và dữ liệu thu thập trong thực tế từ
camera ghi hình tại một số toà nhà cao tầng ở Việt Nam.

8


Tập trung nghiên cứu hai kỹ thuật theo vết đối tượng TLD và CMT để đề
xuất mô hình đa kỹ thuật kết hợp. Mô hình đa kỹ thuật đề xuất kỳ vọng phù hợp
cho các hệ thống theo vết đối tượng có tập dữ liệu huấn luyện nhỏ và có thể chạy
được trên những hệ thống phần cứng với CPU không quá mạnh, không đòi hỏi
phải dùng GPU.
• Ý nghĩa khoa học và thực tiễn của đề tài
Tính khoa học của luận văn thể hiện thông qua việc đề xuất được mô hình
kết hợp hai phương pháp TLD và CMT đã có cho việc theo vết các đối tượng
chuyển động. Ở Việt Nam vẫn còn tồn tại một số hệ thống camera an ninh với
cấu hình phần cứng hệ thống giám sát có cấu hình yếu. Sự cân bằng giữa độ
chính xác của phương pháp CMT và thời gian xử lý của phương pháp TLD là
chấp nhận được trong điều kiện các hệ thống camera có cấu hình yếu. Tính khả
thi của mô hình kết hợp sẽ được kiểm tra qua các bộ dữ liệu thực tế và một số bộ
dữ liệu chuẩn.
Tính mới của luận văn được thể hiện qua thông qua hầu hết các giải thuật
trên thế giới chỉ áp dụng được trên các camera có độ phân giải cao hoặc 3D với
bộ xử lý mạnh mẽ. Việc tìm giải thuật theo vết cho các camera có độ phân giải

thấp vẫn còn hạn chế.
Tính cấp thiết của luận văn thể hiện ở khía cạnh các hệ thống camera giám
sát rất phổ biến, chúng thu thập dữ liệu hình ảnh mọi nơi, mọi lúc. Với số lượng
dữ liệu to lớn như vậy, nhu cầu được đặt ra cần phải khai thác, xử lý và kết xuất
được những thông tin hữu ích từ những dữ liệu đã có hoặc phục vụ cho các mục
đích an ninh, phân tích, thống kê, hoặc là tiền đề cho các hoạt động khoa học
khác.
Phát triển mô hình đa kỹ thuật cho việc phát hiện đối tượng chuyển động
và chứng minh tính khả thi của mô hình qua kết quả thực nghiệm trên các bộ dữ
liệu mẫu và dữ liệu thực tế.

9


Kết quả thực tiễn của luận văn: tích hợp mô hình kết hợp vào những hệ
thống có nhu cầu quản lý tiềm năng hiện nay như: camera an ninh tại các toà nhà
cao tầng, khu chung cư, các bãi giữ xe, văn phòng với giá trị tài sản rất lớn… để
nâng cao hiệu quả giám sát cho hệ thống an ninh.
Kết quả khoa học của luận văn được thể hiện qua việc đề xuất mô hình đa
kỹ thuật theo vết đối tượng phù hợp với điều kiện các hệ thống camera cấu hình
yếu và tốc độ xử lý chậm ở một số nơi Việt Nam. Đăng 01 bài báo khoa học
trong hội nghị/tạp chí khoa học trong và ngoài nước.

10


Chương 1: TỔNG QUAN

1 CHƯƠNG 1: TỔNG QUAN
1.1 Bài toán theo vết đối tượng chuyển động

Với sự phát triển của khoa học công nghệ như hiện nay, ta dễ dàng có được
những bức ảnh chất lượng có khung hình đẹp mà dung lượng không quá lớn. Các
thiết bị ghi hình có thể “thấy” và “hiểu” được môi trường xung quanh đã được xây
dựng và phát triển ngày càng nhiều bởi sự tiến bộ trong vi điện tử cũng như trong
các thuật toán phân tích video. Hiện tại, nhiều cơ hội được mở ra để phát triển các
ứng dụng trong nhiều lĩnh vực như giám sát video, sáng tạo nội dung, liên lạc cá
nhân hay tương tác giữa người và máy… Trong đó, một tính năng cơ bản và cần
thiết để máy móc có thể xem, hiểu và phản ứng với môi trường xung quanh chính là
khả năng phát hiện và theo vết đối tượng mà ta quan tâm. Quá trình ước lượng vị trí
của một hay nhiều đối tượng nào đó theo thời gian qua camera, được gọi là video
tracking.

Hình 1.1. Minh hoạ một số hệ thống giám sát thông minh trên thế giới
hiện nay như nhận dạng chuyển động, nhận dạng đám đông hoặc nhận
dạng các hành vi đáng nghi ngờ, …

Trong lĩnh vực thị giác máy tính, theo vết đối tượng chuyển động là một
trong những bài toán cơ bản của lĩnh vực này. Sự di chuyển của đối tượng được xác
định qua từng khung hình trong một chuỗi khung hình liên tiếp nhau thu được từ
camera an ninh, qua đó phát hiện được sự chuyển động của đối tượng. Tiếp theo,
11


Chương 1: TỔNG QUAN

dựa vào các kết quả đã phân tích ở các vùng chuyển động xác định được đối tượng
chuyển động và thực hiện quá trình theo vết. Sau khi xác định được đối tượng
chuyển động, một số thuật toán được áp dụng để thực hiện các quá trình đo đếm,
xác định loại đối tượng, nhận diện đối tượng hoặc rút trích các thông tin cần thiết
làm tiền đề cho các ứng dụng thực tiễn khác.

Bài toán theo vết đối tượng là bài toán cơ sở quan trọng cho nhiều bài toán
lớn hơn trong lĩnh vực thị giác máy tính. Do đó, nghiên cứu bài toán theo vết đối
tượng chuyển động góp phần giải quyết các bài toán phức tạp với tiền đề là kết quả
của bài toán theo vết đối tượng, đồng thời mang lại rất nhiều ứng dụng thiết thực
trong cuộc sống. Nhờ vào khả năng tính toán nhanh và có thể xử lý tự động của hệ
thống máy tính, các ứng dụng này giúp con người tiết kiệm được nhiều thời gian lẫn
công sức. Trong một số trường hợp, các ứng dụng này còn thể xử lý tự động các
vấn đề phức tạp với độ chính xác cao vượt qua giới hạn khả năng của con người làm
được mà không cần đến sự can thiệp trực tiếp của con người.
Đầu vào của bài toán theo vết đối tượng là một tập video hoặc chuỗi ảnh liên
tiếp nhau chưa đối tượng chuyển động dưới góc nhìn camera quan sát. Trong phạm
vi luận văn này chỉ giới hạn đầu vào là một đối tượng chuyển động cần theo vết.
Đầu ra là khung bao cơ sở bao quanh đối tượng chuyển động cần theo vết theo thời
gian thực. Khung bao cơ sở được xác định dựa trên các điểm trọng yếu của đối
tượng chuyển động. Thành phần xử lý là một giải thuật theo vết có hoặc không có
quá trình “học” (learning).

Hình 1.2. Bài toán theo vết đối tượng cơ bản.

Hình 1.2. minh hoạ bài toán theo vết đối tượng cơ bản với dữ liệu đầu vào là
một tập video hoặc chuỗi ảnh liên tiếp, sau khi áp dụng các giải thuật theo vết để
12


Chương 1: TỔNG QUAN

theo vết đối tượng chuyển động sẽ cho kết quả là một khung bao cơ sở quanh đối
tượng chuyển động.
Hiện nay trên thế giới, các nhà khoa học vẫn đang nghiên cứu, phát triển các
hệ thống giám sát thông minh bằng hình ảnh. Các nghiên cứu đó đã chứng minh

được tính hiệu quả nhất định trên một số lĩnh vực từ theo dõi an ninh, giám sát giao
thông hoặc nhận dạng đối tượng …
Một số ứng dụng ta có thể thường gặp trong cuộc sống hằng ngày như nhận
dạng đường đi của đối tượng, qua đó có thể xác định được đối tượng hoặc danh tính
của con người dựa vào dáng đi và đặc điểm khuôn mặt. Tự động giám sát, nhận
diện và ghi hình các hoạt động thuộc diện khả nghi phục vụ nhu cầu an ninh ở sân
bay hoặc trong các toà nhà cao tầng, khu chung cư và có thể hỗ trợ chức năng tìm
kiếm và truy xuất hiệu quả hình ảnh trong quá khứ.
Với vấn đề về giao thông, hệ thống quan sát, thống kê tình trạng giao thông
thời gian thực để có phương pháp điều tiết giao thông hợp lý trong những giờ cao
điểm. Trong thông thương hàng hải, hệ thống giám sát thông minh giúp xác định kế
hoạch đường đi để tránh khả năng gây trở ngại.
Tuy nhiên, các hệ thống trên vẫn gặp phải một số hạn chế như hiệu quả của
việc quan sát luôn phụ thuộc vào điều kiện môi trường quan sát, kiểu chuyển động
của đối tượng hay việc phát triển các giải pháp hiện có cũng như các công nghệ mới
vẫn đang được tiến hành để đáp ứng được yêu cầu về một hệ thống giám sát thông
minh hoàn thiện. Do đó, một bài toán quan trọng đặt ra để hoàn thiện hệ thống giám
sát thông minh là bài toán theo vết đối tượng tự động.
1.2 Khảo sát tình hình nghiên cứu hiện nay
1.2.1 Trong nước
Hiện nay, các nghiên cứu về vấn đề theo vết đối tượng ở Việt Nam chủ yếu
được tìm thấy ở trong các luận văn tốt nghiệp hoặc thông qua một số tạp chí, hội
nghị khoa học. Trong số đó có bài báo “Một kỹ thuật phát hiện, bám sát đối tượng
và ứng dụng” của nhóm nghiên cứu ở trường đại học Lạc Hồng [5]. Nội dung chính
13


Chương 1: TỔNG QUAN

của bài báo này đề xuất giải pháp kết hợp từ hai phương pháp luồng tối ưu (Optical

Flow) với phương pháp trích chọn mẫu. Tuy nhiên, giải pháp này vẫn còn hạn chế
do quá phụ thuộc vào môi trường xung quanh (bị nhiễu, thay đổi ánh sáng, độ tương
phản…).
Ngoài ra, các nghiên cứu về vấn đề theo vết đối tượng còn được thể hiện qua
các luận văn tốt nghiệp của Phạm Bảo Quốc (2014) sử dụng phương pháp lọc tích
hợp, Nguyễn Quang Quý (2011), Trần Thanh Việt (2011), Nguyễn Quỳnh Nga
(2007), … đa số các luận văn tốt nghiệp này đều sử dụng một số bộ lọc phổ biến kết
hợp với phép trừ nền để phát hiện và theo vết đối tượng. Tuy nhiên các phương
pháp này còn tồn tại nhiều nhược điểm cần được khắc phục.
Về cơ bản, các nghiên cứu trong nước về bài toán theo vết đối tượng chuyển
động đã được giải quyết và có nhiều ứng dụng thiết thực. Tuy nhiên các nghiên cứu
trên vẫn còn nhiều nhược điểm cần được giải quyết để nâng cao hiệu quả.
1.2.2 Ngoài nước
Trên thế giới có rất nhiều công trình nghiên cứu theo vết đối tượng chuyển
động. Nhiều bài báo và các phương pháp nghiên cứu được đề ra và phát triển cho
bài toán theo vết đối tượng. Một số phương pháp theo vết đối tượng tiêu biểu như
Sparsity-based Collaborative Model – SCM [8], Structured Output Tracking – STR
[9], Tracking-Learning- Detection – TLD [10,11], Compressive Tracking – CT
[13], Clustering of Static-Adaptive Correspondences for Deformable Object
Tracking – CMT [14,15].
-

Sparsity-based Collaborative Model – SCM: SCM là một phần của Visual
Object Tracking Repository, mục đích cung cấp một số thuật toán theo vết
đối tượng. SCM có tính ổn định cao khi thực hiện quá trình theo vết.

-

Structured Output Tracking – STR: tương tự như SCM, STR cũng là một
phần của Visual Object Tracking Repository sử dụng thuật toán SVM

(Support Vector Machine) để theo vết đối tượng

-

Tracking-Learning-Detection – TLD: phương pháp sử dụng phương thức
“phát hiện-theo vết”, do đó quá trình phát hiện và theo dõi được thực hiện
14


Chương 1: TỔNG QUAN

cùng lúc với nhau. Tuy nhiên phương pháp TLD chỉ thích hợp với các đối
tượng không biến mất khỏi màn hình theo dõi.
-

Compressive Tracking – CT: thuật toán thực hiện nhiệm vụ theo vết thời
gian thực và đáp ứng các điều kiện thử thách về mặt hiệu quả cũng như sự
chính xác.

-

Clustering of Static-Adaptive Correspondences for Deformable Object
Tracking – CMT: sử dụng phương pháp phân lớp theo trọng tâm G với các
điểm trọng yếu bên trong và bên ngoài nên có được độ chính xác cao.

Hình 1.3. Theo vết đối tượng bằng phương pháp CMT. Nguồn: [14]

Hình 1.3 minh hoạ việc theo vết đối tượng người đang múa bằng phương
pháp CMT. Qua 6 khung hình trong quá trình theo vết, đối tượng người có sự biến
dạng khi thực hiện các động tác múa.


Hình 1.4. Theo vết đối tượng bằng phương pháp TLD. Nguồn: [11]

15


Chương 1: TỔNG QUAN

Hình 1.4 minh hoạ việc theo vết đối tượng xe đang chạy. Đối tượng không
thay đổi về hình dạng khi ở khoảng cách gần lẫn khoảng cách xa.
Bảng 1.1. Tóm tắt các phương pháp theo vết đối tượng.

Tên phương pháp

Đánh giá

Sparsity-based Collaborative Model -

Có tính ổn định

SCM

Sử dụng thuật toán SVM (Support

Structured Output Tracking - STR

Vector Machine)

Tracking-Learning-Detection – TLD


Thời gian xử lý nhanh
Sử dụng phương pháp so sánh đặc

Fragments-based Tracking – FT

trưng histogram
Thích hợp theo dõi đối tượng thời

Compressive Tracking - CT

gian thực

Clustering of Static-Adaptive
Correspondences for Deformable

Độ chính xác cao

Object Tracking – CMT

Bảng 1.1 liệt kê một số phương pháp theo dõi đối tượng, ưu điểm của từng
phương pháp được các nhà nghiên cứu sử dụng gần đây.
Các phương pháp trên mặc dù có những thành công trong việc phát hiện và
theo vết đối tượng, nhưng vẫn còn những hạn chế tồn tại. Hai phương pháp phổ
biến cho bài toán theo vết đối tượng hiện nay là phương pháp TLD và phương pháp
CMT. Phương pháp TLD có hiệu suất cao trong việc theo dõi đối tượng trong thời
gian dài, tuy nhiên độ chính xác thấp với những đối tượng biến dạng (deformable).
Ngược lại với phương pháp TLD, phương pháp CMT phát hiện các đối tượng biến
dạng (deformable) với độ chính xác cao nhưng lại gặp hạn chế về thời gian xử lý.
16



Chương 1: TỔNG QUAN

Bằng cách kết hợp hai phương pháp TLD và CMT, một phương pháp kết hợp tận
dụng được ưu thế về hiệu suất xử lý của phương pháp TLD và độ chính xác cao của
phương pháp CMT cho quá trình theo vết đối tượng, đây cũng chính là nội dung và
mục đích của đề tài này.
1.3 Hướng tiếp cận và giải pháp cho bài toán theo vết đối tượng
Để thực hiện các công việc nghiên cứu theo đúng chi tiết và có tính khoa
học, việc cần thiết cần phải mô hình bài toán. Đầu tiên, khảo sát và phát biểu bài
toán, sau đó việc mô hình bài toán sẽ được thực hiện.
Yêu cầu bài toán:
-

Chứng minh, làm rõ mô hình kết hợp đề xuất giải quyết được vấn đề theo
vết đối tượng với hệ thống camera có cấu hình yếu tại một số nơi ở Việt
Nam.

-

Mô hình kết hợp có thể thực hiện trên các thiết bị camera an ninh với tốc
độ xử lý thấp trong thời gian thực.

Phạm vi bài toán:
-

Bài toán áp dụng với đối tượng đầu vào là các đoạn video, hình ảnh từ bộ
dữ liệu chuẩn hoặc các video thu thập được từ các camera an ninh trong
thực tế.


Kết quả:
-

Phát triển mô hình kết hợp hai phương pháp TLD và CMT cho bài toán
theo vết đối tượng chuyển động.

-

Mô hình kết hợp đạt sự cân bằng giữa độ chính xác và tốc độ xử lý của mô
hình sau khi thử nghiệm ở mức chấp nhận được với hệ thống camera có
cấu hình yếu tại một số nơi ở Việt Nam.

17


Chương 1: TỔNG QUAN

1.4 Tóm tắt những đóng góp của luận văn
Luận văn đã khảo sát tình hình bài toán theo vết đối tượng hiện nay, các ứng
dụng trong thực tế cũng như các khó khăn còn tồn tại. Luận văn cũng liệt kê một số
nghiên cứu trong nước lẫn ngoài nước, một số phương pháp theo vết đối tượng
được các nhà nghiên cứu đề xuất. Nêu được lý do và mục đích cũng như hướng tiếp
cận, phạm vi bài toán cũng như kết quả mà đề tài cần đạt được.
Luận văn phân tích ưu nhược điểm của hai phương pháp TLD và CMT từ đó
đề xuất ra mô hình kết hợp tận dụng ưu thế của mỗi phương pháp để cân bằng giữa
thời gian xử lý và độ chính xác. Mô hình kết hợp hai phương pháp TLD và CMT đã
được thử nghiệm trên bộ dữ liệu Vojir và kết quả được đăng tải ở hội nghị khoa học
ICISCA 2016 được tổ chức tại Thái Lan (bản sao được đính kèm theo công trình).
Sau đó, mô hình kết hợp được thử nghiệm trên bộ dữ liệu thu thập được từ
các camera an ninh từ thực tế. Từ đó xây dựng một ứng dụng theo vết đối tượng sử

dụng mô hình kết hợp hai phương pháp TLD và CMT.
Bố cục phần còn lại của luận văn bao gồm các phần sau:
Chương 2: trong chương này, luận văn sẽ trình bài một số khái niệm cơ bản
về xử lý ảnh và video cũng như sơ lược cơ bản về hệ thống theo vết đối tượng. Luận
văn cũng tìm hiểu hai phương pháp theo vết đối tượng TLD và CMT.
Chương 3: luận văn đề xuất mô hình đa kỹ thuật kết hợp sử dụng hai phương
pháp TLD và CMT cho bài toán theo vết đối tượng. Sau đó là một số đánh giá sơ bộ
về mô hình kết hợp.
Chương 4: chương này thể hiện các kết quả thực nghiệm trên bộ dữ liệu
Vojir và bộ dữ liệu thu thập được từ thực tế từ camera an ninh của Công ty cổ phần
công nghệ Titan và một số bàn luận.
Chương 5: luận văn trình bày kết luận và một số khuyến nghị cho mô hình
kết hợp.

18


Chương 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
2.1 Các khái niệm cơ bản
2.1.1 Video
Video là sự tái tạo ảnh tự nhiên, cung cấp thông tin theo không gian và thời
gian. Video bao gồm một chuỗi hình ảnh liên tiếp theo thời gian nhằm mô phỏng sự
chuyển động. Năm 1834, nhà toán học William George Horner sử dụng ảnh liên tục
để mô tả sự chuyển động theo thời gian. Kể từ đó, hàng loạt các nghiên cứu khác
được triển khai và đạt được nhiều thành tựu đáng kể. Cho đến khi Hanubal phát
minh ra phim ảnh vào năm 1887, vấn đề chuyển động được quan tâm đặc biệt vì
những lợi ích kinh tế mà nó mang lại.
Video bao gồm nhiều đoạn (scense), mỗi đoạn lại gồm nhiều cảnh (shot) và

mỗi cảnh có nhiều khung hình (frame). Tỉ lệ khung hình trên giây fps (frame per
second) là số khung hình xuất hiện trong một giây. Hiện tại tỉ lệ khung hình trên
giây để mắt người có thể nhận được sự chuyển động liên tục là 24 fps. Nếu ít hơn 24
fps, mắt người sẽ cảm thấy các chuyển động bị giật, ngược lại, fps càng cao thì
chuyển động càng mượt, nhưng nếu fps quá cao sẽ trở thành các chuyển động quay
chậm.
Có nhiều hệ video, và mỗi hệ video có tỉ lệ khung hình trên giây khác nhau:
NTSC: 30fps, PAL: 24fps, SECAM 29.99fps. Hình sau minh hoạ cấu trúc video:

Hình 2.1. Cấu trúc video

19


Chương 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

Hình 2.1 minh hoạ cấu trúc cơ bản của một đoạn video bất kỳ thu thập được
trong thực tế. Mỗi video bao gồm nhiều đoạn, mỗi đoạn lại gồm nhiều cảnh và mỗi
cảnh lại bao gồm nhiều khung hình.
Một số chuẩn Video:
Tổ chức chuẩn ISO-IEC (International Organization for StandardInternational Electrotechnical Commision) đưa ra một số chuẩn video như sau:
ü Chuẩn MJPEG:
MJPEG (Motion JPEG) là một định dạng nén video, trong đó mỗi khung
hình video được nén riêng như một hình ảnh JPEG. Đây là một trong những chuẩn
cổ nhất mà hiện nay vẫn sử dụng. Chuẩn này hiện chỉ sử dụng trong các thiết bị
DVR rẻ tiền, chất lượng thấp. Không những chất lượng hình ảnh kém, tốn tài
nguyên xử lý, cần nhiều dung lượng ổ chứa và còn hay làm lỗi đường truyền.
ü Chuẩn MPEG-1:
MPEG-1 mã hoá hình ảnh động và những âm thanh liên quan việc lưu trữ kỹ
thuật số đa phương tiện lên đến 1.5 Mbit/s được phát triển năm 1993.

JPEG-1 còn được gọi là ISO/IEC-11172 bao gồm các thành phần sau:
-

ISO/IEC-11172-1: Hệ thống (lưu trữ và đồng bộ âm thanh và các dữ
liệu khác).

-

ISO/IEC-11172-2: Phim ảnh (chứa nội dung của phim ảnh nén).

-

ISO/IEC-11172-3: Âm thanh (chứa nội dung của âm thanh nén).

-

ISO/IEC-11172-4: Kiểm thử khả năng tương thích (kiểm tra việc triển
khai tiêu chuẩn).

-

ISO/IEC-11172-5: Phần mềm tham chiếu (phần mềm mẫu thực hiện
việc mã hoá và giải mã).

MPEG-1 được ứng dụng trong thiết kế CD chạy âm thanh, trình chiếu video,
truyền hình cáp/vệ tinh kỹ thuật số…. Ngoài ra, MPEG-1 thường được sử dụng là
tiêu chuẩn cho đĩa quang VCD. [6]
20



Chương 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

ü Chuẩn MPEG-2:
MPEG-2 (còn có tên gọi khác là ISO/IEC 13818) là một phiên bản mở rộng
của MPEG-1 cở sở với mục tiêu cung cấp nén có chất lượng cao cho việc truyền
phim ảnh, cụ thể tạo ra hình ảnh chất lượng cao hơn MPEG-1 ở tốc độ bit (bit rate)
cao hơn từ (3-10 Mbps).
Một số định dạng tập tin MPEG-2 như (.mpg), (.mp2), (.mp3), (.m2v)…[7]
ü Chuẩn MPEG-4:
MPEG-4 mã hoá các đối tượng nghe nhìn sử dụng các công cụ mã hoá phức
tạp để đạt được những yếu tố nén cao hơn MPEG-2. Ngoài việc mã hoá video hiệu
quả hơn, MPEG-4 tiến gần hơn tới các ứng dụng đồ hoạ máy tính.
Các dịch vụ như: tivi số, World Wide Web, đồ hoạ, videophone và các mở
rộng của chúng được cải thiện nhờ chuẩn MPEG-4. Chuẩn này được phát triển riêng
cho các đối tượng khác nhau tạo khả năng thích nghi, linh động.
ISO/IEC 14496 là một tên gọi khác của chuẩn MPEG-4.
ü Chuẩn MPEG-7:
MPEG-7 còn được gọi là ISO/IEC 15938 được công bố lần đầu tiên vào năm
2002 (phần 1). Phần cuối cùng của chuẩn MPEG-7 (phần 13) được công bố lần cuối
cùng vào năm 2015.
MPEG-7 được gọi là giao diện mô tả nội dung đa phương tiện (Multimedia
Content Description Interface) đề xuất cho việc tìm kiếm, lựa chọn, quản lý và phân
tích thông tin đa phương tiện, không tập trung vào một ứng dụng cụ thể, không phải
là một tiêu chuẩn mã hoá thực sự cho audio, video hay multimedia.
MPEG-7 sử dụng XML để lưu trữ siêu dữ liệu và có thể đính kèm vào mã
thời gian để gán nhãn các sự kiện cụ thể hoặc đồng bộ với lời trong một bài hát.
MPEG-7 cũng là một dạng phát triển lên từ phiên bản của MPEG-1 và đang được
cải tiến.
21



Chương 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

Ngoài ra, một số chuẩn video khác được tổ chức chuẩn ITU-T (International
Telecommunication Union) đưa ra như sau:
ü Chuẩn Video H.263:
H.263 là một chuẩn video hỗ trợ định dạng nén tốc độ bit thấp cho các hội
nghị thông qua video. H.263 được phát triển bởi ITU-T Video Coding Experts
Group (VCEG) như một cải tiến dựa trên kinh nghiệm từ H.261 được hoàn thành
đầu tiên vào năm 1995 cung cấp một sự thay thế phù hợp cho H.261 với tốc độ bit.
H.263 là định dạng mã hoá yêu cầu bắt buộc của video trong công nghệ ETSI
3GPP cho hệ thống IP con đa phương tiện (IMS), dịch vụ nhắn tin đa phương tiện
(MMS) và dịch vụ Streaming Service Packet-switched (Transparent end-to-end),…
ü Chuẩn Video H.264:
H.264 có tên đầy đủ là H.264/MPEG-4 Part 10 hay AVC (Advanced Video
Coding) là một chuẩn mã hoá/ giải mã video và định dạng video đang được sử dụng
rộng rãi nhất hiện nay để ghi, nén và chia sẻ video phân giải cao dựa trên việc bù trừ
chuyển động (motion-compensation) trên từng block (block oriented).
H.264 được hoành thành vào tháng 5/2003, nó tương tự chuẩn ISO/IEC
14496 dành cho video.[27]
2.1.2 Xử lý ảnh và video
Xử lý ảnh và video là một tập các xử lý tác động trực tiếp lên hình ảnh hoặc
video được cung cấp ở đầu vào với mục đích cho ra các hình ảnh hoặc video thoả
mãn yêu cầu đặt ra hoặc rút trích các thông tin cần thiết của hình ảnh hoặc video đó
để làm đầu vào cho các bài toán, hệ thống xử lý hoặc các nghiên cứu khác.

22



×