ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-----------------------------
LƯU TRUNG HIẾU
NHẬN DẠNG HÀNH VI CON NGƯỜI
TRONG HỆ THỐNG GIÁM SÁT THƠNG MINH
Chun ngành
: Khoa học máy tính
Mã số
: 604801
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 7 năm 2013
CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG –HCM
Cán bộ hướng dẫn khoa học : TS. Lê Thành Sách................................................
Cán bộ chấm nhận xét 1 : TS. Ngô Quốc Việt.......................................................
Cán bộ chấm nhận xét 2 : TS. Huỳnh Trung Hiếu ...............................................
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM
ngày 24 tháng 7 năm 2013
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. TS. Trần Văn Hoài ...............................................
2. TS. Nguyễn Thanh Bình .......................................
3. TS. Huỳnh Trung Hiếu .........................................
4. TS. Ngơ Quốc Việt ................................................
5. TS. Lê Thành Sách ...............................................
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA KH & KT MÁY TÍNH
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
Tp. HCM, ngày 21 tháng 6 năm 2013
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: LƯU TRUNG HIẾU ...................................... MSHV:11070448 ............
Ngày, tháng, năm sinh: 23/09/1987 .......................................... Nơi sinh: Lâm đồng .........
Chuyên ngành: Khoa học máy tính............................................ Mã số : 604801 ............
I. TÊN ĐỀ TÀI:
NHẬN DẠNG HÀNH VI CON NGƯỜI TRONG HỆ THỐNG GIÁM SÁT
THÔNG MINH
II. NHIỆM VỤ VÀ NỘI DUNG:
Luận văn khảo sát và đánh giá các cơng trình nghiên cứu liên quan nhận dạng hành vi
con người trong hệ thống giám sát thông minh. Từ kết quả đó, đề tài hiện thực phân
tích hành vi dựa theo quỹ đạo chuyển động của đối tượng và đề xuất hướng nghiên
cứu phát triển trong tương lai.
III. NGÀY GIAO NHIỆM VỤ : 21/01/2013
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 21/06/2013
V. CÁN BỘ HƯỚNG DẪN : TS. Lê Thành Sách
Tp. HCM, ngày . 01. . . tháng .. 08. . năm 2013....
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)
CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)
TRƯỞNG KHOA KH & KT MÁY TÍNH
(Họ tên và chữ ký)
i
LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành và sâu sắc đến TS. Lê Thành Sách đã tận tình
hướng dẫn, giúp đỡ tơi trong suốt q trình nghiên cứu và tạo điều kiện để tơi có thể
hồn thành luận văn tốt nghiệp này.
Tôi cũng xin cảm ơn gia đình, bạn bè đã động viên, giúp đỡ và tạo mọi điều kiện tốt
nhất để tơi có thể theo đuổi việc học tập và nghiên cứu.
ii
TÓM TẮT
Nhận dạng hành vi con người trong hệ thống giám sát thông minh là một
hướng nghiên cứu quan trọng và tiềm năng trong lĩnh vực phân tích video. Bằng
cách dự đốn, phân tích hành vi con người trong khu vực quan sát, các hành động
như: phá hoại, trộm cắp tài sản, … có thể được ngăn chặn kịp thời. Luận văn này
nhận dạng hành vi con người dựa vào quỹ đạo chuyển động của đối tượng. Các
bước để nhận dạng hành vi của một đối tượng trong khu vực quan sát: phát hiện đối
tượng chuyển động, theo vết đối tượng và phân tích hành vi. Phân tích hành vi được
hiện thực trong luận văn bao gồm: dự đoán hành vi và phát hiện hành vi bất thường.
Mơ hình HMM được sử dụng để dự đoán hành vi trong khu vực quan sát. Luận văn
cũng đề xuất một giải thuật để phát hiện hành vi di chuyển qua lại theo một chu kỳ
nào đó là bất thường. Kết quả thực nghiệm đã cho thấy tính chính xác của nhận
dạng hành vi con người trong luận văn.
iii
ABSTRACT
Human behavior recognition in intelligent surveillance system is an important
and potential research direction in video analysis field. By anticipating, analyzing
human behavior in the observation area, some actions such as: vandalism, theft, …
can be prevented in time. This thesis recognizes human behavior based on motion
trajectories of objects. Steps to recognize the behavior of an object in the
observation area include: moving object detection, object tracking and behavior
analysis. Behavior analysis implemented in this thesis includes behavior
anticipation and abnormal behavior detection. Model HMM is used to predict the
human behavior in the observation area. This thesis also proposes an algorithm to
detect back and forth unusual behavior. The experimental results have showed the
accuracy of recognizing human behavior in this thesis.
iv
LỜI CAM ĐOAN
Tơi xin cam đoan ngồi các kết quả của các cơng trình nghiên cứu khác đã được chú
thích rõ trong luận văn, các công việc thực hiện trong luận văn là do chính tơi thực
hiện và chưa từng có phần nội dung nào của luận văn này được nộp để lấy một bằng
cấp ở trường này hoặc ở trường khác.
Tp. HCM, Ngày 24 tháng 07 năm 2013
Lưu Trung Hiếu
v
MỤC LỤC
LỜI CẢM ƠN ....................................................................................................... i
TÓM TẮT ............................................................................................................. ii
ABSTRACT .......................................................................................................... iii
LỜI CAM ĐOAN .................................................................................................. iv
MỤC LỤC ............................................................................................................ v
DANH MỤC HÌNH ............................................................................................viii
DANH MỤC BẢNG BIỂU ................................................................................... x
Chương 1. TỔNG QUAN VỀ ĐỀ TÀI .................................................................... 1
1.1. Đặt vấn đề..................................................................................................... 1
1.2. Giới thiệu đề tài ............................................................................................ 1
1.2.1. Tên đề tài ............................................................................................... 1
1.2.2. Mục tiêu của đề tài ................................................................................. 1
1.2.3. Giới hạn của đề tài ................................................................................. 1
1.2.4. Ý nghĩa khoa học và thực tiễn ................................................................ 2
1.2.5. Tóm lược kết quả đạt được..................................................................... 3
1.3. Cấu trúc luận văn .......................................................................................... 3
Chương 2. CƠ SỞ LÝ THUYẾT ............................................................................. 4
2.1. Hệ thống giám sát thông minh ...................................................................... 4
2.1.1. Mơ hình nền (Background Modelling) ................................................... 5
2.1.2. Phân loại đối tượng (Object Classification) ............................................ 6
2.1.3. Theo vết đối tượng (Object Tracking) .................................................... 7
2.1.4. Nhận dạng hành vi (Behavior recognition) ............................................. 9
2.2. Hidden Markov Model ............................................................................... 13
2.2.1. Chuỗi markov rời rạc ........................................................................... 13
vi
2.2.2. Hidden Markove Model (HMM) .......................................................... 14
2.3. Tiêu chí nhận dạng hành vi con người......................................................... 21
Chương 3. CÁC KẾT QUẢ NGHIÊN CỨU LIÊN QUAN .................................... 22
3.1. Nhận dạng hành vi dựa trên quỹ đạo ........................................................... 22
3.2. Nhận dạng hành vi dựa vào cử chỉ .............................................................. 24
3.3. Các phương pháp nhận dạng hành vi khác .................................................. 27
3.4. Tổng kết các nghiên cứu liên quan .............................................................. 29
Chương 4. HƯỚNG TIẾP CẬN VÀ HIỆN THỰC ................................................ 30
4.1. Mơ hình tổng quan ...................................................................................... 30
4.2. Phát hiện đối tượng chuyển động ................................................................ 32
4.3. Theo vết đối tượng ...................................................................................... 33
4.3.1. Theo vết một đối tượng ........................................................................ 33
4.3.2. Theo vết nhiều đối tượng ..................................................................... 35
4.4. Phân tích hành vi ........................................................................................ 38
4.4.1. Mơ hình ............................................................................................... 38
4.4.2. Xác suất hành vi................................................................................... 39
4.4.3. Hành vi bất thường............................................................................... 42
Chương 5. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ ..................................... 44
5.1. Tập dữ liệu.................................................................................................. 44
5.2. Kết quả thực nghiệm và đánh giá ................................................................ 44
5.2.1. Phát hiện đối tượng chuyển động ......................................................... 44
5.2.2. Theo vết đối tượng ............................................................................... 45
5.2.3. Phân tích hành vi.................................................................................. 49
Chương 6. TỔNG KẾT ......................................................................................... 63
vii
6.1. Kết luận ...................................................................................................... 63
6.1.1. Kết quả đạt được .................................................................................. 63
6.1.2. Ưu điểm và nhược điểm ....................................................................... 63
6.2. Hướng phát triển trong tương lai ................................................................. 64
TÀI LIỆU THAM KHẢO ................................................................................... a
LÝ LỊCH TRÍCH NGANG ................................................................................. d
viii
DANH MỤC HÌNH
Hình 2.1: Tổng quan về hệ thống giám sát ............................................................... 5
Hình 2.2: Kiến trúc hệ thống giám sát.................................................................... 11
Hình 2.3: Chuỗi markov 3 trạng thái...................................................................... 13
Hình 2.4: Một ví dụ mơ hình HMM ....................................................................... 15
Hình 2.5: Cách tính αt+1(j) và αt(i) ......................................................................... 17
Hình 3.1: Mơi trường và quỹ đạo chuyển động của một người .............................. 23
Hình 3.2: Xác suất đối tượng rời khỏi khung cảnh qua các lối vào......................... 23
Hình 3.3: Hành vi bình thường và hành vi bất thường ........................................... 24
Hình 3.4: Ba DFA mức thấp biểu diễn cho ba phần cơ thể..................................... 25
Hình 3.5: DFA mức trung và DFA mức cao .......................................................... 26
Hình 3.6: Kết hợp nhận dạng hành vi ngắn hạn và hành vi dài hạn ........................ 27
Hình 3.7: Biểu đồ khối phân tích hành vi con người .............................................. 28
Hình 4.1: Mơ hình tổng quan ................................................................................. 30
Hình 4.2: Mơ hình khu dân cư ............................................................................... 38
Hình 4.3: Mơi trường thực tế dưới góc nhìn camera .............................................. 38
Hình 4.4: Mơ hình ánh xạ ...................................................................................... 39
Hình 5.1: Phát hiện đối tượng chuyển động ........................................................... 45
Hình 5.2: Các đối tượng ........................................................................................ 45
Hình 5.3: Đối tượng được theo vết ........................................................................ 46
Hình 5.4: Đối tượng 1 sát nhập đối tượng 4 tạo thành đối tượng 100 ..................... 46
Hình 5.5: Đối tượng 2 sát nhập với nhóm 100 ....................................................... 47
Hình 5.6: Đối tượng 4 tách khỏi nhóm 100 ............................................................ 47
Hình 5.7: Đối tượng 1 và 2 tách khỏi nhóm 100 .................................................... 48
Hình 5.8: Quỹ đạo chuyển động của 6 đối tượng ................................................... 49
Hình 5.9: Vị trí của 6 đối tượng ............................................................................. 50
Hình 5.10: Quỹ đạo của 6 đối tượng ...................................................................... 51
Hình 5.11: Biểu đồ xác suất hành vi của đối tượng 0 theo thời gian ....................... 52
ix
Hình 5.12: Biểu đồ xác suất hành vi của đối tượng 1 theo thời gian ....................... 53
Hình 5.13: Biểu đồ xác suất hành vi của đối tượng 2 theo thời gian ....................... 53
Hình 5.14: Biểu đồ xác suất hành vi của đối tượng 3 theo thời gian ....................... 54
Hình 5.15: Biểu đồ xác suất hành vi của đối tượng 4 theo thời gian ....................... 54
Hình 5.16: Biểu đồ xác suất hành vi của đối tượng 5 theo thời gian ....................... 55
Hình 5.17: Quỹ đạo hai người di chuyển trong khu dân cư .................................... 56
Hình 5.18: Hai đối tượng trước khi vượt qua bồn hoa ............................................ 57
Hình 5.19: Đối tượng 0 vượt qua bồn hoa, được đánh dấu màu đỏ ........................ 57
Hình 5.20: Đối tượng 0 vẫn bị đánh dấu sau khi đã vượt qua bồn hoa ................... 58
Hình 5.21: Hai đối tượng trong khung cảnh thực tế ............................................... 60
Hình 5.22: Hai đối tượng di chuyển bình thường ................................................... 60
Hình 5.23: Quỹ đạo 2 đối tượng ............................................................................ 61
Hình 5.24: Đối tượng 1 bị phát có hành vi bất thường ........................................... 61
x
DANH MỤC BẢNG
Bảng 5.1: Xác suất hành vi của 6 đối tượng ........................................................... 51
Bảng 5.2: Dữ liệu huấn luyện và kiểm thử hành vi bất thường ............................... 59
Bảng 5.3: Kết quả phát hiện hành vi bất thường .................................................... 59
1
Chương 1. TỔNG QUAN VỀ ĐỀ TÀI
1.1. Đặt vấn đề
Hệ thống giám sát đang dần trở thành nhu cầu thiết yếu của con người. Các hệ
thống giám sát thông minh không dừng lại ở những chức năng quan sát thông
thường như các hệ thống giám sát truyền thống hiện nay, mà cịn đảm nhiệm rất
nhiều những tính năng cao cấp khác.
Một trong những chức năng quan trọng là nhận dạng hành vi con người. Nó
đang là một hướng nghiên cứu mới và nhu cầu thực tế cao như: trong giám sát giao
thông, nhà thông minh, … và đặc biệt trong lĩnh vực an ninh.
Vì vậy, luận văn này sẽ tập trung nghiên cứu hiện thực đề tài: nhận dạng hành
vi con người trong hệ thống giám sát thông minh.
1.2. Giới thiệu đề tài
1.2.1. Tên đề tài
Nhận dạng hành vi con người trong hệ thống giám sát thông minh
(Recognising human behaviours in intelligent surveillance system)
1.2.2. Mục tiêu của đề tài
Đề tài thực hiện hai mục tiêu chính:
Khảo sát và đánh giá các kỹ thuật phát hiện đối tượng chuyển động, theo vết
đối tượng và phân tích hành vi. Tổng hợp các kết quả nghiên cứu nhằm tìm
được phương pháp phù hợp với đề tài luận văn.
Hiện thực chương trình và đánh giá kết quả đạt được trên các phương pháp
đã nghiên cứu. Luận văn cũng đề xuất hướng giải quyết cho các vấn đề liên
quan hành vi bất thường thường gặp trong thực tế.
1.2.3. Giới hạn của đề tài
Hành vi con người được xét dưới hai góc nhìn:
Góc nhìn tổng qt, hay góc nhìn trong mơi trường rộng, khi đó con người
được xét như một điểm trong khơng gian.
2
Góc nhìn chi tiết, hay góc nhìn trong mơi trường hẹp hơn, khi đó các bộ
phận con người được xét tới để phân tích hành vi.
Trong hệ thống giám sát thơng minh, phân tích hành vi theo góc nhìn tổng
quát là một chức năng rất quan trọng nên đề tài chỉ tập trung phân tích hành vi con
người dựa vào vị trí đối tượng là chủ yếu.
Hành vi con người chỉ có thể biết chính xác sau khi hành vi đó đã xảy ra. Nên
tính chính xác của dự đốn hành vi con người chỉ mang tính tương đối. Vì vậy,
khơng có thước đo tuyệt đối cho kết quả nhận dạng hành vi, mà chỉ có cách ước
lượng tính chính xác của kết quả dựa vào lịch sử di chuyển của đối tượng.
1.2.4. Ý nghĩa khoa học và thực tiễn
Hệ thống giám sát thông minh ngày càng phát triển do nhu cầu thực tế với các
ứng dụng như: hệ thống camera cho nhà thông minh, ghi nhận các thông số giao
thơng, …. Trong đó, nhận dạng hành vi con người là một hướng phát triển mới và
quan trọng trong hệ thống giám sát thơng minh. Cịn nhiều vấn đề cần được giải
quyết trong việc phân tích hành vi con người. Vì vậy, đề tài nghiên cứu hành vi con
người trong hệ thống giám sát thơng minh có ý nghĩa khoa học và thực tiễn như sau:
Ý nghĩa khoa học:
Nghiên cứu hệ thống giám sát nói chung, mà cụ thể là nghiên cứu phân tích
hành vi con người.
Tổng hợp, đánh giá các cơng trình liên quan phân tích hành vi con người.
Hiện thực nhận dạng hành vi dựa trên các cơng trình liên quan, bên cạnh đó
đề xuất một số cải tiến trong việc phân tích hành vi con người.
Ý nghĩa thực tiễn:
Nhận dạng hành vi con người tự động làm giảm chi phí sử dụng nhân lực so
với hệ thống giám sát truyền thống.
Mô hình nhận dạng hành vi này có thể áp dụng vào nhiều ngành công nghiệp
như: ô tô, điện thoại thông minh, nhà thông minh, ….
3
Mơ hình nhận dạng hành vi con người tự động sẽ hoạt động, phân tích liên
tục nên phát hiện kịp thời các trường hợp bất thường như: cháy nhà, trộm
cắp, phá hoại, tai nạn giao thơng, ….
1.2.5. Tóm lược kết quả đạt được
Kết quả chính luận văn đã đạt được:
Xây dựng khung phân tích hành vi gồm các bước từ phát hiện đối tượng
chuyển động, theo vết đối tượng và phân tích hành vi.
Xây dựng giải thuật tính xác suất hành vi và phát hiện hành vi bất thường.
1.3. Cấu trúc luận văn
Luận văn được tổ chức theo cấu trúc sau đây:
Chương 1: giới thiệu tổng quan về đề tài gồm: hoàn cảnh ra đời của đề tài,
Mục tiêu của đề tài, ý nghĩa khoa học và thực tiễn của đề tài và các kết quả
đạt được của luận văn.
Chương 2: trình bày một số kiến thức nền tảng: tổng quan về hệ thống giám
sát thông minh và những lý thuyết căn bản về mô hình Hidden Markov
Model (HMM).
Chương 3: trình bày kết quả của các cơng trình nghiên cứu liên quan đến đề
tài luận văn bao gồm: nhận dạng hành vi dựa trên quỹ đạo, nhận dạng hành
vi dựa trên cử chỉ và các phương pháp nhận dạng hành vi khác.
Chương 4: trình bày chi tiết hướng tiếp cận và cách hiện thực chương trình
cho luận văn gồm: phát hiện đối tượng chuyển động, theo vết đối tượng và
phân tích hành vi.
Chương 5: đưa ra các kết quả đạt được, tiến hành đánh giá và so sánh kết
quả.
Chương 6: tổng kết và trình bày một số kết luận về ưu điểm, khuyết điểm
cũng như hướng phát triển của luận văn.
Cuối cùng là phần liệt kê các tài liệu tham khảo trong quá trình nghiên cứu và hiện
thực của luận văn.
4
Chương 2. CƠ SỞ LÝ THUYẾT
2.1. Hệ thống giám sát thông minh
Trong các hệ thống giám sát truyền thống, con người theo dõi trực tiếp các
hoạt động thông qua các camera giám sát, hoặc gián tiếp qua các video được lưu lại
từ camera. Hệ thống truyền thống gặp một số vấn đề như:
Khi số lượng camera tăng lên, đồng nghĩa với khung ảnh trên một màn hình
tăng lên hoặc số lượng màn hình theo dõi tăng lên, để có thể kiểm sốt được
tồn bộ hệ thống qua số lượng lớn khung nhìn như thế cần rất nhiều nhân
lực, dẫn đến chi phí tăng cao.
Con người dễ mắc một số sai sót khi chỉ theo dõi khung cảnh trong một thời
gian dài như: ngủ gật, mất tập trung, không bao qt hết khung cảnh khi có
q nhiều màn hình, …
Một số sự cố nghiêm trọng xảy ra như: hành động phá hoại, trộm cắp tài sản,
tai nạn giao thơng, ….Nhưng tại thời điểm đó khơng có nhân lực theo dõi
trực tiếp, hệ thống giám sát truyền thống chỉ có thể lưu lại sự kiện dưới dạng
video. Mọi việc sau đó là giải quyết hậu quả.
Hệ thống giám sát thơng minh ngày càng được hồn thiện để giải quyết các
nhược điểm của hệ thống giám sát truyền thống. Nó cung cấp một giải pháp an ninh
hơn, dễ mở rộng với chi phí thấp hơn. Hệ thống giám sát được xét đến trong luận
văn được hiểu là hệ thống giám sát thơng minh.
Các khối chức năng chính trong một hệ thống giám sát [1] :
Mơ hình nền (background modelling).
Phân loại đối tượng (object classification).
Theo vết đối tượng (object tracking).
Nhận dạng hành vi (behavior recognition).
5
Hình 2.1: Tổng quan về hệ thống giám sát [1]
2.1.1. Mơ hình nền (Background Modelling)
Mơ hình nền gồm phát hiện đối tượng và phân đoạn đối tượng. Đối tượng
được hiểu ngầm là đối tượng chuyển động. Khối này nhận các frame video từ
camera và tách các đối tượng chuyển động ra khỏi khung cảnh. Đối tượng được
tách gọi là “foreground” và khung cảnh còn lại gọi là “background”. Các phương
pháp thường được sử dụng: background subtraction, optical flow.
Background subtraction: đây là phương pháp được sử dụng phổ biến vì tính
đơn giản và hiệu quả.
Trước hết phải ước lượng một khung cảnh nền, sau đó đối tượng sẽ được tách
khỏi frame ảnh bằng cách lấy frame ảnh trừ cho khung cảnh nền. Pixel thuộc đối
tượng sẽ có hiệu số lớn hơn một ngưỡng xác định nào đó. Ngưỡng này có thể xác
định trước hoặc có thể thay đổi theo từng frame tùy vào từng phương pháp.
Phương pháp đơn giản nhất để mơ hình khung cảnh nền là sử dụng frame ảnh
đầu tiên hay một frame ảnh bất kỳ làm khung cảnh nền. Phương pháp này tuy đơn
giản nhưng tính đáp ứng thấp (khung cảnh nền cập nhật chậm), vì vậy phương pháp
này rất ít sử dụng trong thực tế. Một phương pháp đơn giản khác có thể nhắc tới là
“frame differencing”. Frame differencing xem frame ngay trước frame hiện hành
6
hoặc cách frame hiện hành một vài frame là khung cảnh nền. Ngược lại với phương
pháp trên, tính đáp ứng của frame differencing rất cao. Tuy nhiên đối tượng thu
được thường bị thiếu thơng tin. Vì vậy tính hiệu quả của phương pháp này thấp. Các
phương pháp background subtraction hiệu quả hơn có thể nhắc tới như [2]:
temporal median filter, running Gaussian average, mixture of Gaussians, kernel
density estimators, eigenbackgrounds, sequential kernel density approximation,
Kalman filter.
Optical flow: phương pháp background subtraction được dùng phổ biến để
tách một đối tượng chuyển động ra khỏi khung cảnh nền, tuy nhiên phương pháp
này gặp một số khó khăn khi mơi trường quan sát trở nên dày đặc các đối tượng
chuyển động, đồng nghĩa với việc khung cảnh nền khó có thể được ước lượng.
Optical flow là một giải pháp cho vấn đề này, nó khơng phụ thuộc vào khung
cảnh nền, thay vào đó nó là một tiếp cận hướng vector, ước lượng chuyển động
trong frame video bằng cách so sánh các điểm tương ứng của đối tượng thông qua
nhiều frame. Tuy nhiên độ phức tạp tính tốn cao và rất dễ bị nhiễu. Một số kỹ thuật
sử dụng optical flow có thể xét đến như phương pháp của Lucas và Kanade, Black
và Anandan.
2.1.2. Phân loại đối tượng (Object Classification)
Sau khi phát hiện và phân đoạn đối tượng chuyển động, bước tiếp theo trong
hệ thống giám sát là phân loại đối tượng. Đối tượng chuyển động có thể là người,
vật hay một loại đối tượng nào khác. Giả sử hệ thống giám sát chỉ quan tâm đến đối
tượng chuyển động là con người, thì các đối tượng không phải là con người sẽ được
hệ thống bỏ qua. Làm sao hệ thống có thể biết được đối tượng chuyển động đó có
phải là con người hay khơng? Phân loại đối tượng giúp hệ thống trả lời câu hỏi trên.
Hầu hết các cách tiếp cận đều thực hiện theo hai bước: rút trích các đặc trưng và
phân loại các vector đặc trưng.
Rút trích các đặc trưng: các đặc trưng cần rút trích của đối tượng có thể theo các
hướng sau:
7
Đặc trưng dựa vào hình dạng (shape-based): các đặc trưng dựa vào hình dạng
thường liên quan đến các đặc điểm hình học của đối tượng như: các điểm,
các đường bao, bóng và các “blob”. Nhìn chung, các phương pháp phân loại
dựa vào hình dạng so sánh thuộc tính đối tượng chuyển động với thuộc tính
của một tập đối tượng tĩnh đã biết trước. Mục đích là tìm ra đối tượng nào
trong tập tĩnh gần giống nhất so với đối tượng cần phân loại. Phân loại đối
tượng dựa vào hình dạng chỉ có thể làm việc hiệu quả khi các đặc trưng được
quan sát tồn diện, nghĩa là khơng bị che khuất.
Đặc trưng dựa vào chuyển động (motion-based): các phương pháp phân loại
dựa trên đặc trưng chuyển động lấy ý tưởng: các đặc tính chuyển động đối
tượng đủ để phân biệt các loại đối tượng khác nhau. Ví dụ quỹ đạo chuyển
động của một người đi bộ sẽ khác với quỹ đạo chuyển động của một chiếc xe
máy.
Các loại đặc trưng khác: đặc trưng thường gặp trong mảng này là màu sắc bề
mặt. Phân loại dựa theo màu sắc hoạt động tốt bất chấp sự thay đổi ánh sáng,
góc nhìn, co giãn, độ bóng và bị che khuất. Tuy nhiên khi các đối tượng có
màu sắc gần giống nhau thì việc phân loại gặp rất nhiều khó khăn. Ngồi ra,
các đặc trưng có thể kết hợp với nhau để tạo các đặc trưng mới giúp việc
phân loại có các kết quả tốt hơn.
Phân loại các vector đặc trưng: sau khi rút trích được các đặc trưng, bước tiếp
theo là sử dụng các đặc trưng để phân loại đối tượng. Các phương pháp phổ biến
phân loại các vector đặc trưng: neural network, hidden Markov model (HMM),
support vector machine (SVM).
2.1.3. Theo vết đối tượng (Object Tracking)
Theo vết đối tượng sẽ ước lượng vị trí đối tượng đang được quan tâm qua các
frame theo thời gian. Theo vết đối tượng có thể chia thành bốn nhóm chính [6]:
region-base tracking, contour-based tracking, feature-based tracking và modelbased tracking.
8
Region-based tracking: phương này cịn có thể gọi là blob-based tracking.
Các blob sau khi thu được bằng phương pháp background subtraction được sử dụng
để theo vết thông qua các đặc tính của blob như: diện tích, đường kính, …. Các giải
thuật của region-based tracking có độ phức tạp tính tốn thấp, tuy nhiên nó khơng
thể giải quyết được vấn đề che lấp giữa các đối tượng. Vì vậy, theo vết đối tượng
với hướng này phù hợp khung cảnh đơn giản (tốt nhất là chỉ có một đối tượng), và
khơng phù hợp với khung cảnh phức tạp có nhiều đối tượng chuyển động.
Contour-based tracking: bao gồm các giải thuật theo vết đối tượng bằng các
đường bao ngoài đối tượng và cập nhật động đường bao ngoài này trong nhiều
frame liên tiếp. Ngược lại với phương pháp region-based tracking, phương pháp này
biểu diễn các đối tượng đơn giản hơn và hiệu quả hơn và đồng thời giảm độ phức
tạp tính tốn. Ngay cả khi có nhiễu hay che khuất một phần thì giải thuật vẫn có thể
theo vết được đối tương một cách liên tục. Tuy nhiên khởi tạo đường viền ban đầu
cho đối tượng ảnh hưởng rất lớn đến độ chính xác của theo vết đối tượng. Điều này
gây khó khăn cho việc theo vết đối tượng một cách tự động.
Feature-based tracking: gồm các giải thuật theo vết đối tượng bằng cách rút
trích các thành phần, gom nhóm chúng để tạo thành các đặc trưng cấp cao hơn và
sau đó so trùng các đặc tính này giữa các ảnh với nhau. Phương pháp này có thể
chia thành 3 nhánh chính:
Sử dụng các đặc trưng toàn cục: các đặc trưng thường gặp như: tâm, đường
kính, diện tích của hình chữ nhật bao đối tượng, màu sắc của đối tượng, ….
Sử dụng các đặc trưng cục bộ: các đặc trưng cục bộ thường gặp: đoạn thẳng,
đoạn cong, đỉnh góc, ….
Sử dụng các đặc trưng về đồ thị: ví dụ như khoảng cách hay mối quan hệ
hình học giữa các đặc trưng.
Model-based tracking: cùng với các tri thức biết trước, theo vết đối tượng
được hiện thực bằng cách so trùng các dữ liệu hình ảnh với các mơ hình đối tượng
được dự kiến. Các mơ hình thường được đo đạc thủ cơng từ trước, và tùy loại đối
tượng mà có cách mơ hình khác nhau, ví dụ như mơ hình khơng cứng nhắc (mơ
hình cơ thể người), mơ hình cứng nhắc (mơ hình xe cộ).
9
Theo vết đối tượng dựa vào các tính chất của đối tượng được chia thành bốn
phương pháp như ở trên. Xét khía cạnh giải thuật, theo vết đối tượng có các phương
pháp phổ biến như: Kalman filter, Kanade-Lucas-Tomasi (KLT), mean-shift,
particle filter.
2.1.4. Nhận dạng hành vi (Behavior recognition)
Hành vi của con người bao gồm nhiều khái niệm khó biểu diễn một cách chính
xác hay mơ hình bằng tốn học. Tuy nhiên, xét phương diện ứng dụng, hành vi của
con người là chuỗi các hành động theo thời gian. Phân tích hành vi nhằm rút trích
thơng tin và xử lý để thu được những hiểu biết tốt hơn về các hành động.
Các thách thức trong nhận dạng hành vi:
Các nghiên cứu về nhận dạng hành vi gặp khơng ít khó khăn [4], một trong
những khó khăn có thể kể đến là mức thời gian nhận biết hành vi khác nhau ở các
loại hành vi khác nhau, các hành động nhỏ như cử động mắt, mơi,… địi hỏi khung
thời gian ngắn để xác định hành vi, trong khi đó những hành động lớn như di
chuyển từ vị trí này sang vị trí khác,… cần khung thời gian lớn hơn. Chính sự khác
biệt này gây khó khăn trong việc phát triển một khung nhận dạng hành vi. Tuy
nhiên khó khăn chính là do tính đa dạng và phức tạp trong hành vi con người ngay
khi đã thu hẹp trong một vùng không gian-thời gian giới hạn.
Bài phân tích của Gowsikhaa .et al [5] cho thấy các thách thức ở mức chi tiết
hơn trong phân tích hành vi con người:
Các lỗ trống (cavities): các lỗ trống là thành phần của đối tượng bị mất trong
giai đoạn phát hiện/tách đối tượng. Tách đối tượng mà khơng có lỗ trống vẫn
đang là thách thức của giai đoạn này.
Mơ hình cơ thể con người (human body modeling): mơ hình sai sẽ dẫn đến
các kết quả khơng đúng ở những giai đoạn sau như nhận dạng cử chỉ, hành
động, hành vi,...
Tình trạng bị che khuất (handling occlusions): các đối tượng bị che khuất bởi
đối tượng khác hoặc ra khỏi frame, vài giây sau đó lại xuất hiện trong frame
thì đối tượng đó vẫn phải được theo vết.
10
Phân loại cảnh: trong giai đoạn nhận dạng hành vi trong một mơi trường thay
đổi khung cảnh nền, thì việc hiểu khung cảnh nền sẽ rất hữu dụng. Ngay khi
khung cảnh nền là tĩnh thì việc hiểu khung cảnh nền (ví dụ: trong nhà / ngồi
trời) sẽ giúp việc xử lý hiệu quả hơn.
Xác nhận người (person identification): khi một người ra khỏi khung cảnh,
sau đó xuất hiện trở lại trong khung cảnh thì hệ thống phải nhận dạng ra là
người đó mà khơng phải là một người mới.
Xử lý camera (Camera revisited): nếu sử dụng một camera thì dễ gặp tình
trạng che khuất (handling occlusions). Nhưng nếu sử dụng nhiều camera thì
dữ liệu các camera có thể trùng lấp nhau. Vì vậy cần giải thuật cho việc đồng
bộ dữ liệu các camera này trước khi sử dụng cho những giai đoạn sau.
Mơ hình khung cảnh (modeling scenes): các ảnh 2D của các camera sẽ được
ánh xạ để mơ hình khung cảnh 3D.
Chuẩn hóa (standardization): hiện tại vẫn chưa có một chuẩn thống nhất nào
cho việc định nghĩa các cử chỉ con người. Nếu có một chuẩn thống nhất sẽ
tạo thuận lợi cho việc so sánh các kết quả của các cơng trình nghiên cứu
cũng như việc biểu diễn và hiểu hành vi.
Các thách thức trên ẩn chứa trong các kỹ thuật mức thấp như tách đối tượng
chuyển động, nhận dạng đối tượng, … cũng như các kỹ thuật mức cao như nhận
dạng hành vi. Một khi đã nắm bắt được các thách thức, bước tiếp theo là phát triển
một hệ thống nhận dạng hành vi.
Nhận dạng hành vi:
Nhận dạng hành vi trong hệ thống giám sát bao gồm biểu diễn hành vi và hiểu
hành vi [6]. Với góc nhìn theo hướng hành vi thì hệ thống giám sát có thể được mơ
tả như Hình 2.2.
11
Hình 2.2: Kiến trúc hệ thống giám sát [6]
Theo kiến trúc ở Hình 2.2 có thể chia hệ thống giám sát thành hai phần, bao
gồm:
Phần xử lý mức thấp: thuộc về xử lý ảnh, bao gồm phát hiện và tách đối
tượng chuyển động, phân loại đối tượng và một phần theo vết đối tượng.
Phần xử lý mức cao: thuộc về trí tuệ nhân tạo, bao gồm một phần theo vết
đối tượng và nhận diện hành vi.
Biểu diễn hành vi mô tả các loại hành vi cần nhận dạng. Biểu diễn hành vi
gồm các thành phần[7]:
Các thuộc tính cơ bản: một thuộc tính cơ bản là một tính chất được khảo sát
của đối tượng như lịch sử đường đi (trajectory) hay một cử chỉ nào đó.
Các trạng thái: một trạng thái là một thuộc tính hồn cảnh của một hay một
nhóm các đối tượng trong một khoảng thời gian nào đó. Ví dụ: vị trí một
người trong một căn phòng.
Các sự kiện: một sự kiện là một sự thay đổi các trạng thái giữa hai thời điểm
liên tiếp nhau. Ví dụ: sự kiện một người bước vào hay ra khỏi căn phịng nào
đó.
12
Kịch bản(scenarios): một kịch bản là một sự kết hợp các trạng thái, các sự
kiện hay các kịch bản con. Các hành vi là các kịch bản đặc biệt. Ví dụ: kịch
bản sử dụng máy in trong phịng: một người nào đó sẽ bước vào trong phịng
và đi tới chỗ đặt máy in, sau đó người đó rời khỏi phịng. Trong trường hợp
này có thể xem hành vi tương ứng với kịch bản trên là sử dụng máy in.
Hiểu hành vi có thể được nghĩ đơn giản như việc xác định một hành vi quan
sát được sẽ tương ứng với hành vi nào trong một tập hành vi mẫu cho trước. Chi tiết
hơn, việc nhận dạng hành vi được xem như sự phân loại các dữ liệu đặc trưng thay
đổi theo thời gian, nghĩa là việc nhận dạng hành vi sẽ được thực hiện bằng cách xác
định chuỗi dữ liệu đặc trưng của hành vi quan sát được sẽ phù hợp với chuỗi dữ liệu
nào của các hành vi trong tập mẫu.
Các phương pháp hiểu hành vi phổ biến [8] bao gồm:
Mơ hình markov ẩn (Hidden Markov Model).
Thời gian vòng động (Dynamic Time Warping).
Máy trạng thái hữu hạn (Finite-State Machine).
Automat
hữu
hạn
không
đơn
định
(Nondeterministic-Finite-State
Automation).
Mạng neural thời gian trễ (Time-Delay Neural Network).
Các kỹ thuật về văn phạm / ngữ nghĩa (Syntatic/Grammatical Techniques).
Mạng neural tự tổ chức (Self-Orgnizing Neural Network).
Các kỹ thuật dựa vào tác nhân (Agent-based Techniques).
Hệ thống miễn dịch nhân tạo (Artificial Immune Systems).
Nhận dạng hành vi là mục tiêu nghiên cứu chính của đề tài này. Phần này cung
cấp góc nhìn tổng quan về nhận dạng hành vi. Các vấn đề chi tiết liên quan nhận
dạng hành vi sẽ được trình bày trong những phần sau.