ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------
ĐINH VĂN TUYẾN
PHÁT HIỆN ĐỐI TƯỢNG DỰA TRÊN CÁC
ĐẶC TÍNH CỤC BỘ
Chuyên ngành: Kỹ thuật điều khiển và tự động hóa
Mã số: 60520216
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 01 năm 2018
CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học : TS. Trịnh Hoàng Hơn
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 1 : TS. Nguyễn Đức Thành
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 2 : TS. Nguyễn Vĩnh Hảo
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG
Tp. HCM ngày 15 tháng 01 năm 2018
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn
thạc sĩ)
1. PGS. TS. Huỳnh Thái Hoàng
2. TS. Phạm Việt Cường
3. TS. Nguyễn Đức Thành
4. TS. Nguyễn Vĩnh Hảo
5. TS. Nguyễn Trọng Tài
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Đinh Văn Tuyến
MSHV: 1570373
Ngày, tháng, năm sinh: 18/10/1985
Nơi sinh: Quảng Bình
Chuyên ngành: Kỹ thuật điều khiển và tự động hóa
Mã số : 60520216
I. TÊN ĐỀ TÀI: PHÁT HIỆN ĐỐI TƯỢNG DỰA TRÊN CÁC ĐẶC TÍNH CỤC BỘ
II. NHIỆM VỤ VÀ NỘI DUNG:
Đề tài phát hiện đối tượng dựa vào các đặc tính cục bộ ứng dụng lý thuyết về mơ hình
DPM vào việc phát hiện các đối tượng. Chương trình xây dựng dựa trên mơ hình này có
thể phát hiện được đối tượng ở trong các môi trường khác nhau, đối tượng có thể xuất hiện
với hình dáng bất kỳ và đặc biệt một số bộ phận của đối tượng có thể bị che khuất nhưng
mơ hình vẫn đưa ra được dự đốn vị trí của đối tượng.
Luận văn này đề xuất một giải thuật cải tiến nhằm tối ưu các thơng số của q trình huấn
luyện các mơ hình của đối tượng nhằm nâng cao độ chính xác.
Luận văn xây dựng một chương trình phát hiện đối tượng dựa trên các đặc tính cục bộ chạy
trên nền Matlab. Chương trình được xây dựng từ các chương trình con thành một chương
trình hồn chỉnh, chạy tự động để đánh giá khả năng ứng dụng vào thực tế.
Xây dựng và huấn luyện mơ hình của ít nhất ba đối tượng đó là “Con người”, “Khn
mặt”, và “xe hơi”. Các mơ hình này sau đó có thể áp dụng để phát hiện đối tượng trong các
tập mẫu chuẩn.
III. NGÀY GIAO NHIỆM VỤ :
06/02/2017
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 03/12/2017
V. CÁN BỘ HƯỚNG DẪN : TS. Trịnh Hoàng Hơn
Tp. HCM, ngày 03 tháng 12 năm 2017
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)
CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)
TRƯỞNG KHOA….………
(Họ tên và chữ ký)
LỜI CẢM ƠN
Trước hết, em muốn bày tỏ lòng biết ơn sâu sắc tới người thầy hướng dẫn, TS. Trịnh
Hoàng Hơn người đã tận tình hướng dẫn để em có thể hồn thành khóa luận này. Thầy ấy
là một người cố vấn dày kinh nghiệm, một người cộng tác viên, một người chỉ dẫn, và một
người bạn. Luận văn này sẽ khơng hồn thành nếu khơng có sự giao phó và nỗ lực cần cù
chỉ bảo của thầy. Thầy không những chỉ ra cách khám phá các phương pháp khác nhau một
cách tồn diện và phân tích các kết quả, mà còn hấp thụ những ý tưởng mới, điều cần thiết
của sự hồn hảo khơng chỉ khi thực hiện nghiên cứu mà còn khi truyền đạt kết quả.
Em cũng xin bày tỏ lịng biết ơn chân thành tới tồn thể các thầy cô giáo trong khoa
Điện - Điện Tử, Đại học Bách Khoa, Đại Học Quốc Gia TP. Hồ Chí Minh đã dạy bảo em
tận tình trong suốt quá trình học tập tại khoa. Đặc biệt các thầy cô giáo trong Bộ Mơn Tự
Động đã có những chỉ bảo tận tình, những phản biện nghiêm túc từ quá trình làm đề cương
để em có định hướng đúng trong q trình làm luận văn này.
Nhân dịp này em cũng xin được gửi lời cảm ơn chân thành tới gia đình, bạn bè đã luôn
bên em, cổ vũ, động viên, giúp đỡ em trong suốt quá trình học tập và thực hiện khóa luận
tốt nghiệp.
Tp. Hồ Chí Minh, ngày 03 tháng 12 năm 2017
Học viên
Đinh Văn Tuyến
I
TĨM TẮT LUẬN VĂN
Những năm gần đây, nhiều ngành cơng nghiệp đang đầu tư dịch vụ trực tuyến, thương
mại điện tử, sử dụng phương tiện truyền thông để cung cấp thơng tin liên quan đến hình
ảnh, video đến người tiêu dùng và khách hàng. Cùng với sự gia tăng nhanh về số lượng ảnh,
việc khai thác thông tin dựa theo ảnh ngày càng được chú trọng. Để làm được điều đó máy
tính phải “hiểu” được nội dung của bức ảnh. Để “hiểu” được ảnh việc đầu tiên là máy tính
phải phát hiện ra được đối tượng ở đâu trong hình, trong hình có những đối tượng nào. Việc
khai thác thơng tin từ khối lượng lớn hình ảnh hỗn tạp và sự tương quan của thơng tin về
hình ảnh với mục tiêu của ứng dụng được chú trọng. Việc sản sinh ra thơng tin mới đã tạo
ra nhu cầu cần có các cơng nghệ mới để phân tích các tập dữ liệu.
Sự phát triển của của các hệ thống tìm kiếm thơng tin dựa theo hình ảnh cùng với sự
thành cơng của các cơng cụ hỗ trợ tìm kiếm, phân tích thơng tin thăm dị phụ thuộc vào
khả năng nắm bắt và mô tả đầy đủ sự phức tạp, đa dạng của dữ liệu cần xử lý, mối quan hệ
cấu trúc giữa các đối tượng hình ảnh. Hơn nữa, việc truy cập các nội dung thơng tin hình
ảnh liên quan đến các vấn đề phức tạp phát sinh chủ yếu từ các khối lượng lớn dữ liệu, nội
dung thông tin phong phú, và tính chủ quan của việc giải thích từ phía người dùng, địi hỏi
cần tối ưu hóa sản phẩm, hỗ trợ con người đưa ra những quyết định đúng và hợp lý hơn. Để
tìm kiếm chính xác thơng tin dựa theo hình ảnh, máy tính phải hiểu được hình ảnh, bước
đầu tiên là phải trả lời được câu hỏi có những đối tượng nào trong ảnh và vị trí của các đối
tượng đó ở đâu. Do đó, bài tốn “Phát hiện đối tượng” trong lĩnh vực thị giác máy tính ln
là mối quan tâm.
Sự khó khăn của bài tốn “Phát hiện đối tượng” do: Các đối tượng có thể khác nhau về
hình dáng, kích thước của đối tượng, những thay đổi trong chiếu sáng, hướng quan sát, sự
che khuất một phần của đối tượng; Quá trình xử lý và phân tích hình ảnh địi hỏi nhiều thời
gian vì u cầu tính tốn hoặc chi phí thực hiện.
Dựa vào các quan sát thực tế, một đối tượng thường được cấu thành từ nhiều thành phần
nhỏ khác nhau. Ví dụ: hình ảnh “khuôn mặt” thường được cấu thành từ mắt, miệng, mũi,
II
cằm; hình ảnh “Con người” thường có các bộ phận như đầu, tay, chân, mình; một chiếc xe
hơi thường có các bộ phận như bốn bánh, đèn, gương, phần thân, cửa kính. Tùy vào mức độ
yêu cầu độ chính xác có thể xét đến độ chi tiết khác nhau của một đối tượng, như ví dụ ở
trên thì đối tượng con người có thể được xem xét đến chi tiết của các bộ phận như mắt, mũi,
miệng. Yêu cầu đặt ra đối với bài toán “Nhận dạng đối tượng” là độ chính xác cao vì vậy
địi hỏi phải có các đặc trưng tốt. Đặc trưng của một đối tượng gồm có nhiều thành phần
nhỏ như trên gọi là đặc trưng cục bộ. Trên cơ sở này, luận văn trình bày phương pháp “Phát
hiện đối tượng dựa trên các đặc tính cục bộ”. Trong đó miêu tả các bước mơ hình hóa một
đối tượng dựa trên nhiều thành phần khác nhau, trình bày cách trích xuất đặc trưng của các
thành phần, sự tương quan các thành phần, phương pháp huấn luyện cho hệ thống phát hiện
đối tượng và áp dụng mô hình của đối tượng đã được huấn luyện vào các tập mẫu phổ biến
hiện nay.
III
ABSTRACT
In recent years, many industries are investing in online services, e-commerce, using
the media to provide information related to images and video to consumers and customers.
With the rapid increase in the number of images, the exploitation of information based on
images is increasingly focused. To do that, the computer must "understand" the content
of the image. In order to "understand" the first thing is that the computer must detect the
object where in the picture, in the picture there are objects. Exploitation of information from
a large number of heterogeneous images and the correlation of visual information with the
goal of the application is emphasized. The production of new information has created the
need for new technologies for analyzing data sets.
The development of the information search system based on the image along with the
success of support search engine, analysis of probe information depends on the ability to
grasp and fully describe the complexity, diversity of data needs to process, structural relationships between objects image. Moreover, the access to image information content involves complex issues arising mainly from large amounts of data, rich-content information,
and subjective interpretation of the users requires optimizing the product, support people
to make the right decisions and more reasonable. In order to search for exact image-based
information, the computer must understand the image, the first step is to answer the question of which objects in the image and the location of those objects? Therefore, problem
“Object Detection” in the field of computer vision is always a concern.
The difficulty of the problem “Object Detection” due to Objects can be different in
shape, size of them, changes in lighting, the direction of observation, partially obscured
objects; Image processing and analysis requires more time for computing requirements or
implementation costs.
Based on actual Observations, an object is usually composed of many different small
components. For example, the “face” images are usually composed of eyes, mouth, nose,
chin. The image of "human" usually has parts such as head, arms, legs, and body; A car
IV
usually has parts such as four wheels, lights, mirrors, trunks, glass doors. Depending on
the level of accuracy required, it is possible to take into account the different details of an
object, as, in the example above, the human subject can be considered for details of parts
such as eyes, mouth. The requirement for the "Object recognition" problem is high accuracy
and therefore requires good features. The characteristic of an object consists of many such
small components called localized features. Based on this, the thesis presents the method
"Object detection based on local features". It describes the steps for modelling an object
based on a variety of components, demonstrating how to extract local features, component
correlations, model training methods for object detection systems. And apply the model of
the trained object to the current popular datasets.
V
LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi và được sự hướng dẫn khoa
học của TS. Trịnh Hoàng Hơn. Các nội dung nghiên cứu, kết quả trong đề tài này là trung
thực và chưa được cơng bố dưới bất kỳ hình thức nào trước đây.
Nếu phát hiện có bất kỳ sự gian lận nào, tơi xin hồn tồn chịu trách nhiệm về nội dung
luận văn của mình. Trường Đại học Bách Khoa thành phố Hồ Chí Minh khơng liên quan
đến những vi phạm (nếu có) về tác quyền, bản quyền do tơi gây ra trong q trình thực hiện.
Tp. Hồ Chí Minh, ngày 03 tháng 12 năm 2017
Học viên
Đinh Văn Tuyến
VI
Mục lục
LỜI CẢM ƠN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I
TÓM TẮT LUẬN VĂN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
II
ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
IV
LỜI CAM ĐOAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
VI
Chương 1. TỔNG QUAN VỀ ĐỀ TÀI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.1. Bài toán phát hiện đối tượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2. Các cơng trình nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.3. Đặc tính tồn cục và Đặc tính cục bộ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.4. Cách tiếp cận vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.5. Ý nghĩa khoa học . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.6. Tóm lược luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
Chương 2. XÂY DỰNG MÔ HÌNH ĐỐI TƯỢNG DỰA VÀO CÁC ĐẶC TÍNH CỤC
BỘ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.1. Mơ hình tồn cục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.2. Mô hình từng phần . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.3. Sử dụng mơ hình từng phần để phát hiện đối tượng . . . . . . . . . . . . . . . . . . . . . . .
14
2.4. Mô hình hỗn hợp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
Chương 3. HUẤN LUYỆN MÔ HÌNH CỦA CÁC ĐỐI TƯỢNG . . . . . . . . . . . . . .
18
3.1. Huấn luyện mơ hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.2. Khởi tạo các tham số của bài tốn huấn luyện mơ hình . . . . . . . . . . . . . . . . . . . .
20
Chương 4. TRÍCH XUẤT ĐẶC TRƯNG CỦA ĐỐI TƯỢNG . . . . . . . . . . . . . . . . .
25
4.1. Trích xuất đặc trưng HOG của đối tượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
4.2. PCA và phân tích giảm số chiều của vector đặc trưng . . . . . . . . . . . . . . . . . . . . .
27
VII
Chương 5. KẾT QUẢ THỰC NGHIỆM VÀ KẾT LUẬN . . . . . . . . . . . . . . . . . . . . .
33
5.1. Các tập mẫu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
5.2. Tiêu chuẩn đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
5.3. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
5.4. Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
Phụ lục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
Chương A. CÁC BÀI BÁO LIÊN QUAN ĐẾN ĐỀ TÀI CỦA HỌC VIÊN . . . . . .
40
A.1. Histogram of Oriented Gradients based Vehicle Detection . . . . . . . . . . . . . . . .
40
A.2. Vehicle classification and detection based coarse data for warning traffic jam in
VietNam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
A.3. HOG AND GEOMETRICAL MODEL BASED MOVING VEHICLE DETECTION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
A.4. A Robust Geometric Model of Road Extraction Method for Intelligent Traffic
System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
VIII
41
Danh sách hình vẽ
1.1
Kết quả của một thuật tốn phát hiện đối tượng trong tập mẫu PASCAL
VOC 2010 [1] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2
Đối tượng và các bộ phận cấu thành . . . . . . . . . . . . . . . . . . . . . . . 6
1.3
Đối tượng khuôn mặt và sư liên kết giữa các bộ phận . . . . . . . . . . . . . . 7
2.1
Kim tự tháp đặc trưng và sự minh họa của mơ hình người . . . . . . . . . . . . 11
2.2
Mơ hình người và kết quả của chương trình phát hiện người . . . . . . . . . . . 13
2.3
Thuật tốn phát hiện đối tượng sử dụng mơ hình biến dạng từng phần [2] . . . . 16
2.4
Mơ hình hỗn hợp của một chiếc xe đạp . . . . . . . . . . . . . . . . . . . . . . 17
3.1
Thuật tốn huấn luyện mơ hình của đối tượng . . . . . . . . . . . . . . . . . . 21
3.2
Minh họa việc huấn luyện bộ lọc góc của hai đối tượng xe đạp và xe hơi . . . . 22
3.3
Mơ hình một số đối tượng hoàn thành sau khi huấn luyện. . . . . . . . . . . . . 24
4.1
Trích xuất đặc trưng HOG, (a) ảnh gốc, (b) đạo hàm theo phương ngang,
(c) đạo hàm theo phương dọc, (d) Cường độ gradient, (e) hướng gradient,
(f) Minh hoạ ảnh của HOG . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2
Minh họa việc gán hướng gradient . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3
Minh họa việc tính histogram tại các khối . . . . . . . . . . . . . . . . . . . . 32
4.4
Phân tích PCA của vector đặc tính HOG . . . . . . . . . . . . . . . . . . . . . 32
5.1
Kết quả của thuật toán phát hiện đối tượng dựa theo cấu trúc bộ phận. . . . . . 37
5.2
Kết quả của thuật toán phát hiện đối tượng. . . . . . . . . . . . . . . . . . . . 38
5.3
Kết quả của thuật toán phát hiện nhiều đối tượng cùng lúc. . . . . . . . . . . . 38
5.4
Một số trường hợp phát hiện sai đối tượng. . . . . . . . . . . . . . . . . . . . . 39
IX
Danh sách bảng
5.1
Kết quả phát hiện các nhóm đối tượng theo chỉ số AP . . . . . . . . . . . . . . 36
X
Danh mục chữ viết tắt
AP
Average Precision
CNNs Convolutional Neural Nets
DPM Deformable Part Model
FastR −CNN Fast Region-based Convolutional Network
HOG Histogram of Oriented Gradients
LBP
Local Binary Pattern
MSER Maximally Stable Extremal Region
PCA Principal component analysis
SIFT Scale Invariant Feature Transform
SURF Speeded up robust features
SV M Support Vector Machine
VOC Visual Object Classes
XI
CHƯƠNG 1
TỔNG QUAN VỀ ĐỀ TÀI
1.1. Bài toán phát hiện đối tượng
Một camera quay lại hình ảnh của tuyến phố, câu hỏi đặt ra là đặt ra là có bao nhiêu chiếc
xe đi qua tuyến phố đó trong một khoảng thời gian. Một chiếc xe ô tô thông minh phải xác
định được đâu là các chiếc xe khác hay đâu là con người. Một Robot tự hành cần phân biệt
được các đối tượng mà nó gặp phải. Các ví dụ trên là các yêu cầu cơ bản của nhiệm vụ phát
hiện đối tượng (Object detection). Phát hiện đối tượng là một trong những thách thức cơ
bản của thị giác máy tính. Nó trả lời cho câu hỏi “Đó là những đối tượng nào?”, “Đối tượng
ở đâu trong hình?”. Từ “đối tượng” ở đây được hiểu như một lớp đối tượng chắc chắn nào
đó như con người, tịa nhà, xe cộ, khn mặt v.v., mà chúng ta muốn máy tính "nhìn thấy"
ở trong hình.
Đầu vào của nhiệm vụ phát hiện đối tượng thông thường là một ảnh tĩnh và kết quả đầu
ra thường là một cặp thơng tin vị trí và nhóm đối tượng. Cho một tập hợp các nhóm đối
tượng được định nghĩa trước, mục đích là trả về danh sách chính xác nhóm đối tượng quan
tâm có ở trong hình và vị trí của mỗi đối tượng với một bounding box bó sát bao quanh
phạm vi của đối tượng.
Để trả lời cho câu hỏi “Đối tượng ở đâu trong hình?” của các ví dụ trên là một vấn đề
khơng hề đơn giản. Q trình thu nhận từ mơi trường thực tế chiếu một ảnh từ một không
gian ba chiều vào một không gian hai chiều. Thông tin thu thập được bị mất mát và bị ảnh
hưởng bởi nhiễu là điều không thể tránh khỏi. Từ đầu vào này hệ thống phát hiện đối tượng
phải chỉ ra được có những đối tượng nào trong hình và nó ở đâu. Ngay cả định nghĩa về đối
tượng nhiều khi cũng còn gây nhầm lẫn, ví dụ chúng ta định nghĩa đối tượng xe hơi (Car)
như thế nào? Nếu suy nghĩ về cách định nghĩa đó nhiều khi nó cũng gây nhầm lẫn với các
đối tượng tương tự khác như xe tải, hay một đối tượng khác mà cũng có bốn bánh. Nhưng
LUẬN VĂN CAO HỌC
GVHD: TS. TRỊNH HỒNG HƠN
Hình 1.1: Kết quả của một thuật toán phát hiện đối tượng trong tập mẫu PASCAL VOC
2010 [1]
kể cả với các đối tượng trong các lớp nhỏ hơn chúng cũng có sự khác biệt lớn vì ảnh hưởng
bởi các yếu tố như: sự tương phản của ánh sáng, hình dáng đa dạng của đối tượng, sự che
khuất một phần của đối tượng, sự xuất hiện của cùng lúc nhiều đối tượng khác nhau trong
một khung cảnh phức tạp v.v.;
Hình 1.1 minh họa kết quả của một thuật toán phát hiện đối tượng. Trong hình có ba
nhóm đối tượng "Dog", "Bicycle" và "Car" với các thách thức đặc trưng của bài toán phát
hiện đối tượng. Các đối tượng nằm chen lẫn với các đối tượng khác, một số bộ phận của đối
tượng bị che khuất, độ chiếu sáng là khác nhau đối với các đối tượng khác nhau, các đối
tượng cũng có sự biến dạng nhất định. Kết quả của bài toán là các hình chữ nhật bao quanh
đối tượng và các nhãn thể hiện nhóm đối tượng.
Việc phát hiện đối tượng có rất nhiều ứng dụng khác nhau trong nghiên cứu khoa học
cũng như trong đời sống, nó là bước đầu để máy tính có thể “nhìn” thấy thế giới. Phát hiện
HVTH: ĐINH VĂN TUYẾN - 1570373
Trang 2
LUẬN VĂN CAO HỌC
GVHD: TS. TRỊNH HỒNG HƠN
đối tượng có nhiều ứng dụng rộng rãi trong mọi mặt của đời sống như phát hiện khuôn mặt,
phát hiện người, phát hiện xe, biển báo giao thơng, các hệ thống tìm kiếm thông tin dựa
trên nội dung ảnh, các robot thông minh v.v..
1.2. Các cơng trình nghiên cứu liên quan
Phát hiện đối tượng là một đề tài nhận được nhiều quan tâm của các nhà khoa học trên thế
giới. Có rất nhiều phương pháp đã được đề xuất và được thực nghiệm, mỗi phương pháp
đều có ưu và nhược điểm riêng. Trong phần này, các phương pháp chính và nổi trội trong
thời gian gần đây được trình bày tổng quan nhằm tạo ra một cái nhìn tổng quát về bức tranh
“phát hiện đối tượng” hiện nay.
De Carrera và các cộng sự [3] đã áp dụng phương pháp phân tích thành phần chính
Principal component analysis (PCA) và thuật toán Eigenface để nhận dạng khuôn mặt.
Viola và Jones [4] đã giới thiệu khái niệm ảnh tích phân (Integral image) nhằm tính nhanh
các đặc trưng Haar-like và áp dụng phương pháp máy học Adaboost để xây dựng một bộ
phân loại mạnh được áp dụng vào việc phát hiện khn mặt với độ chính xác cao. Một
hướng tiếp cận khác là sử dụng các đặc trưng bất biến cục bộ Scale Invariant Feature
Transform (SIFT) được Lowe [5] giới thiệu như là các đặc trưng bất biến trước những biến
đổi của tỉ lệ ảnh, tịnh tiến, phép quay, không bị thay đổi một phần đối với phép biến đổi hình
học affine và thích nghi với những thay đổi về độ sáng, sự nhiễu và che khuất. Chennamma
và các cộng sự [6] đã sử dụng đặc trưng cục bộ SIFT để nhận dạng khuôn mặt trên tập ảnh
chọn lọc được cho trước và so sánh kết quả nhận dạng với thuật tốn phân tích thành phần
chính cho thấy kết quả có độ chính xác cao hơn.
Được đề xuất bởi Dalal và các cộng sự [7], đặc trưng Histogram of Oriented Gradients
(HOG) mô tả trạng thái của đối tượng bằng sự phân bố về cường độ và hướng của cạnh.
Các đặc trưng của đối tượng được đưa vào thuật toán huấn luyện phân lớp Support Vector
Machine (SVM) để tạo ra một “siêu phẳng” nhằm phân biệt giữa hai nhóm “đối tượng”
hoặc “không phải đối tượng”. Bài báo đã áp dụng thành công vào việc phát hiện người đi
bộ với độ chính xác cao trên tập ảnh INRIA Person do chính nhóm tác giả đề xuất.
Tiếp nối thành cơng của Dalal, P.Felzenszwalb và các đồng sự [8, 2] đã sử dụng thành
HVTH: ĐINH VĂN TUYẾN - 1570373
Trang 3
LUẬN VĂN CAO HỌC
GVHD: TS. TRỊNH HỒNG HƠN
cơng đặc trưng HOG kết hợp với mơ hình Deformable Part Model (DPM) để biểu diễn một
đối tượng như là một tập của các thành phần khác nhau. Nhóm tác giả đã giới thiệu một
phương pháp huấn luyện mới được gọi với cái tên Latent SVM , trong đó vị trí của mỗi phần
của đối tượng được xem như latent. Nhóm tác giả đã xây dựng mơ hình của nhiều nhóm đối
tượng khác nhau và sử dụng để phát hiện đối tượng. Hiện nay trên tập mẫu PASCAL VOC,
thuật tốn của nhóm tác giả đề xuất đang chiếm giữ vị trí là thuật tốn phát hiện đối tượng
có độ chính xác cao nhất.
Một phương pháp tiếp cận mới gần đây là sử dụng một mơ hình Deep Learning có tên
CNNs (Convolutional Neural Nets) được nhóm của Sermanet và các cộng sự [9] đề xuất.
Kết quả thực nghiệm trên tập mẫu INRIA Person giảm sai số phát hiện xuống còn 10%
đạt kết quả cao hơn nhiều so với thuật toán HOG + SVM mà Dalal [7] đã đề xuất. Hiện
nay CNNs đang được ứng dụng để hỗ trợ tìm kiếm ảnh trong Google Plus. Ross Girshick
là một trong những tác giả của hai bài báo [8, 2] đã đề xuất thuật toán Fast Region-based
Convolutional Network (Fast R-CNN) [10] nhằm cải tiến tốc độ so với R-CNN truyền
thống. Kết quả thực nghiệm trên tập PASCAL VOC 2012 cho kết quả phát hiện đối tượng
cao hơn và thời gian huấn luyện mơ hình đối tượng và thời gian detect nhanh hơn nhiều so
với CNN truyền thống.
Đề tài phát hiện đối tượng dựa vào các đặc tính cục bộ ứng dụng lý thuyết về mơ hình
DPM [2] vào việc phát hiện các đối tượng. Chương trình xây dựng dựa trên mơ hình này có
thể phát hiện được đối tượng ở trong các môi trường khác nhau, đối tượng có thể xuất hiện
với hình dáng bất kỳ và đặc biệt một số bộ phận của đối tượng có thể bị che khuất nhưng
mơ hình vẫn đưa ra được dự đốn vị trí của đối tượng.
Các tập mẫu chuẩn như PASCAL VOC [1], SUN database [11], ImageNet [12] đưa ra
rất nhiều “thử thách” đối với các thuật toán phát hiện đối tượng.
1.3. Đặc tính tồn cục và Đặc tính cục bộ
Một bộ mơ tả (descriptor) dùng một thuật tốn nào đó để mã hóa ảnh đầu vào tạo ra một
đặc trưng nhằm cho phép so khớp hai ảnh với nhau. Có nhiều cách để miêu tả các đặc trưng
khác nhau, dựa vào phạm vi của vùng được lấy đặc trưng mà các đặc trưng được chia làm
HVTH: ĐINH VĂN TUYẾN - 1570373
Trang 4
LUẬN VĂN CAO HỌC
GVHD: TS. TRỊNH HỒNG HƠN
hai nhóm:
Đặc trưng cục bộ mơ tả tổng qt tồn bộ bức ảnh. Các đặc trưng cục bộ bao gồm
các biểu diễn về đường viền (contour), các mơ tả hình dáng (Shape) và các đặc trưng bề
mặt(texture features). Các thuật tốn mơ tả đặc trưng toàn cục tiêu biểu như Shape Matrices
[13], Invariant Moments [14], HOG [7]. Các đặc trưng toàn cục thường không bền vững
với các thay đổi trong các thành phần của đối tượng. Dẫn đến kết quả sai trong các bài tốn
nhận dạng, ảnh hưởng đến bộ mơ tả kết quả. Các đặc trưng này cũng được trích xuất và áp
dụng vào các bài toán phát hiện đối tượng [15, 16, 17], và là một phần trong đặc trưng của
các đối tượng được mô tả trong luận văn này.
Đặc trưng cục bộ mô tả một phần của ảnh, thường là các điểm đặc biệt (Keypoint) của
một đối tượng. Một vài thuật tốn trích xuất đặc trưng cục bộ gồm có SIFT [5], Speeded
up robust features (SURF) [18] , Local Binary Pattern (LBP) [19] , and Maximally Stable
Extremal Region (MSER) [20] . Các đặc trưng cục bộ mô tả bền vững hơn đối với sự thay
đổi của các bộ phận của đối tượng. Đặc trưng SIFT được sử dụng trong bài báo [21], nhằm
trích xuất các điểm của các đối tượng trong 2 frame hình khác nhau. Sau đó việc phân tích
sự kết nối của các đặc tính này nhằm tạo ra một vùng quan tâm trong ảnh.
Một các tổng quát, đối với các bài toán phát hiện, phân lớp đối tượng, các đặc trưng cục
bộ thường được sử dụng. Đối với các bài toán nhận dạng đối tượng, so khớp ảnh các đặc
trưng cục bộ được áp dụng hiệu quả hơn.
Trong luận văn này khái niệm đặc trưng cục bộ được sử dụng chỉ đặc trưng được trích
xuất các bộ phận của đối tượng, kết hợp các đặc trưng cục bộ của các bộ phận của đối tượng
cho ta một cái nhìn tổng quát về một đối tượng.
1.4. Cách tiếp cận vấn đề
Quan sát các đối tượng từ thực tế, thông thường một đối tượng thường được tạo thành từ
nhiều bộ phận khác nhau. Ví dụ hình ảnh của một con người thông thường được cấu thành
từ các bộ phận như: “đầu”, “ hai tay”, “hai chân”, “mình”. Trong một đối tượng có thể bao
gồm các kết nối sâu hơn như đối với bộ phận "đầu" được đặc trưng bởi khn mặt. Một
khn mặt thường có “hai mắt”, “mũi”, “miệng”, “gị má”. Một chiếc xe hơi thơng thường
HVTH: ĐINH VĂN TUYẾN - 1570373
Trang 5
LUẬN VĂN CAO HỌC
GVHD: TS. TRỊNH HỒNG HƠN
có “bốn bánh”, “gương”, “thân xe”, “cửa kính”. Hình 1.2 minh họa đối tượng "Con Voi"
với các bộ phận chính như "vịi", "tai", "đầu", "chân" và "thân". Các bộ phận của đối tượng
trong hình vẽ có thể bị che khuất, biến dạng, thay đổi vị trí so với các đối tượng khác cùng
loại.
Hình 1.2: Đối tượng và các bộ phận cấu thành
Xét đối tượng khn mặt trong Hình 1.3, các bộ phận như "mái tóc", "mắt", "mũi",
"tai", "miệng" được xem như các nút hay các đỉnh. Các bộ phận liên kết với nhau thông qua
các kết nối là các cạnh minh họa cho sự dịch chuyển vị trí so với vị trí tương đối của các
bộ phận khác. Đồng thời các bộ phận có thể xuất hiện hoặc khơng tương ứng với sự tồn tại
của các đỉnh, khi đó các cạnh kết nối cũng xuất hiện tương ứng. Đó là những quan sát thực
tế về hình ảnh của các đối tượng trong thế giới thực.
Nếu một hình ảnh thu nhận được của một đối tượng có càng đầy đủ các bộ phận thì xác
suất đó chính là “đối tượng” càng cao. Trong một số trường hợp, một số bộ phận của đối
tượng không xuất hiện hoặc bị che lấp trong hình. Tuy nhiên dựa vào số lượng của các bộ
phận xuất hiện, chúng ta có thể đưa ra được dự đốn “bao nhiêu phần trăm” đó là đối tượng
dựa theo một ngưỡng cho trước.
Từ cách tiếp cận đối tượng theo sự kết hợp của các phần khác nhau, và tổng quan của
các thuật toán phát hiện đối tượng trong luận văn này một mơ hình của các đối tượng được
xây dựng nhằm giải quyết được các vần đề sau:
• Xây dựng mơ hình tổng quan cho bài toán phát hiện đối tượng dựa theo cấu trúc của
HVTH: ĐINH VĂN TUYẾN - 1570373
Trang 6
LUẬN VĂN CAO HỌC
GVHD: TS. TRỊNH HỒNG HƠN
Hình 1.3: Đối tượng khuôn mặt và sư liên kết giữa các bộ phận
các bộ phận.
• Xây dựng thuật tốn rút trích đặc trưng của từng bộ phận riêng lẻ của đối tượng, mà
đặc trưng đó các các đặc tính bất biến đối với các phép biến đổi như độ sáng, sự thay
đổi khung nhìn (xoay) của đối tượng, sự biến dạng của đối tượng. Đồng thời kích
thước của đặc trưng được tạo ra phải đảm bảo đủ nhỏ để đáp ứng tốc độ của thuật
tốn.
• Mơ hình đáp ứng được cấu trúc đa dạng của đối tượng, nhóm đối tượng có nhiều hình
dáng khác nhau
• Xây dựng được thuật tốn huấn luyện mơ hình của đối tượng đáp ứng được các u
cầu của bài toán phát hiện đối tượng.
Từ các yêu cầu đặt ra kết hợp với việc khảo sát các thuật toán phát hiện đối tượng luận
văn đề xuất các thuật tốn xây dựng mơ hình cho bài tốn phát hiện đối tượng dựa theo các
đặc trưng cục bộ như sau:
• Xây dựng mơ hình đối tượng dựa theo thuật tốn DPM [2] và mơ hình trộn (mixture
model) của đối tượng nhằm thích ứng với sự đa dạng, gồm nhiều thành phần con và
sự che khuất một phần của đối tượng.
HVTH: ĐINH VĂN TUYẾN - 1570373
Trang 7
LUẬN VĂN CAO HỌC
GVHD: TS. TRỊNH HỒNG HƠN
• Trích xuất đặc trưng các phần của đối tượng sử dụng thuật tốn HOG [7]. Thuật tốn
trích xuất đặc trưng HOG bền vững đối với các biến đơi hình học như xoay, biến
dạng, sự thay đổi cường độ ánh sáng.
• Sử dụng thuật tốn PCA nhằm giảm kích thước của vector đặc trưng, trong khi vẫn
giữ được tính bất biến đối với các phép biến đổi.
• Huấn luyện mơ hình các lớp đối tượng sử dụng thuật toán Latent SVM.
1.5. Ý nghĩa khoa học
Luận văn xây dựng mơ hình phát hiện đối tượng dựa theo các đặc trưng cục bộ nhằm đáp
ứng nhu cầu thực tiễn, giải quyết các thách thức khó khăn của bài toán phát hiện đối tượng.
Mặt khác luận văn cũng mang lại một số ý nghĩa khoa học nhất định:
• Việc xây dựng mơ hình phát hiện đối tượng dựa theo các đặc trưng cục bộ là phù hợp
với nhận thức thông thường của con người đối với một đối tượng cụ thể.
• Việc phát hiện đối tượng dựa trên các phần khác nhau thường cho kết quả phát hiện
chính xác cao, đáp ứng được tính đa dạng của nhiều đối tượng khác nhau trong thế
giới thực, kể cả trong trường hợp ảnh thu thập được bị che khuất một phần, thay đổi
góc nhìn, thay đổi mức sáng, bị biến dạng. . .
• Việc lựa chọn tham số tối ưu cho q trình trích xuất đặc trưng và huấn luyện đối
tượng có ý nghĩa trong việc nâng cao tốc độ, độ chính xác của q trình phát hiện đối
tượng.
• Kết quả của việc phát hiện chính xác đối tượng là tiền đề để cho máy tính “hiểu”
được nội dung của một bức ảnh ngày một sâu sắc hơn.
1.6. Tóm lược luận văn
Cấu trúc của luận văn được chia thành các phần như sau, Chương 1 trình bày tổng quan về
bài toán phát hiện đối tượng và cách tiếp cận bài toán dựa theo cấu trúc từng phần. Chương
HVTH: ĐINH VĂN TUYẾN - 1570373
Trang 8
LUẬN VĂN CAO HỌC
GVHD: TS. TRỊNH HỒNG HƠN
2 trình bày mơ hình tổng quan của bài tốn phát hiện đối tượng theo từng phần. Chương 3
trình bày cách huấn luyện mơ hình đối tượng dựa theo thuật tốn Latent-SVM. Chương 4
trình bày cách trích xuất đặc trưng của từng phần. Chương 5 giới thiệu về các tập mẫu và
kết quả áp dụng của thuật tốn trên các tập mẫu đó. Cuối cùng kết luận lại những đóng góp
chính và tồn tại của của luận văn.
HVTH: ĐINH VĂN TUYẾN - 1570373
Trang 9
CHƯƠNG 2
XÂY DỰNG MƠ HÌNH ĐỐI TƯỢNG DỰA VÀO
CÁC ĐẶC TÍNH CỤC BỘ
2.1. Mơ hình tồn cục
Mơ hình trong bài toán phát hiện đối tượng này nhằm chỉ các bộ lọc tuyến tính được áp
dụng trên các lớp đặc trưng tại các vị trí và độ phân giải khác nhau (dense feature maps).
Một lớp đặc trưng (feature map) là một mảng mà các phần tử là một vector có độ dài bằng
d được tính tốn từ một lưới dày đặc tại các vị trí trong một ảnh. Một cách trực quan thì
một lớp đặc trưng là một mảnh của ảnh cục bộ. Thuật tốn để tính lớp đặc trưng này có
thể dùng các thuật tốn khác nhau như HOG [7], Shape Matrices [13], Dense SIFT, Shape
Context [22]...vv. Trong luận văn này thuật tốn HOG được sử dụng và được trình bày chi
tiết trong Chương 3. Tuy nhiên mơ hình tổng quát là độc lập so với việc sử dụng các thuật
tốn trích xuất đặc trưng khác nhau.
Một bộ lọc F là một mẫu hình chữ nhật được định nghĩa bởi một mảng của các vector
trọng số có độ dài bằng d. Đáp ứng hoặc điểm của bộ lọc F tại vị trí (x, y) trong lớp đặc
trưng G là tích vô hướng của bộ lọc và một cửa sổ con của lớp đặc trưng tại góc trên trái
của ảnh (x, y):
Score (p0 ) =
∑F
x , y .G x + x , y + y
(2.1)
x ,y
Để xác định điểm tại các vị trí và tỷ lệ ảnh khác nhau, kim tự tháp đặc trưng được sử
dụng. Kim tự tháp đặc trưng chỉ ra một lớp đặc trưng tại một số hữu hạn các tỉ lệ của ảnh,
được tính bằng cách sử dụng ảnh đầu vào và lặp lại các phép làm trơn và tính lại tỷ lệ
(smoothing and subsampling) tương tự như khái niệm Gaussian Pyramid trong bài báo của
Lowe [5]. Sau đó thì tính lớp đặc trưng từ mỗi cấp của kim tự tháp này. Hình 4 minh họa
LUẬN VĂN CAO HỌC
GVHD: TS. TRỊNH HOÀNG HƠN
cách xây dựng ảnh kim tự tháp và đáp ứng tại các cấp khác nhau.
Không gian tỉ lệ trong kim tự tháp đặc trưng được đặc trưng bởi tham số λ xác định số
cấp trong mỗi ocatave. λ là số lần cần giảm kích thước ảnh trong kim tự tháp mà độ phân
giải của ảnh lần sau cao gấp đôi ảnh lần trước. Việc lấy mẫu mịn hơn trong không gian tỉ
lệ (scale space) giúp đạt được kết quả phát hiện chính xác hơn. Tuy nhiên khi tăng λ lên thì
việc tính tốn lại trở nên chậm hơn. Trong luận văn này λ được chọn bằng 5 khi thực hiện
huấn luyện mơ hình và được chọn bằng 10 khi chạy kiểm thử trên các tập mẫu.
Hình 2.1: Kim tự tháp đặc trưng và sự minh họa của mơ hình người
Hệ thống của [7] sử dụng một bộ lọc đơn để định nghĩa mô hình của một đối tượng. Hệ
thống này phát hiện đối một đối tượng bằng cách tính điểm của điểm của bộ lọc tại các vị
trí và tỉ lệ khác nhau của kim tự tháp đặc trưng HOG, sau đó sử dụng một ngưỡng để xác
định sự tồn tại của đối tượng. Cho F là một bộ lọc co kích thước w × h, H là kim tự tháp
đặc trưng, và p = (x, y, l) chỉ rõ vị trí (x, y) tại cấp thứ l của kim tự tháp. Cho φ (H, p, w, h)
là vector đạt được bằng cách nối các vector đặc trưng trong cửa sổ có kích thước w × h của
H với góc trên trái tại p theo thứ tự hàng. Đáp ứng của bộ lọc F tại p là F · φ (H, p, w, h),
HVTH: ĐINH VĂN TUYẾN - 1570373
Trang 11