BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI
Nguyễn Hồng Quân
NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP
TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN HỌC SÂU
TRONG TÁI ĐỊNH DANH NGƯỜI
LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ
Hà Nội−2023
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI
Nguyễn Hồng Quân
NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP
TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN HỌC SÂU
TRONG TÁI ĐỊNH DANH NGƯỜI
Ngành: Kỹ thuật điện tử
Mã số: 9520203
LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. VÕ LÊ CƯỜNG
2. TS. NGUYỄN VŨ THẮNG
Hà Nội−2023
LỜI CAM ĐOAN
Tơi xin cam đoan các kết quả trình bày trong luận án là cơng trình nghiên
cứu của bản thân nghiên cứu sinh trong thời gian học tập và nghiên cứu tại
Đại học Bách khoa Hà Nội dưới sự hướng dẫn của tập thể hướng dẫn khoa
học. Các số liệu, kết quả trình bày trong luận án là hồn toàn trung thực.
Các kết quả sử dụng tham khảo đều đã được trích dẫn đầy đủ và theo đúng
quy định.
Hà Nội, ngày 12 tháng 10 năm 2023
Nghiên cứu sinh
Nguyễn Hồng Quân
TẬP THỂ HƯỚNG DẪN KHOA HỌC
LỜI CẢM ƠN
Trong q trình nghiên cứu và hồn thành luận án này, nghiên cứu sinh
đã nhận được nhiều sự giúp đỡ và đóng góp quý báu. Đầu tiên, nghiên cứu
sinh xin được bày tỏ lòng biết ơn sâu sắc tới tập thể hướng dẫn: Tiến sĩ Võ
Lê Cường và tiến sĩ Nguyễn Vũ Thắng. Các thầy cô đã tận tình hướng dẫn,
giúp đỡ nghiên cứu sinh trong suốt quá trình nghiên cứu và hồn thành luận
án. Nghiên cứu sinh xin chân thành cảm ơn Khoa Điện tử, Trường Điện Điện Tử Đại học Bách Khoa Hà Nội. Tôi cũng xin cám ơn các thầy cô và
các anh chị em Viện Nghiên cứu quốc tế Mica Đại học Bách khoa Hà Nội đã
giúp tơi có được một mơi trường nghiên cứu tuyệt vời. Tôi xin cám ơn trường
Đại học Công nghiệp Việt - Hung đã tạo nhiều điều kiện thuận lợi cho tôi về
mọi mặt trong suốt thời gian tôi làm nghiên cứu sinh. Xin chân thành cảm
ơn Phòng Đào tạo - Đại học Bách Khoa Hà Nội đã tạo điều kiện để nghiên
cứu sinh có thể hồn thành các thủ tục bảo vệ luận án tiến sĩ. Cuối cùng,
nghiên cứu sinh xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè đồng nghiệp
đã ln động viên, giúp đỡ nghiên cứu sinh vượt qua khó khăn để đạt được
những kết quả nghiên cứu như hôm nay.
MỤC LỤC
LỜI CAM ĐOAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
i
LỜI CẢM ƠN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT . . . . . . . . . . . . .
vi
DANH MỤC CÁC BẢNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
viii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ . . . . . . . . . . . . . . . . . . . . . . . . .
x
MỞ ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
Chương 1. NGHIÊN CỨU TỔNG QUAN . . . . . . . . . . . . . . . . . . . . .
12
1.1. Trích chọn đặc trưng hình ảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
1.2. Mạng nơ-ron tích chập . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
1.3. Mạng Nơ-ron hồi quy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
1.4. Bài toán tái định danh người . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.1. Định nghĩa bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.2. Một số nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.3. Độ đo khoảng cách và độ đo tương tự . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.4. Độ đo đánh giá kết quả tái định danh. . . . . . . . . . . . . . . . . . . . . . . . . .
36
36
37
42
43
1.5. Nén mạng học sâu và triển khai trên FGPA . . . . . . . . . . . . . . . . . . . . . . . .
44
1.6. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
Chương 2. TRÍCH CHỌN ĐẶC TRƯNG HỌC SÂU CỤC BỘ TRONG
TÁI ĐỊNH DANH NGƯỜI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
2.1. Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
2.2. Các đề xuất cho trích chọn đặc trưng mức ảnh trong tái định danh
2.2.1. Đề xuất 1: Trích đặc trưng cục bộ cho ảnh với mạng RestNet50
2.2.2. Đề xuất 2: Kết hợp các đặc trưng theo chiến lược kết hợp muộn
2.2.3. Đề xuất 3: Tính khoảng cách giữa hai tập đặc trưng cục bộ bằng
đo EMD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
49
51
độ
53
2.3. Thử nghiệm và đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1. Cơ sở dữ liệu cho bài toán tái định danh . . . . . . . . . . . . . . . . . . . . . . .
2.3.2. Kết quả thử nghiệm của đề xuất 1 - Trích đặc trưng cục bộ cho
RestNet50 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii
55
55
ảnh
57
2.3.3. Kết quả thử nghiệm đề xuất 2 - Chiến lược kết hợp muộn đặc trưng
59
2.3.4. Kết quả thử nghiệm của đề xuất 3- So sánh đặc trưng cục bộ với
khoảng cách EMD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.4. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
Chương 3. KHAI THÁC ĐẶC TRƯNG VIDEO DỰA TRÊN MẠNG
NƠ-RON HỒI QUY TÁI ĐỊNH DANH NGƯỜI . . . . . . . . . . . . . . .
67
3.1. Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
3.2. Một số kiến trúc mạng Nơ-ron hồi quy phổ biến . . . . . . . . . . . . . . . . . . .
3.2.1. Recurrent Neural Network (RNN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.2. Long Short-term Memory (LSTM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3. Long Short-term Memory với cặp cổng (LSTMC) . . . . . . . . . . . . . .
3.2.4. Long Short-term Memory với kết nối Peephole (LSTMP). . . . . . .
3.2.5. Gated Recurrent Unit (GRU) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
69
70
71
72
73
3.3. Đánh giá hiệu quả của các mạng Nơ-ron hồi quy cho bài toán tái định
danh sử dụng chuỗi hình ảnh. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.3.1. Mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.3.2. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.4. Đề xuất cải thiện đặc trưng mức chuỗi ảnh với mạng VGG16 và kiến trúc
GRU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.4.1. Mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.4.2. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.5. Đề xuất nâng cao hiệu quả mô hình bằng đặc trưng thủ cơng (GOG)
hợp sử dụng thuật toán học độ đo khoảng cách . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1. Mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.2. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
kết
80
81
82
3.6. Triển khai và đánh giá một hệ thống tái định danh . . . . . . . . . . . . . . . .
3.6.1. Mô tả hệ thống . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.2. Xây dựng cơ sở dữ liệu FAPR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.3. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
85
85
87
3.7. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
93
Chương 4. NÉN MẠNG HỌC SÂU ĐỊNH HƯỚNG TRIỂN KHAI
TRÊN PHẦN CỨNG - FPGA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
4.1. Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
4.2. Kỹ thuật nén mạng học sâu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1. Cắt tỉa mạng (pruning) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
97
iv
4.2.2. Lượng tử hóa (quantization) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
4.3. Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.3.1. Nhị phân hóa giá trị trọng số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.3.2. Lượng tử hóa các giá trị trọng số và giá trị kích hoạt tương ứng với
lớp mạng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.3.3. Hàm kích hoạt Clamping Rectified Linear Unit - CReLU. . . . . . 101
4.3.4. Kiến trúc luồng của bộ tăng tốc mạng tích chập . . . . . . . . . . . . . . 103
4.3.5. Tính tốn tài ngun phần cứng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.4. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.4.1. Mạng học sâu VGG16-SSD và bài toán phát hiện đối tượng trên ảnh
104
4.4.2. Cơ sở dữ liệu CIFAR-10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.4.3. Cơ sở dữ liệu PASCAL VOC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.4.4. Nén mạng VGG16 với bài toán phân lớp ảnh trên CSDL CIFAR-10.
107
4.4.5. Nén mạng VGG16-SSD với bài toán phát hiện đối tượng trên ảnh
hướng tới triển khai trên FPGA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.5. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
110
KẾT LUẬN VÀ KIẾN NGHỊ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
112
DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ . . . . . . . . . . .
115
TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
116
v
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Viết tắt
Nghĩa tiếng Anh
Nghĩa tiếng Việt
BackBone
BackBone Network
Mạng
xương
sống
(mạng
chính).
bbox
Bounding box
Vùng đối tượng trên ảnh.
CNN
Convulutional Neural Network
Mạng nơ-ron tích chập.
CMC
Cummulative Matching Char-
Một dạng biểu đồ thể hiện chất
acteristic
lượng kết quả đối sánh theo thứ
hạng.
DNN
Deep Neural Network
Mạng nơ-ron sâu.
CSDL
Dataset
Cơ sở dữ liệu.
CV
Computer Vision
Thị giác máy tính.
DBN
Deep belief networks
Tên một loại mạng sâu.
DSP
Digital Signal Processing
Xử lý tín hiệu số.
EMD
Earth Mover’s Distance
Một loại độ đo khoảng cách
giữa hai tập.
FC
Full connected
Kết nối đầy đủ.
FPGA
Field Programmable Gate Ar-
Vi mạch dùng cấu trúc mảng
ray
phần tử logic có thể lập trình
được.
Gallery
Gallery set
Tập trưng bày.
GOG
Gaussian of Gaussian
Tên một loại đặc trưng thủ
công.
GPU
Graphics Processing Unit
Bộ xử lý đồ họa.
GRU
Gated Recurrent Unit
Một biến thế của mạng Nơ-ron
hồi quy.
HOG
Histogram of Oriented Gradi-
Tên một loại đặc trưng ảnh.
ents
ID
Identity
Định danh.
LBP
Local Binary Patterns
Tên một loại đặc trưng ảnh.
LSTM
Long Short Term Memory
Một biến thế của mạng nơ-ron
hồi quy.
vi
RNN
Recurrent neural network
Mạng nơ-ron hồi quy.
Probe
Probe set
Tập thăm dò (Tập truy vấn).
PE
Processing Element
Một đon vị xử lý (trong
FPGA).
R-CNN
Region-based
Convolutional
Neural Network
Một kiến trúc mạng nơ-ron tích
chập cho bài tốn phát hiện đối
tượng trên ảnh.
RankSVM
Tên một giải thuật học độ đo
khoảng cách
ReLU
Rectified Linear Unit
Tên một đơn vị xử lý trong
mạng nơ-ron.
ResNet
Residual Neural Network
Tên một loại mạng nơ-ron tích
chập.
SIFT
Scale-Invariant Feature Trans-
Tên một loại đặc trưng ảnh.
form
SORT
SSD
Simple Online and Realtime
Một giải thuật theo vết đối
Tracking
tượng.
Single Shot multiBox Detector
Một kiến trúc mạng cho bài
toán phát hiện đối tượng trên
ảnh.
SURF
Speeded-Up Robust Features
Tên một loại đặc trưng ảnh.
SVM
Support Vector Machine
Tên một giải thuật phân lớp.
Tracklet
Một chuỗi các vùng ảnh của
một đối tượng trên các khung
hình liên tiếp trong video.
VGG
Tên một loại mạng nơ-ron tích
chập.
YOLO
You look Only Once
Một kiến trúc mạng học sâu
cho phát hiện đối tượng trên
ảnh.
XQDA
Cross-view Quadratic Discrim-
Tên một giải thuật học độ đo
inant Analysis
khoảng cách.
vii
DANH MỤC CÁC BẢNG
1.1
Thời gian thực hiện phát hiện đối tượng [Microsoft Research, NIPS2015]24
1.2
Cấu trúc mạng trích chọn đặc trưng thể hiện bề ngoài của DeepSORT[39] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.1
Kết quả tái định danh sử dụng đặc trưng ResNet đề xuất trên cơ
sở dữ liệu VIPER. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.2
Kết quả tái định danh sử dụng đặc trưng ResNet gốc và ResNet
đề xuất trên cơ sở dữ liệu PRID-2011 và iLIDS-VID. . . . . . . . . . . 59
2.3
So sánh kết quả đạt được của đề xuất 2 trong luận án với các
phương pháp khác trên hai cơ sở dữ liệu PRID-2011 và iLIDSVID. Kết quả tốt nhất được in đậm. . . . . . . . . . . . . . . . . . . . 61
2.4
So sánh kết quả đạt được của phương pháp trong đề xuất 2 với
các phương pháp hiện có trên cơ sở dữ liệu VIPeR. Kết quả tốt
nhất được in đậm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.5
So sánh kết quả thu được với đề xuất 3 sử dụng độ đo EMD
trong luận án và phương pháp gốc sử dụng độ đo DMLI trên 3
CSDL VIPeR, Market1501-Partial và DukeMTMCReID-Partial
trong trường hợp chia ảnh thành 8 vùng. Các kết quả tốt nhất
trong từng nhóm phương pháp được bôi đậm. . . . . . . . . . . . . . . 64
2.6
Kết quả tái định danh trên CSDL VIPER dựa trên đề xuất 3 với
số lượng vùng được chia khác nhau. . . . . . . . . . . . . . . . . . . . 65
3.1
So sánh kết quả khi dùng các kiến trúc mạng Nơ-ron hồi quy khác nhau76
3.2
So sánh thời gian thực thi . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.3
So sánh hiệu suất của mơ hình được đề xuất khi áp dụng các
chiến lược gộp theo thời gian khác nhau . . . . . . . . . . . . . . . . . 79
3.4
So sánh hiệu quả của mơ hình được đề xuất và các cơng trình đã
cơng bố . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.5
So sánh kết quả của phương pháp đề xuất và một số phương pháp
khác trên 2 CSDL PRID-2011 và iLIDS-VID . . . . . . . . . . . . . . 83
3.6
Cơ sở dữ liệu FAPR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
viii
3.7
Kết quả thử nghiệm trên cơ sở dữ liệu FAPR khi sử dụng bộ phát
hiện YOLOv3 và bộ theo vết DeepSORT. . . . . . . . . . . . . . . . . . 90
3.8
Kết quả thử nghiệm trên cơ sở dữ liệu FAPR khi sử dụng thuật
bộ phát hiện Mask R-CNN và bộ theo vết DeepSORT . . . . . . . . . 90
3.9
Tỷ lệ đối sánh đúng tại xếp hạng thứ nhất (%) trong bài toán tái
định danh với các ngữ cảnh khác nhau. . . . . . . . . . . . . . . . . . 94
4.1
Bảng tham số lượng tử hóa các giá trị kích hoạt cho VGG16 thực
thi trên CIFAR-10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.2
Độ chính xác và độ rộng bít khi nén mơ hình VGG16 với kỹ thuật
được đề xuất, so sánh với các nghiên cứu khác trên CSDL CIFAR-10 108
4.3
Chi tiết các tham số lượng tử hóa mơ hình VGG16-SSD thực thi
trên cơ sở dữ liệu VOC07+12 . . . . . . . . . . . . . . . . . . . . . . . 109
4.4
So sánh với các phương pháp nén khác trên mạng VGG16-SSD . . . 110
ix
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
1
2
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
1.11
1.12
1.13
1.14
1.15
1.16
1.17
1.18
1.19
1.20
1.21
1.22
1.23
Các mốc lịch sử về phát hiện và nhận dạng đối tượng bao gồm
các phương pháp trích chọn đặc trưng [2] . . . . . . . . . . . . . . . . 3
Một hệ thống tái định danh đầy đủ. Phạm vi bài toán tái định
danh được đánh dấu bởi vùng màu đỏ . . . . . . . . . . . . . . . . . . 5
Học máy với các đặc trưng được trích chọn thủ công . . . . . . . . . . 13
Học máy với các đặc trưng được trích chọn thơng qua mơ hình học sâu14
Cấu trúc một mạng nơ-ron tích chập cơ bản . . . . . . . . . . . . . . . 15
Cấu trúc mạng LeNet [15] . . . . . . . . . . . . . . . . . . . . . . . . . 16
Cấu trúc mạng AlexNet [1] . . . . . . . . . . . . . . . . . . . . . . . . . 16
Cấu trúc mạng VGG16 [17] . . . . . . . . . . . . . . . . . . . . . . . . 18
Cấu trúc mạng GoogleNet inception v1 [18] . . . . . . . . . . . . . . . 18
Mạng ResNet-50 [19]. a) Cấu trúc mạng; b) Khối nhận dạng; c)
Khối tích chập . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Một số dấu mốc và nghiên cứu đáng chú ý của mạng học sâu
trong bài toán phát hiện đối tượng. . . . . . . . . . . . . . . . . . . . . 21
Mơ hình R-CNN [27] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Mơ hình kiến trúc một mạng Fast R-CNN [26] . . . . . . . . . . . . . 22
Mơ hình Faster R-CNN [26] . . . . . . . . . . . . . . . . . . . . . . . . 23
Cấu trúc mạng YOLOv1 [26] . . . . . . . . . . . . . . . . . . . . . . . 25
Các bước dự đoán đối tượng của YOLOv1 [26] . . . . . . . . . . . . . 26
Thời gian thực thi và độ chính xác một số mạng học sâu phát
hiện đối tượng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
So sánh YOLOv4 với các phương pháp phát hiện đối tượng hiện
tại [31]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Mơ hình kiến trúc mạng của SSD [21] . . . . . . . . . . . . . . . . . . 28
So sánh tốc độ và độ chính xác của một số bộ theo vết. . . . . . . . . 31
Kiến trúc chung của một mạng Nơ-ron hồi quy. a) Sơ đồ rút gọn;
b) sơ đồ khi được trải ra. . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Một số mơ hình ứng dụng kiến trúc mạng Nơ-ron hồi quy . . . . . . . 35
Tái định danh người trong mạng camera giám sát [50]. . . . . . . . . 36
Bộ mơ tả GOG được trích chọn ở mức ảnh trên các không gian
màu khác nhau [51]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Sơ đồ trích đặc trưng LOMO cho ảnh . . . . . . . . . . . . . . . . . . 39
x
1.24 Đặc trưng học sâu được trích chọn trên ba vùng ảnh sử dụng trúc
mạng CNN 5 lớp [56] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
2.14
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
Mơ hình chung cho bài toán tái định danh. . . . . . . . . . . . . . . . 48
Phân bố các bộ phận trong hình ảnh người theo chiều dọc . . . . . . 49
Trích đặc trưng sử dụng mạng ResNet-50 áp dụng chiến lược chia
7 vùng ảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Một ví dụ về tính hiệu quả của đặc trưng GOG và đặc trưng
ResNet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Khai thác thông tin cục bộ ảnh cùng khoảng cách EMD cho mơ
hình bài toán tái định danh . . . . . . . . . . . . . . . . . . . . . . . . 54
Một ví dụ về việc tính tốn khoảng cách EMD giữa hai tập đặc
trưng cục bộ của hai ảnh người . . . . . . . . . . . . . . . . . . . . . . 55
Một số hình ảnh trong cơ sở dữ liệu VIPER. . . . . . . . . . . . . . . 56
Một số hình ảnh trong cơ sở dữ liệu PRID2011 và iLID-VID. . . . . . 56
Một số hình ảnh trong hai bộ CSDL. . . . . . . . . . . . . . . . . . . . 57
Tỷ lệ so khớp đúng khi áp dụng các chiến lược kết hợp muộn
trong đề xuất 2 với 3 đặc trưng khác nhau trên hai CSDL a)
PRID-2011 và b) iLIDS-VID. . . . . . . . . . . . . . . . . . . . . . . . 60
Giá trị trung bình của trọng số thích nghi ứng với mỗi đặc trưng
trên cơ sở dữ liệu PRID-2011 với 10 lần ngẫu nhiên chia cơ sở dữ liệu.61
Tỷ lệ so khớp đúng khi áp dụng các chiến lược kết hợp muộn
trong đề xuất 2 với 3 đặc trưng khác nhau trên cơ sở dữ liệu VIPeR. 62
Kết quả thử nghiệm trên các CSDL a) VIPeR, b)Market1501Partial and c) DukeMTMCReID-partial. Phương pháp trong đề
xuất 3 là Local (EMD) và Global + Local (EMD) . . . . . . . . . . . 64
Minh họa kết quả tái định danh trong CSDL Market1501-Partial
của phương pháp cơ sở sử dụng độ đo DMLI và phương pháp đề
xuất dùng độ đo EMD. Các kết quả đúng được đánh dấu bằng
màu xanh. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Chuỗi hình ảnh thu được của 3 người khác nhau trong CSDL
PRID-2011 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Các phương pháp đơn giản để làm việc với chuỗi hình ảnh. . . .
Cấu trúc một mạng RNN . . . . . . . . . . . . . . . . . . . . . .
Cấu trúc một nút trong mạng LSTM [42] . . . . . . . . . . . . .
Cấu trúc một nút trong mạng LSTMC . . . . . . . . . . . . . . .
Cấu trúc một nút trong mạng LSTMP . . . . . . . . . . . . . .
Cấu trúc một nút trong mạng GRU [43] . . . . . . . . . . . . . .
Các bước thử nghiệm tái định danh sử dụng chuỗi hình ảnh . .
xi
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
67
68
70
71
72
72
73
74
3.9 Kết quả thử nghiệm trên 2 tập dữ liệu . . . . . . . . . . . . . . . . . . 76
3.10 Mạng học sâu Khơng gian - thời gian cho bài tốn tái định danh . . 78
3.11 Mơ hình đề xuất cải tiến mạng RFA [62] cho bài toán tái định
danh. Sự thay đổi được thể hiện trong hai khối màu đỏ. . . . . . . . . 81
3.12 So sánh hiệu quả của LBP-Color và GOG trên CSDL PRID-2011 . . 82
3.13 Kết quả thử nghiệm với mô hình đề xuất . . . . . . . . . . . . . . . . 83
3.14 Mơ hình cho một hệ thống tái định danh hồn toàn tự động. . . . . . 85
3.15 Một ví dụ mơ tả kết quả thu được trong bước phát hiện người
a) Các bounding boxes được dự đoán và nhãn gốc tương ứng của
chúng được biểu diễn bởi các khung hình chữ nhật màu xanh lá
cây và màu vàng. b) một số lỗi xuất hiện trong bước phát hiện:
phát hiện bộ phận cơ thể người hoặc bounding box chứa nhiều
hơn một người. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.16 Ví dụ về kết quả thu được trong bước theo vết a) tracklet hoàn
hảo, b) chuyển đổi ID, và c) một tracklet chỉ có một vài bounding box.92
3.17 Ví dụ kết quả đạt được trong bước tái định danh a) đối sánh đúng
and b) đối sánh sai. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.1
4.2
4.3
4.4
4.5
4.6
4.7
Kỹ thuật cắt tỉa mạng . . . . . . . . . . . . . . . . . . . . . . . . . .
Kỹ thuật lượng tử hóa trọng số của mạng nơ-ron . . . . . . . . . . .
Biểu đồ phân bố các giá trị trọng số hoặc giá trị kích hoạt . . . . .
Sự khác biệt giữa ReLU và CReLU [72] . . . . . . . . . . . . . . . .
Kiến trúc luồng cho bộ tăng tốc mạng tích chập. . . . . . . . . . .
Cấu trúc mạng VGG16-SSD . . . . . . . . . . . . . . . . . . . . . . .
Một số ví dụ về sự phân bố các giá trị kích hoạt trong một vài
lớp của mơ hình VGG-16 với 10.000 ảnh của tập dữ liệu CIFAR-10.
xii
.
.
.
.
.
.
98
98
102
102
103
105
. 107
MỞ ĐẦU
1. Tính cấp thiết
Thị giác máy tính (Computer Vision) là một trong những lĩnh vực đã và đang
nhận được nhiều quan tâm của cộng đồng nghiên cứu. Trong đó bấy kỳ một hệ
thống thị giác máy tính nào, thành phần phân tích nội dung ảnh/video để đưa
ra những thơng tin hữu ích đóng vai trị rất quan trọng. Tuy nhiên, để xây dựng
được thành phần này lại chứa đựng nhiều rất nhiều thách thức. Để máy tính
có thể hiểu và mơ tả được nội dung dữ liệu ảnh/video có rất nhiều bài toán đã
được đặt ra. Các bài toán tiêu biểu của thị giác máy tính gồm: phân loại đối
tượng, phát hiện đối tượng trong ảnh/video, phân tách vùng ảnh đối tượng với
các vùng ảnh khác, ... Mỗi bài tốn có những thách thức riêng và cần có những
cách tiếp cận giải quyết khác nhau.
Khởi nguồn từ năm 1966, Seymour Papert và Marvin Minsky, hai nhà tiên
phong về trí tuệ nhân tạo, đã khởi động một dự án mang tên "Summer Vision
Project" nhằm tạo ra một hệ thống máy tính có thể nhận dạng các vật thể trong
ảnh. Vào thời điểm thực hiện dự án này, công nghệ chủ đạo được áp dụng chỉ là
trí tuệ nhân tạo dựa trên tập luật (rule-based AI), bản chất là tìm ra các quy
tắc để phát hiện ra đối tượng được con người xác lập dựa trên tri thức và kinh
nghiệm. Hướng tiếp cận này đã không đem lại hiệu quả cao do không thể thiết
kế được một quy tắc tổng quát cho những thể hiện đa dạng của đối tượng trong
ảnh. Hướng tiếp cận khác là dựa trên học máy hoặc tiếp cận dựa trên nhận
dạng mẫu. Các giải thuật học máy được thiết kế để tìm ra các mẫu hoặc các
quy luật tri thức từ dữ liệu, từ đó tự suy ra các luật và dự đoán cho các dữ liệu
có dạng tương tự gặp được sau khi huấn luyện. Đây là phương pháp học dựa
trên dữ liệu và buộc phải có dữ liệu hay các quan sát trước từ môi trường. Khác
với phương pháp tiếp cận dựa trên luật ở trên, từ dữ liệu trong trường hợp cụ
thể để suy ra các luật ẩn trong dữ liệu nhằm dự đoán và sử dụng cho trường
hợp tổng quát hoặc các dữ liệu khác tương tự. Dựa trên các quan sát thu được
về dữ liệu, học máy có thể cải thiện độ chính xác theo thời gian. Đây là hướng
tiếp cận chủ yếu của trí tuệ nhân tạo hiện nay. Gần đây, các mạng Nơ-ron nhân
tạo học sâu (DNN - Deep Neural Network) đã tạo ra những đột phá mới, cho
phép cải tiến đáng kể hiệu năng cho nhiều bài toán. Nhờ những tiến bộ của các
mạng học sâu, lĩnh vực thị giác máy tính cũng ngày càng có những bước phát
triển nhảy vọt với các kết quả đáng kinh ngạc.
1
Khi giải quyết các bài toán cơ bản của lĩnh vực thị giác máy tính bằng học
máy, trích trọn đặc trưng ảnh/video là một trong những yếu tố đóng vai trị
quan trọng, quyết định hiệu quả của hệ thống. Trích chọn đặc trưng cho phép
giữ lại các đặc điểm quan trọng nhất của đối tượng cần nhận dạng trên ảnh, từ
đó có thể loại bỏ dư thừa, nhiễu cũng như tạo ra biểu diễn cô đọng hơn cho đối
tượng thay vì các thơng tin điểm ảnh như ban đầu. Một đặc trưng được gọi là
hiệu quả nếu nó biểu diễn được các đặc điểm riêng mang tính phân biệt của đối
tượng này so với các đối tượng khác.
Hiện nay, có hai hướng tiếp cận chính cho bài tốn trích chọn đặc trưng
đối tượng trong ảnh/video: (1) trích chọn thủ cơng (hand-designed/handcrafted
features) và (2) trích chọn tự động thơng qua các mạng học sâu, hay còn được
gọi là các đặc trưng học sâu (deep-learned features). Các phương pháp trích chọn
đặc trưng thủ cơng có thể khai thác những thơng tin về màu sắc (color), hình
dạng (shape), hoặc kết cấu (texture)... của ảnh một cách tường minh. Chúng
được trích chọn theo một giải thuật đã được thiết kế cố định từ trước dựa trên
kinh nghiệm của các chuyên gia. Mặc dù các loại đặc trưng thủ công này đem
lại nhiều kết quả tốt cho các hệ thống thị giác máy tính nhưng việc áp dụng các
đặc trưng thủ công vẫn tồn tại một số hạn chế như: mỗi loại đặc trưng thủ cơng
đều hướng tới khai thác một đặc điểm nào đó của đối tượng quan sát do đó đặc
trưng này chỉ thực sự hiệu quả đối với một loại dữ liệu nhất định; số lượng các
đặc trưng thủ cơng là có hạn trong khi dữ liệu thực tế là vô hạn và rất đa dạng
do có sự biến đổi lớn trong thực tế; việc triển khai các hệ thống sử dụng các đặc
trưng thủ cơng cần có nhiều kinh nghiệm của các chuyên gia trong việc lựa chọn
loại đặc trưng phù hợp cho bài tốn được triển khai. Trong khi đó, các mạng
học sâu ra đời theo cách tương tự như việc con người học tập từ dữ liệu thực tế.
Nhờ đó máy tính có thể tự động tìm ra cách thức trích chọn đặc trưng phù hợp
cho loại dữ liệu mới thay cho con người. Đặc trưng được trích chọn theo phương
pháp này được gọi là đặc trưng học sâu. Hướng tiếp cận này đã giải quyết được
một số hạn chế của đặc trưng thủ cơng khi khơng cịn q phụ thuộc vào kinh
nghiệm của các chuyên gia trong quá trình trích chọn đặc trưng. Cùng với sự
ra đời của các kiến trúc mạng học sâu, cách tiếp cận để giải quyết các bài toán
cơ bản của thị giác máy tính cũng dần thay đổi. Ví dụ như bài tốn phát hiện
đối tượng trên ảnh. Lịch sử phát triển các giải thuật phát hiện và nhận dạng
đối tượng trên ảnh gắn liền với lịch sử phát triển của các giải thuật trích trọn
đặc trưng. Điều này được thể hiện trong Hình 1 với những mốc thời gian quan
trọng. Trong đó năm 2012 với sự ra đời của mạng AlexNet [1] có thể coi như là
một mốc thời gian cho sự bắt đầu của các đặc trưng học sâu.
Về cấu trúc, trong mỗi mơ hình học sâu đều chứa một khối quan trọng phục
vụ cho việc trích chọn đặc trưng tự động từ các dữ liệu đầu vào, được gọi chung
2
Deep Learning for Generic Object Detection: A Survey
3
SIFT
(Lowe)
19
99
Cascades
(Viola and Jones)
20
01
HOG
(Dalal and Triggs)
20
03 2004 005
2
Bag of Words
(Sivic and Zisserman)
20
DPM
(Felzenszwalb et al.)
06
20
SPM
(Lazebnik et al.)
PASCAL
SURF VOC
(Bay et al.)
08
20
09
20
10
20
11
20
12
20
HOG-LBP Selective Search
(Wang et al.) (Van de Sande et al.)
ImageNet
13 2014 2015
20
16
MS COCO
Fast RCNN
(Ross Girshick) Mask RCNN
OverFeat
(He et al.)
(Sermanet et al.)
Faster RCNN
(Ren et al.)
Focus of this survey
ResNet
RCNN
(Girshick et al.) (He et al.)
GoogLeNet
(Szegedy et al.) DenseNet
(Huang et al.)
DCNN AlexNet
VGGNet
(Krizhevsky et al.) (Simonyan and Zisserman)
Efficient Subwindow Search
(Lampert et al.)
Improved FV
Region Covariance
(Perronnin et al.)
(Tuzel et al.)
Fig. 4 Milestones of object detection and recognition, including feature representations [47, 52, 101, 140, 147, 178, 179, 212, 248, 252, 263, 276, 279], detection
frameworks [74, 85, 239, 271, 276], and datasets [68, 166, 234]. The time period up to 2012 is dominated by handcrafted features, a transition took place in 2012
Hình
1: Các mốc lịch sử về phát hiện và nhận dạng đối tượng bao gồm các phương pháp trích chọn
with the development of DCNNs for image classification by Krizhevsky et al. [140], with methods after 2012 dominated by related deep networks. Mostof the
listed
methods[2]
are highly cited and won a major ICCV or CVPR prize. See Section 2.3 for details.
đặc trưng
Table 1 Summary of related object detection surveys since 2000.
No.
Survey Title
Ref. Year
Venue
là mạng lõi
(backbone).
Các tham
số của
mạng Annày
sẽ Content
được cập nhật trong quá
Monocular Pedestrian Detection: Survey and
evaluation of three pedestrian detectors
1
[66] 2009
PAMI
Experiments
trình học2 từSurveytập
dữDetection
liệufor Advanced
huấn [79]
luyện.
Dữ Aliệu
huấn luyện càng nhiều, càng đa
of Pedestrian
2010
PAMI
survey of pedestrian detection for advanced driver assistance systems
Driver Assistance Systems
Pedestrian Detection: An Evaluation of the State
A thorough and detailed evaluation of detectors in monocular images
dạng thì 3càng có khả
năng tạo[59]ra2012được
PAMI một bộ tham số tốt cho mơ hình. Các
of The Art
4
Detecting Faces in Images: A Survey
[294] 2002
PAMI
First survey of face detection from a single image
thành phần
của
mơ
hình
học
sâuCVIUcó thể là
một bộ phân lớp, bộ phát hiện
A khác
Survey on Face
Detection
in the Wild:
Past,
5
[301] 2015
A survey of face detection in the wild since 2000
Present and Future
A review of vision based on-road vehicle detection systems
đối tượng6 hoặc
bộVehicle
phân
ảnh,...
On Road
Detection: đoạn
A Review
[258] 2006 tuỳ
PAMI vào từng ứng dụng cụ thể. Trong nhiều
7
Text Detection and Recognition in Imagery: A
[295] 2015
PAMI
A survey of text detection and recognition in color imagery
Survey
trường hợp thuật ngữ
mô hình học sâu và mạng
học sâu được sử dụng thay thế
Representative papers on object categorization, detection, and
8
Toward Category Level Object Recognition
[215] 2007
Book
segmentation
lẫn nhau.9 Mặc
dùof Object
cácCategorization
mạng
học
sâu có
khảA trace
năng
làm việc với hầu hết các loại
The Evolution
and the
[56] 2009
Book
of the evolution of object categorization over four decades
Challenge of Image Abstraction
Context based Object Categorization: A Critical
A review of contextual information for object categorization
dữ liệu và10 bài
tốn Survey
khác nhau nhưng
trong thực
tế, để có được những mơ hình
[78] 2010 CVIU
11
50 Years of Object Recognition: Directions
[5]
2013
CVIU
A review of the evolution of object recognition systems over five decades
Forwardbài tốn cụ thể cũng có nhiều thách thức. Hiện nay, Có
học sâu phù hợp với
Instance and category object recognition techniques
12
Visual Object Recognition
[91] 2011 Tutorial
rất nhiều13 kiếnObject
trúc
mạng
học sâu
khác
cùng
cácmethods
biến
thể của chúng
Class Detection:
A Survey
[310] 2013
ACM CS nhau
Survey
of generic với
object detection
before 2011
Feature Representation for Statistical Learning
Feature representation methods in statistical learning based object
14
[160] 2015
PR
based Object Detection: A Review
detection, including handcrafted and deep learning based features
đã được đề
xuất.
Mỗi kiến trúc [19]
mạng
học sâu
đềuA survey
có fornhững
ưu điểm và hạn chế
15
Salient Object Detection: A Survey
2014
arXiv
salient object detection
Representation Learning: A Review and New
Unsupervised feature learning and deep learning, probabilistic models,
[13] cải
2013 tiến
PAMI
riêng. Do16 đó, việc Perspectives
nghiên cứu và
các autoencoders,
mạngmanifold
họclearning,
sâuand deep
vẫn
luôn là chủ đề
networks
17
Deep Learning
[149] 2015 Nature
An introduction to deep learning and applications
A
Survey onnhu:
Deep Learning
in Medical
Image kiến trúc mạng,
A survey ofchiến
deep learning lược
for image classification,
detection, và tối ưu
được quan
tâm
cải
tiến
huấnobjectluyện
18
[170] 2017
MIA
Analysis
segmentation and registration in medical image analysis
Recent Advances in Convolutional Neural
A broad survey of the recent advances in CNN and its applications in
2017 hợp
PR
hoặc đơn19giản là lựa
chọn mạng[92]phù
với computer
bài vision,
toán.
Networks
speech and natural language processing
20
Tutorial: Tools for Efficient Object Detection
2015 ICCV15
A short course for object detection only covering recent milestones
high level summary
ofrộng
recent work lớn
on deep learning
visual
Như chúng
ta thấy, thị giác máy2017tính
mộtA lĩnh
vực
với fornhiều
bài toán
21
Tutorial: Deep Learning for Objects and Scenes
CVPR17
recognition of objects and scenes
A short course of recent advances on instance level recognition, including
22
Tutorial: Instance
Recognition
2017 hay
ICCV17 còn được gọi là định danh lại người là
khác nhau.
Trong
đóLeveltái
định danh
object detection, instance segmentation and human pose prediction
A tutorial on methods and principles behind image classification, object
23
Tutorial: Visual Recognition and Beyond
2018 CVPR18
detection,
segmentation,
and semantic
segmentation.
một bài toán
đã và đang thu hút được
nhiều
sựinstance
quan
tâm
trong
thời gian gần
24 Deep Learning for Generic Object Detection Ours 2019
VISI
A comprehensive survey of deep learning for generic object detection
đây. Nó khơng những liên quan trực tiếp đến vấn đề trích chọn đặc trưng đối
the papertrên
with anảnh/video
overall discussionmà
of object
state-oftượng
nódetection,
cịn liên
quan mật thiết đến các vấn đề cơ bản khác
the- art performance, and future research directions.
của thị giác máy tính như: phát hiện đối tượng và theo vết đối tượng. Trong bài
toán tái định danh, đối tượng ở đây có thể là người, xe cộ hay bất kỳ vật thể
hữu hình nào. Các kết quả nghiên cứu cho bài tốn này có thể được áp dụng
vào các hệ thống tìm kiếm người thơng qua camera giám sát trong thực tế. Rất
nhiều các bài toán trong thị giác máy tính trong đó có tái định danh người đang
được tiếp cận nhiều theo hướng sử dụng học sâu. Tuy nhiên học sâu cũng có
những nhược điểm của nó, nhược điểm lớn nhất của nó phải kể đến đó là kích
thước của các mơ hình học sâu thường lớn. Điều này gây cản trở việc triển khai
các mạng học sâu trên các thiết bị phần cứng có nguồn tài nguyên hạn chế. Do
−
−
−
−
3
vậy rất cần những nghiên cứu để giảm kích thước cho các mạng học sâu.
Như vậy, việc nghiên cứu và phát triển các phương pháp trích chọn đặc trưng
dựa trên học sâu trong tái định danh người là rất cần thiết ở thời điểm hiện tại.
2. Mục tiêu nghiên cứu
Luận án tập trung nghiên cứu và phát triển các mô hình học sâu nhằm cải
thiện chất lượng đặc trưng ảnh/video thu được trong bài toán tái định danh
người. Các mục tiêu cụ thể của Luận án như sau:
− Nghiên cứu, đề xuất phương pháp trích chọn đặc trưng ảnh hiệu
quả cho tái định danh người dựa trên học sâu. Trích chọn đặc trưng
ảnh là bước quan trọng, mang tính chất quyết định chất lượng bước đối sánh
ảnh từ đó quyết định chất lượng tái định danh. Do vậy, đặc trưng thu được
từ phương pháp đề xuất phải có tính phân biệt cao giữa hai ảnh hai người
khác nhau tương ứng, đồng thời có tính tương đồng cao giữa hai ảnh của
cùng một người. Ngoài ra, nhằm hướng tới các ứng dụng có thể dễ dàng triển
khai trong nhiều điều kiện thực tế, mục tiêu nghiên cứu được mở rộng hơn
bao gồm nén mạng học sâu hướng tới triển khai trên các thiết bị phần cứng.
− Cải tiến mơ hình tái định danh người, trong đó dựa trên các kiến
trúc mạng học sâu Nơ-ron hồi quy để tổng hợp đặc trưng mức
chuỗi ảnh (video). Trong trường hợp sử dụng chuỗi hình ảnh (videos) thay
cho hình ảnh đơn lẻ, mơ hình tái định danh người có thể được cải tiến bằng
cách nâng cao chất lượng đặc trưng cho chuỗi hình ảnh người. Với hướng
tiếp cận dựa trên học sâu, các kiến trúc mạng Nơ-ron hồi quy sẽ được nghiên
cứu để giải quyết vấn đề này. Ngoài ra, chất lượng tái định danh khơng chỉ
phụ thuộc vào phương pháp trích chọn đặc trưng mà nó cịn phụ thuộc vào
phương pháp phát hiện, theo vết, giải thuật so khớp các đặc trưng. Do đó
các giải thuật phát hiện và theo vết đối tượng và các giải thuật đối sánh
đặc trưng cũng sẽ được nghiên cứu để nâng cao chất lượng mơ hình tái định
danh người.
3. Đối tượng, phạm vi nghiên cứu và thách thức
Với các mục tiêu đặt ra như trên, đối tượng nghiên cứu của luận án được
xác định các hình ảnh, chuỗi hình ảnh người thu nhận được từ camera giám
sát. Phạm vi nghiên cứu của đề tài là bài toán tái định danh người, trong đó
tập chung vào vấn đề so khớp dựa trên trích chọn đặc trưng học sâu ảnh/video.
Các vấn đề liên quan khác như phát hiện, theo vết đối tượng dựa trên học sâu,
nén mạng học sâu và các giải thuật đối sánh đặc trưng cũng là những nội dung
thuộc phạm vi nghiên cứu của luận án.
4
Phát hiện, theo vết và tái định danh người
Ngữ cảnh của phát hiện, theo vết và tái định danh người được xem xét trong
một hệ thống tái định danh người hồn chỉnh được chỉ ra như trên Hình 2.
Trong hệ thống đó, các đối tượng di chuyển giữa các trường quan sát khác nhau
(không chồng lấn) của các hệ thống camera giám sát. Dữ liệu hình ảnh/video
được xử lý thơng qua ba khối chính, bao gồm:
Đặc trưng
Camera 1
So khớp
Camera 2
Đặc trưng
Thu nhận hình ảnh
Phát hiện người
Theo vết người
Tái định danh người
Hình 2: Một hệ thống tái định danh đầy đủ. Phạm vi bài toán tái định danh được đánh dấu bởi vùng
màu đỏ
− Phát hiện người: Mục đích của bước phát hiện người là xác định vùng không
gian ảnh chứa đối tượng cần quan tâm (người), vùng này thường được đánh
dấu là một hình chữ nhật bao trọn đối tượng (bbox - bounding box).
− Theo vết người: Một bộ theo vết đối tượng (tracker) thực hiện giải thuật
dự đoán và kết nối các vùng không gian chứa cùng một đối tượng trên các
khung hình liên tiếp. Hay nói cách khác là xác định được quỹ đạo di chuyển
của từng người trong vùng quan sát của một camera duy nhất. Kết quả thu
được là một tập các vùng đánh dấu chứa người (bbox) và các tracklet tương
ứng với mỗi người xuất hiện trong vùng quan sát của camera.
− Tái định danh: Kết quả theo vết được dùng là đầu vào bước tái định danh
thể hiện bằng khối cuối cùng được đánh dấu màu đỏ trong Hình 2. Khối này
là trọng tâm nghiên cứu của luận án. Tái định danh có nhiệm vụ so khớp
(matching) hình ảnh của những người thu được từ các cặp camera khác nhau.
Thao tác này được thực hiện bằng cách so khớp các cặp đặc trưng ảnh/video
tương ứng. Trong đó tập hợp các hình ảnh thu được từ camera dùng để truy
vấn được gọi là tập thăm dò (probe) nhiều khi còn được gọi là tập truy vấn,
tập hình ảnh thu được từ camera cịn lại được gọi là tập được truy vấn hay
tập tìm kiếm (gallery). Nhờ việc so khớp này trên từng cặp camera, kết hợp
với cấu trúc mạng lưới camera giám sát đã biết từ trước mà từ đó có thể xác
5
định đường đi của từng người trong vùng quan sát của mạng lưới camera
giám sát. Trên thực tế, việc tìm ra lời giải cho bài toán tái định danh này
phụ thuộc rất nhiều vào điều kiện áp dụng (ràng buộc). Tùy vào các điều
kiện áp dụng cụ thể mà bài toán tái định danh được phân thành các loại
khác nhau.
+ Dựa vào số lượng hình ảnh được sử dụng để đại diện cho một người
(ID) thì bài tốn tái định danh được chia thành 2 loại: Tái định danh
sử dụng đơn hình ảnh (Single-shot) và tái định danh sử dụng chuỗi ảnh
(Multi-shot). Trong khi loại đơn hình ảnh chỉ sử dụng một hình ảnh
cho mỗi người trên 1 camera thì loại chuỗi hình ảnh lại sử dụng cả một
chuỗi hình ảnh (video) để đại diện cho một người trên 1 camera.
+ Dựa vào việc khơng có hay có sự khác nhau (định danh) giữa những
người xuất hiện trong tập truy vấn và tập thư viện mà người ta chia
thành 2 loại: Bài toán tái định danh cho tập dữ liệu đóng - tập đóng
(Close set) và bài tốn tái định danh cho tập dữ liệu mở - tập mở (Open
set). Trong trường hợp tập đóng, hình ảnh người được truy vấn chắc
chắn có trong tập tìm kiếm. khi đó tái định danh là xác định người nào
trong tập thư viện phù hợp nhất với người được truy vấn. Đối với trường
hợp tập mở, vấn đề trở nên khó khăn hơn khi người được truy vấn sẽ có
thể khơng tồn tại trong tập thư viện.
+ Dựa vào sự chênh lệch về thời điểm thu nhận tập ảnh truy vấn và tập
ảnh thư viện mà người ta phân bài toán tái định danh thành 2 loại:
Bài toán tái định danh ngắn hạn (Short term) và dài hạn (Long term).
Tái định danh ngắn hạn ít thách thức do những người xuất hiện trong
hình ảnh vẫn chưa có nhiều sự thay đổi trang phục và diện mạo trong
quá trình di chuyển từ vùng quan sát của camera này sang vùng quan
sát của camera khác, ngược lại loại dài hại sẽ thách thức hơn nhiều khi
mà thời điểm thu nhận hình ảnh truy vấn bởi camera này và hình ảnh
tìm kiếm bởi camera khác cách nhau một khoảng thời gian dài. Khi đó,
rất có thể xảy ra sự khác biệt lớn về diện mạo, trang phục cũng như
các điều kiện ngoại cảnh ảnh hưởng đến chất lượng hình ảnh thu nhận
được.
Các bước phát hiện, theo vết và tái định danh đều đóng vai trị quan trọng
đối với một hệ thống tái định danh trong thực tế. Trong mỗi bước, vấn đề trích
chọn đặc trưng ảnh/chuỗi ảnh đều đóng vai trị quan trọng. Tuy nhiên, nội dung
luận án tập chung chủ yếu vào giải quyết các vấn đề của khối tái định danh
(khối được đánh dấu màu đỏ trong Hình 2) trong đó có vấn đề trích chọn đặc
trưng ảnh/chuỗi ảnh. Với ngữ cảnh được đề cập như trên, có một số ràng buộc
6
nhất định cần xem xét đối với phát hiện, theo vết và tái định danh người. Các
ràng buộc này bao gồm:
− Mơi trường: Dữ liệu hình ảnh có được thu nhận trong nhiều loại môi trường
khác nhau. Một số được thu nhận với mơi trường ngồi trời thậm chí với
cường độ ánh sáng khác nhau như CSDL VIPeR [3], PRID-2011 [4]. Một
số dữ liệu được thu với điều kiện trong phịng (với ánh sáng điện) lẫn ngồi
trời như FAPR hoặc ga tàu điện ngầm như iLIDS-VID [5].
− Camera: Trong tất cả trường hợp được trình bày trong luận án này, dữ
liệu hình ảnh đều được thu nhận bởi camera RGB lắp cố định và không
chồng lấn nhau về trường quan sát.
− Số lượng người di chuyển trong vùng thu của camera: Số lượng người xuất
hiện trong khung hình biến đổi lớn. Sự di chuyển của người là hỗn độn
với tốc độ di chuyển khác nhau, có thể cùng chiều hoặc ngược chiều do đó
đơi khi dẫn đến che lấp nhau nhưng thường khơng che lấp trong suốt q
trình di chuyển. Tỷ lệ che lấp cũng thay đổi.
− Điều kiện thu nhận dữ liệu: Dữ liệu hình ảnh dạng video đều được thu
nhận với tốc độ từ 15 đến 25fps với độ phân giải biến đổi lớn. Khoảng thời
gian đối tượng xuất hiện trong trường quan sát của camera này đến khi
xuất hiện trong trường quan sát của camera khác ngắn (Chưa có sự thay
đổi về diện mạo bên ngồi). Đối tượng đã xuất hiện trong camera này thì
sẽ xuất hiện trong camera khác.
Căn cứ vào các ngữ cảnh và ràng buộc được nêu ở trên, việc trích chọn đặc
trưng ảnh người cho phát hiện, theo vết và tái định danh có những thách thức
sau:
− Điều kiện chiếu sáng thay đổi: Ánh sáng môi trường tại các camera khác
nhau trong mạng camera có thể rất khác nhau. Ngồi ra, khi di chuyển,
đối tượng quan tâm có thể đi qua các vùng với điều kiện chiếu sáng khác
nhau (nhiều trường hợp do sự cản sáng của các vật thể của môi trường)
khiến cho việc tái định danh người ở các vùng quan sát khác nhau của
camera sẽ trở nên khó khăn hơn.
− Hiện tượng che khuất: Với những cảnh thu đông người, việc che khuất giữa
người nọ với người kia trong một khung hình xảy ra thường xuyên. Điều
này cũng ảnh hưởng nhiều tới chất lượng kết quả của phát hiện, theo vết
và tái định danh người. Việc trích chọn đặc trưng người khi bị che khuất
cũng gặp thách thức lớn.
7
− Kích thước đối tượng trong ảnh biến đổi lớn: Trong khi di chuyển, khoảng
cách của đối tượng quan sát đến camera có thể thay đổi dẫn đến kích thước
hình ảnh của đối tượng biến đổi. Đây cũng làm một vấn đề gay khó khăn
trực tiếp cho việc trích chọn đặc trưng.
− Việc sử dụng nhiều camera khác nhau cũng có thể dẫn đến sự chênh lệnh
về chất lượng hình ảnh hoặc sự khác biệt về thể hiện bề ngoài của cùng
một người khi được quan sát bởi các camera khác nhau.
Nén mạng và triển khai trên FPGA Mạng học sâu đem lại hiệu quả cao
trong rất nhiều ứng dụng. Tuy nhiên, kiến trúc mạng thường phức tạp với nhiều
trọng số cũng như nhiều giá trị trung gian cần lưu trữ giữa các lớp mạng dẫn
đến yêu cầu cao về bộ nhớ và tài ngun tính tốn. Nén mạng và triển khai trên
FPGA là một giải pháp để khắc phục nhược điểm trên và mang lại nhiều lợi ích
quan trọng như: hiệu suất tính tốn cao, tiết kiệm năng lượng, tính linh hoạt và
triển khai thời gian thực. Những ưu điểm này làm cho FPGA trở thành một lựa
chọn phù hợp cho việc triển khai các ứng dụng học sâu trên các hệ thống có tài
nguyên hạn chế và yêu cầu hiệu suất cao. Bên cạnh những ưu điểm trên, việc
nén mạng và triển khai trên FPGA còn nhiều thách thức như: (1) Khó khăn
trong việc lập trình FPGA nhất là các vấn đề song song hóa các tiến trình xử lý
hoặc tối ưu hóa tài ngun phần cứng. Khơng giống như GPU, chạy trên phần
mềm, giờ đây chúng ta chuyển đổi một thuật toán phần mềm thành các khối
thực thi phần cứng trước khi ánh xạ nó lên các FPGA. (2) Do các mạng DNN
nói chung có một lượng tham số rất lớn nên cần phải thực hiện các giải thuật
nén mạng trước khi có thể triển khai chúng trên phần cứng. Trong quá trình
thực hiện nén các mạng DNN, việc đề xuất được các phương pháp nén mạng,
các tham số nén mạng tối đa hóa được tỷ lệ nén nhưng vẫn giữ lại được độ tin
cậy tương đương với mạng gốc cũng là một thách thức cần giải quyết. Trong
trường hợp có một phương pháp nén mạng hiệu quả, một kiến trúc phần cứng
phù hợp, việc triển khai các mạng học sâu lên FPGA có thể khơng cần thêm bộ
nhớ ngồi. Khi đó hiệu xuất hoạt động sẽ được phát huy tối đa.
4. Phương pháp nghiên cứu
Phương pháp thu thập, phân tích và tổng kết kinh nghiệm
− Tìm hiểu các phương pháp trích chọn đặc trưng thủ cơng (hand-designed
features) và đặc trưng học sâu trên cơ sở nghiên cứu các kiến trúc học sâu
phổ biến trong lĩnh vực thị giác máy tính.
− Tìm hiểu bài tốn tái định danh người sử dụng hình ảnh từ mạng camera
giám sát bao gồm: các khó khăn, thách thức; các hướng tiếp cận; các tham
8
số tác động đến hiệu quả của một hệ thống tái định danh. Thu thập các số
liệu về kết quả tái định danh đã được công bố cũng với các điều kiện thử
nghiệm làm cơ sở cho việc đối sách kết quả của phương pháp được đề xuất
sau này.
− Tìm hiểu và nghiên cứu một số chiến lược kết hợp đặc trưng nhằm nâng cao
độ chính xác của bài tốn tái định danh trong đó có sử dụng đặc trưng thu
được từ đề xuất cải tiến kiến trúc mạng học sâu của NCS.
− Thu thập các cơ sở dữ liệu dùng chung cho bài tốn tái định danh người.
− Tìm hiểu các PP nén mạng và các kết quả triển khai trên phần cứng. Phân
tích các ưu và nhược điểm của từng phương pháp từ đó đề xuất phương pháp
nén mạng phù hợp.
Từ các kết quả tìm hiểu, tiến hành phân tích để tìm ra ưu và nhược điểm của
từng phương pháp làm căn cứ đề xuất các cái tiến phù hợp.
Phương pháp quan sát
Quan sát các cơ sở dữ liệu phục vụ bài toán tái định danh người nhằm tìm ra
đặc điểm chung của các CSDL này. Từ đó kết hợp với kết quả tìm hiểu phương
pháp trích chọn đặc trưng dựa trên học sâu đề xuất phương pháp trích chọn đặc
trưng hiệu quả cho bài tốn tái định danh.
Phương pháp thực nghiệm và mô phỏng
− Tiến hành thực hiện các thử nghiệm phương pháp đề xuất trên các CSDL
dùng chung. Các kết quả thu được sẽ được so sánh với nghiên cứu có cùng
điều kiện thử nghiệm trước đó nhằm tìm ra các ưu, nhược điểm của chúng.
− Tiến hành mô phỏng và thử nghiệm một hệ thống tái định danh với đầy đủ
các thành phần. Đánh giá kế quả cho từng thành phần của hệ thống. Từ đó
đưa ra nhận định về ảnh hưởng của các bước đến kết quả tái định danh cuối
cùng.
− Tiến hành nén mạng, mô phỏng hoạt động cảu mạng đã nén trên phần mềm
giả lập mạch FPGA và đánh giá các kết quả thu được.
5. Ý nghĩa khoa học và thực tiễn của đề tài
Ý nghĩa khoa học
Luận án hướng tới cải tiến và phát triển mơ hình học sâu cho việc trích chọn
đặc trưng ảnh/video một cách hiệu quả hơn cho tái định danh người. Rõ ràng
trích chọn đặc trưng là vấn đề nghiên cứu quan trọng bởi nó quyết định trực
tiếp đến chất lượng của bất kỳ mơ hình học máy nào không chỉ dừng lại ở bài
9
toán tái định danh người. Kết quả nghiên cứu thu được có thể làm nền tảng
cho các nghiên cứu khác nhằm nâng cao chất lượng mơ hình cho các bài toán
tái định danh người và các bài toán khác trong thị giác máy tính. Ngồi ra,
trong bài tốn tái định danh, thể hiện của cùng một người khi được quan sát
bởi nhiều camera trong nhiều điều kiện khác nhau có sự khác biệt lớn. Để có
thể tạo ra một biểu diễn hiệu quả, luận án đã cải tiến và áp dụng các mạng học
sâu nhằm khai thác được thông tin theo cả miền không gian và thời gian. Do
vậy các nghiên cứu của luận án có ý nghĩa về mặt khoa học.
Ý nghĩa thực tiễn
Tái định danh người là một bài tốn phổ biến và có tính ứng dụng cao. Tái
định danh nhằm xác định lại một người khi người đó được quan sát bởi các
camera giám sát khác nhau. Trong bài tốn này, đối tượng quan tâm là hình
ảnh người được thu nhận bởi các camera giám sát. Thành công thu được từ các
kết quả nghiên cứu cho bài tốn tái định danh có thể được áp dụng trong các
hệ thống tìm kiếm người dựa trên hình ảnh thu nhận được từ camera giám sát
trên thực tế hoặc các hệ thống truy vết xe cộ. Ngoài ra, việc nghiên cứu, thử
nghiệm các phương pháp nén mạng cũng mang lại ý nghĩa rất quan trọng. Nhờ
đó có thể triển khai các kiến trúc mạng học sâu trên các thiết bị phần cứng có
tài ngun hạn chế. Từ các phân tích trên chứng tỏ luận án có ý nghĩa về mặt
khoa học và thực tiễn.
6. Các đóng góp
Sau q trình nghiên cứu để hướng tới các mục tiêu của luận án, một số đóng
góp chính được thực hiện trong Luận án này bao gồm:
− Đề xuất cải tiến mạng trích chọn đặc trưng học sâu cho phép khai thác thông
tin cục bộ của ảnh người nhằm nâng cao chất lượng đặc trưng ảnh trong bài
toán tái định danh người sử dụng hình ảnh từ mạng camera giám sát. Cụ
thể luận án đã thực hiện cải tiến mạng ResNet-50 để trích đặc trưng ảnh
đồng thời đề xuất phương pháp đối sánh đặc trưng thu được dựa trên độ đo
khoảng cách EMD (Earth Movers Distance) cho tái định danh người. Kết
quả được trình bày tại [CT7, 8]. Ngoài ra, luận án đề xuất một phương pháp
nén mạng học sâu hướng tới việc triển khai trên phần cứng FPGA, đồng thời
thử nghiệm phương pháp này với mạng học sâu VGG16 và VGG16-SSD. Kết
quả của đóng góp này được trình bày tại [CT6]
− Đề xuất cải tiến mơ hình tái định danh dựa trên chuỗi hình ảnh sử dụng các
biến thể mạng RNN cho việc tổng hợp các đặc trưng mức chuỗi ảnh. Xây
dựng được một cơ sở dữ liệu phục vụ đánh giá đầy đủ các bước của một hệ
10
thống tái định danh đầu đủ bao gồm phát hiện, theo vết và tái định danh
người. Các hình ảnh của CSDL được thu nhận tại trường Đại học Bách Khoa
Nà Nội. Kết quả của đóng góp này được cơng bố tại [CT1, 2, 3, 4, 5]
7. Bố cục của luận án
Luận án được chia thành 4 chương, trước các chương là phần mở đầu, sau
các chương là phần kết luận và một số hướng nghiên cứu trong tương lai:
− Mở đầu: Trình bày về tính tính cấp thiết, mục tiêu nghiên cứu, ý nghĩa khoa
học và thực tiễn, các đóng góp của đề tài.
− Chương 1: Trình bày các nghiên cứu liên quan đến học sâu, các mơ hình
mạng học sâu tiêu biểu và vấn đề trích chọn đặc trung sử dụng các mơ hình
học sâu, các nghiên cứu liên quan đến bài toán phát hiện, theo vết và tái
định danh đối tượng trên ảnh sử dụng đặc trưng học sâu.
− Chương 2: Trình bày phương án cải tiến cho mạng ResNet50 nhằm nâng cao
chất lượng đặc trưng ảnh cho tái định danh người bằng cách khai thác các
thông tin ảnh cục bộ.
− Chương 3: Đánh giá hiệu quả của một số biến thể mạng RNN cho việc trích
chọn đặc trưng mức chuỗi ảnh. Đề xuất cải tiến mơ hình tái định dựa trên
chuỗi ảnh sử dụng các biến thể mạng RNN.
− Chương 4: Trình bày về đề xuất một phương pháp nén mạng học sâu hướng
tới việc triển khai các mạng này phần cứng FPGA.
− Kết luận và hướng nghiên cứu tiếp theo: Tóm tắt những kết quả đã đạt được
và đồng thời đề xuất một số hướng nghiên cứu có thể được trong tương lai.
11