Tải bản đầy đủ (.pdf) (127 trang)

Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.07 MB, 127 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI

Đào Vũ Hiệp

NGHIÊN CỨU GIẢI PHÁP KẾT HỢP ẢNH NHIỆT
VÀ ẢNH MÀU TRONG BÀI TOÁN PHÁT HIỆN
VÀ THEO VẾT ĐỐI TƯỢNG NGƯỜI

LUẬN ÁN TIẾN SĨ MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG DỮ LIỆU

Hà Nội – 2023


BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI

Đào Vũ Hiệp

NGHIÊN CỨU GIẢI PHÁP KẾT HỢP ẢNH NHIỆT
VÀ ẢNH MÀU TRONG BÀI TOÁN PHÁT HIỆN
VÀ THEO VẾT ĐỐI TƯỢNG NGƯỜI
Ngành: Mạng máy tính và truyền thơng dữ liệu
Mã số: 9480102

LUẬN ÁN TIẾN SĨ MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG DỮ LIỆU

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Trần Quang Đức

Hà Nội - 2023




LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của bản thân trong thời gian học
tập và nghiên cứu dưới sự hướng dẫn của người hướng dẫn khoa học. Các số liệu, kết
quả trình bày trong luận án là trung thực và chưa từng được tác giả khác công bố.

Hà Nội, ngày tháng năm 2023
Giáo viên hướng dẫn

Nghiên cứu sinh

PGS. TS. Trần Quang Đức

Đào Vũ Hiệp

i


LỜI CẢM ƠN
Trong quá trình học tập và nghiên cứu, nghiên cứu sinh đã nhận được
nhiều sự giúp đỡ và ý kiến đóng góp q báu của các thầy, cơ. Đặc biệt, tơi xin
bày tỏ lịng biết ơn chân thành và sâu sắc đến PGS.TS. Trần Quang Đức - người
hướng dẫn khoa học đã tận tình chỉ bảo, hướng dẫn để nghiên cứu sinh có thể
hồn thành luận án này. Nghiên cứu sinh xin gửi lời cảm ơn chân thành tới
PGS.TS. Nguyễn Linh Giang, TS. Trần Nguyên Ngọc, ThS Mạc Đình Hiếu và
các bạn sinh viên tại Trung tâm an tồn an ninh thơng tin/Trường Cơng nghệ
thơng tin và Truyền thơng/Đại học Bách Khoa Hà Nội đã nhiệt tình hướng dẫn,
giúp đỡ và tạo mọi điều kiện thuận lợi cho tơi trong suốt q trình thực hiện
Luận án.

Tơi xin cảm ơn cơ quan cơng tác, gia đình và người thân đã luôn bên tôi,
ủng hộ và động viên tôi trong suốt q trình nghiên cứu.
Tơi xin chân thành cảm ơn!
Hà Nội, ngày tháng

năm 2023

Nghiên cứu sinh

Đào Vũ Hiệp

ii


MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................ i
LỜI CẢM ƠN ............................................................................................................. ii
DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................... vi
DANH MỤC CÁC HÌNH VẼ ................................................................................... ix
DANH MỤC CÁC BẢNG ....................................................................................... xii
MỞ ĐẦU .................................................................................................................... 1
1. Bối cảnh nghiên cứu ......................................................................................... 1
2. Những thách thức và mục tiêu nghiên cứu....................................................... 5
3. Đối tượng và phạm vi nghiên cứu .................................................................... 6
4. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu....................................... 6
5. Điểm mới của luận án....................................................................................... 7
6. Cấu trúc của luận án ......................................................................................... 7
Chương 1. TỔNG QUAN VỀ CÁC VẤN ĐỀ NGHIÊN CỨU ................................. 9
1.1. Vai trị của ảnh nhiệt trong bài tốn phát hiện và theo vết đối tượng .............. 9
1.1.1. Khái quát về tín hiệu hồng ngoại ........................................................................... 9

1.1.2. Khả năng mơ tả đối tượng của các tín hiệu hồng ngoại .................................... 11
1.2. Kỹ thuật học sâu áp dụng trong bài toán phát hiện và theo vết đối tượng ............ 13
1.2.1. Cơ bản về mạng nơ ron tích chập ........................................................................ 14
1.2.2. Một số phương pháp phát hiện đối tượng sử dụng kỹ thuật học sâu ............... 15
1.2.3. Một số phương pháp theo vết đối tượng sử dụng kỹ thuật học sâu ................. 17
1.3. Bài toán phát hiện đối tượng người sử dụng kỹ thuật học sâu dựa trên ảnh
màu và ảnh nhiệt ................................................................................................... 19
1.3.1. Phân tích bài tốn .................................................................................................. 19
1.3.2. Bộ dữ liệu thử nghiệm .......................................................................................... 20
1.3.3. Độ đo hiệu năng .................................................................................................... 22
1.3.4. Các nghiên cứu có liên quan ................................................................................ 23
1.4. Bài toán theo vết đối tượng người sử dụng kỹ thuật học sâu dựa trên ảnh màu
và ảnh nhiệt ........................................................................................................... 34
1.4.1. Phân tích bài tốn .................................................................................................. 34
1.4.2. Bộ dữ liệu thử nghiệm .......................................................................................... 35

iii


1.4.3. Độ đo hiệu năng .................................................................................................... 36
1.4.4. Các nghiên cứu có liên quan ................................................................................ 37
1.5. Kết luận chương 1 .......................................................................................... 43
Chương 2. PHƯƠNG PHÁP XÁC ĐỊNH TRỌNG SỐ TRONG KẾT HỢP ẢNH
MÀU VÀ ẢNH NHIỆT ........................................................................................... 44
2.1. Ảnh hưởng của độ chiếu sáng và cường độ nhiệt đến hiệu năng phát hiện và
theo vết đối tượng người ....................................................................................... 44
2.1.1. Khảo sát ảnh hưởng của độ chiếu sáng đến hiệu năng phát hiện và theo vết đối
tượng người ...................................................................................................................... 44
2.1.2. Khảo sát ảnh hưởng cường độ nhiệt đến hiệu năng phát hiện và theo vết đối
tượng người ...................................................................................................................... 47

2.2. Các phương pháp để xác định độ chiếu sáng ................................................. 47
2.2.1. Các phương pháp để ước lượng độ chiếu sáng phổ biến .................................. 47
2.2.2. Phương pháp sử dụng độ nhiễu để xác định độ chiếu sáng .............................. 51
2.3. Đánh giá chất lượng phát hiện và theo vết đối tượng trên ảnh nhiệt ............. 56
2.4. Phương pháp xác định trọng số kết hợp ảnh màu và ảnh nhiệt trong phát hiện
và theo vết người ................................................................................................... 58
2.5. Kết luận chương 2 .......................................................................................... 64
Chương 3. PHƯƠNG PHÁP PHÁT HIỆN VÀ THEO VẾT ĐỐI TƯỢNG NGƯỜI
VỚI ĐỘ NHIỄU VÀ CƯỜNG ĐỘ NHIỆT ............................................................. 65
3.1. Các kỹ thuật nền tảng ..................................................................................... 65
3.1.1. Các thuật toán YOLO ........................................................................................... 65
3.1.2. Thuật toán SiamDW_ST ...................................................................................... 72
3.2. Thuật toán kết hợp ảnh màu và ảnh nhiệt ở mức điểm ảnh để phát hiện đối
tượng người ........................................................................................................... 74
3.2.1. Mơ tả thuật tốn ..................................................................................................... 74
3.2.2. Đánh giá kết quả .................................................................................................... 74
3.3. Thuật toán kết hợp thời gian thực ở mức kết quả để phát hiện đối tượng người ......... 78
3.3.1. Mô tả thuật toán ..................................................................................................... 78
3.3.2. Đánh giá kết quả .................................................................................................... 79
3.4. Thuật toán phát hiện đối tượng người một giai đoạn sử dụng độ nhiễu và
cường độ nhiệt ....................................................................................................... 80
3.4.1. Mô tả thuật toán ..................................................................................................... 80

iv


3.4.2. Điều kiện thử nghiệm ........................................................................................... 82
3.4.3. Kết quả thử nghiệm so sánh với các phương pháp xác định trọng số khác .... 82
3.4.4. Kết quả thử nghiệm so sánh các mức kết hợp .................................................... 83
3.4.5. Kết quả thử nghiệm so sánh với các thuật toán phổ biến .................................. 84

3.5. Thuật toán theo vết đối tượng người sử dụng độ nhiễu và cường độ nhiệt ... 88
3.5.1. Mô tả thuật toán ..................................................................................................... 88
3.5.2. Điều kiện thử nghiệm ........................................................................................... 89
3.5.3. Kết quả thử nghiệm so sánh với các thuật toán phổ biến trên toàn bộ các chuỗi
đối tượng người................................................................................................................ 90
3.5.4. Kết quả thử nghiệm so sánh với các thuật toán phổ biến riêng trên các chuỗi
dữ liệu ban ngày ............................................................................................................... 90
3.5.5. Kết quả thử nghiệm so sánh với các thuật toán phổ biến riêng trên các chuỗi
dữ liệu ban đêm ................................................................................................................ 91
3.5.6. Kết quả thử nghiệm so sánh với các thuật tốn phổ biến riêng trên các chuỗi
dữ liệu có nhiều đối tượng bị che khuất ........................................................................ 91
3.5.7. Kết quả thử nghiệm so sánh với các thuật toán phổ biến riêng trên các chuỗi
dữ liệu có nhiều đối tượng kích thước thay đổi ............................................................ 92
3.5.8. Kết quả thử nghiệm so sánh với các thuật toán phổ biến riêng trên các chuỗi
dữ liệu có nhiều khung hình camera chuyển động ....................................................... 92
3.5.9. Kết quả thử nghiệm so sánh với các thuật toán phổ biến riêng trên các chuỗi
dữ liệu có các đối tượng chuyển động liên tục ............................................................. 92
KẾT LUẬN VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN............................................ 102
DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN ................. 104
TÀI LIỆU THAM KHẢO ...................................................................................... 105

v


DANH MỤC CÁC TỪ VIẾT TẮT
STT

Chữ viết
tắt


1

DL

Deep Learning

2

CNN

Convolutional
Network

3

GPU

Graphic Processing Unit

4

ILSVRC

5

VOT

Tiếng Anh

Ý nghĩa Tiếng Việt

Học sâu
Neural Mạng nơ ron tích chập
Đơn vị xử lý đồ họa

ImageNet Large Scale Visual Bộ dữ liệu ảnh lớn trong cuộc
Recognition Challenge
thi nhận dạng trực quan
Visual Object Tracking

Theo vết đối tượng trực quan

Bộ dữ liệu các đối tượng thông
Microsoft Common Objects in
dụng trong nhiều ngữ cảnh của
COntext (MS COCO)
Microsoft

6

COCO

7

OCR

Optical Character Recognition Nhận dạng ký tự

8

HOG


Histogram
Gradients

9

ROI

Region of Interest

Vùng quan tâm

Intersection over Union

Tỷ lệ diện tích vùng giao nhau
trên vùng hợp nhau của khung
dự đoán và khung chuẩn

of

Oriented Lược đồ hướng gradient

10

IoU

11

VGG


Very Deep
Networks

12

FCN

Fully Convolutional Network

Mạng tích chập đầy đủ

13

RPN

Region Proposal Network

Mạng đề xuất vùng

14

CSPNet

15

FPN

Feature Pyramid Network

16


PAN

Path Aggregation Network

Convolutional Tên một mạng nơ ron: Mạng
tích chập rất sâu

Cross Stage Partial Network

vi

Mạng kết nối chéo giữa các
tầng
Mạng kim tự tháp đặc trưng là
một kiến trúc phát hiện đối
tượng ở nhiều tỷ lệ
Mạng tổng hợp đường cho
phép kết hợp đặc trưng từ
nhiều tầng nơ ron tích chập


17

ACF

Aggregated Channel Features

Đặc trưng kết hợp từ nhiều
kênh


18

SSD

Single Shot Multibox Detector

Tên một thuật toán phát hiện
đối tượng một giai đoạn.

19

Siamese

Sililarity Learning

Huấn luyện để xác định các
ảnh tương tự nhau

20

DCF

Discriminative
Filters

21

NCC


Normalized Cross-Correlation Tương quan chéo chuẩn hóa

22

23

24

Correlation Bộ lọc tương quan phân biệt

Thuật tốn theo vết đối tượng
sử dụng lớp tích chập đầy đủ
để xác định vị trí đối tượng

SiamFC

Fully-Convolutional Siamese

MOSSE

Tên một thuật toán theo vết
Minimum Output Sum of
đối tượng sử dụng huấn luyện
Squared Error
DCF

ATOM

Tên một thuật toán theo vết
Accurate Tracking by Overlap

đối tượng sử dụng phương
Maximization
pháp tối đa độ chồng lấn
Tên một thuật toán phát hiện

25

CIAN

Cross-Modality

interactive

attention network

đối tượng người sử dụng kết
hợp ảnh màu và ảnh nhiệt sử
dụng ngữ nghĩa của ảnh để làm
trọng số

26
27

SNR
mAP

Signal to Noise Ratio

Tỷ lệ tín hiệu trên nhiễu


mean Average Precision

Độ chính xác trung bình, được
sử dụng để đánh giá các thuật
toán phát hiện đối tượng

28

LAMR

Log Average Miss Rate

Tỷ lệ lỗi trung bình trên miền
logarit sử dụng để đánh giá các
thuật toán phát hiện đối tượng

29

FPPI

False Positive Per Image

Tỷ lệ phát hiện sai trên số
lượng ảnh được thử nghiệm

vii


30
31


32

33

fps
NMS

frame per second

Khung hình trên giây

Non-Maximum Suppression

Tên một thuật tốn loại bỏ các
ước lượng trùng nhau trong
bài toán phát hiện đối tượng

NAMPD

Tên thuật toán phát hiện đối
Noise - Aware Multispectral tượng kết hợp ảnh màu và ảnh
Perdestrian Detector
nhiệt sử dụng độ nhiễu và
cường độ nhiệt

MCFF

Tên một lớp để kết hợp các đặc
trưng của ảnh màu và ảnh

Multispectral channel feature
nhiệt. Trong đó có thể huấn
fusion
luyện để tạo ra trọng số kết hợp
tối ưu.

viii


DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Chất lượng của ảnh màu kém đi khi điều kiện chiếu sáng kém khi trời tối. ............. 9
Hình 1.2 Dải tần số sóng điện từ tương ứng với các loại tín hiệu [31]. ................... 10
Hình 1.3. Năng lượng phát xạ từ vật đen tuyệt đối theo nhiệt độ và từng bước sóng [2]....... 13
Hình 1.4. Nguyên tắc nhận thức của mạng Nơ ron trong vỏ não [32]. .................... 14
Hình 1.5. Tính tốn bản đồ đặc trưng của từng lớp tích chập [32]. ......................... 15
Hình 1.6. Kiến trúc chung của các mạng nơ ron phát hiện đối tượng [13]. ............. 16
Hình 1.7. Kiến trúc cơ bản của các thuật toán phát hiện đối tượng hai giai đoạn [7]. .... 17
Hình 1.8. Kiến trúc cơ bản của các thuật toán phát hiện đối tượng một giai đoạn [10]. . 17
Hình 1.9. Kiến trúc chung của các thuật tốn Siamese để theo vết đối tượng [19]. 18
Hình 1.10. Tạo ảnh huấn luyện bằng ảnh Gauss hai chiều với đỉnh là tâm đối tượng [20] ... 19
Hình 1.11. Một số khó khăn của bài tốn phát hiện đối tượng [41]. ........................ 20
Hình 1.12. Minh họa các chỉ số TP, FP, FN, TN. .................................................... 22
Hình 1.13. Hai kiến trúc kết hợp sớm và kết hợp muộn trong công bố của Wagner [46]. .... 24
Hình 1.14. Các kiến trúc kết hợp đặc trưng mức sớm, mức giữa, mức muộn của vanilla CovNet [44]..............25
Hình 1.15. Kết hợp mức giữa sử dụng BDT [39]. .................................................... 25
Hình 1.16. Kiến trúc tương tác để tạo trọng số của thuật tốn CIAN [30] .............. 26
Hình 1.17. Các kiến trúc kết hợp của các thuật toán phát hiện đối tượng hai giai đoạn [1]...........27
Hình 1.18. Sơ đồ mạng nhận thức độ chiếu sáng [1]. ............................................. 29
Hình 1.19. Tạo dữ liệu huấn luyện phân vùng yếu [45]. .......................................... 29
Hình 1.20. Sơ đồ mạng kết hợp phân vùng và phát hiện đối tượng (MSDS) [45]... 30

Hình 1.21. Kiến trúc lớp Multispectral channel feature fusion [60] ........................ 31
Hình 1.22. Phân tích giá trị riêng đa phân giải ......................................................... 32
Hình 1.23. Sơ đồ thuật tốn phân tích ảnh thành hai thành phần [26]. .................... 33
Hình 1.24. Sơ đồ thuật tốn DenseFusion ................................................................ 34
Hình 1.25. Hàm mật độ xác xuất của chiều dài các chuỗi [56]. .............................. 37
Hình 1.26. Sơ đồ mạng IoU-Net. .............................................................................. 38
Hình 1.27. Mơ tả sự khác nhau giữa RoI Pooling và PrRoI Pooling[16]. ............... 40
Hình 1.28. Sơ đồ thuật tốn ATOM[16]. ................................................................. 40
Hình 2.1. Kết quả phát hiện đối tượng vào ban ngày lần lượt đối với ảnh màu và ảnh nhiệt .......45
Hình 2.2. Kết quả phát hiện đối tượng vào ban đêm lần lượt đối với ảnh màu và ảnh nhiệt ........45
Hình 2.3. Đường cong EAO theo số lượng khung hình của từng trường hợp ......... 46
Hình 2.4. Chỉ số Key mơ tả các độ chiếu sáng khác nhau trong ảnh. ...................... 50
Hình 2.5. Chỉ số Key và Range mô tả độ chiếu sáng vào ban ngày và ban đêm. .... 51
Hình 2.6. Một số trường hợp sử dụng range và key không cho kết quả đúng ......... 52
Hình 2.7. Sơ đồ của phép biến đổi wavelet, ví dụ ở đây là 3 bước .......................... 53
Hình 2.8. Các hàm cơ sở (hàm mẹ) theo Daubechies với n=4 ................................. 54
Hình 2.9.Tham số được tính theo hàm Daubechies (n=4) ....................................... 54

ix


Hình 2.10. Hàm phân bố xác xuất của các chỉ số Key (hình a, b, c); Range (hình d,
e, f) và độ nhiễu (hình g, h, i). .................................................................................. 56
Hình 2.11. Biểu đồ scatter mô tả tương quan giữa cường độ nhiệt và độ tương phản
của đối tượng người với nền trong bộ dữ liệu KAIST ............................................. 58
Hình 2.12. Biểu đồ scatter mô tả tương quan giữa cường độ nhiệt và độ tương phản
của đối tượng người với nền trong bộ dữ liệu VOT ................................................. 58
Hình 3.1. Kiến trúc phát hiện đối tượng YOLO [10] ............................................... 66
Hình 3.2. Mơ tả ước lượng vị trí đối tượng của thuật tốn YOLOv2 ...................... 69
Hình 3.3. Thuật tốn YOLOv4 ................................................................................. 71

Hình 3.4. Mơ tả kiến trúc SiamDW_ST [22] ........................................................... 73
Hình 3.5. Sơ đồ các bước thuật tốn SiamDW_ST .................................................. 74
Hình 3.6. Sơ đồ tạo ảnh trộn từ ảnh màu và ảnh nhiệt sử dụng trọng số được đề xuất .... 75
Hình 3.7. Kết quả đánh giá hiệu năng của thuật toán được đề xuất và các thuật toán phổ
biến như MSVD, Two-Scale w/Sal, DenseFusion và FusionGan. Hình a, b, c là biểu
đồ MR-FPPI đối với các tập dữ liệu ban ngày, ban đêm và tồn bộ dữ liệu KAIST. Hình
d là biểu đồ tổng hợp chỉ số LAMR ............................................................................ 76
Hình 3.8. Theo từng cột là ảnh màu, ảnh nhiệt, ảnh trộn tạo bởi thuật toán đề xuất,
Two-sacle w/ Sal, MSVD, DenseFusion và FusionGan. Theo hàng là các ngữ cảnh
khác nhau trong trường, ngoài đường, trong phố (ngày và đêm). ............................ 77
Hình 3.10. Cấu trúc của thuật tốn phát hiện đối tượng........................................... 78
Hình 3.10. Đường cong MR - FPPI của thuật toán được đề xuất. ........................... 80
Hình 3.11. Sơ đồ kết hợp của thuật tốn NAMPD ................................................... 81
Hình 3.12. Kết quả đánh giá hiệu năng của thuật toán NAMPD và các chế xác định
trọng số khác. Hình a, b, c là biểu đồ MR-FPPI đối với các tập dữ liệu ban ngày, ban
đêm và toàn bộ dữ liệu. Hình d là biểu đồ tổng hợp chỉ số LAMR ............................... 85
Hình 3.13. Kết quả đánh giá hiệu năng của thuật toán NAMPD và các thuật toán phổ
biến như ACF+T+HOG; IAF R-CNN; CIAN; MSDS-RCNN; FusionCSPNet. Hình a, b,
c là biểu đồ MR-FPPI đối với các tập dữ liệu ban ngày, ban đêm và toàn bộ dữ liệu. Hình
d là biểu đồ tổng hợp chỉ số LAMR ............................................................................ 86
Hình 3.14. Minh họa một số kết quả phát hiện đối tượng theo hàng dọc là IAF RCNN, CIAN, MSDS-RCNN, FusionCSPNet và NAMPD ...................................... 87
Hình 3.15. Sơ đồ kết hợp ảnh màu và ảnh nhiệt trong thuật toán theo vết đối tượng ...... 89
Hình 3.16. Sơ đồ lớp kết hợp IoU có trọng số ......................................................... 89
Hình 3.17. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật
tốn phổ biến trên tồn bộ các chuỗi dữ liệu theo vết đối tượng người ................... 94
Hình 3.18. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật
toán phổ biến riêng trên các chuỗi dữ liệu ban ngày ................................................ 95
Hình 3.19. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật
toán phổ biến riêng trên các chuỗi dữ liệu ban đêm ................................................. 96


x


Hình 3.20. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật
toán phổ biến riêng trên các chuỗi dữ liệu có nhiều đối tượng bị che khuất............ 97
Hình 3.21. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật
toán phổ biến riêng trên các chuỗi dữ liệu có nhiều đối tượng kích thước thay đổi 98
Hình 3.22. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật toán
phổ biến riêng trên các chuỗi dữ liệu có nhiều khung hình camera chuyển động ............ 99
Hình 3.23. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật
toán phổ biến riêng trên với các chuỗi dữ liệu có đối tượng chuyển động liên tục 100
Hình 3.24. Minh họa so sánh kết quả theo vết đối tượng của các thuật toán lần lượt
trừ trên xuống: Phương pháp đề xuất, SiamDW_T, DiMP, FSRPN, CIRSDCF ... 101

xi


DANH MỤC CÁC BẢNG
Bảng 1.1. Bảng mô tả phân loại các tín hiệu hồng ngoại theo ................................ 11
Bảng 1.2. Mơ tả các tập dữ liệu của bộ dữ liệu KAIST ........................................... 21
Bảng 1.3. So sánh kết quả phát hiện đối tượng (chỉ số LAMR) của thuật toán IAN [1] ....... 28
Bảng 1.4. Thuật toán xác định hàm mất mát của lớp IoU ........................................ 38
Bảng 1.5. Kết quả đo lường EAO, A, R của một số thuật toán theo vết đối tượng . 42
Bảng 1.5. So sánh một số thuật toán theo vết đối tượng người kết hợp ảnh màu và ảnh nhiệt ....43
Bảng 1.6. Tốc độ xử lý của một số thuật toán theo vết kết hợp ảnh màu và ảnh nhiệt...................43
Bảng 2.1. So sánh chỉ số EAO, A, R của các thuật toán theo vết đối tượng trong các
điều kiện ban ngày và ban đêm ................................................................................ 46
Bảng 2.2. Đánh giá độ chính xác phát hiện đối tượng trên từng tập dữ liệu của KAIST ..............48
Bảng 2.4. Đặt trọng số kết hợp cho các tập dữ liệu huấn luyện với bộ KAIST ....... 60
Bảng 2.5. Đặt trọng số kết hợp cho các tập dữ liệu huấn luyện với bộ VOT-RGBT ............. 63

Bảng 3.1. So sánh độ chính xác và tốc độ của YOLO và Fast R-CNN, Faster R-CNN ...............67
Bảng 3.2 Kết quả so sánh độ chính xác và tốc độ của một số thuật toán phát hiện đối
tượng phổ biến .......................................................................................................... 71
Bảng 3.3. So sánh độ chính xác của một số thuật toán tạo ảnh trộn từ ảnh màu và ảnh nhiệt ......75
Bảng 3.4. Kết quả so sánh về độ chính xác và tốc độ các thuật tốn theo vết đối tượng ...............80
Bảng 3.5. Bảng mô tả kết quả đánh giá chỉ số LAMR với cách xây dựng trọng số khác nhau ...83
Bảng 3.6. Bảng mô tả kết quả đánh giá chỉ số LAMR với các mức kết hợp khác nhau ...............84
Bảng 3.7. Tốc độ xử lý của một số thuật toán phát hiện đối tượng phổ biến........... 86
Bảng 3.8. So sánh chỉ số EAO, A, R ở các mức kết hợp ảnh màu và ảnh nhiệt ...... 88
Bảng 3.9. So sánh độ chính xác, độ ổn định, chỉ số EAO của phương pháp đề xuất
và một số thuật toán theo vết đối tượng kết hợp ảnh màu và ảnh nhiệt ................... 93

xii


MỞ ĐẦU
1. Bối cảnh nghiên cứu
Ngày nay, các hệ thống xử lý ảnh được sử dụng rộng rãi trong nhiều lĩnh vực
như: Giao thông thông minh, giám sát, phát hiện vi phạm hay tai nạn; giám sát các vị
trí quan trọng như ngân hàng, trụ sở, cửa hàng; sản xuất công nghiệp, giám sát hoạt
động, phát hiện các nguy hiểm, cháy, nổ…; trong an ninh, quốc phòng, giám sát, phát
hiện xâm nhập bất hợp pháp biên giới và có thể sử dụng để điều khiển các loại vũ
khí, hỏa lực. Các hệ thống xử lý ảnh thông thường sử dụng ảnh màu là loại ảnh được
tạo bởi tín hiệu có bước sóng khả kiến (0,4÷0,7) μm. Ảnh màu có thể mơ tả đối tượng
với màu sắc, hình dạng, kích thước rõ ràng trong điều kiện chiếu sáng tốt. Tuy nhiên,
khi trời tối hoặc điều kiện thời tiết xấu, chất lượng nhận dạng dựa trên ảnh màu trở
nên kém đi. Trong khi đó, ảnh được tạo từ tín hiệu hồng ngoại bc súng di (8ữ14
àm), gi tt l nh nhit, khụng bị ảnh hưởng trong các trường hợp này [1]. Mặt khác,
các loại thiết bị để tạo ảnh từ tín hiệu này cũng có thể tiếp cận dễ dàng với chi phí
khơng cao. Vì vậy, các hướng nghiên cứu kết hợp ảnh màu với ảnh nhiệt bắt đầu được

chú ý thời gian gần đây.
Phát hiện và theo vết đối tượng (object detection and tracking) là các kỹ thuật
thị giác máy tính cơ bản được sử dụng để phát hiện các sự kiện xảy ra trong tầm quan
sát. Đối tượng người là đối tượng phổ biến, mang đầy đủ các khó khăn cơ bản của
bài toán phát hiện và theo vết như: Diện mạo thay đổi, kích thước, hình dạng đối
tượng thay đổi; dễ bị lẫn trong bối cảnh phức tạp (clutter background); đơi khi xuất
hiện khơng đầy đủ trong khung hình (occlusion) và có thể xuất hiện trong mơi trường
có độ chiếu sáng thay đổi (illumination change). Mặt khác, người cũng tương tự như
các lồi sinh vật khác, có tỷ lệ nước trong cơ thể hơn 65%, tỷ lệ hấp thụ với các sóng
điện từ ở bước sóng (9 ÷ 11) μm từ bên ngoài vào khoảng từ 0,9 đến 0,97 và bức xạ
phát xạ cơ bản phụ thuộc vào nhiệt độ của đối tượng [2]. Nhiệt độ bề mặt cơ thể người
vào khoảng 30 đến 40 độ C nên sẽ phát xạ mạnh nhất tín hiệu ở bước sóng từ 8 đến
14 μm, là tín hiệu để tạo ra ảnh nhiệt. Vì vậy, nghiên cứu kết hợp ảnh màu và ảnh
nhiệt trong bài toán phát hiện và theo vết đối tượng người có thể minh chứng được
hiệu quả kết hợp trong nhận dạng ảnh nói chung.
Trong những năm gần đây, cùng với sự phát triển của phần cứng và kỹ thuật
trong các mạng nơ ron trong học sâu (DL - Deep learning), phát hiện và theo vết đối
tượng sử dụng mạng nơ ron tích chập (CNN - Convolutional Neural Network) cho

1


thấy hiệu quả vượt trội so với các thuật toán trước đây [3] [4]. Nhờ khả năng “học”
với một lượng dữ liệu lớn, đa ngữ cảnh cũng như khả năng trích rút các đặc trưng một
cách tự động, q trình suy luận (inference) sẽ cho độ chính xác cao, có thể phát hiện
và theo vết đối tượng có kích thước, hình dạng, diện mạo thay đổi; bối cảnh lộn xộn
hoặc đối tượng chỉ xuất hiện một phần trong khung hình. Đối tượng người là một đối
tượng phổ biến trong các bộ dữ liệu huấn luyện để phát hiện và theo vết đối tượng.
Do đó, về cơ bản các thuật tốn phát hiện và theo vết đối tượng người đều được phát
triển từ các thuật toán phát hiện và theo vết đối tượng nói chung và được huấn luyện

chuyển giao (transfer learning) để phù hợp với các bộ dữ liệu chuyên biệt đối với đối
tượng người.
Đối với các thuật toán phát hiện đối tượng nói chung và đối tượng người nói
riêng sử dụng mạng nơ ron tích chập, có thể chia thành 02 nhóm theo kiến trúc một
giai đoạn hoặc kiến trúc hai giai đoạn.
- Các thuật toán phát hiện đối tượng hai giai đoạn hiện nay đều được phát triển
từ thuật tốn R-CNN, trong đó sẽ có 02 giai đoạn riêng biệt là: (i) Đề xuất các vùng
có khả năng là đối tượng; (ii) Thực hiện kép 02 việc là phân loại đối tượng và điều
chỉnh khung phát hiện đối tượng cho chuẩn xác. Điển hình của là các thuật toán phát
hiện đối tượng như: R-CNN [5], Fast R-CNN [6], Faster R-CNN [7] và Libra R-CNN
[8]; sau này là kiến trúc xếp chồng nhiều mạng R-CNN để cho độ chính xác cao như
Cascade R-CNN [9].
- Các thuật toán phát hiện đối tượng một giai đoạn kế thừa từ mạng tích chập
đầy đủ (FCN - Fully Convolutional Network), chia ảnh thành lưới các vùng để có thể
huấn luyện và suy luận đồng thời trên toàn bộ ảnh cùng lúc (whole-image-at-time).
Ngoài ra để giảm khối lượng tính tốn mà khơng làm giảm nhiều độ chính xác, có
một số kỹ thuật mới được áp dụng như vi kiến trúc - microarchitecture như các mạng:
SqueezeNet; MobileNet; ShuffleNet hoặc Darknet19/53; kỹ thuật Cross Stage Partial
Network (CSPNet), kết nối chéo giữa các tầng hay DenselyNet, tổng hợp kết nối từ
các tầng. Hiện nay, có một số thuật toán phát hiện đối tượng một giai đoạn phổ biến
như các thuật toán họ YOLO [10], [11], [12], [13]; SSD [14] hay RetinaNet [15].
Về cơ bản thì các thuật toán theo kiến trúc hai giai đoạn sẽ cho độ chính xác cao
hơn nhưng tốc độ chậm hơn kiến trúc một giai đoạn. Tuy nhiên, hiện nay cùng với sự
phát triển của các phương pháp giảm khối lượng tính tốn cũng như tăng độ chính
xác, các thuật tốn phát hiện đối tượng một giai đoạn cũng có kết quả rất tốt. Do đó,
sẽ phù hợp khi sử dụng trên các thiết bị di động, hệ thống giám sát diện rộng, rô bốt
hay xe tự lái…

2



Đối với các thuật tốn theo vết đối tượng nói chung và đối tượng người nói
riêng được phát triển theo hai hướng tiếp cận [16]: (i) Xác định vị trí đối tượng tại
khung hình tiếp theo thơng qua đối sánh khung hình với biểu diễn đối tượng (trực tiếp
hoặc đặc trưng) đã được xác định vị trí tại khung hình trước; (ii) Huấn luyện một tập
các bộ lọc tương quan phân biệt (DCF - Discriminative Correlation Filters) thông qua
đối tượng tại khung hình trước và dùng các DCF để xác định vị trí của đối tượng tại
khung hình tiếp theo.
- Theo vết đối tượng thông qua đối sánh đầu tiên sử dụng trực tiếp tương quan
của giá trị điểm ảnh thuộc vùng đối tượng với khung hình cần xác định vị trí đối
tượng như trong [17], sau đó phát triển sử dụng đối sánh với biến đổi affine của đối
tượng [18], hay sử dụng nhiều đặc trưng của đối tượng như trong [19]. Gần đây, bên
cạnh những thành công trong bài tốn phát hiện đối tượng, mạng nơ ron tích chập
cũng được sử dụng để nâng cao độ chính xác đối sánh ảnh. Cụ thể, mạng nơ ron tích
chập sau khi huấn luyện trên một bộ dữ liệu lớn sẽ thực hiện trích chọn đặc trưng từ
đối tượng và khung hình hiện tại để đối sánh, xác định vị trí đối tượng. Các mạng như
vậy được gọi là mạng Siamese (Similarity Learning) [20].
- Theo vết đối tượng dựa trên huấn luyện bộ lọc DCF được công bố đầu tiên
trong thuật tốn MOSSE, trong đó ảnh sử dụng để huấn luyện được xây dựng bằng
hàm Gauss hai chiều với đỉnh là vị trí của tâm đối tượng được xác định trong khung
hình trước; trong các khung hình tiếp theo, trọng số của bộ lọc được cập nhật khi định
vị được đối tượng [21]. Để cải tiến có các phương pháp như KCF [22], tăng số lượng
đối tượng bằng phép dịch vòng (Circulant) để phân biệt hay CSRDCF nâng cao hiệu
năng nhờ kết hợp ước lượng nhiều lớp DCF bởi nhiều loại đặc trưng như ảnh đa mức
xám (Grayscale), HoG (Histogram of Gradient), ColorNames [23]. Tương tự như các
loại đặc trưng khác, đặc trưng tích chập cũng có thể được sử dụng để huấn luyện DCF
và cho kết quả tốt.
Nhìn chung, các thuật toán dựa trên đối sánh đối tượng sử dụng mạng nơ ron
tích chập có thể xác định chính xác vị trí của đối tượng, nhưng có điểm yếu trong việc
phân biệt đối tượng với nền, làm giảm độ ổn định (chỉ số Robustness), trong khi các

thuật toán dựa trên DCF do được huấn luyện trực tuyến có thể phân biệt đối tượng
với nền tốt. Do đó, các thuật tốn có hiệu năng cao kết hợp cả hai hướng tiếp cận này
thành hai bước trong một thuật toán: (i) bước phân loại (classification) sử dụng DCF
với đặc trưng tích chập để bóc tách đối tượng và phát hiện các vị trí có khả năng là
đối tượng trong khung hình mới; (ii) bước ước lượng (estimation) để từ các vị trí có
khả năng là đối tượng trong khung hình mới, ước đốn vị trí chính xác của đối tượng.

3


Trong [16] đề xuất thuật toán theo hướng này là thuật tốn ATOM (Accurate
Tracking by Overlap Maximization), trong đó bước ước lượng vị trí xác định qua độ
chồng lấn (overlap) thay vì ước lượng trực tiếp vị trí như các các thuật tốn sử dụng
mạng Siamese. Sau đó, thuật tốn SiamDW_ST [24] nâng cao độ sâu của đặc trưng
tích chập bằng cách sử dụng ResNet-50 thay vì ResNet-18 kết hợp một số kỹ thuật
để nâng cao tốc độ tính tốn. Trong khi đó, thuật tốn DiMP [25] cải tiến bước phân
loại để đạt độ chính xác cao hơn. Mỗi thuật tốn có độ chính xác và tốc độ khác nhau,
do đó khi lựa chọn thuật tốn phù hợp cần có thử nghiệm cụ thể.
Sử dụng mạng nơ ron tích chập được huấn luyện với các đối tượng ở nhiều ngữ
cảnh khác nhau sẽ giải quyết cơ bản các vấn đề tư thế, góc nhìn, màu sắc, kết cấu đa
dạng của đối tượng; phần nào giải quyết được bài toán nền phức tạp và đối tượng bị
che khuất một phần. Tuy nhiên, khi điều kiện chiếu sáng kém đi thì các thuật toán
phát hiện đối tượng dựa trên ảnh màu sẽ cho hiệu năng kém đi. Do đó, cần phải sử
dụng thêm ảnh nhiệt để nâng cao hiệu năng.
- Các thuật toán phát hiện đối tượng người kết hợp ảnh màu và ảnh nhiệt được
phát triển bằng cách từ các mô hình đã được huấn luyện với tập dữ liệu lớn (như
COCO), thực hiện huấn luyện chuyển giao với tập dữ liệu có các cặp ảnh màu - ảnh
nhiệt có góc nhìn tương đương nhau. Luồng ảnh màu và ảnh nhiệt được kết hợp với
nhau theo các mức sau:
+ Kết hợp mức điểm ảnh để tạo ra ảnh trộn (blended images) kết hợp đầy đủ

thông tin của cả ảnh màu và ảnh nhiệt, đồng thời thuận tiện trong quan sát như trong
[26], [27], [28].
+ Kết hợp ở mức đặc trưng: Đặc trưng được tạo từ ảnh màu và ảnh nhiệt được
kết hợp bằng một lớp Network-in-Network ở một số mức như: Early Fusion - Mức
sớm (ngay sau khối đặc trưng đầu tiên); Halfway Fusion - Mức giữa (sau khối đặc
trưng gần cuối cùng) và Late Fusion - Mức muộn (sau khối đặc trưng cuối cùng) [1].
+ Kết hợp ở mức kết quả: Ghép sau khi đã có kết quả từ từng nhánh về ước
lượng khung đối tượng và độ tin cậy.
Nhìn chung, kết hợp ở mức điểm ảnh cho hiệu năng phát hiện đối tượng thấp,
nhưng thuận tiện trong quan sát khi tạo ra được ảnh trộn. Kết hợp đặc trưng ở mức
giữa cho hiệu năng cao nhất, kể cả khi so với mức kết quả [29]. Tuy nhiên, kết hợp ở
mức kết quả có ưu điểm là có thể tận dụng thêm thông tin để hậu xử lý, nâng cao độ
chính xác phát hiện đối tượng.
Gần đây, nhận thấy ảnh màu và ảnh nhiệt có đóng góp khác nhau khi kết hợp
trong điều kiện độ chiếu sáng khác nhau, một số tác giả công bố một số kỹ thuật xây

4


dựng trọng số kết hợp như: Thuật toán CIAN (Cross-Modality Interactive Attention
Network) sử dụng mã hóa phân vùng ngữ nghĩa (sematic segmentation) để xác định
trọng số, kết hợp đặc trưng mức giữa; thuật toán IAF R-CNN [1] (Illumination Aware
Fusion R-CNN) sử dụng một nhánh mạng nơ ron tích chập để ước lượng độ chiếu
sáng, từ đó xây dựng trọng số kết hợp ở mức kết quả; Zhiwei Cao và cộng sự cơng
bố trong [29] một thuật tốn kết hợp sử dụng trọng số được xây dựng thông qua một
lớp MCFF (Multispectral channel feature fusion) được huấn luyện tối ưu kết quả kết
hợp ảnh màu và ảnh nhiệt.
- Đối với các thuật toán theo vết đối tượng người kết hợp ảnh màu với ảnh nhiệt
thì tùy thuộc vào cấu trúc của thuật tốn có thể kết hợp ở nhiều mức tương tự như với
các thuật toán phát hiện đối tượng [30].

2. Những thách thức và mục tiêu nghiên cứu
Từ bối cảnh nghiên cứu đã phân tích ở trên, có thể nhận thấy các thuật toán phát
hiện và theo vết đối tượng người để có thể áp dụng trong thực tế vẫn còn tồn tại một
số thách thức như sau:
- Thách thức liên quan đến độ chính xác và tốc độ xử lý: Các khó khăn cơ bản
của bài tốn phát hiện và theo vết đối tượng như sự thay đổi của diện mạo, màu sắc
và tư thế của đối tượng; sự phức tạp của nền hay đối tượng chỉ xuất hiện một phần có
thể được giải quyết bằng kỹ thuật học sâu. Tuy nhiên, để có thể sử dụng trong các hệ
thống cần đáp ứng thời gian thực cần phải có phương án giảm khối lượng tính tốn
mà độ chính xác không bị giảm nhiều. Cũng như kết hợp nhiều nguồn ảnh để nâng
cao độ chính xác phát hiện và theo vết đối tượng.
- Thách thức liên quan đến xác định đóng góp của từng kênh khi kết hợp ảnh
màu và ảnh nhiệt: Khi điều kiện chiếu sáng tốt, ảnh màu sẽ cũng cấp nhiều thông tin
về đối tượng như màu sắc, hình dạng, kích thước chính xác… Nhưng khi trời tối,
sương mù, trời mưa thì ảnh nhiệt khơng bị ảnh hưởng và cung cấp được thông tin về
đối tượng. Do đó, khi kết hợp sử dụng nhiều nguồn ảnh cần dựa vào các đặc điểm về
môi trường chiếu sáng trên để xây dựng trọng số kết hợp để nâng cao tối đa được hiệu
năng phát hiện và theo vết đối tượng. Ngoài ra, các tập dữ liệu để huấn luyện, thử
nghiệm phát hiện đối tượng dựa trên đa nguồn ảnh có các cặp ảnh màu - ảnh nhiệt,
nhưng khơng có thông tin về trọng số để kết hợp. Trong khi đó các tập dữ liệu để thử
nghiệm theo vết đối tượng chỉ có thơng tin về đối tượng ở khung hình đầu tiên ở mỗi
chuỗi. Do đó, việc xây dựng tập dữ liệu và đánh dấu để huấn luyện trọng số kết hợp
ảnh màu và ảnh nhiệt cũng là thách thức lớn.

5


- Thách thức liên quan đến phương án kết hợp ảnh màu và ảnh nhiệt: Trong các
kiến trúc phát hiện và theo vết đối tượng dựa trên kỹ thuật học sâu, các đặc trưng của
kênh ảnh màu và ảnh nhiệt có quan hệ phi tuyến, do đó khi kết hợp đơn giản ở các

mức sớm sẽ cho hiệu năng không cao. Vì vậy, cần phải nghiên cứu và xác định được
phương án kết hợp để có thể phát huy được tối đa hiệu năng phát hiện và theo vết đối
tượng.
Từ những thách thức trên, mục tiêu nghiên cứu của luận án là nghiên cứu giải
pháp kết hợp ảnh nhiệt và ảnh nhìn thấy trong bài tốn phát hiện và theo vết đối tượng
người.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng và phạm vi nghiên cứu chính của luận án như sau:
- Nghiên cứu tổng quan về vai trò của ảnh nhiệt trong phát hiện và theo vết đối
tượng người, đánh giá hiệu năng các thuật toán phát hiện và theo vết đối tượng nói
chung và các thuật tốn kết hợp ảnh màu và ảnh nhiệt để phát hiện và theo vết đối
tượng người nói riêng. Đề xuất các thuật tốn có khối lượng tính tốn, tốc độ phù hợp
để tiếp tục thử nghiệm kết hợp ảnh màu và ảnh nhiệt.
- Nghiên cứu ảnh hưởng của điều kiện chiếu sáng đến chất lượng của ảnh màu
và ảnh nhiệt, hiệu năng của các thuật toán phát hiện, theo vết đối tượng người trên
ảnh. Đề xuất và minh chứng hiệu quả của các độ đo trên ảnh để xác định được điều
kiện chiếu sáng của môi trường và nâng cao hiệu năng phát hiện và theo vết đối tượng.
- Nghiên cứu thuật toán học sâu phát hiện đối tượng người dựa trên kết hợp
ảnh màu và ảnh nhiệt. Đề xuất sử dụng độ nhiễu trên ảnh màu và cường độ nhiệt trên
ảnh nhiệt để xây dựng trọng số kết hợp và khảo sát các mức kết hợp, so sánh kết quả
với một số thuật toán phổ biến.
- Nghiên cứu thuật toán học sâu theo vết đối tượng người dựa trên kết hợp ảnh
màu và ảnh nhiệt. Ứng dụng phương pháp xây dựng trọng số kết hợp dựa trên độ
nhiễu và cường độ nhiệt để áp dụng trong các bài toán theo vết đối tượng, thử nghiệm
và so sánh kết quả với một số thuật toán phổ biến.
4. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu
Luận án có những đóng góp về mặt khoa học và thực tiễn như sau:
a) Về ý nghĩa khoa học
Điều kiện thiếu sáng là một vấn đề lớn trong bài toán phát hiện và theo vết đối
tượng người. Việc kết hợp thông tin từ ảnh màu và ảnh nhiệt trong luận án giúp bù

trừ điểm mạnh yếu của hai loại nguồn ảnh này và giải quyết tốt hơn các bài toán phát

6


hiện, theo vết đối tượng nói riêng và các bài tốn khác trong lĩnh vực thị giác máy
tính nói chung. Việc kết hợp hai hay nhiều nguồn thông tin thế nào cho hiệu quả, bổ
trợ cho nhau là một bài tốn khơng đơn giản. Nếu giải pháp có tính tổng qt thì bài
tốn có thể mở rộng cho các nguồn dữ liệu và bài tốn tương đồng khác.
Những đóng góp của luận án được thể hiện trong 04 công bố, trong đó có 01 bài
báo trên tạp chí thuộc danh mục ISI; 01 bài báo trên tạp chí được Hội đồng chức danh
giáo sư chuyên ngành tính điểm; 02 báo cáo tại các hội nghị chuyên ngành trong nước
và quốc tế. Đối với cộng đồng khoa học, kết quả của luận án sẽ cung cấp thêm nguồn
tài liệu tham khảo hữu ích, phục vụ cho việc nghiên cứu trong lĩnh vực có liên quan.
b) Ý nghĩa thực tiễn:
Các kết quả nghiên cứu, thử nghiệm và các thuật toán phát hiện và theo vết đối
tượng sử dụng đa nguồn ảnh đã được xây dựng trong khuôn khổ nghiên cứu của luận
án có thể ứng dụng được trong các hệ thống xử lý ảnh trong dân sự và quân sự ở điều
kiện thời tiết xấu hay trong thời gian ban đêm như: Giám sát an ninh biên giới; giám
sát an toàn, an ninh trong nhà máy sản xuất; giám sát giao thông thông minh, trinh
sát, điều khiển…
5. Điểm mới của luận án
Những điểm mới của luận án đã được NCS trình bày cụ thể như sau:
- Phương pháp xây dựng trọng số kết hợp ảnh màu và ảnh nhiệt sử dụng độ
nhiễu trên ảnh màu và cường độ nhiệt trên ảnh nhiệt.
- Thuật toán học sâu phát hiện đối tượng người sử dụng kết hợp có trọng số ở
mức kết quả cho hiệu năng tốt so với các thuật toán phổ biến.
- Thuật toán học sâu theo vết đối tượng người sử dụng kết hợp có trọng số ở
mức đặc trưng sau ước lượng IoU cho hiệu năng tốt so với các thuật toán phổ biến.
6. Cấu trúc của luận án

Từ những nội dung NCS đã thực hiện trong quá trình nghiên cứu, kết quả đã
được trình bày trong luận án theo cấu trúc sau.
- Chương 1. Tổng quan về các vấn đề nghiên cứu, trình bày về vai trị của ảnh
nhiệt trong bài toán phát hiện và theo vết đối tượng người; tóm tắt về bài tốn và các
nghiên cứu có liên quan đến phát hiện và theo vết đối tượng người sử dụng kỹ thuật
học sâu nói chung và dựa trên kết hợp ảnh màu và ảnh nhiệt nói riêng.
- Chương 2. Phương pháp xác định trọng số trong kết hợp ảnh màu và ảnh
nhiệt, trình bày về ảnh hưởng của độ chiếu sáng đến độ chính xác phát hiện và theo
vết đối tượng người, các phương pháp để ước lượng độ chiếu sáng phổ biến, phương

7


pháp sử dụng độ nhiễu xác định độ chiếu sáng, tương quan của cường độ nhiệt để
đánh giá chất lượng ảnh nhiệt. Từ đó, xây dựng phương pháp xác định trọng số kết
hợp ảnh màu và ảnh nhiệt.
- Chương 3. Phương pháp phát hiện và theo vết đối tượng người với độ nhiễu
và cường độ nhiệt, trình bày các kỹ thuật nền tảng, thuật toán kết hợp ảnh màu và ảnh
nhiệt ở mức điểm ảnh, thuật toán kết hợp thời gian thực ở mức kết quả, thuật toán kết
hợp sử dụng độ nhiễu và cường độ nhiệt, thuật toán theo vết đối tượng người sử dụng
kết hợp ảnh màu và ảnh nhiệt.
Cuối cùng là Kết luận và phương hướng phát triển.

8


Chương 1. TỔNG QUAN VỀ CÁC VẤN ĐỀ NGHIÊN CỨU
1.1. Vai trị của ảnh nhiệt trong bài tốn phát hiện và theo vết đối tượng
Như ta đã biết, ảnh màu được tạo bởi tín hiệu bước sóng khả kiến (0,4÷0,7) μm
có thể mơ tả đối tượng với màu sắc, hình dạng, kích thước rõ ràng. Tuy nhiên, khi

điều kiện chiếu sáng của môi trường kém đi, ảnh màu không cung cấp đủ thông tin
để phát hiện và theo vết đối tượng (Hình 1.1). Để nâng cao hiệu quả cần phải sử dụng
bổ sung nguồn ảnh từ các tín hiệu khác. Phần sau đây sẽ khảo sát và phân tích về tín
hiệu hồng ngoại, đặc biệt là tín hiệu tạo ảnh nhiệt là loại tín hiệu hay được sử dụng
trong bài tốn phát hiện và theo vết đối tượng.

Hình 1.1. Chất lượng của ảnh màu kém đi khi điều kiện chiếu sáng kém khi trời tối.

1.1.1.Khái quát về tín hiệu hồng ngoại
Sóng hồng ngoại như mơ tả ở Hình 1.2, nằm ở miền cạnh với sóng ánh sáng khả
kiến, có bước sóng từ 700 nm đến 1mm tương ứng với tần số từ 430 THz đến 300
GHz [31].

9


Hình 1.2 Dải tần số sóng điện từ tương ứng với các loại tín hiệu [31].
Có thể tạo được ảnh từ sóng hồng ngoại nhờ các thiết bị thu nhận hồng ngoại.
Thiết bị thu nhận hồng ngoại xác định các sóng hồng ngoại khơng nhìn thấy được từ
vật thể tự bức xạ hoặc phản xạ sóng hồng ngoại và chuyển đổi thành ảnh. Sóng hồng
ngoại sử dụng trong tạo ảnh cú bc súng (0,7 ữ 20) àm. Tuy nhiờn do hiệu ứng cửa
sổ khơng khí (atmospheric windows) nên có một số bước sóng bị hấp thụ bởi khí và
độ ẩm trong khơng khí. Chính vì vậy, chỉ có ba dải bước sóng hay được sử dụng là
từ (0,7 ÷ 1,4) µm, (3 ÷ 5) µm và (8 ÷14) µm [31]. Để phân loại các tín hiệu hồng
ngoại hay sử dụng, các tín hiệu hồng ngoại thường được phân chia thành sóng ngắn
(SWIR - Short Wave InfraRed), sóng trung bình (MWIR - Mid Wave InfraRed) và
sóng dài (LWIR - Long Wave InfraRed) tương ứng với các dải bước sóng trên. Ngồi
ra, cịn có sóng cận hồng ngoại gần vùng ánh sáng nhìn thấy (NIR - Near InfraRed)
và vùng hồng ngoại xa (FIR - Far InfraRed). Tính chất của các tín hiệu hồng ngoại
được mô tả ở Bảng 1.1 sau đây.

Trong phát hiện và theo vết đối tượng thông qua ảnh được tạo từ nguồn tín
hiệu hồng ngoại chủ yếu sẽ sử dụng tín hiệu MWIR và LWIR. Các tín hiệu này có
thể được các thiết bị ảnh nhiệt thu nhận mà không cần nguồn sáng hay nguồn nhiệt
bổ sung do chúng khá nhạy với bức xạ phát xạ từ năng lượng của đối tượng quan sát.
Tín hiệu từ vùng bước sóng MWIR thường được sử dụng đối với các phương tiện có
phát nhiệt lớn và nhận dạng thơng qua dấu hiệu hồng ngoại (Infrared signature). Để
phát hiện đối tượng người và các vật thể thông thường, chủ yếu sử dụng ảnh được tạo
từ vùng bước sóng LWIR hay cịn gọi là vùng ảnh nhiệt.

10


TT

Bảng 1.1. Bảng mơ tả phân loại các tín hiệu hồng ngoại theo
bước sóng và tính chất, ứng dụng [31]
Phân loi- Ký
Bc súng
Tớnh cht
hiu
Tớn hiu hng
ngoi gn (NIR -

(0,7ữ1,4) àm

Nm trong miền gần với mắt người
nhìn thấy, dễ bị hấp thụ bởi hơi nước
và khơng khí và thường được sử dụng
trong truyền thơng cáp quang hoặc
kính nhìn đêm tầm gần tớch hp.


1

Near Infrared)

(1,4ữ3,0) àm

2

Tớn hiu hng
ngoi bc súng
ngn (SWIR Short
Wavelength
InfraRed)

Rt dễ bị hấp thụ bởi hơi nước.
Thường chỉ được sử dụng trong các hệ
thống viễn thông khi được lan truyền
trong mơi trường cáp quang.

Tín hiệu hồng
ngoại bước sóng
trung (MWIR Mid Wavelength
InfraRed)

(3,0ữ8,0) àm

Do hiu ng ca s ó nờu trờn, ch
cú di bc súng (3,0 ữ 5,0) àm c
s dng. Dải bước sóng này thường

được sử dụng để thu thập và phát hiện
các dấu hiệu hồng ngoại (Infrared
signature) đối với cỏc i tng cú
nhit cao.

4

Tớn hiu hng
(8,0ữ14) àm
ngoi bc sóng
dài (LWIR –
Long Wavelength
InfraRed)

Được gọi là vùng ảnh nhiệt (thermal
imaging) và được sử dụng trong các
ứng dụng phát hiện bức xạ nhiệt của
đối tượng mà không cần tới sự chiếu
sáng của các nguồn sáng.

5

Tín hiệu hồng
ngoại xa (FIR –
Far InfraRed)

3

(15÷1000) µm Được sử dụng trong các ứng dụng phát
hiện các chất hóa học. Thường khơng

sử dụng trong xử lý ảnh.

1.1.2.Khả năng mơ tả đối tượng của các tín hiệu hồng ngoại
Tất cả các đối tượng có nhiệt độ bề mặt trên nhiệt độ khơng tuyệt đối đều bức
xạ sóng điện từ. Bức xạ sóng điện từ này được mơ tả bằng hai đặc trưng là bước sóng
λ và cường độ Q. Cường độ bức xạ và bước sóng tương ứng đều có thể được tính

11


×