BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI
Đào Vũ Hiệp
NGHIÊN CỨU GIẢI PHÁP KẾT HỢP ẢNH NHIỆT VÀ ẢNH MÀU
TRONG BÀI TOÁN PHÁT HIỆN VÀ THEO VẾT ĐỐI TƯỢNG NGƯỜI
Ngành: Mạng máy tính và truyền thơng dữ liệu
Mã số: 9480102
TÓM TẮT LUẬN ÁN TIẾN SĨ MẠNG MÁY TÍNH VÀ TRUYỀN
THƠNG DỮ LIỆU
Hà Nội – 2023
Cơng trình được hồn thành tại:
Đại học Bách khoa Hà Nội
Người hướng dẫn khoa học: PGS.TS. Trần Quang Đức
Phản biện 1:
Phản biện 2:
Phản biện 3:
Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Đại học
Bách khoa Hà Nội họp tại Đại học Bách khoa Hà Nội
Vào hồi …….. giờ, ngày ….. tháng ….. năm ………
Có thể tìm hiểu luận án tại thư viện:
1. Thư viện Tạ Quang Bửu - Đại học Bách khoa Hà Nội
2. Thư viện Quốc gia Việt Nam
MỞ ĐẦU
1.1. Bối cảnh nghiên cứu
Ngày nay, các hệ thống xử lý ảnh được sử dụng rộng rãi trong nhiều
lĩnh vực như: Giao thông thông minh, giám sát, phát hiện vi phạm hay tai nạn;
giám sát các vị trí quan trọng như ngân hàng, trụ sở, cửa hàng; sản xuất công
nghiệp, giám sát hoạt động, phát hiện các nguy hiểm, cháy, nổ…; trong an
ninh, quốc phòng, giám sát, phát hiện xâm nhập bất hợp pháp biên giới và có
thể sử dụng để điều khiển các loại vũ khí, hỏa lực. Các hệ thống xử lý ảnh thông
thường sử dụng ảnh màu là loại ảnh được tạo bởi tín hiệu có bước sóng khả
kiến (0,4÷0,7) μm. Ảnh màu có thể mơ tả đối tượng với màu sắc, hình dạng,
kích thước rõ ràng trong điều kiện chiếu sáng tốt. Tuy nhiên, khi trời tối hoặc
điều kiện thời tiết xấu, chất lượng nhận dạng dựa trên ảnh màu trở nên kém đi.
Trong khi đó, ảnh được tạo từ tín hiệu hồng ngoại bước súng di (8ữ14 àm),
gi tt l nh nhit, khụng b ảnh hưởng trong các trường hợp này [1]. Mặt
khác, các loại thiết bị để tạo ảnh từ tín hiệu này cũng có thể tiếp cận dễ dàng
với chi phí khơng cao. Vì vậy, các hướng nghiên cứu kết hợp ảnh màu với ảnh
nhiệt bắt đầu được chú ý thời gian gần đây.
Đối với các thuật toán phát hiện đối tượng sử dụng mạng nơ
ron tích chập, có thể chia thành 02 nhóm theo kiến trúc một giai đoạn
hoặc kiến trúc hai giai đoạn.
- Các thuật toán phát hiện đối tượng hai giai đoạn hiện nay đều
được phát triển từ thuật toán R-CNN như: Fast R-CNN [4], Faster RCNN [5] và Libra R-CNN [6]; sau này là kiến trúc xếp chồng nhiều
mạng R-CNN để cho độ chính xác cao như Cascade R-CNN [7].
- Các thuật toán phát hiện đối tượng một giai đoạn kế thừa từ mạng
tích chập kết nối tồn phần (FCN - Fully Convolutional Network), chia ảnh
thành lưới các vùng để có thể huấn luyện và suy luận đồng thời trên tồn
bộ ảnh cùng lúc (whole-image-at-time). Hiện nay, có một số thuật toán phát
hiện đối tượng một giai đoạn phổ biến như YOLO v1, v2, v3, v4 [8], [9],
[10], [11]; SSD [12] hay RetinaNet [13].
- Đối với các thuật toán theo vết đối tượng được phát triển theo hai
hướng tiếp cận: (i) Xác định vị trí đối tượng tại khung hình tiếp theo thơng
1
qua đối sánh biểu diễn đối tượng (trực tiếp hoặc đặc trưng) đã được xác
định vị trí tại khung hình trước; (ii) huấn luyện một tập các bộ lọc tương
quan phân biệt (DCF - Discriminative Correlation Filters) thông qua đối
tượng vị trí của đối tượng tại khung hình trước và dùng các DCF để xác
định vị trí của đối tượng tại khung hình tiếp theo.
Sử dụng mạng nơ ron tích chập được huấn luyện với các đối
tượng ở nhiều ngữ cảnh khác nhau sẽ giải quyết cơ bản các vấn đề tư
thế, góc nhìn, màu sắc, kết cấu đa dạng của đối tượng; phần nào giải
quyết được bài toán nền lộn xộn (clutter background) và đối tượng bị
che khuất một phần (occlusion). Tuy nhiên, khi điều kiện chiếu sáng
kém đi thì các thuật tốn phát hiện đối tượng dựa trên ảnh màu sẽ cho
hiệu năng kém đi. Do đó, cần phải sử dụng thêm ảnh nhiệt để nâng
cao hiệu năng.
- Các thuật toán phát hiện đối tượng kết hợp ảnh màu và ảnh
nhiệt được phát triển bằng cách từ các mơ hình đã được huấn luyện
với tập dữ liệu lớn (như COCO), thực hiện huấn luyện chuyển giao
(transfer learning) với tập dữ liệu có các cặp ảnh màu - ảnh nhiệt có
góc nhìn tương đương nhau. Luồng ảnh màu và ảnh nhiệt được kết
hợp với nhau theo các mức sau:
+ Kết hợp mức điểm ảnh để tạo ra ảnh trộn (blended images).
+ Kết hợp ở mức đặc trưng.
+ Kết hợp ở mức kết quả.
Một số tác giả công bố một số kỹ thuật xây dựng trọng số kết
hợp như: Thuật toán CIAN (Cross-Modality Interactive Attention
Network [28]; thuật toán IAF R-CNN (Illumination Aware Fusion RCNN) [24]; Zhiwei Cao công bố trong [29] một thuật toán kết hợp sử
dụng trọng số được xây dựng thông qua một lớp MCFF (Multispectral
channel feature fusion) được huấn luyện tối ưu kết quả kết hợp ảnh
màu và ảnh nhiệt. Tuy đã nhận thấy độ chiếu sáng có ảnh hưởng lớn
đến đóng góp của ảnh màu và ảnh màu khi kết hợp, nhưng chưa có
nghiên cứu đầy đủ về các tác nhân ảnh hưởng và xây dựng trọng số
dựa trên các tác nhân đó.
2
- Đối với các thuật toán theo vết đối tượng kết hợp ảnh màu với
ảnh nhiệt thì tùy thuộc vào cấu trúc của thuật tốn có thể kết hợp ở
nhiều mức tương tự như với các thuật toán phát hiện đối tượng [28].
Tuy nhiên, do đối với bài toán theo vết đối tượng chỉ có thơng tin về
đối tượng ở khung hình đầu tiên nên chưa chưa có cơng bố nào nghiên
cứu về trọng số khi kết hợp ảnh màu và ảnh nhiệt.
1.2. Những thách thức và mục tiêu nghiên cứu
Từ bối cảnh nghiên cứu đã phân tích ở trên, có thể nhận thấy
các kỹ thuật phát hiện và theo vết đối tượng ứng dụng phương pháp
học sâu dựa trên kết hợp ảnh màu và ảnh nhiệt có thể nâng cao đáng
kể hiệu năng. Tuy nhiên, để có thể áp dụng trong các hệ thống điện
toán biên hay các hệ thống rô bốt, điều khiển xử lý thời gian thực vẫn
còn tồn tại một số thách thức như sau:
- Thách thức liên quan đến độ chính xác và tốc độ xử lý.
- Thách thức liên quan đến phương án kết hợp ảnh màu và ảnh nhiệt.
- Thách thức liên quan đến xây dựng tập dữ liệu và đánh dấu dữ
liệu để huấn luyện trọng số kết hợp.
Từ những thách thức trên, mục tiêu nghiên cứu của đề tài là
nghiên cứu các kỹ thuật phát hiện và bám bắt đối tượng ứng dụng
phương pháp học sâu dựa trên ảnh màu và ảnh nhiệt, có tốc độ phù
hợp với các ứng dụng điện toán biên, xử lý thời gian thực và độ chính
xác được nâng cao.
1.3. Đối tượng và phạm vi nghiên cứu
Đối tượng và phạm vi nghiên cứu chính của luận án như sau:
- Nghiên cứu tổng quan, đánh giá hiệu năng các thuật toán phát
hiện và theo vết đối tượng nói chung và các thuật tốn kết hợp ảnh
màu và ảnh nhiệt nói riêng. Đề xuất các thuật tốn có khối lượng tính
tốn, tốc độ phù hợp với bài tốn phát hiện và theo vết đối tượng trong
điện toán biên.
- Nghiên cứu ảnh hưởng của điều kiện chiếu sáng đến chất
lượng của ảnh màu và ảnh nhiệt, hiệu năng của các thuật toán phát
hiện, theo vết đối tượng trên ảnh. Đề xuất và minh chứng hiệu quả của
3
các độ đo trên ảnh để xác định được điều kiện chiếu sáng của môi
trường và nâng cao hiệu năng phát hiện và theo vết đối tượng.
- Nghiên cứu thuật toán học sâu phát hiện đối tượng người dựa
trên kết hợp ảnh màu và ảnh nhiệt. Đề xuất sử dụng độ nhiễu trên ảnh
màu và cường độ nhiệt trên ảnh nhiệt để xây dựng trọng số kết hợp và
khảo sát các mức kết hợp, so sánh kết quả với một số thuật toán phổ
biến.
- Nghiên cứu thuật toán học sâu theo vết đối tượng dựa trên kết
hợp ảnh màu và ảnh nhiệt. Ứng dụng phương pháp xây dựng trọng số
kết hợp dựa trên độ nhiễu để áp dụng trong các bài toán theo vết đối
tượng, thử nghiệm và so sánh kết quả với một số thuật toán phổ biến.
1.4. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu
Luận án có những đóng góp về mặt khoa học và thực tiễn như sau:
a) Về ý nghĩa khoa học
Điều kiện thiếu sáng là một vấn đề lớn trong bài toán phát hiện
và theo vết đối tượng người. Việc kết hợp thông tin từ ảnh màu và ảnh
nhiệt trong luận án giúp bù trừ điểm mạnh yếu của hai loại nguồn ảnh
này và giải quyết tốt hơn các bài toán phát hiện, theo vết đối tượng nói
riêng và các bài tốn khác trong lĩnh vực thị giác máy tính nói chung.
Việc kết hợp hai hay nhiều nguồn thông tin thế nào cho hiệu quả, bổ
trợ cho nhau là một bài tốn khơng đơn giản. Nếu giải pháp có tính
tổng qt thì bài tốn có thể mở rộng cho các nguồn dữ liệu và bài
tốn tương đồng khác.
Những đóng góp của luận án được thể hiện trong 04 cơng bố,
trong đó có 01 bài báo trên tạp chí thuộc danh mục ISI; 01 bài báo trên
tạp chí được Hội đồng chức danh giáo sư chuyên ngành tính điểm; 02
báo cáo tại các hội nghị chuyên ngành trong nước và quốc tế. Đối với
cộng đồng khoa học, kết quả của luận án sẽ cung cấp thêm nguồn tài
liệu tham khảo hữu ích, phục vụ cho việc nghiên cứu trong lĩnh vực
có liên quan. Ý nghĩa khoa học của đề tài được mô tả tại phần Mở đầu
và được nhấn mạnh trong phần Kết luận của luận án.
b) Ý nghĩa thực tiễn:
4
Các kết quả nghiên cứu, thử nghiệm và các thuật toán phát hiện
và theo vết đối tượng sử dụng đa nguồn ảnh đã được xây dựng trong
khuôn khổ nghiên cứu của luận án có thể ứng dụng được trong các hệ
thống giám sát sử dụng điện toán biên như các hệ thống: Giám sát an
ninh biên giới; giám sát an toàn, an ninh trong nhà máy sản xuất; giám
sát giao thông thông minh…
1.5. Điểm mới của luận án
- Phương pháp xây dựng trọng số kết hợp ảnh màu và ảnh nhiệt
sử dụng độ nhiễu trên ảnh màu và cường độ nhiệt trên ảnh nhiệt.
- Thuật toán học sâu phát hiện đối tượng người sử dụng kết hợp
có trọng số đa nguồn ảnh ở mức kết quả cho hiệu năng tốt so với các
thuật toán phổ biến.
- Thuật toán học sâu theo vết đối tượng sử dụng kết hợp có
trọng số đa nguồn ảnh ở mức đặc trưng sau ước lượng IoU cho hiệu
năng tốt so với các thuật toán phổ biến.
1.6. Cấu trúc của luận án
Từ những nội dung NCS đã thực hiện trong quá trình nghiên
cứu, kết quả đã được trình bày trong luận án theo cấu trúc sau.
- Chương 1. Tổng quan về các vấn đề nghiên cứu
- Chương 2. Phương pháp xác định trọng số trong kết hợp ảnh
màu và ảnh nhiệt
- Chương 3. Phương pháp phát hiện và theo vết đối tượng với
độ nhiễu và cường độ nhiệt.
Cuối cùng là Kết luận và phương hướng phát triển.
5
Chương 1. TỔNG QUAN VỀ CÁC VẤN ĐỀ NGHIÊN CỨU
1.1. Vai trị của ảnh nhiệt trong bài tốn phát hiện và theo
vết đối tượng
Như ta đã biết, ảnh màu được tạo bởi tín hiệu bước sóng khả
kiến (0,4÷0,7) μm có thể mơ tả đối tượng với màu sắc, hình dạng, kích
thước rõ ràng. Tuy nhiên, khi điều kiện chiếu sáng của môi trường
kém đi, ảnh màu không cung cấp đủ thông tin để phát hiện và theo vết
đối tượng
1.1.1.Khái quát về tín hiệu hồng ngoại
Do hiệu ứng cửa sổ khơng khí (atmospheric windows) nên có
một số bước sóng bị hấp thụ bởi khí và độ ẩm trong khơng khí. Chính
vì vậy, chỉ có ba dải bước sóng hay được sử dng l t (0,7 ữ 1,4) àm,
(3 ữ 5) àm v (8 ữ14) àm [30].
1.1.2.Kh nng mụ t i tng của các tín hiệu hồng ngoại
Hầu hết các đối tượng trên bề mặt trái đất đều có nhiệt độ thấp hơn bề
mặt của mặt trời nên bước sóng tại đó các vật có cường độ bức xạ lớn nhất
(bước sóng đỉnh) ngắn hơn. Với các đối tượng có nhiệt độ (-10 ÷ 50) oC (263
÷ 323 K) sẽ có bước sóng đỉnh vào khoảng (9 ÷ 11) μm.
1.2. Bài tốn phát hiện đối tượng dựa trên kết hợp ảnh
màu và ảnh nhiệt
1.2.1.Phân tích bài tốn
Gần đây, hầu hết các phương pháp phát hiện đối tượng đều dựa
trên học sâu và mạng nơron tích chập (Convolutional Neural Network)
[6]. Qua đó, sẽ giải quyết cơ bản các vấn đề tư thế, góc nhìn, màu sắc,
kết cấu đa dạng của đối tượng; phần nào giải quyết được bài toán nền
lộn xộn (clutter background) và đối tượng bị che khuất một phần
(occlusion).
Tuy nhiên, khi điều kiện chiếu sáng (lighting condition) kém đi
thì các thuật toán phát hiện đối tượng dựa trên ảnh màu sẽ cho hiệu
năng kém đi. Do đó, cần phải sử dụng thêm ảnh nhiệt để nâng cao hiệu
năng.
6
1.2.2.Bộ dữ liệu thử nghiệm
Bộ ảnh KAIST do Hwang và các đồng nghiệp xây dựng là một
bộ ảnh thử nghiệm phát hiện đối tượng người gồm cả ảnh màu và ảnh
nhiệt [34]. Trong đó bao gồm 95,328 cặp ảnh màu - ảnh nhiệt có góc
nhìn đã được quy đổi tương đương về góc nhìn, đã được đánh dấu đối
tượng.
1.2.3.Độ đo hiệu năng
Đối với bộ dữ liệu KAIST, cũng như các bộ dữ liệu phát hiện
người khác thường sử dụng chỉ số LAMR, được tính dựa trên đường
cong mr (Miss Rate) - FPPI (False Positive per Image) (Hình 1.5). Trong
đó mr và FPPI được tính bằng cơng thức 1.6, 1.7 như sau.
𝑎𝑐𝑐𝑇𝑁
𝑎𝑐𝑐𝑇𝑃
𝑀𝑅 =
=1−
(1.1)
𝑛𝑝𝑜𝑠
𝑛𝑝𝑜𝑠
𝐹𝑃𝑃𝐼 =
𝑎𝑐𝑐𝐹𝑃
𝑛𝐼𝑚𝑎𝑔𝑒𝑠
(1.2)
Trong đó, accTN là số lượng tích lũy đối tượng đúng bị bỏ qua,
accTP là số lượng tích lũy đối tượng đúng được phát hiện đúng, npos
là số tượng tích lũy đối tượng và nImages là số lượng ảnh trong bộ dữ
liệu thử nghiệm đã được duyệt qua. LAMR được tính bằng tổng trên
miền Logarit với 𝐹𝑃𝑃𝐼 ∈ [10 , 10 ].
1.2.4.Các nghiên cứu có liên quan
1.2.4.1. Các thuật toán sử dụng ảnh màu và ảnh nhiệt để nâng
cao hiệu năng phát hiện đối tượng
a) Các thuật toán kết hợp theo kiến trúc hai giai đoạn
b) Các thuật toán theo kiến trúc một giai đoạn
1.2.4.2. Các thuật toán kết hợp ảnh màu và ảnh nhiệt để tạo
ảnh trộn
a) Multi-resolution Singular Value Decomposition (MSVD)
b) Two-scale image fusion of visible and infrared images using
saliency detection
7
c) Thuật toán Dense Fusion
d) Thuật toán Fusion GAN
1.3. Bài toán theo vết đối tượng dựa trên đa nguồn ảnh
1.3.1.Phân tích bài tốn
Với các thuật tốn học sâu, trong đó, pha huấn luyện được thực
hiện huấn luyện trước (offline) với cơ sở dữ liệu lớn. Quá trình theo
vết đối tượng sẽ sử dụng mạng nơ ron tích chập đã được huấn luyện
kết hợp với đối tượng đã được xác định trong khung hình trước và
khung hình hiện tại tạo thành đặc trưng; sau khi thực hiện phép tương
quan sẽ cho vị trí của đối tượng trong khung hình hiện tại (Hình 1.20).
z
127x127x3
6x6x128
*
x
22x22x128
255x255x3
Hình 1.1. Theo vết đối tượng bằng phương pháp đối sánh sử dụng
mạng nơ ron học sâu
1.3.2.Bộ dữ liệu thử nghiệm
Bộ dữ liệu VOT RGB-T là bộ dữ liệu phổ biến nhất để đánh giá hiệu
năng các thuật toán theo vết đối tượng, trong đó bao gồm 20083 cặp ảnh
màu và ảnh nhiệt có cùng một góc nhìn. Trong đó, có 43 chuỗi vào ban
ngày, 17 chuỗi vào ban đêm; có 2798 khung hình đối tượng theo vết bị che
khuất (occlusion); khơng có khung hình có độ chiếu sáng thay đổi; 17751
khung hình có chuyển động thay đổi; 10927 khung hình có đối tượng kích
thước thay đổi; 2019 khung hình có camera chuyển động.
8
1.3.3.Độ đo hiệu năng
Trong cuộc thi VOT, có 03 độ đo chủ yếu được dùng để phân
tích hiệu năng của thuật tốn theo vết đối tượng là: (i) Độ chính xác
(A - Accuracy); (ii) Độ ổn định (R - Robustness); (iii) Độ bao phủ
trung bình kỳ vọng (EAO - Expected Average Overlap).
1.3.4.Các nghiên cứu có liên quan
1.3.4.1. Các thuật tốn theo vết đối tượng có hiệu năng cao
1.3.4.2. Các thuật toán theo vết đối tượng kết hợp ảnh màu và
ảnh nhiệt
Một số thuật toán theo vết đối tượng sử dụng kết hợp ảnh màu
và ảnh nhiệt có hiệu năng cao như CISRDCF, FSRPN, SiamDW_T
hay mfDiMP chủ yếu được phát triển từ các thuật tốn theo vết đối
tượng có hiệu năng cao.
Thuật toán CISRDCF [48] được phát triển từ thuật toán theo vết
đối tượng trên ảnh màu CSRDCF, trong đó sử dụng 31 kênh HoG (9
theo 9 hướng không nhạy với độ tương phản (contrast insensitive), 18
kênh nhạy với độ tương phản (contrast sensitive) và 4 kênh tổng hợp
năng lượng theo 4 hướng; 10 kênh Colornames và 01 kênh mức xám
được cộng lại để huấn luyện trực tuyến đối tượng ở khung hình trước
để phát hiện đối tượng ở khung hình sau.
Thuật toán FSRPN được phát triển từ thuật toán SiamRPN++
[49] theo vết đối tượng trên ảnh màu, trong đó sử dụng mạng lõi
ResNet-50. Thuật toán SiamDW_T được phát triển dựa trên thuật toán
SiamDW_ST theo vết đối tượng trên ảnh màu và được mở rộng bằng
việc kết hợp giữa hai kênh ở mức sau khi có hai bộ các vị trí được phát
hiện trong giai đoạn phân loại đối tượng của thuật toán. Thuật toán
9
mfDiMP [50] có phương pháp kết hợp tương tự như thuật toán
SiamDW_T.
1.4. Kết luận chương 1
Để phát triển các thuật tốn phát hiện và theo vết đối tượng có
hiệu năng tốt và tốc độ phù hợp trong điện toán biên có thể lựa chọn
thuật tốn họ YOLO để phát hiện đối tượng và thuật toán SiamDW_T
để theo vết đối tượng.
10
Chương 2. PHƯƠNG PHÁP XÁC ĐỊNH TRỌNG SỐ TRONG
KẾT HỢP ẢNH MÀU VÀ ẢNH NHIỆT
2.1. Ảnh hưởng của độ chiếu sáng và cường độ nhiệt đến
hiệu năng phát hiện đối tượng
Như vậy, vào ban đêm ảnh nhiệt cho hiệu năng phát hiện đối
tượng tốt hơn, trong khi đó ban ngày ảnh màu cho hiệu năng phát hiện
đối tượng tốt hơn. Tiếp tục thử nghiệm trên từng tập dữ liệu trong bộ
dữ liệu dùng để huấn luyện (từ set06÷set11) (cụ thể tại Bảng 2.1) cho
thấy đối với một số tập dữ liệu có cường độ nhiệt (giá trị độ sáng trung
bình của ảnh nhiệt mô tả cường độ nhiệt) cao, hiệu năng phát hiện đối
tượng trên ảnh nhiệt có xu hướng giảm xuống.
2.2. Các phương pháp để ước lượng độ chiếu sáng phổ
biến
Một số phương pháp phổ biến được tính thơng qua độ sáng của
ảnh màu là Range và Key [51], là các chỉ số thường được dùng để xác
định độ chiếu sáng của môi trường để điều chỉnh tông màu (tone) của
ảnh phù hợp với điều kiện chiếu sáng và đặc tả được đối tượng.
2.3. Phương pháp sử dụng độ nhiễu để xác định độ chiếu sáng
Khi khảo sát ta có thể thấy một số trường hợp như sau: Vào buổi tối khi
có đèn chiếu sáng, nhưng khơng chiếu sáng vào khu vực đối tượng, mặc dù độ
sáng của ảnh cao, nhưng ảnh màu vẫn có ít thơng tin để phát hiện tốt đối tượng;
hoặc trong trường hợp ban ngày, nhưng ở các vị trí trong bóng râm, cường độ
sáng của ảnh thấp, nhưng ảnh màu vẫn có đủ thơng tin để phát hiện tốt đối
tượng (Hình 2.5).
Do tính chất của phép biến đổi tiểu ba là kích thước của các hệ
số giảm nhanh nên ta có thể ước lượng nhiễu với một số lượng bước
giới hạn J, dựa trên trung bình độ lệch tuyệt đối (MAD = Mean
Absolute Deviation) của các hệ số tần số cao W bằng công thức 2.4.
𝜎
=
𝑀𝐴𝐷(𝑊)
0,6745
11
(2.1)
Để so sánh với khả năng ước lượng độ chiếu sáng của các chỉ
số Key, Range và độ nhiễu, từng cặp tập dữ liệu có cùng ngữ cảnh
(trong trường học, set00 – ngày, set03 - đêm; trên đường, set01 - ngày,
set04 - đêm; trong phố, set02 - ngày, set05 - đêm) sẽ được tính hàm
mật độ xác xuất (probability density function) đối với từng chỉ số Key,
Range và độ nhiễu (cụ thể tại Hình 2.7). Kết quả cho thấy các chỉ số
Key và Range có nhiều vùng chồng lấn khi xác định ngày-đêm, trong
khi chỉ số độ nhiễu cho phép phân biệt rõ ràng ngày - đêm trong từng
bộ dữ liệu.
Hình 2.1. Hàm phân bố xác xuất của các chỉ số Key (hình a, b, c);
Range (hình d, e, f) và độ nhiễu (hình g, h, i).
Màu đỏ nét liền biểu thị số liệu ban ngày, màu xanh nét đứt biểu thị
ban đêm
12
2.4. Đánh giá chất lượng phát hiện và theo vết đối tượng
trên ảnh nhiệt
Kết quả cho thấy tương quan đối với tập dữ liệu ngày là -0,789
và tập dữ liệu đêm là -0,899 là giá trị tương quan cao. Như vậy, ảnh
nhiệt có cường độ sáng cao sẽ làm cho tương quan khu vực của đối
tượng người có độ tương phản thấp.
Hình 2.2. Biểu đồ scatter mơ tả tương quan giữa cường độ nhiệt và
độ tương phản của đối tượng với nền
2.5. Phương pháp xác định trọng số kết hợp đa nguồn ảnh
2.5.1.Phương pháp xác định trọng số kết hợp đa nguồn ảnh
trong bài toán phát hiện người
Để xác định trọng số, thuật tốn sẽ có 02 mơ đun để tính độ
nhiễu và cường độ nhiệt đối với từng cặp ảnh. Hàm tính trọng số đối
với từng cặp ảnh i như công thức 2.10 và công thức 2.11, với 𝑦 (𝑡 , 𝑝)
là hàm vector.
𝑦 (𝑡 , 𝑝) = 𝛼
𝑒
()
+𝛼
13
𝑒
()
+1
(2.2)
0
𝑦 (𝑡 , 𝑝) < 0
𝑤 = 𝑤 (𝑡 , 𝑝) 0 ≤ 𝑦 (𝑡 , 𝑝) < 1
1
𝑦 (𝑡 , 𝑝) > 1
(2.3)
Trong đó, đối với từng cặp ảnh, 𝑤
= 𝑤 là trọng số kết hợp
đối với ảnh màu; 𝑤
= 1 − 𝑤 là trọng số kết hợp đối với ảnh
(𝑖), 𝐿 (𝑖)} , 𝜎
nhiệt. 𝑡 bao gồm {𝜎
(𝑖) ∈ [0,1] là độ nhiễu
trên ảnh màu, được quy về vùng [0,1], 𝐿 (𝑖) ∈ [0,1] là cường độ
nhiệt trên ảnh nhiệt, được quy về vùng [0,1]. 𝑝 là vector bao gồm các
tham số 𝛼
,𝛽
,𝛼
,𝛽
, vector này sẽ được ước
lượng dựa trên tập dữ liệu huấn luyện.
Vector 𝑝 sẽ được xác định dựa trên thuật toán LevenbergMarquardt (LM) [70], một thuật toán ước lượng đường cong (curvefitting) dựa trên tối thiểu hóa bình phương sai số giữa dữ liệu 𝑦 và
ước lượng 𝑦 (𝑡 , 𝑝).
Để xây dựng được tập dữ liệu {𝑦 }, cần phải có trọng số kết hợp
của từng cặp ảnh màu - ảnh nhiệt i. Để xây dựng được tập dữ liệu này
cần phải khảo sát dựa trên các tập dữ liệu huấn luyện. Trong bộ dữ
liệu huấn luyện của KAIST có 06 tập huấn luyện (set00÷set05), sẽ
được chia thành các tập con sao cho có độ lệch chuẩn về độ nhiễu
không quá 0,05 và độ lệch chuẩn về cường độ nhiệt khơng q 5. Sau
đó thử nghiệm kết hợp kết quả phát hiện đối tượng ở mức ScoreFusion
(nhân trọng số với điểm tin cậy, rồi ghép lại đưa chung vào một thuật
toán NMS) và đưa ra chỉ số LAMR. Trọng số ở kênh ảnh màu được
đặt theo bước 0,05 với giá trị từ 0÷1,0.
14
2.5.2.Phương pháp xác định trọng số kết hợp đa nguồn ảnh
trong bài toán theo vết đối tượng
Từ ý tưởng sử dụng độ nhiễu và độ tương phản để xây dựng
trọng số kết hợp đa nguồn ảnh có có thể tính trọng số 𝜔
= 𝜔 là
trọng số của nhánh ảnh màu thông qua nhiễu độ nhiễu của ảnh màu
𝜎
∈ [0,1] và chất lượng của mô tả đối tượng trong ảnh nhiệt thể
hiện bằng độ tương phản Weber của đối tượng với nền được chuẩn
hóa nằm trong dải [0,1].
𝜔 =𝛼
𝑒
+ 𝛼
15
𝑒
+1
(2.4)
Chương 3. PHƯƠNG PHÁP PHÁT HIỆN VÀ THEO VẾT
ĐỐI TƯỢNG VỚI ĐỘ NHIỄU VÀ CƯỜNG ĐỘ NHIỆT
3.1. Các kỹ thuật nền tảng
3.1.1.Các thuật toán YOLO
3.1.2.Thuật toán SiamDW_ST
3.2. Thuật toán kết hợp đa nguồn ảnh ở mức điểm ảnh
Để tạo ra ảnh trộn có khả năng quan sát tốt và có lượng tin lớn từ
ảnh màu và ảnh nhiệt, trong luận án sử dụng thuật toán tương tự như thuật
toán Two-scale image fusion of visible and infrared images using saliency
detection [25]. Trong đó ảnh nhiệt và ảnh màu được phân tích thành thành
phần cơ sở và thành phần chi tiết. Thành phần cơ sở được cộng trung bình,
trong khi đó thành phần chi tiết được cộng bằng trọng số 𝜔
= 𝜔 và
= (1 − 𝜔 ) , 𝜔 được tính từ công thức 2.10 và 2.11.
𝜔
Bảng 3.1. So sánh hiệu năng của một số thuật toán tạo ảnh trộn từ
ảnh màu và ảnh nhiệt
Phương
pháp
Two-scale
w/Sal
MSVD
DenseFusion
FusionGAN
PP đề
xuất
LAMR
20,91
17,70
19,92
17,44
15,52
16
3.3. Thuật toán kết hợp thời gian thực ở mức kết quả
3.3.1.Mơ tả thuật tốn
Hình 3.1. Cấu trúc của thuật toán phát hiện đối tượng
3.3.2.Đánh giá kết quả
Bảng 3.2. Kết quả so sánh về độ chính xác và tốc độ các thuật tốn
theo vết đối tượng
Phương
pháp
Ảnh
màu
Ảnh
nhiệt
ACF+
T+THOG
LAMR
(%)
43,26
50,52
54,40
0,02
0,02
-
Tốc
(s)
độ
17
Choi
Park
47,31
31,36
2,73
0,58
Khơng
trọng
số
36,56
0,05
PP đề
xuất
34,11
0,052
3.4. Thuật toán phát hiện đối tượng người một giai đoạn
sử dụng độ nhiễu và cường độ nhiệt
3.4.1.Mô tả thuật tốn
Hình 3.2. Sơ đồ kết hợp của thuật tốn NAMPD
Lớp kết hợp và hậu xử lý được cải tiến, bổ sung thuật toán
Distance Intersection over Union (DIoU) thay cho IoU trong loại bỏ
các khung dự đoán đối tượng dư thửa tại mỗi kênh và để ghép đúng
khung bao dự đoán đối tượng giữa hai kênh sử dụng dụng thuật toán
Hungary (Hungarian Algorithm) [59].
Thuật tốn xử lý các khung hình dư thừa áp dụng thêm Distance
Intersection over Union (DIoU), gọi là DIoU-NMS được mơ tả như
sau. Đối với mỗi khung hình sẽ có hai tập 𝐵
và 𝐵
là khung bao
đối tượng dự đoán của kênh ảnh màu và kênh ảnh nhiệt. Đối với mỗi
tập khung bao dự đoán này cần xác định các nhóm khung bao có thể
mơ tả cùng một đối tượng.
18
3.4.2.Kết quả thử nghiệm so sánh với các phương pháp xác
định trọng số khác
Trong phần này mô tả kết quả phát hiện đối tượng người dựa trên
đa nguồn ảnh có trọng số được xây dựng từ độ nhiễu và cường độ nhiệt
so với xây dựng từ các cơ chế khác; tất cả các thử nghiệm đều ở mức
kết hợp kết quả (Score Fusion). Kết hợp trung bình là đặt trọng số bằng
0,5; kết hợp key và range là xây dựng trọng số chỉ từ chỉ số key và range;
kết hợp riêng cường độ nhiệt là chỉ sử dụng chỉ số cường độ nhiệt để
xây dựng trọng số; kết hợp riêng độ nhiễu là xây dựng trọng số chỉ sử
dụng chỉ số độ nhiễu. Thuật toán NAMPD đề xuất sử dụng trọng số xây
dựng từ cả độ nhiễu và cường độ nhiệt.
3.4.3.Kết quả thử nghiệm so sánh các mức kết hợp
Bảng 3.3. Bảng mô tả kết quả đánh giá hiệu năng với các mức
kết hợp khác nhau
Kiến trúc
Ban ngày
Ban đêm
Toàn bộ
Riêng ảnh màu
29,67%
6,16%
22,90%
Riêng ảnh nhiệt
28,11%
4,94%
21,11%
Mức đầu vào
27,58%
4,96%
20,92%
9,37%
3,59%
7,67%
6,97%
3,58%
6,03%
Kết hợp muộn (Late Fusion)
6,97%
5,05%
6,42%
Mức kết quả
5,02%
0,07%
4,25%
Mức đặc trưng:
Kết hợp sớm (Early Fusion)
Kết hợp giữa (Halfway
Fusion)
19
3.4.4.Kết quả thử nghiệm so sánh với các thuật toán phổ biến
Kết quả thử nghiệm có thể thấy ACF+T+THOG là một toán cũ
nên cho hiệu năng thấp nhất chỉ đạt 39,76%; các thuật toán cho chỉ số
LAMR lần lượt như sau: IAF R-CNN (14,90%), CIAN (13,52%),
MSDS-RCNN (7,22%). Thuật toán FusionCSPNet, cũng phát triển từ
thuật toán phát hiện đối tượng một giai đoạn, có kết quả đạt 6,91%,
thấp hơn thuật tốn NAMPD được đề xuất với chỉ số LAMR đạt
4,25%. Một thuật tốn khác được phát triển từ chính thuật tốn Yolov4
là MCFF có chỉ số LAMR đạt 4,91% [29], vẫn thấp hơn kết quả của
thuật toán NAMPD.
3.5. Thuật toán theo vết đối tượng sử dụng độ nhiễu và cường độ nhiệt
3.5.1.Mơ tả thuật tốn
Trọng số mơi trường được tính theo công thức tại mục 2.5.2 kết
hợp với công thức 3.11 ta có cơng thức 3.12, với 𝜔 là trọng số đặc
trưng ảnh màu và 1 − 𝜔 là trọng số đặc trưng ảnh nhiệt. Sơ đồ của
lớp kết hợp IoU có trọng số tại hình 3.17.
𝐼𝑜𝑈(𝐵) = 𝐹𝐶
𝐹𝐶 𝑔 , (𝑐
⊙ 𝐹𝐶 𝑔 , (𝑐
20
)𝜔
⋅𝑧
⋅𝑧
)(1 − 𝜔
(3.1)
3.5.2.Kết quả thử nghiệm so sánh với các thuật toán phổ
biến riêng trên các chuỗi dữ liệu ban ngày
3.5.3.Kết quả thử nghiệm so sánh với các thuật toán phổ
biến riêng trên các chuỗi dữ liệu ban đêm
3.5.4.Kết quả thử nghiệm so sánh với các thuật toán phổ
biến riêng trên các chuỗi dữ liệu có nhiều đối tượng bị che khuất
(occlusion)
3.5.5.Kết quả thử nghiệm so sánh với các thuật toán phổ
biến riêng trên các chuỗi dữ liệu có nhiều đối tượng kích thước
thay đổi
3.5.6.Kết quả thử nghiệm so sánh với các thuật tốn phổ
biến riêng trên các chuỗi dữ liệu có nhiều khung hình camera
chuyển động
3.5.7.Kết quả thử nghiệm so sánh với các thuật toán phổ
biến riêng trên các chuỗi dữ liệu có các đối tượng chuyển động
liên tục
Bảng 3.4. So sánh hiệu năng theo vết đối tượng kết hợp ảnh màu và
ảnh nhiệt trong một số trường hợp
CISRDCF
FSRPN
mfDiMP
SiamDW_T
PP đề
xuất
EAO
0,346
0,387
0,411
0,413
0,423
A
0,502
0,530
0,588
0,589
0,586
R
0,626
0,656
0,673
0,675
0,696
EAO
0,335
0,365
0,383
0,387
0,395
A
0,498
0,517
0,567
0,565
0,571
Dữ liệu
Toàn bộ
Ban ngày
21
0,597
0,626
0,654
0,647
0,663
EAO
0,389
0,485
0,531
0,532
0,550
A
0,513
0,577
0,640
0,632
0,640
R
0,743
0,773
0,799
0,804
0,827
0,221
0,261
0,280
0,279
0,287
0,529
0,526
0,527
R
Kích thước thay
đổi
EAO
0,427
0,471
0,496
0,495
0,510
0,470
0,505
0,562
0,556
0,566
A
0,505
0,523
0,578
0,571
0,581
R
Camera chuyển
động
EAO
0,718
0,762
0,789
0,780
0,782
0,301
0,374
0,404
0,393
0,397
A
0,473
0,570
0,612
0,605
0,610
R
Đối tượng chuyển
động
EAO
0,679
0,695
0,744
0,716
0,739
0,298
0,346
0,359
0,365
0,374
A
0,531
0,571
0,615
0,617
0,619
R
0,624
0,645
0,664
0,666
0,689
R
Ban đêm
Bị che khuất
EAO
A
22
KẾT LUẬN VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN
KẾT LUẬN
Qua những nội dung đã được trình bày, phân tích và những kết
quả thử nghiệm, đánh giá trong luận án có thể đi đến những kết luận
như sau:
(1) Các thuật toán phát hiện và theo vết đối tượng dựa trên
phương pháp học sâu cho kết quả tốt trên ảnh màu. Tuy nhiên, hiệu
năng bị giảm đi nhiều khi gặp các điều kiện chiếu sáng không tốt như:
trời tối, sương mù...Ảnh nhiệt được tạo bởi tín hiệu hồng ngoại bước
sóng dài (LWIR - Long Wave Infrared) khơng mơ tả rõ được hình
dạng, màu sắc của đối tượng nhưng không bị ảnh hưởng bởi điều kiện
chiếu sáng của môi trường sẽ cung cấp các thông tin bổ sung đáp ứng
trong các điều kiện chiếu sáng không tốt. Để xây dựng trọng số kết
hợp từ điều kiện chiếu sáng của mơi trường có thể sử dụng độ nhiễu
(được tính từ phân tích twavelet ảnh màu) và cường độ nhiệt (được
tính từ trung bình độ sáng của ảnh nhiệt). Một số phân tích, tính tốn
trực quan cho thấy hiệu quả của kỹ thuật xây dựng trọng số này.
(2) Đối với bài toán phát hiện đối tượng người sử dụng đa
nguồn ảnh, thuật toán NAMPD, kết hợp ở mức kết quả sử dụng trọng
số được xây dựng từ độ nhiễu và cường độ nhiệt được đề xuất trong
luận án đã chứng minh được hiệu quả, cho hiệu năng cao hơn một số
thuật toán phổ biến hiện nay.
(3) Đối với bài toán xây dựng ảnh trộn (blended images) từ
ảnh màu và ảnh nhiệt phục vụ quan sát, phát hiện đối tượng người,
thuật tốn kết hợp dựa trên phân tích hai thành phần (thành phần cơ
sở và thành phần chi tiết) sử dụng trọng số được xây dựng từ độ nhiễu
và cường độ nhiệt được đề xuất trong luận án đã chứng minh được
hiệu quả, cho hiệu năng cao hơn một số thuật toán phổ biến hiện nay.
23