BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI
Nguyễn Hồng Quân
NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP
TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN HỌC SÂU
TRONG TÁI DỊNH DANH NGƯỜI
Ngành: Kỹ thuật điện tử
Mã số: 9520203
TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ
Hà Nội −2023
Cơng trình này được hồn thành tại:
Đại học Bách Khoa Hà Nội
Người hướng dẫn khoa học:
1. TS. Võ Lê Cường
2. TS. Nguyễn Vũ Thắng
Phản biện 1: ——–
Phản biện 2: ——–
Phản biện 3: ——–
Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ
cấp Đại học Bách khoa Hà Nội họp tại Đại học Bách khoa Hà Nội
Vào hồi ... giờ, ngày ... tháng ... năm ......
Có thể tìm hiểu luận án tại thư viện:
1. Thư viện Tạ Quang Bửu - Đại học Bách khoa Hà Nội
2. Thư viện Quốc gia Việt Nam
MỞ ĐẦU
1. Tính cấp thiết
Các bài tốn cơ bản của lĩnh vực thị giác máy tính như: phát hiện, theo vết đối tượng
trên ảnh, phân lớp ảnh,... đều phải đối mặt với vấn đề trích chọn đặc trưng ảnh. Chất lượng
đặc trưng ảnh có tính chất quyết định đến kết quả của bài tốn. Do đó trích chọn đặc trưng
của ảnh/video luôn được sự quan tâm nghiên cứu của các nhà khoa học. Bên cạnh đó, sự phát
triển của học sâu đã giải quyết được nhiều hạn chế của các phương pháp trích chọn đặc trưng
thủ cơng và mang lại những kết quả đáng kể. Trích chọn đặc trưng ảnh dựa trên các mạng
học sâu ngày càng phổ biến với nhiều sự lựa chọn khác nhau. Tuy nhiên, khi xét ở những ngữ
cảnh ràng buộc nhất định như hình dạng, kích thước đối tượng trong ảnh, số lượng thể hiện
(ảnh) của một đối tượng, ... thì vấn đề này vẫn cịn nhiều thách thức cần có lời giải. Do đó,
luận án này tập chung đề xuất các phương pháp trích trọn đặc trưng học sâu nhằm nâng cao
chất lượng cho mơ hình tái định danh người sử dụng hình ảnh thu nhận từ các camera giám
sát. Ngoài ra, nhằm mục đích tận dụng các ưu thế về mặt tốc độ và tiết kiệm năng lượng so
với các bộ xử lý đồ họa chuyên dụng (GPU), luận án cũng tập trung nghiên cứu và đề xuất
một phương pháp nén mạng học sâu nhằm đạt được các mơ hình phù hợp cho việc triển khai
chúng trên các thiết bị phần cứng bị giới hạn nhiều về mặt tài nguyên. như mạch tích hợp
FPGA.
2. Mục tiêu nghiên cứu
− Nghiên cứu, đề xuất phương pháp trích chọn đặc trưng ảnh hiệu quả cho tái định danh
người dựa trên học sâu. Ngoài ra, nhằm hướng tới các ứng dụng có thể dễ dàng triển khai
trong nhiều điều kiện thực tế, mục tiêu nghiên cứu có thể được mở rộng hơn bao gồm nén
mạng hướng tới triển khai trên các thiết bị phần cứng
− Cải tiến mơ hình tái định danh người, trong đó dựa trên các kiến trúc mạng học sâu Nơ-ron
hồi quy để tổng hợp đặc trưng mức chuỗi ảnh (video).
3. Đối tượng, phạm vi nghiên cứu và những thách thức
Với các mục tiêu được đặc ra như trên, đối tượng nghiên cứu của luận án được xác định
các hình ảnh, chuỗi hình ảnh người thu nhận được từ camera giám sát.
Do thị giác máy tính là một lĩnh vực rộng lớn với nhiều bài toán thách thức, nên các
nghiên cứu của luấn án giới hạn chủ yếu trong khn khổ bài tốn tái định danh cho người
đi bộ và một số bài toán liên quan khác như: Phát hiện và theo vết đối tượng. Trong đó tập
chung vào trích chọn đặc trưng ảnh/video.
4. Phương pháp nghiên cứu
Phương pháp thu thập, phân tích và tổng kết kinh nghiệm: Tìm hiểu và thu thập số liệu
các cơng trình nghiên cứu liên quan. Từ đó, tiến hành phân tích để tìm ra ưu và nhược điểm
của từng phương pháp làm căn cứ đề xuất các cái tiến phù hợp
1
Phương pháp quan sát: Quan sát đối tượng nghiên cứu từ đó tìm ra các đặc điểm chung
Từ đó kết hợp với kết quả tìm hiểu phương pháp trích chọn đặc trưng dựa trên học sâu đề
xuất một phương pháp trích chọn đặc trưng hiệu quả cho bài tốn tái định danh
Phương pháp mô phỏng và thực nghiệm: Tiến hành các thực nghiệm trên các cơ sở dữ
liệu dùng chung. So sánh với các kết quả nghiên cứu trước. Từ đó rút ra kết luận.
5. Ý nghĩa khoa học và thực tiễn của đề tài
Luận án hướng tới cải tiến và phát triển mơ hình học sâu cho việc trích chọn đặc trưng
ảnh/video một cách hiệu quả hơn cho tái định danh người. Rõ ràng trích chọn đặc trưng là
vấn đề nghiên cứu quan trọng bởi nó quyết định trực tiếp đến chất lượng của bất kỳ mơ hình
học máy nào khơng chỉ dừng lại ở bài tốn tái định danh người. Kết quả nghiên cứu thu được
có thể làm nền tảng cho các nghiên cứu khác nhằm nâng cao chất lượng mơ hình cho các bài
tốn khác trong thị giác máy tính. Bên cạnh đó, tái định danh người là một bài tốn phổ biến
và có tính ứng dụng cao. Tái định danh nhằm xác định lại một người khi người đó được quan
sát bởi các camera giám sát khác nhau. Trong bài toán này, đối tượng quan tâm là hình ảnh
người được thu nhận bởi các camera giám sát khác nhau. Thành công thu được từ các kết
quả nghiên cứu cho bài tốn tái định danh có thể được áp dụng trong các hệ thống tìm kiếm
người dựa trên hình ảnh thu nhận được từ camera giám sát trên thực tế. Ngoài ra, việc nghiên
cứu, thử nghiệm các phương pháp nén mạng cũng mang lại ý nghĩa rất quan trọng. Nhờ đó
có thể triển khai các kiến trúc mạng học sâu trên các thiết bị phần cứng có tài nguyên hạn
chế. Từ các phân tích trên chứng tỏ luận án có ý nghĩa về mặt khoa học và thực tiễn.
6. Các đóng góp
− Đề xuất cải tiến mạng trích chọn đặc trưng học sâu cho phép khai thác thông tin cục
bộ của ảnh người nhằm nâng cao chất lượng đặc trưng ảnh trong bài toán tái định danh
người sử dụng hình ảnh từ mạng camera giám sát. Cụ thể luận án đã thực hiện cải tiến
mạng ResNet-50 để trích đặc trưng ảnh đồng thời đề xuất phương pháp đối sánh đặc trưng
thu được dựa trên độ đo khoảng cách EMD (Earth Movers Distance) cho tái định danh
người. Kết quả được trình bày tại [CT7, 8]. Ngồi ra, luận án đề xuất một phương pháp
nén mạng học sâu hướng tới việc triển khai trên phần cứng FPGA, đồng thời thử nghiệm
phương pháp này với mạng học sâu VGG16-SSD phục vụ bài tốn phát hiện đối tượng.
Kết quả được trình bày tại [CT6]
− Đề xuất cải tiến mơ hình tái định danh dựa trên chuỗi hình ảnh có sử dụng các biến thể
mạng RNN cho việc tổng hợp các đặc trưng mức chuỗi ảnh. Xây dựng một cơ sở dữ liệu
phục vụ đánh giá đầy đủ các pha trong một hệ thống tái định danh bao gồm phát hiện,
theo vết và tái định danh người. Các hình ảnh của CSDL được thu nhận tại trường Đại
học Bách Khoa Nà Nội. Kết quả được công bố tại [CT1, 2, 3, 4, 5]
7. Bố cục của luận án
Ngoài phần mở đầu và phần kết luận, Luận án được chia thành 4 chương:
− Chương 1: Trình bày các nghiên cứu liên quan đến học sâu, các mơ hình mạng học sâu
tiêu biểu và vấn đề trích chọn đặc trung sử dụng các mơ hình học sâu, các nghiên cứu liên
2
quan đến bài toán phát hiện, theo vết và tái định danh đối tượng trên ảnh sử dụng đặc
trưng học sâu.
− Chương 2: Trình bày phương án cải tiến cho mạng ResNet50 nhằm nâng cao chất lượng
đặc trưng ảnh cho tái định danh người bằng cách khai thác các thông tin ảnh cục bộ.
− Chương 3: Đánh giá hiệu quả của một số biến thể mạng RNN cho việc trích chọn đặc trưng
mức chuỗi ảnh. Đề xuất cải tiến mô hình tái định dựa trên chuỗi ảnh sử dụng các biến thể
mạng RNN.
− Chương 4: Đề xuất một phương pháp nén mạng học sâu hướng tới việc triển khai các mạng
này phần cứng FPGA.
CHƯƠNG 1
NGHIÊN CỨU TỔNG QUAN
1.1
Trích chọn đặc trưng hình ảnh
Nhiệm vụ của trích chọn đặc trưng là biến đổi dữ liệu thô thành các véc-tơ đặc trưng.
Đặc trưng được phân chia thành hai nhóm chính dựa trên phương pháp trích chọn đặc trưng:
(1) đặc trưng được trích chọn thủ công (hand-crafted features) và (2) đặc trưng được trích
chọn dựa trên mơ hình học sâu.
Nếu các đặc trưng thủ công dựa chủ yếu vào tri thức cũng như kinh nghiệm của các nhà
nghiên cứu, các chuyên gia, đặc trưng học sâu được trích chọn dựa vào mơ hình đã được huấn
luyện từ trước. Các mơ hình này thường được huấn luyện trên một tập cơ sở dữ liệu đủ lớn, đủ
đa dạng để có thể áp dụng vào bất kỳ bài toán nào. Một số kiến trúc học sâu: (1) Mạng Nơ-ron
học sâu - Deep neural networks (DNN); (2) Mạng Nơ-ron tích chập - Convolutional neural
networks (CNN); (3) Deep belief networks - DBN ; (4) Mạng Nơ-ron hồi quy - Recurrent
neural networks (RNN)
1.2
Một số kiến trúc mạng tích chập phổ biến
Mạng tích chập là kiến trúc mạng học sâu được sử dụng nhiều trong lĩnh vực thị giác
máy tính. Các mạng này được tạo nên bởi các lớp mạng, trong đó các lớp tích chập đóng vai
trị quan trọng. Cùng với các nghiên cứu, các mạng tích chập được cải tiến với nhiều thay đổi
khác nhau trong kiến trúc để mang lại hiệu quả cao hơn. Theo đó là sự ra đời của các kiến
trúc mạng như: LeNet-5, AlexNet, VGG, GoogleNet, ResNet
1.3
Mạng Nơ-ron hồi quy
Mạng Nơ-ron hồi quy (Recurent Neural Netwwork - RNN) thường được sử dụng trong
các bài tốn để trích xuất thơng tin mang tính thời gian hoặc chuỗi dữ liệu. Ngoài ra các mạng
loại này cịn được sử dụng rất nhiều trong các bài tốn xử lý ngôn ngữ tự nhiên. Các mạng
Nơ-ron hồi quy ra đời với ý tưởng chính là sử dụng một bộ nhớ để lưu lại thơng tin từ những
bước tính tốn xử lý trước để dựa vào nó có thể đưa ra những tính tốn, dự đốn chính xác
nhất cho bước dự đoán hiện tại.
3
1.4
Phát hiện đối tượng trên ảnh sử dụng học sâu
Các bộ phát hiện đối tượng dựa trên học sâu được chia làm 2 nhóm chính là: Loại một
giai đoạn (one-stage detector) và loại hai giai đoạn (two-stage detector).
- Bộ phát hiện đối tượng hai giai đoạn (Fast R-CNN, Faster R-CNN): Lựa chọn các vùng
ứng viên (ROI) trong ảnh, sau đó phân loại các vùng ứng viên đó sử dụng mạng CNN. Việc
dự đốn nhãn và vị trí của đối tượng trong ảnh được thực hiện trong hai bước độc lập.
- Bộ phát hiện đối tượng hai giai đoạn (YOLO, SSD): dự đốn nhãn và vị trí của đối
tượng trong tồn bộ bức ảnh chỉ với một lần chạy thuật toán duy nhất.
1.5
Theo vết đối tượng sử dụng học sâu
Theo vết đối tượng làm nhiệm vụ kết nối các vùng hình ảnh của một người trên các
khung hình liên tiếp theo thời gian. Bài tốn theo vết đối tượng có thể được phân loại dựa
trên các khía cạnh khác nhau:
a) Dựa vào số lượng đối tượng cần theo vết
− Theo vết một đối tượng duy nhất trong video (Single Object Tracking - SOT)
− Theo vết đồng thời nhiều đối tượng (Multiple Object Tracking - MOT)
b) Dựa vào phương pháp theo vết
− Tracking-based detection: dự đốn vị trí của các đối tượng trong khung hình hiện tại
thơng qua việc cập nhật vị trí của đối tượng trong các khung hình trước đó, được gọi
là Generative trackers; ví dụ, bộ lọc Kalman, bộ lọc hạt (Particle filter), hay theo
vết dựa trên kernel (kernel-based tracking).
− Tracking-by-detection: Các vùng ảnh đối tượng được phát hiện trong từng khung hình,
sau đó, các vùng ảnh thuộc cùng một đối tượng được kết nối với nhau, được gọi là
Discriminative trackers, ví dụ: SORT và DeepSORT.
1.6
Bài tốn tái định danh người và các vấn đề liên quan
Tái định danh người được định nghĩa là bài toán so khớp (matching) hình ảnh của một
người khi người đó di chuyển trong một mạng camera giám sát, đôi một không chồng lấn nhau
về trường quan sát. Các nghiên cứu gần đây về việc áp dụng các kỹ thuật học sâu cho bài toán
tái định danh vẫn tập chung vào việc cải tiến các giải thuật trích chọn đặc trưng bao gồm cả
đặc trưng mức ảnh và đặc trưng mức chuỗi ảnh. Dữ liệu, các chiến lược huấn luyện trong đó
có việc cải tiến các hàm mất mát hoặc các chiến lược kết hợp nhiều đặc trưng đều đã được
nghiên cứu. Tuy nhiên, do những thách thức lớn của bài toán nên mặc dù đã đạt được nhiều
bước tiến nhưng hướng nghiên cứu này vẫn đang được quan tâm của nhiều nhà khoa học.
1.7
Nén mạng học sâu và triển khai trên FGPA
Triển khai các mạng học sâu thường đòi hỏi rất nhiều tài ngun phần cứng như bộ nhớ,
khả năng tính tốn và năng lượng. Điều làm cản trở việc triển khai các thiết bị biên như là:
Raspberry, Jetson nano hoặc các mạch logic FPGA. Do đó một yêu cầu đặt ra là nén mạng.
Các kỹ thuật nén mạng nói chung có thể chia làm 2 loại chính là cắt tỉa và lượng tử hóa. Tuy
4
nhiên, việc tìm ra các phương pháp nén mạng tối ưu lại trờ thành một thách thức cho các
nhà nghiên cứu.
1.8
Kết luận chương
Dựa trên cơ sở khảo sát tình hình nghiên cứu như đã trình bày ở trên, bài tốn trích chọn
đặc trưng đối tượng trên ảnh dựa trên học sâu không chỉ dừng lại ở việc sinh ra đặc trưng
cho ảnh đầu vào tương ứng sử dụng các mô hình mạng học sâu mà cịn rất nhiều vấn đề liên
quan cần phải được giải quyết.
CHƯƠNG 2
TRÍCH CHỌN ĐẶC TRƯNG HỌC SÂU CỤC BỘ TRONG
TÁI ĐỊNH DANH NGƯỜI
2.1
Đặt vấn đề
Mô hình chung để giải quyết bài tốn tái định danh có thể được thể hiện như Hình 2.1.
Sơ đồ này có thể được áp dụng cho cả tái định danh sử dụng đơn hình ảnh và sử dụng đa
hình ảnh. Trong phần trích chọn đặc trưng, các đặc trưng mức ảnh được trích chọn cho tồn
Đơn ảnh
Chuỗi ảnh
Trính đặc
trưng mức
ảnh
Trích đặc
trưng mức
chuỗi ảnh
Tập truy vấn
Đơn ảnh
Học độ đo
Kết hợp
muộn
Chuỗi ảnh
Trính đặc
trưng mức
ảnh
So khớp
và xếp
hạng
Kết quả
truy vấn
Trích đặc
trưng mức
chuỗi ảnh
Tập tìm kiếm
Phần trích chọn đặc trưng
Phần so khớp đặc trưng
Hình 2.1 Mơ hình chung cho bài tốn tái định danh.
bộ ảnh của tập truy vấn và tập tìm kiếm. Các đặc trưng này có thể là các đặc trưng thủ cơng
như: GOG, LOMO hoặc đặc trưng học sâu như: ResNet-50. Đối với trường hợp tái định danh
sử dụng đơn hình ảnh, các đặc trưng này được chuyển sang phần so khớp. Ngược lại, nếu là
tái định danh sử dụng đa hình ảnh thì các đặc trưng mức ảnh của cùng một người sẽ được
cho qua một bộ tổng hợp đặc trưng mức chuỗi ảnh nhằm tạo ra một đặc trưng của một chuỗi
các hình ảnh. Trong phần so khớp, một giải thuật học khoảng cách như giải thuật XQDA có
thể được sử dụng nhằm ánh xạ các véc-tơ đặc trưng sang một khơng gian con có khả năng
phân biệt tốt hơn các đối tượng khác nhau. Các đặc trưng cũng có thể được sử dụng độc lập
hoặc được kết hợp thông qua sơ đồ kết hợp muộn với nhiều sơ đồ khác nhau bao gồm cả kết
hợp với ngưỡng thích nghi. Cuối cùng, khối so khớp và xếp hạng có nhiệm vụ đưa ra kết quả
dự đốn.
Các mạng tích chập (CNN) thơng thường chỉ làm việc với các đặc trưng tồn cục của
ảnh. Điều này có thể làm mất đi các đặc trưng cục bộ nhất là hình ảnh người trong cho bài
5
tốn tái định danh có các bộ phận được phân bố theo chiều dọc của ảnh. Do đó cần có những
thay đổi để phát huy các đặc trưng cục bộ khi sử dụng các mạng học sâu.
2.2
Phương pháp đề xuất
2.2.1
Cải tiến mạng RestNet-50 cho việc trích chọn đặc trưng ảnh người đi bộ
Biến thể ResNet-50 của mạng ResNet [8] là kiến trúc mạng học sâu phổ biến trong thị
giác máy tính và nhiều lĩnh vực khác. Trong mơ hình tái định danh được đề xuất trên, mạng
ResNet-50 được áp dụng cho để trích chọn đặc trưng mức ảnh của người đi bộ. Nhận thấy
rằng, các bộ phận của người đi bộ trong ảnh được phân bố theo chiều dọc ảnh như: đầu, cổ,
vai, thân trên,... Trong khi đó việc lấy giá trị trung bình các giá trị bản đồ đặc trưng (Feature
map) tại tầng "AVG pool"của ResNet-50 có thể làm mất đi các đặc trưng của từng vùng trên
cơ thể. Do đó, luận án đề xuất trích chọn đặc trưng trên nhiều vùng ảnh riêng biệt phân
theo chiều dọc. Số lượng vùng có thể được thay đổi tùy thuộc vào đối tượng quan tâm. Trong
trường hợp này là 7 vùng. Cách thức thực hiện được thể hiện bởi Hình 2.2. Nhằm giảm chi
phí tính tốn mà khơng thay đổi bản chất của phương pháp đề xuất, lớp gộp (AVG-pool) kích
thước cửa sổ 7x7 cuối cùng bằng lớp gộp với kích thước cửa sổ 1x7.
2048x7x1
2048x7x7
Block 5
1024x14x14
Block 4
512x28x28
Block 3
256x56x56
Block 2
Block 1
64x112x112
AVG
pool
(1,7)
Hình 2.2 Trích đặc trưng sử dụng mạng ResNet-50 áp dụng chiến lược chia 7 vùng ảnh
Lớp gộp kích thước 1x7 sẽ tổng hợp bản đồ đặc trưng ở lớp phía trước (7x7x2048) để
thu được một bản đồ đặc trưng kích thước 7x1x2048 tương ứng với 7 véc-tơ đặc trưng của
7 vùng trên ảnh. Sau đó, 7 véc-tơ 2048 chiều này có thể được ghép nối với nhau để tạo nên
véc-tơ đặc trưng duy nhất (ResNet50-7Stripes) biểu diễn ảnh của một người với kích thước là
2048 × 7 = 14, 336 thay vì 2, 048 như mạng gốc. Hoặc 7 véc-tơ này có thể được sử dụng một
cách độc lập nhau. Lúc đó cần sử dụng thêm một độ đo khoảng cách giữa hai tập đặc trưng
cục bộ này.
2.2.2 Kết hợp các đặc theo chiến lược kết hợp muộn
Mỗi loại đặc trưng có ưu nhược điểm riêng, một bộ mơ tả có thể hiệu quả trên một cơ sở
dữ liệu này nhưng lại không hiệu quả trên một cơ sở dữ liệu khác. Luận án đề xuất áp dụng
chiến lược kết hợp muộn đặc trưng ResNet50-7Stripes với một số trưng khác dựa trên quy tắc
nhân và quy tắc cộng được mô tả như trong các công thức (2.1) và (2.2).
Kết hợp muộn dựa trên quy tắc nhân
Similarity(Q, I j ) =
N
Y
(i)
simQ,I j
ωQ(i)
, với
N
X
i=1
i=1
6
(i)
ωQ = 1.
(2.1)
Kết hợp muộn dựa trên quy tắc cộng
j
Similarity(Q, I ) =
N
X
(i)
simQ,I j
×
(i)
ωQ
, với
i=1
N
X
(i)
ωQ = 1.
(2.2)
i=1
Similarity(Q, I j ) là độ đo tương tự giữ người cần truy vấn Q và một người trong tập tìm
(i)
kiếm I j , simQ,I j là độ đo giữa hai người ứng với mỗi đặc trưng i, N = 3 là số đặc trưng đang
(i)
xét, và wQ là trọng số của đặc trưng i tương ứng với người truy vấn Q. Để đánh giá hiệu
năng của phương pháp đề xuất với các chiến lược kết hợp đặc trưng khác nhau, trong nghiên
(i)
cứu này, wQ được xác định theo hai cách. Cách thứ nhất, các đặc trưng được gán các trọng
(i)
(i)
số bằng nhau, có nghĩa là wQ = 1/N . Cách thứ hai, wQ được xác định thích nghi theo ảnh
truy vấn đầu vào dự trên nghiên cứu của Zheng và cộng sự [28].
2.2.3 Tính khoảng cách giữa hai tập đặc trưng cục bộ bằng độ đo EMD
Việc nối các đặc trưng cục bộ của từng vùng ảnh làm cho việc đối sánh đặc trưng của
hai ảnh trở nên không rõ ràng khi chưa làm rõ được vùng ảnh nào của ảnh truy vấn sẽ thực
sự khớp với vùng ảnh nào của ảnh tìm kiếm. Do đó thay vì việc nối đặc trưng cục bộ của
từng vùng ảnh lại với nhau thì sử dụng chúng độc lập và coi chúng là một tập hợp các đặc
trưng. Dựa trên cơ sở nghiên cứu [17], nghiên cứu sinh đề suất thay thế khoảng cách DMLI
bởi khoảng cách EMD [22] cho việc tính khoảng cách giữa hai tập véc-tơ đặc trưng cục bộ
của hai ảnh. Khoảng cách dl giữa chúng được mơ tả như Hình 2.3 và cơng thức 2.3. Chi phí
tính tốn khoảng cách EMD nhỏ hơn DMLI.
Hình 2.3 Một ví dụ về việc tính tốn khoảng cách EMD giữa hai tập đặc trưng cục bộ của
hai ảnh người
dl (Q, I) =
H X
H
X
i=1 j=1
7
dij fij
(2.3)
trong đó dij là khoảng cách Euclide được chuẩn hóa về đoạn [0..1] giữa đặc trưng cục bộ thứ
i của ảnh Q với đặc trưng cục bộ thứ j của ảnh I. fij là đại lượng học được trong quá trình
huấn luyện. Cuối cùng hai hàm mất mát softmax và triplet được sử dụng để huấn luyện mạng.
Cụ thể, giá trị mất mát L được tính tốn theo cơng thức
L = LID + LgT + LlT ,
(2.4)
trong đó, LID là giá trị mất mát theo định danh (ID) của đối tượng sử dụng hàm mất mát
softmax, LgT , LlT là hai giá trị mất mát theo hàm mất mát triplet tương ứng với hai nhánh cục
bộ và toàn cục của mạng.
2.3
2.3.1
Thử nghiệm và kết quả
Cơ sở dữ liệu cho bài toán tái định danh
Các thử nghiệm được thực hiện trên CSDL VIPeR [7], PRID-2011 [9], iLIDS-VID [24],
Market1501-Partial và DukeMTMCReID-Partial [17]. Kết quả tái định danh được thể hiện
bằng đường cong CMC (Cummulative Matching Characteristic) hoặc bảng xếp hạng. Mỗi giá
trị trên đường cong CMC thể hiện tỷ lệ so khớp đúng tại mỗi thứ hạng (rank).
2.3.2 Đánh giá hiệu quả của đặc trưng cục bộ với chiến lược nối đơn giản
Phần này tập chung làm nổi bật hiệu quả của đặc trưng cục bộ thu được bởi mạng
ResNet-50 đã được cải tiến trên các CSDL cho bài toán tái định danh là: VIPER , PRID2011 và iLIDS-VID. - ResNet50/ResNet50-7Stripes: đặc trưng được trích chọn dựa trên mạng
ResNet-50 gốc/ ResNet-50 cải tiến, sử dụng bộ trọng số tiền huấn luyện (pre-trained) trên bộ
dữ liệu ImageNet.
- ResNet50-TP/ResNet50-TP7Stripes: đặc trưng được trích xuất dựa trên mạng ResNet50 gốc/ ResNet-50 cải tiến với bộ trọng số được hiệu chỉnh lại trên cơ sở dữ liệu PRID-2011
theo [6].
Bảng 2.1 Kết quả so khớp đúng khi sử dụng đặc trưng ResNet trên cơ sở dữ liệu VIPER.
ResNet50 (gốc)
ResNet50-7Stripes
ResNet50-TP
ResNet50-TP7Stripes
R=1
7.15
15.57
18.51
28.16
R=5
21.55
36.08
41.96
56.08
VIPER
R=10 R=15
31.46
38.64
48.64
56.08
55.06
62.78
69.02
75.79
R=20
43.48
62.50
69.02
80.70
Bảng 2.1 hiển thị tỷ lệ so khớp đúng tại một số thứ hạng quan trọng (1, 5, 10, 20) khi
thực hiện các thử nghiệm trên hai cơ sở dữ liệu VIPeR. Bảng 2.2 đưa ra tỷ lệ so khớp đúng tại
một số thứ hạng(1, 5, 10, 20) khi thực hiện các thử nghiệm trên hai cơ sở dữ liệu PRID-2011
và iLIDS-VID. Đặc trưng được trích chọn theo phương pháp đề xuất ResNet50-7Stripes và
ResNet50-TP7Stripes đạt được kết quả tốt hơn so với đặc trưng ResNet50 và ResNet50-TP
được trích chọn theo mơ hình gốc. Điều này cho thấy các thơng tin cục bộ theo vùng đóng
vai trị quan trọng trong mô tả ảnh của một người.
8
Bảng 2.2 Kết quả so khớp đúng khi sử dụng đặc trưng ResNet trên cơ sở dữ liệu PRID-2011
và iLIDS-VID.
PRID-2011
R=1 R=5 R=10
Different fusion
schemes
with 3 features on PRID-2011
ResNet50
(original)
83.03
89.78
Different fusion
schemes
with 3 feature 57.19
ResNet50-7Stripes
73.26 92.92
95.96
ResNet50-TP
80.56 96.29
98.76
ResNet50-TP7Stripes 87.42 97.08 98.65
Features
100
100
7090
90
6080
Tỷ lệ khớp (%)
80
100
Tỷ lệ khớp (%)
Matching rates
90
R=20
94.38
98.09
99.78
99.44
90.34%
GOG
90.34%
GOG
83.93%
LOMO
83.93%
LOMO
87.42%
ResNet
87.42%
ResNet50-TP7Stripes
93.26%
Adaptive
93.26%
Adaptive-weight Product-rule
5070
iLIDS-VID
R=1 R=5 R=10 R=20
Different
features on iLIDS-VID
20.60 fusion
38.27schemes
49.33 with3
62.07
32.13 55.53
68.07
79.73
53.13 76.47
84.53
91.27
73.87 92.00 96.33 98.93
80
67.13%
GOG
67.13%
GOG
60.20%
LOMO
60.20%
LOMO
73.87%
ResNet50-TP7Stripes
73.87%
ResNet50-TP7Stripes
70
93.82%
Equal-we
93.82%
Equal-weight Product-rule
84.00%
Adaptive-weight
Product-rule
84.00%
Adaptive-weight
Product-rule
85.60%
Equal-weight
Product-rule
85.60%
Equal-weight
Product-rule
93.48%
Adaptive
93.48%
Adaptive-weight Sum-rule
84.00%
Adaptive-weight
Sum-rule
84.00%
Adaptive-weight
Sum-rule
93.82%
Equal-we
93.82%
Equal-weight Sum-rule
4060
55
1010
Hạng
Rank
(a)
(a)
(a)
85.73%
Equal-weight
Sum-rule
85.73%
Equal-weight
Sum-rule
60
15
20
5 5
10 10
Hạng
Rank
15 15
20 20
(b)(b)
2.4lệTỷsolệ khớp
khớp
khi
dụngcác
các đặc
riêng
lẻ lẻ
và và
dụngdụng
chiến
lược kết
Hình
2.3
khi
sửsửsửdụng
trưng
riêng
kikiáp
các
kếtkết
HìnhHình
2.3 Tỷ
Tỷ lệ so so
khớp
khi
dụng
cácđặc
đặctrưng
trưng
riêng
lẻkivàáp
áp các
dụng
cácchiến
chiếnlược
lược
hợp muộn. a) cơ sở dữ liệu PRID-2011 b) cơ sở dữ liệu iLIDS-VID.
hợp
hợp muộn.
muộn. a)
a)cơ
cơsở
sởdữ
dữliệu
liệuPRID-2011
PRID-2011and
andb)b)cơcơsởsởdữdữliệu
liệuiLIDS-VID.
iLIDS-VID.
2.3.3
Đánh giá hiệu quả của đặc trưng cục bộ với các chiến lược kết hợp muộn
2.2.3
giá
kết
trong
chiến
lược
kết
hợp
muộn
2.2.3 Đánh
Đánh
giáResNet50-TP7Stripes
kếtquả
quảcủa
củađề
đềxuất
xuất
lược
kết
hợp
muộn
Đặc trưng
sẽ đượctrong
sử dụngchiến
trong các
chiến
lược
kết hợp
muộn cùng
Hình
2.3
thể
hiện
tỷ
lệ
so
khớp
đúng
trong
các
trường
hợp
hoặc
chỉ
sử
dụng
từng
Hình
hiện
tỷ lệvàso
khớp
đúng
trong
dụng
từngđặc
đặc
với các2.3
đặcthể
trưng
LOMO
GOG.
Hình
2.4 thể
hiệncác
tỷ lệtrường
so khớphợp
đúnghoặc
trongchỉ
các sử
trường
hợp
trưng
riêng
dụng
kết
đặc
Mặc
dùhợp
tỏtỏ
rara
chỉlẻlẻsửhoặc
dụngáp
từng
đặc các
trưng
riênglược
lẻ
hoặc
áphợp
dụng
cáctrưng.
chiến
lược
kết
đặctrưng
trưng.
Mặc
trưnghoặc
riêng
hoặc
áp
dụng
cácchiến
chiến
lược
kết
hợp
đặc
trưng.
Mặc
dùđặc
đặc
trưngGOG
GOG
dù đặc
trưng
GOG
tỏ ra
hiệu
quả trong
việc
mơ
tảhợp
ảnh với
nhưng
khi
kết như
hợp với
đặc vẫn
hiệu
trong
việc
mơ
người,
nhưng
khi
kết
trưng
khác
hiệu quả
quả
trong
việc
mơtả
tảảnh
ảnh
người,
nhưng
khi
kết
hợpngười,
vớiđặc
đặc
trưng
khác
nhưRestNet
RestNet
vẫn
trưng
khác
như
RestNet
vẫn
có
thể
nâng
cao
độ
chính
xác
cho
bài
tốn
tái
định
danh.
Bảng
có
quả
có thể
thể nâng
nângcao
caođộ
độchính
chínhxác
xáccho
chobài
bàitốn
tốntái
táiđịnh
địnhdanh.
danh.Bảng
Bảng2.3
2.3sososánh
sánhgiữa
giữacác
cáckếtkết
quả
2.3 so sánh giữa các kết quả đạt được của phương pháp đề xuất với các kết quả của một số
đạt
của
phương pháp
đề xuất với
các
của
cứu hiện
trên
hai
đạt được
được
của
với
cáckết
kếtquả
quả
củamột
mộtsốPhương
sốnghiên
nghiên
hiệncó
nghiên
cứuphương
khác trênpháp
hai cơđềsởxuất
dữ liệu
PRID-2011
và iLIDS-VID.
phápcứu
đề xuất
tỏcó
ra trên hai
cơ
PRID-2011
và
Có
rõrõưuưuđiểm
của phương
pháp đềđề
xuất so
cơ sở
sở dữ
dữliệu
liệu
PRID-2011
vàiLIDS-VID.
iLIDS-VID.
Cóthể
thểthấy
thấy
hiệu
quả hơn
khi tỷ lệ so
khớp
đúng tại xếp
hạng
thứ nhất
tăngđiểm
tươngcủa
ứngphương
3.2% và pháp
15.6% so xuất so
với
khác.
khớp
tăng
ứng
3.2%
vàvà
vớiphương
các kết pháp
quả
đứng
thứTỷ
hailệ[20]
haiđúng
cơ sởtại
dữ
liệu
PRID-2011
và
iLIDS-VID.
với các
các
phương
pháp
khác.
Tỷ
lệsosotrên
khớp
đúng
tạixếp
xếphạng
hạngthứ
thứnhất
nhất
tăngtương
tương
ứng
3.2%
15.6%
15.6% so
sovới
vớicác
cáckết
kếtquả
quảđạt
đạtđược
đượctrong
trong[17]
[17]trên
trênhai
haicơcơsởsởdữdữliệu
liệuPRID-2011
PRID-2011vàvàiLIDS-VID.
iLIDS-VID.
Bảng 2.3 So sánh kết quả đạt được của phương pháp đề xuất với các phương pháp hiện có
sở dữ kết
liệuquả
PRID-2011
và của
iLIDS-VID.
quảđề
tốt xuất
nhất với
đượccác
in đậm.
Bảngtrên
2.3haiSocơsánh
đạt được
phươngKết
pháp
phương pháp hiện có
Bảng 2.3 So sánh kết quả đạt được của phương pháp đề xuất với các phương pháp hiện có
trên
Kết
được
trên hai
hai cơ
cơ sở
sởdữ
dữliệu
liệuPRID-2011
PRID-2011vàvàiLIDS-VID.
iLIDS-VID.
Kếtquả
quảtốttốtnhất
nhất
đượcininđậm.
đậm.
Methods
PRID-2011
iLIDS-VID
Matching rate (%)
Rank=1 Rank=5 Rank=20 Rank=1 Rank=5 Rank=20
Methods
iLIDS-VID
CAR [27], TCSVT
2017
83.3 PRID-2011
93.3
96.7
60.2
85.1
94.2
Methods
PRID-2011
iLIDS-VID
AMOC+EpicFlow
[16],(%)
TCSVT 2018 Rank=1
83.7
98.3
100
68.7
94.3
Matching rate
Rank=5
Rank=20
Rank=1
Rank=5 99.3
Rank=20
rate
(%)
Matching
Rank=1
Rank=5 100.0
Rank=20 70.1
Rank=192.7Rank=599.1Rank=20
GOG+XQDA
[20],
MTA
2019
90.6
98.4
CAR [23], TCSVT 2017
83.3
93.3
96.7
60.2
85.1
94.2
[23], TCSVT 2017
CAR
83.3
93.3 100.0
96.7 85.7 60.2 97.7 85.1 99.9 94.2
Ours
93.8
99.2
[13], TCSVT 2018
AMOC+EpicFlow
83.7
98.3
100
68.7
94.3
99.3
AMOC+EpicFlow [13], TCSVT 2018
83.7
98.3
100
68.7
94.3
99.3
GOG+XQDA [17], MTA 2019
90.6
98.4
100.0
70.1
92.7
99.1
[17],
MTA
2019
GOG+XQDA
90.6
98.4
100.0
70.1
92.7
99.1
2.3.4 Ours
Đánh giá hiệu quả của đặc93.8
trưng cục
bộ với
khoảng
cách97.7
EMD 99.9
99.2
100.0
85.7
Ours
93.8 được99.2
100.0
85.7 2.4.97.7
99.9
Kết
quả kiểm thử trên hai CSDL này
thể hiện
trong Bảng
Trong đó
Global
2.3 (hoặc
KếtLocal)
luậnthể hiện việc sử dụng đặc trưng toàn cụa (hoặc cục bộ). DMLI và EMD là hai
2.3 Kết luận
Nội dung chương này đã trình bày về đề xuất cải tiến mạng ResNet-50 nhằm trích chọn
Nội dung chương này đã trình bày về đề xuất cải tiến mạng ResNet-50 nhằm trích chọn
9 nghiệm được thực hiện trên ba cơ sở dữ liệu
đặc trưng của 7 phần trên ảnh người. Các thử
đặc trưng của 7 phần trên ảnh người. Các thử nghiệm được thực hiện trên ba cơ sở dữ liệu
VIPeR, PRID-2011 và iLIDS-VID cho bài toán tái định danh đã thể hiện hiệu quả của phương
độ đo cho phép tính khoảng cách giữa hai tập đặc trưng cục bộ. re-ranking là giải thuật cải
thiện trật tự sắp xếp thứ hạng cho kết quả so khớp.
Bảng 2.4 So sánh kết quả thu được từ phương pháp đề xuất và phương pháp gốc trên 3 CSDL
VIPeR, Market1501-Partial and DukeMTMCReID-Partial datasets.
Phương pháp
Tỷ lệ khớp (%)
Global
Local (DMLI)
Local (EMD)
Global + Local
Global + Local
Global + Local
Global + Local
(DMLI)
(DMLI) + re-ranking
(EMD)
(EMD) + re-ranking
Hạng 1
38.30
40.20
47.82
40.89
31.78
47.84
33.36
VIPeR
Hạng 5 Hạng 20
67.76
88.03
73.12
89.95
76.31
93.02
72.82
89.91
65.36
89.88
76.62
93.48
68.64
88.97
Market1501_Partial
Hạng 1 Hạng 5 Hạng 20
74.73
87.24
94.16
77.32
92.14
94.78
77.97
89.45
94.91
77.22
89.28
94.82
83.40
89.51
93.57
78.04
89.13
95.00
83.36
89.25
93.64
DukeMTMC_Partial
Hạng 1 Hạng 5 Hạng 20
65.93
79.18
87.75
68.28
81.44
88.90
68.54
81.86
88.65
68.33
81.00
89.27
77.03
83.31
89.03
69.08
81.93
88.64
78.47
84.47
89.41
Ngoài ra để thấy rõ được sự khác biệt khi sử dụng số lượng các vùng ảnh khác nhau. Các
thử nghiệm với số lượng vùng khác nhau cũng đã được thực hiện. Để thu được bản đồ đặc
trưng có kích thước phù hợp với số vùng ảnh mong muốn, ảnh đầu vào sẽ được thay đổi kích
thước trước khi cho qua mạng. Kết quả thử nghiệm với số lượng vùng ảnh khác nhau được
thể hiện trong Bảng 2.5. Nhận thấy rằng khi sử dụng số lượng vùng ảnh là 12 sẽ cho kết quả
cao nhất trên CSDL VIPER. Khi dùng quá ít hoặc quá nhiều vùng, kết quả đạt được đều
thấp hơn. Tuy nhiên, trong trường hợp sử dụng nhiều vùng hơn sẽ yêu cầu nhiều tài ngun
tính tốn khoảng cách EMD hơn.
Bảng 2.5 So sánh việc chia số lượng vùng khác nhau trên CSDL VIPER
Embedding
4
6
8
10
12
14
2.4
mAP
50.92
54.93
60.41
58.32
62.11
60.92
R-1
37.11
42.13
47.84
44.61
49.59
46.50
Result
R-5
66.58
70.61
76.62
75.04
77.65
78.82
R-10
76.34
81.65
86.47
85.13
86.93
89.23
R-20
87.72
89.12
93.48
93.40
93.52
90.76
Kết luận chương
Trong chương này, luận án đã trình bày về đề xuất cải tiến mạng ResNet-50 nhằm trích
chọn đặc trưng cục bộ của nhiều phần trên ảnh người. Căn cứ vào đề xuất này, nhiều kịch
bản thử nghiệm cho bài toán tái định danh đã được tiến hành trên 5 CSDL khác nhau. Kết
quả cho thấy, (1) đặc trưng cục bộ mang lại hiệu quả tốt hơn đặc trưng toàn cục trong hầu
hết các thử nghiệm. (2) Các đặc trưng cục bộ vẫn mang lại hiệu quả trong các chiến lược kết
hợp muộn với các đặc trưng GOG, LOMO ngay cả khi nó khơng cho hiệu quả tốt nhất khi sử
dụng đọc lập. (3) Việc sử dụng độ đo EMD cho kết quả không thua kém khi sử dụng độ đo
10
DMLI thậm chí có phần nhỉnh hơn trong khi việc tính tốn đơn giản hơn.
CHƯƠNG 3
KHAI THÁC ĐẶC TRƯNG VIDEO DỰA TRÊN MẠNG
NƠ-RON HỒI QUY TÁI ĐỊNH DANH NGƯỜI
3.1
Đặt vấn đề
Trong thực tế, các hệ thống thị giác máy tính thường thu nhận được nhiều hơn một hình
ảnh của đối tượng cần quan sát. Nhận thấy rằng, một chuỗi các hình ảnh nhất là chuỗi các
hình ảnh được sắp xếp theo thời gian thu nhận sẽ mang lại nhiều thông tin hơn là một hình
ảnh đơn lẻ. Khi đó, ngồi các thông tin về mặt không gian như các ảnh đơn lẻ chúng cịn
chứa các thơng tin theo chiều thời gian. Sử dụng các mạng Nơ-ron hồi quy (Recurrent Neural
Networks) cho việc khai thác các thơng tin mức chuỗi hình ảnh đã và đang được quan tâm.
Điển hình là các nghiên cứu [19, 25, 16]. Mục tiêu của chương này là tìm ra phương pháp vận
dụng các mạng RNN để khai thác các đặc trưng mức chuỗi ảnh nhằm nâng cao hiệu quả các
mơ hình cho bài tốn tái định danh người. Ngồi ra, chất lượng các chuỗi hình ảnh của người
cũng ảnh hưởng nhiều đến chất lượng đặc trưng thu nhận được. Do đó các bước phát hiện và
theo vết đối tượng cũng được nghiên cứu và đánh giá trong chương này trên cơ sở xây dựng
một CSDL đáp ứng hết các yêu cầu đánh giá một hệ thống tái định danh thực.
3.2
3.2.1
Một số kiến trúc mạng Nơ-ron hồi quy phổ biến
Recurrent Neural Network (RNN)
Mạng Nơ-ron hồi quy (RNN - recurrent neural networks) là một mạng Nơ-ron truyền đạt
với một vịng lặp. Trong đó một đơn vị xử lý (nút) được thực hiện lặp lại nhiều lần. Hình 3.1
mơ tả một mạng RNN được trải ra. Đầu vào là một chuỗi X = (x1 , x2 , ..., xT ), trong đó mỗi
Woh
Woh
Trải ra
Whh
Woh
Whh
Woh
Whh
Whh
Whh
Whx
Whx
Whx
Whx
Hình 3.1 Cấu trúc một nút trong mạng RNN
xt có thể là một véc-tơ. Ứng với mỗi thời điểm (tương ứng với mỗi nút), RNN cập nhật các
trạng thái ẩn (h1 , h2 , ..., hT ) đồng thời trả về kết quả đầu ra O = (o1 , o2 , ..., oT ). Hàm truyền
đạt của RNN tại thời điểm t được diễn tả như sau:
ht = tanh(Whx xt + Whh ht−1 + bh )
ot = tanh(Woh ht + bo )
11
(3.1)
3.2.2
Long Short-term Memory (LSTM)
LSTM [10] được đề xuất nhằm hạn chế sự suy hao thông tin từ các nút (đơn vị xử lý)
phía trước khi chúng được chuyển qua các nút ở xa phía sau như trong RNN. Mỗi nút trong
một mạng LSTM được bổ sung các cổng (gate) và có thêm ơ trạng thái ẩn (cell state) làm
việc như các phần tử nhớ (Hình 3.2). So với RNN, một mạng LSTM học được các đặc trưng
ot-1
ot
Ot+1
ht
Ct-1
Ct
ft
it
gt
ot
ht
ht-1
Xt-1
Xt
Xt+1
Hình 3.2 Cấu trúc một nút trong mạng LSTM
tạm thời có chọn lọc hơn, có khả năng nhớ tốt hơn so với RNN.
3.2.3 Long Short-term Memory với cặp cổng (LSTMC)
LSTMC là một cải tiến của LSTM. Trong đó tích hợp hai cổng qn (f ) và cổng vào (i)
thành một cổng duy nhất được gọi là cặp cổng (Couple gate). Số lượng tham số của kiến trúc
LSTMC giảm đi so với kiến trúc gốc. Với ý tưởng là thay thế những thông tin đã bị loại bỏ
bằng một thông tin khác.
3.2.4 Long Short-term Memory với kết nối Peephole (LSTMP)
LSTMP được giới thiệu bới Gers và Schmidhuber vào năm 2000. Sự khác biệt của nó so
với phiên bản gốc là việc thêm vào các kết nối lỗ nhìn (Peephole Connections). Việc thêm vào
các kết nối giữa đầu vào và các cổng làm cho LSTMP trở lên phức tạp hơn, chứa nhiều tham
số hơn.
3.2.5 Gated Recurrent Unit (GRU)
GRU là một biến thể được coi là khác biệt nhất so với LSTM nguyên bản. Không chỉ các
cổng quên f và cổng vào i được gộp lại thành một mà các trạng thái ô và các trạng thái ẩn
cũng được gộp lại. Điều này làm cho kiến trúc của GRU trở lên đơn giản hơn trong khi vẫn
giữ được khả năng lưu giữ các thông tin tạm thời.
3.3
Đánh giá hiệu quả của các mạng Nơ-ron hồi quy cho bài tốn tái
định danh sử dụng chuỗi hình ảnh
Trên cơ sở mơ hình RFA (Recurrent Feature Aggregation Network) [25]. Mơ hình này
tương tự với mơ hình tổng qt cho bài tốn tái định danh thể hiện trong Hình 2.1. Trong đó,
kiến trúc LSTM sẽ lần lượt được thay thế bởi các biến thể khác của RNN. Các thử nghiệm
được thực hiện trên hai CSDL PRID-2011 và iLIDS-VID nhằm tìm ra kiết trúc RNN hiệu
quả nhất. Độ đo tương đồng Cosine được sử dụng để so khớp các đặc trưng (Hình 3.3).
12
Đặc trưng
mức ảnh
LSTM
Nối
Chuỗi ảnh
truy vấn
LSTM
LSTM
So khớp
Đặc trưng
mức ảnh
Nối
Chuỗi ảnh
trong tập tìm
kiếm
LSTM
LSTM
LSTM
Trích đặc trưng mức ảnh
Trích đặc trưng mức chuỗi ảnh
So khớp các cặp đặc trưng
Hình 3.3 Mơ hình thử nghiệm tái định danh sử dụng chuỗi hình ảnh
Bước 1. Trích đặc trưng mức ảnh: Đặc trưng LBP&Color được trích chọn trên tất
cả các ảnh (đặc trưng mức ảnh) cho cả tập huấn luyện và kiểm thử.
Bước 2. Trích đặc trưng mức chuỗi ảnh: lần lượt các kiến trúc RNN, LSTM, LSTMP,
LSTMC và GRU sẽ được áp dụng để trích đặc trưng mức chuỗi hình ảnh từ mỗi 10 véc-tơ
đặc trưng mức ảnh tương ứng bằng cách ghép nối tất cả 10 đầu ra của các mạng Nơ-ron hồi
quy để tạo ra một véc-tơ 5120 chiều.
Bước 3. So khớp các cặp đặc trưng: Độ đo tương đồng Cosine theo Công thức 3.2
được sử dụng để xác định sự tương đồng của 2 véc-tơ đặc trưng.
Siq .Sjg
dij =
kSiq kkSig k
(3.2)
Trong đó Siq và Sjg là hai vector đặc trưng ở mức chuỗi ảnh của người thứ i trong tập truy
vấn (Probe) và người j trong tập tìm kiếm (Gallery).
Với mỗi thử nghiệm, mơ hình được huấn luyện trên tập huấn luyện. Chiến lược dừng sớm
cũng đã được áp dụng để tránh hiện tượng quá khớp (over fitting). Tất cả các thử nghiệm
được triển khai trên cùng một máy tính với CPU Intel® Xeon E3-1245 v5, GPU NVIDIA
Titan X GPU.
Bảng 3.1 So sánh kết quả khi dùng các kiến trúc mạng Nơ-ron hồi quy khác nhau
CSDL
Độ chính xác %
RNN
GRU
LSTMC
LSTM
LSTMP
Hạng 1
34.4
48.4
46.2
44.5
45.7
iLIDS-VID
Hạng 5 Hạng 10
64.8
76.8
74.3
83.0
72.2
81.4
71.9
82.0
71.8
81.9
Hạng 20
87.5
91.3
90.3
90.1
90.2
Hạng 1
44.0
59.2
53.8
54.9
54.1
PRID-2011
Hạng 5 Hạng 10
76.1
88.7
87.2
95.3
81.5
92.6
84.2
93.7
81.8
91.5
Hạng 20
96.2
98.8
97.8
98.4
97.8
Kết quả thử nghiệm lần lượt với 5 biến thể của mạng Nơ-ron hồi quy được tổng hợp
trong 2 bảng (3.1 và 3.2). Số lượng tham số của kiến trúc RNN là nhỏ nhất nhưng cũng cho
độ chính xác thấp nhất. Kiến trúc LSTM và các biến thể của nó đem lại độ chính xác tương
13
Bảng 3.2 So sánh thời gian thực thi
Kiến trúc
Số lượng tham số
RNN
GRU
LSTMC
LSTM
LSTMP
30.707.712
91.073.024
91.335.168
121.780.224
122.566.656
Thời gian huấn luyện (ms/iter)
Batch =1 Batch =8 Batch=16
12,784
54,029
103,963
27,778
65,187
121,961
28,001
66,245
124,772
36,694
69,664
132,197
37,977
71,861
134,724
Thời gian kiểm tra(ms/seq)
6,643
7,265
7,354
8,462
9,629
tự nhau. Kiến trúc GRU cho kết quả tốt nhất trên toàn bộ các hạng và trên cả hai tập dữ
liệu mặc dù không phải là kiến trúc phức tạp nhất.
3.4
Cải thiện đặc trưng mức chuỗi ảnh với mạng VGG16 và kiến trúc
GRU
Các thực nghiệm ở phần trên cho thấy hiệu quả của kiến trúc GRU so với các biến thể
khác trong việc tạo ra. Tuy nhiên, đặc trưng (LBP&Color) lại khá hạn chế. Đề xuất sử dụng
đặc trưng học sâu từ mạng VGG16. Các thử nghiệm hướng tới đến hai mục tiêu: (1) So sánh
hiệu quả các chiến lược tổng hợp (thay thế phép nối) theo thời gian; (2) Chứng mình hiệu
quả của đặc trưng mức ảnh khi sử dụng mạng VGG16. Bảng 3.3 thể hiện kết quả thử nghiệm
của mơ hình được đề xuất với các chiến lược tổng hợp đặc trưng khác nhau mức chuỗi ảnh
từ các đầu ra của mạng GRU. TP Mean, TP Max và Concat lần lượt biểu thị các chiến lược
lấy giá trị trung bình, giá trị lớn nhất và ghép nối. Trong đó, chiến lược lấy trưng bình mang
lại kết quả nhỉnh hơn trong khi kích thước véc-tơ đặc trưng nhỏ hơn so với chiến lược nối.
Bảng 3.4 so sánh kết quả đật được với các nghiên cứu khác. Đối với tập dữ liệu nhiều thách
Bảng 3.3 So sánh hiệu suất của mơ hình được đề xuất khi áp dụng các chiến lược gộp theo
thời gian khác nhau
Dataset
CMC Rank
VGG-GRU+TP Mean
VGG-GRU+TP Max
VGG-GRU+Concat
iLIDS-VID
1
5
49.8
49.1
49.8
77.4
76.8
77.4
10
PRID-2011
20
86.5 93.5
86.3 93.4
86.5 93.4
1
5
75.1 93.7
74.6 93.5
74.3 93.5
10
20
97.5
97.7
97.5
99.5
99.5
99.5
iLIDS-VID, độ chính xác ở hạng 1 tăng nhẹ (0,5%) so với kiến trúc gốc nhưng có hai ưu thế.
Một là, kích thước véc-tơ đặc trưng mức chuỗi ảnh trong mơ hình được đề xuất trên nhỏ hơn
10 lần (do lấy trung bình). Hai là, mơ hình đề xuất chỉ dùng độ đo tương đồng Cosine đơn
giản hơn nhiều so với giải thuật học độ đo khoảng cách RankSVM [1]. Sự chênh lệch về hiệu
suất được mở rộng trong tập dữ liệu đơn giản hơn (PRID-2011).
Bảng 3.4 So sánh hiệu quả của mơ hình được đề xuất với các nghiên cứu khác
Dataset
CMC Rank
VGG-GRU+TP Mean
LBP&Color+RFA-Net+RankSVM [25]
LBP&Color+RFA-Net+Cosine [25]
STFV3D+KISSME [12]
iLIDS-VID
1
5
10
PRID-2011
20
49.8 77.4 86.5 93.5
49.3 76.8 85.3 90.0
44.5 71.9 82.0 90.1
44.3 71.7 83.7 91.7
14
1
5
10
20
75.1 93.7 97.5 99.5
58.2 85.8 93.4 97.9
54.9 84.2 93.7 98.4
64.1 87.3 89.9 92.0
3.5
Nâng cao hiệu quả mơ hình bằng đặc trưng thủ cơng (GOG) kết
hợp sử dụng thuật tốn học độ đo khoảng cách
Đặc trưng thủ cơng mức ảnh của mơ hình RFA được thay thế bởi đặc trưng thủ công
GOG. Biến thể LSTM được áp dụng với chiến lược nối các dữ liệu đầu ra để tổng hợp đặc
trưng mức chuỗi ảnh. Cuối cùng áp dụng giải thuật tối ưu độ đo khoảng cách XQDA [15] cho
giai đoạn so khớp đặc trưng.
Hình 3.4 thể hiện kết quả thu được. Dễ thấy, việc thay thế đặc trưng LBP&Color bởi
đặc trưng GOG đem lại hiệu quả cao hơn việc chỉ thay thế giải thuật học độ đo khoảng cách
RankSVM bởi XQDA trên CSDL PRID-2011. Tuy nhiên, phương pháp được đề xuất tăng
mạnh trên CSDL PRID-2011 nhưng chỉ tăng nhẹ trên CSDL iLIDS-VID. Bảng 3.5 so sánh
phương pháp được đề xuất với phương pháp khác.
1 0 0
9 0
M a tc h in g r a te ( % )
8 0
7 0
6 0
5 0
4 1 .6
4 2 .9
4 0 .4
4 2 .7
4 0
3 0
5
1 %
4 %
5 %
3 %
L B P
L B P
G O
G O
- C o lo
- C o lo
G + R
G + X Q
1 0
r + R a n k S V M
r + X Q D A
a n k S V M
D A
1 5
2 0
R a n k
(a) PRID- 2011
(b) iLIDS-VID
Hình 3.4 Kết quả thử nghiệm với mơ hình đề xuất
Bảng 3.5 So sánh kết quả của phương pháp đề xuất và một số phương pháp khác trên 2 CSDL
PRID-2011 và iLIDS-VID
Phương pháp
TAPR [5]
RNN [19]
DFCP [14]
TDL [26]
RFA-Net [25]
Ours
3.6
Hạng 1
68.6
70.0
51.6
56.7
53.6
70.4
PRID 2011
Hạng 5 Hạng 10
94.6
97.4
90.0
95.0
83.1
91.0
80
87.6
82.9
92.8
93.4
97.6
Hạng 20
98.9
97.0
95.5
93.6
97.9
99.3
Hạng
55.0
58.0
34.5
56.3
41.6
42.7
iLIDS-VID
Hạng 5 Hạng 10
87.5
93.8
84.0
91.0
63.3
74.5
87.6
95.6
69.7
80.2
73.6
84.7
Hạng 20
97.2
96.0
84.4
98.3
89.2
93.3
Triển khai và đánh giá một hệ thống tái định danh
Một hệ thống thị giác máy tính trên thực tế bao gồm nhiều giai đoạn thực hiện. Mỗi kết
quả của khâu trước sẽ ảnh hưởng đến kết quả của giai đoạn kế tiếp, một hệ thống tái định
danh cũng vậy. Nó gồm ba khâu cơ bản: phát hiện, theo vết và tái định danh. Trong chương
này, tác giả hướng tới một hệ thống tái định danh với cả 3 giai đoạn trên để có cái nhìn đầy
đủ hơn về khi áp dụng các kỹ thuật học sâu cho các bài tốn của thị giác máy tính. Ngoài ra
tác giả cùng đã tiến hành thu thập và xây dựng một cơ sở dữ liệu hình ảnh để phục vụ cho
các thử nghiệm.
15
3.6.1
Mơ tả hệ thống
Một hệ thống tái định danh có thể được mơ tả như hình 3.5.
Camera 1
So khớp
Camera 2
Thu nhận hình ảnh
Phát hiện người
Theo vết người
Tái định danh
Hình 3.5 Phương pháp đề xuất cho một hệ thống tái định danh hồn tồn tự động.
Mục đích chính của chương này đó là đánh giá hiệu năng tổng thể của tồn hệ thống
khi các cơng đoạn được thực hiện hồn tồn tự động. Đối với công đoạn phát hiện, hai trong
số các phương pháp phát hiện đối tượng được đánh giá là hiệu quả và phổ biến là YOLOv3
và Mask R-CNN được để xuất sử dụng. Bên cạnh đó, DeepSORT với các ưu điểm vượt trội
được đề xuất cho công đoạn theo vết đối tượng. Cuối cùng, mơ hình tái định danh với mạng
ResNet50 cải tiến (đã trình bày trong Chương 2) được áp dụng cho công đoạn tái định danh.
3.6.2 Xây dựng cơ sở dữ liệu FAPR
Trên thực tế, các cơ sở dữ liệu dùng chung hiện có thường được xây dựng riêng cho từng
bài toán. Với bài toán phát hiện đối tượng có thể sử dụng các CSDL như: ImageNet, COCO,...
Với bài tốn theo vết đối tượng có thể sử dụng các CSDL như MOT. Với bài toán tái định
danh có VIPeR, PRID-2011,... Tuy nhiên, rất khó để tìm thấy một cơ sở dữ liệu được xây
dựng để có thể dùng chung cho cả 3 bài toán này nhất là các CSDL được xây dựng trong nước.
Do đó, việc xây dựng một CSDL đáp ứng yêu cầu trên là cần thiết. CSDL Fully Automated
Person ReID (FAPR) gồm 15 videos đã được phân tách thành từng ảnh và được thu thập
trong ba ngày với hai camera tĩnh có vùng quan sát không chồng lấn nhau. Độ phân giải của
ảnh thu nhận là Full HD (1920 × 1080), tốc độ thu hình 20 khung hình/s (fps) trong cả hai
mơi trường trong nhà (Indoor) và ngoài trời (Outdoor). Các nhãn của CSDL được gán bằng
tay với một số mô tả về một phần cơ sở dữ liệu được thể hiện trên Bảng 3.6.
Bảng 3.6 6/12 video và nhãn trong cơ sở dữ liệu FAPR
Tên video
20191105_indoor_left
20191105_indoor_right
20191105_indoor_cross
20191105_outdoor_left
20191105_outdoor_right
20191105_outdoor_cross
#Số lượng ảnh
947
474
1447
765
470
1009
#Số lượng BB
1502
1119
3087
1565
1119
2620
#BB/Ảnh
1.59
2.36
2.13
2.05
2.38
2.60
#IDs
10
10
10
11
10
9
#Tracklets
11
10
21
11
11
17
Cơ sở dữ liệu FAPR hội tụ nhiều thách thức và tiêu chuẩn cho các bài tốn đặt ra. Cụ
thể là: Có sự thay đổi lớn về điều kiện chiếu sáng trong nhà và ngoài trời (indoor và outdoor);
16
kích thước, góc nhìn vùng ảnh người biến động lớn trong quá trình di chuyển; dữ liệu thu
nhận từ 2 camera khơng có sự chồng lấn về trường quan sát; sự che lấp xuất hiện với nhiều
mức độ khác nhau (hard và easy); người di chuyển theo các hướng khác nhau như từ trái, từ
phải và từ hai phía (left, right, cross). Q trình gán nhãn được thực hiện thơng qua việc sử
dụng phần mềm LabelImg. Cuối cùng ta có tập CSDL với 11.876 khung hình chia làm 15 tập
nhỏ tương ứng với 15 video. Trong đó có 28.567 vùng ảnh chứa người (BB - Bounding Box)
được gán đánh dấu và gán định danh ứng với 181 chuỗi hình ảnh (Tracklets) của cùng một
định danh (ID).
3.6.3 Đánh giá phần phát hiện và theo vết người trên CSDL FAPR
Để đánh giá hiệu quả của việc kết hợp giữa các phương pháp phát hiện và theo vết khác
nhau, YOLOv3 và Mask R-CNN được đề xuất cho bước phát hiện đối tượng, trong khi đó
DeepSORT được sử dụng cho bước theo vết. Bảng 3.7 và 3.8 mô tả kết quả khi áp dụng
YOLOV3. Dễ thấy Prcn và Rcll có sự biến đổi lớn giữa các video. Điều này chứng tỏ sự khác
biệt lớn về thách thức của mỗi video. Hình 3.6 mơ tả một số ví dụ về kết quả thu được trong
các bước phát hiện và theo vết đối tượng.
Bảng 3.7 Kết quả phát hiện người trên cơ sở dữ liệu FAPR khi sử dụng bộ phát hiện YOLOv3.
Videos
indoor
outdoor_easy
outdoor_hard
20191104_indoor_left
20191104_indoor_right
20191104_indoor_cross
20191104_outdoor_left
20191104_outdoor_right
20191104_outdoor_cross
FP↓
80
70
533
164
118
142
249
203
213
FN↓
51
65
460
215
188
244
160
197
134
Đánh giá khâu phát hiện (1)
Rcll(%)↑ Prcn(%)↑ F1-score(%)↑
95.6
93.2
94.4
97.5
97.3
97.4
93.0
92.0
92.5
83.3
86.7
85.0
85.2
90.1
87.6
76.9
85.1
80.8
88.0
82.5
85.2
86.0
85.6
85.8
85.7
79.1
82.3
Bảng 3.8 Kết quả theo vết người trên cơ sở dữ liệu FAPR khi sử dụng bộ phát hiện YOLOv3
và bộ theo vết DeepSORT.
Videos
indoor
outdoor_easy
outdoor_hard
20191104_indoor_left
20191104_indoor_right
20191104_indoor_cross
20191104_outdoor_left
20191104_outdoor_right
20191104_outdoor_cross
3.6.4
GT
7
7
20
10
13
10
10
11
12
MT↑
7
7
19
8
8
5
8
7
8
PT↑
0
0
1
2
5
4
2
3
2
ML↓
0
0
0
0
0
1
0
1
2
IDF1(%)↑
91.5
74.5
78.0
83.8
79.6
68.0
73.5
70.6
71.9
Đánh giá khâu theo vết (2)
IDP(%)↑ IDR(%)↑ IDs↓
90.4
92.7
7
74.4
74.6
6
77.6
78.4
30
85.5
82.1
7
81.9
77.4
9
71.6
64.7
12
71.2
76.0
10
70.5
70.8
17
69.2
75.0
14
FM↓
11
16
67
24
16
29
48
45
33
MOTA(%)↑
88.0
94.5
84.4
70.0
75.1
62.3
68.6
70.3
61.6
MOTP↓
0.26
0.21
0.28
0.34
0.30
0.29
0.33
0.29
0.30
Đánh giá phần tái định danh trên CSDL FAPR
Đặc trưng ResNet50_7stripe được sử dụng cho bước biểu diễn ảnh người. Đặc trưng mức
chuỗi ảnh cho tất cả các ảnh trong quỹ đạo di chuyển của 1 người (tracklet) thu được bằng
cách lấy trung bình các đặc trưng mức ảnh. Đô đo Cosine được dùng để so khớp các đặc trưng.
12/15 video được sử dụng, trong đó một nửa số video này được thu thập trong cùng một ngày
(Bảng 3.9) với hai camera cố định được lắp đặt trong cả hai mơi trường: trong phịng và ngồi
trời. Các ngữ cảnh được đề cập tới trong các thử nghiệm này gồm ba tình huống khác nhau:
(1) người đi bộ chỉ chuyển động từ trái qua phải, (2) chỉ chuyển động từ phải qua trái và (3)
17
(a)
(b)
(c)
Hình 3.6 Ví dụ về kết quả thu được trong bước theo vết a) Bị chuyển đổi ID, b) một tracklet
chỉ có một vài bounding box, c) tracklet tốt.
chuyển động theo cả hai hướng và có sự che khuất nhau. (4) trộn toàn bộ dữ liệu của các ngữ
cảnh trên.
Bảng 3.9 Kết quả tái định danh (%) tại hạng thứ nhất trên FAPR
Ngữ cảnh
1
2
3
4
3.7
Tập truy vấn
20191105_indoor_left
20191105_indoor_right
20191105_indoor_cross
20191105_indoor_all
Tập tìm kiếm
20191105_outdoor_left
20191105_outdoor_right
20191105_outdoor_cross
20191105_outdoor_all
Tỷ lệ so khớp đúng (%)
100.00
75.00
57.14
78.57
Kết luận chương
Các kết quả của thử nghiệm cho thấy kiến GRU tỏ ra hiệu quả nhất so với các biến thể
khác của RNN. Tuy nhiên so với LSTM thì sự vượt trội này khơng q khác biệt. Đặc trưng
học sâu mức ảnh VGG16 hoặc đặc trưng thủ công GOG mang lại hiệu quả tốt hơn đặc trưng
LBP&Color. Khi áp dụng thêm giải thuật học độ đo XQDA, hiệu quả các mơ hình cũng tăng
mạnh trên CSDL PRID-2011 và tăng nhẹ trên CSDL iLIDS-VID. CSDL FAPR được dây dựng
có thể được sử dụng để đánh giá hiệu năng của một hệ thống tái định danh đầy đủ các bước
trong thực tế. Kết quả thử nghiệm trên CSDL này phù hợp với các kết quả thử nghiệm trên
các CSDL phổ biến khác.
CHƯƠNG 4
NÉN MẠNG HỌC SÂU ĐỊNH HƯỚNG TRIỂN KHAI
TRÊN PHẦN CỨNG - FPGA
4.1
Đặt vấn đề
Những nghiên cứu gần đây về mạng Nơ-ron học sâu (Deep Neural Networks - DNN) đã
đem lại hiệu quả cao trong việc nghiên cứu và ứng dụng thị giác máy tính, xử lý ngơn ngữ tự
nhiên và nhiều lĩnh vực khác. Tuy nhiên, đi cùng với hiệu suất vượt trội của DNN là những
đòi hỏi rất cao về chi phí phần cứng máy tính. Những chi phí về thời gian tính tốn, chi phí
về bộ nhớ có xu hướng ngày càng tăng. Ví dụ mơ hình mạng học sâu VGG-19 [23] u cầu về
chi phí tính tốn lên đến 19,6 tỷ FLOP và u cầu bộ nhớ để lưu trữ mơ hình lên đến 549 MB
18
để xử lý một hình ảnh 224 × 224. ResNet-152 [8] cần tới 231 MB bộ nhớ và 11,3 tỷ FLOP.
Trong thực tế, việc triển khai nhiều ứng dụng thị giác máy tính dựa trên các nền tảng học
sâu địi hỏi đầu tư những bộ xử lý đồ họa chuyên dụng (GPU) cùng với một hệ thống máy
tính tương thích. Điều này dẫn đến việc chúng có kích thước khá lớn và chi phí về mặt năng
lượng cao dẫn đến những cản trở khi triển khai các ứng dụng có tính di động cạo như: Xe tự
hành, thiết bị bay không người lái (UAV),.. Một số giải pháp sử dụng các thiết bị biên như
Raspberry pi, Jetson hoặc FPGA đã được đề xuất áp dụng. Tuy nhiên việc triển khai các mơ
hình mạng CNN nhất là các mơ hình với kích thước mạng lớn lên các thiết bị biên trong đó
có FPGA có nhiều thách thức.
4.2
4.2.1
Phương pháp đề xuất
Nhị phân hóa giá trị trọng số
Khi các giá trị trọng số được nhị phân hóa, chúng được chuyển đổi thành các giá trị +1
hoặc −1 [21]. Q trình nhị phân hóa các trọng số có thể được diễn tả bởi cơng thức 4.1
I ∗ W ≈ (I ⊕ Wb )α
(4.1)
trong đó ⊕ biểu thị một tích chập khơng có phép nhân, I là giá trị kích hoạt từ lớp trước hoặc
dữ liệu đầu vào, W là trọng số bộ lọc với giá trị thực, Wb trọng số bộ lọc với hai giá trị +1
và −1 và α được gọi là hệ số tỷ lệ (là một số thực). Theo [21], giá trị tối ưu của hệ số tỷ lệ α
là trị tuyệt đối của giá trị trung bình của các trọng số.
4.2.2 Lượng tử hóa các giá trị trọng số và giá trị kích hoạt tương ứng với lớp
mạng
Nếu áp dụng phương pháp nhị phân hóa trọng số của tất cả các tầng mạng sẽ dẫn đến
độ chính xác của mạng bị giảm mạnh. Do đó, lượng tử hóa trọng số với nhiều bít hơn được
triển khai ở một số lớp quan trọng hơn. Quá trình này được diễn tả bởi các cơng thức 4.2.
qmax = s × (2n−1 − 0.5),
p(x) =
s × (round( xs + 0.5) − 0.5),
qmax ,
if p(x) ≥ qmax
q(x) = −qmax , if p(x) ≤ −qmax
p(x),
otherwise.
(4.2)
Trong đó, [−qmax , qmax ] là giới hạn miền giá trị được lượng tử hóa, n là số bít lượng tử
và s là giá trị bước nhảy, x là giá trị thực, p(x) là giá trị lượng tử tương ứng với giá trị thực
x. Phạm vi lượng tử hóa từ −qmax đến qmax được xác định bằng cách phân tích mật độ phân
bố các giá trị của mỗi lớp mạng sao cho tổng số lượng các giá trị nằm trong miền này chiếm
xấp xỉ 90% tổng số lượng giá trị. Phân bố này tn theo một đồ thị hình chng do kết quả
của việc chuẩn hóa (norm) trong mạng tích chập như hình 4.1.
Độ rộng bít n được lựa chọn dựa trên số lượng các tham số và vai trò của lớp trong mạng.
Cuối cùng, kích thước bước nhảy có thể được tính tốn dựa vào cơng thức 4.2 khi đã biết qmax
19
Số lượng giá trị
Đỉnh
90%
-qmax -qmax+s
qmax-s
qmax
Giá trị
Hình 4.1 Biểu đồ phân bố các giá trị trọng số hoặc giá trị kích hoạt
và số bít lượng tử n.
4.2.3 Kiến trúc luồng của bộ tăng tốc mạng tích chập
37
Sử dụng kiến trúc luồng kết hợp với các kỹ thuật tối ưu hóa trên phần cứng để tái sử
dụng tối đa bản đồ đặc trưng đầu vào nhằm giảm thêm băng thông bộ nhớ thể hiện trong
hình 4.2. Kiến trúc này bao gồm một khối xử lý phần cứng riêng biệt cho mỗi lớp của mơ
Hình 4.2 Kiến trúc luồng cho bộ tăng tốc mạng tích chập.
hình tích chập. Tất cả các khối được kết nối tuần tự và được xử lý theo phương pháp đường
ống lệnh (Pipelining). Các bản đồ đặc trưng đầu vào và các giá trị trọng số sau khi được nhị
phân hóa hoặc lượng tử hóa được lưu trữ hồn toàn trên các khối RAM của FPGA. Các dữ
liệu này được xử lý song song thông qua các phần tử xử lý (PE) của mỗi lớp. Mỗi PE chứa
các khối con riêng biệt thực hiện các nhiệm vụ khác nhau trong một lớp.
4.2.4 Tính tốn tài ngun phần cứng
Tính tốn bộ nhớ cần thiết theo công thức 4.3.
M EMsize
L
X
=
[(ki + si ) × Ci × Wi × Qai + NWi × QW i ]
(4.3)
i
trong đó ki là kích thước của bộ lọc thứ i của mạng (kernel size), si là bước nhảy (stride), Ci
là chiều sâu của dưa liệu đầu vào thứ i (input channel), Wi là độ rộng của bản đồ đặc trưng
thứ i và Qai là độ rộng bít của các giá trị bản đồ đặc trưng. NWi là số lượng trọng số và QWi
là độ rộng bít của giá trị trọng số.
20
Tính tốn số lượng DSP cần thiết theo cơng thức 4.4:
NDSP =
L
X
(NPi E × NPi Emul + NPi E )
(4.4)
i
trong đó NPi E là số lượng PE (Processing Element) trong một lớp, NPi Emul là số lượng bộ nhân
bít cao trong một PE. Chú ý rằng, trong các lớp được nhị phân hóa hồn tồn thì số lượng
NPi Emul bằng 0 bới vì nó khơng cần bất kỳ bộ nhân nào. Nếu NDSP lớn hơn số lượng khối
DSP của một bảng mạch FPGA, thì số lượng PEs trong các lớp cần phải được giảm xuống
sao cho số lượng DSP cần thiết không vượt quá khả năng của bảng mạch FPGA.
4.3
Thử nghiệm và kết quả
4.3.1
Mạng học sâu VGG16-SSD và bài toán phát hiện đối tượng trên ảnh
Kiến trúc mạng VGG16-SSD được thể hiện trong hình 4.3 với các thành phần chính:
Phần 1 là phần cơ sở (hình 4.3.a). Phần này gần như giữ nguyên kiến trúc của mạng VGG16
Conv_11_2 (3x3)
Conv_11_1 (1x1)
Conv_10_2 (3x3)
Conv_10_1 (1x1)
Conv_9_2 (3x3)
Conv_9_1 (1x1)
Conv_8_2 (3x3)
Conv_8_1 (1x1)
Conv_7 (1x1)
Conv_6 (3x3)
max-pool 2x2
Conv_5_3 (3x3)
Conv_5_2 (3x3)
max-pool 2x2
Conv_5_1 (3x3)
Conv_4_3 (3x3)
Conv_4_2 (3x3)
Conv_4_1 (3x3)
max-pool 2x2
Conv_3_3 (3x3)
Conv_3_2 (3x3)
max-pool 2x2
Conv_3_1 (3x3)
Conv_2_2 (3x3)
max-pool 2x2
Conv_2_1 (3x3)
Conv_1_2 (3x3)
Conv_1_1 (3x3)
Input 3x22x224
512x38x38
256x1x1
Dự đốn vị
trí
Kết
quả
256x3x3
(a) VGG16 loại bỏ lớp FC ( phần cơ sở - base)
256x5x5
(b) Phần
thay thế FC
512x10x10
Dự đoán
lớp
1024x19x19
(c) Phần bổ trợ (Auxiliary)
(d) Phần dự đốn
(Prediction)
Hình 4.3 Cấu trúc mạng VGG16-SSD
[23] nhưng đã lược đi 3 lớp kết nối đầy đủ (FC). Phần 2 (hình 4.3.b) là hai lớp tích chập
được thêm vào coi như thay thế 3 lớp kết nối đầu đủ được lược đi trong kiến trúc VGG16.
Phần 3 là phần bổ trợ (Hình 4.3.c), gồm 4 lớp tích chập được bố trí theo từng cặp với bộ lọc
có kích thước lần lượt là 1x1 và 3x3. Phần 4 Phần dự đốn (Hình 4.3.d). Phần này lại gồm
2 khối tương ứng làm nhiệm vụ dự đốn vị trí của đối tượng và khối dự đoán lớp đối tượng
tương ứng. Hai khối này đều được tạo ra bằng cách sử dụng 6 lớp tích chập có kích thước bộ
lọc là 3x3.
4.3.2 Cơ sở dữ liệu CIFAR-10
Cơ sở dữ liệu CIFAR-10 bao gồm 60.000 hình ảnh màu cỡ 32x32 của 10 lớp đối tượng,
với 6.000 hình ảnh mỗi lớp. Phần dữ liệu cho kiểm thử chứa 1.000 ảnh cho mỗi lớp và được
lấy một cách ngẫu nhiên. Như vậy tập kiểm thử chứa tổng số 10.000 ảnh. Phần dữ liệu còn
lại là 50.000 ảnh dành cho huấn luyện.
4.3.3 Cơ sở dữ liệu PASCAL VOC
Cơ sở dữ liệu PASCAL VOC là một cơ sở dữ liệu nổi tiếng cho bài toán phát hiện đối
tượng trên ảnh, phân loại ảnh và phân đoạn ảnh. Trong phạm vi các thí nghiệm được trình
bày trong chương này, nghiên cứu sinh chỉ sử dụng VOC2007 và VOC2012. Trong đó tập huấn
21
luyện với 16.551 chứa tổng số 49.653 vùng đối tượng được lấy từ cả VOC2007 và VOC2012,
tập kiểm thử chỉ được lấy từ VOC2007 với 4.952 hình ảnh chứa tổng số 14.856 vùng đối tượng.
4.3.4 Thử nghiệm 1 - Nén mạng VGG16 với bài toán phân lớp ảnh trên CSDL
CIFAR-10
Đầu tiên, mơ hình VGG16 được huấn luyện lại trên CSDL CIFAR-10 cho đến khi hội tụ.
Mơ hình thu được đạt độ chính xác 93,48% trên tập kiểm thử. Sau đó nén mơ hình vừa thu
được bằng cách nhị phân hóa tất cả các giá trị trọng số (W) và lượng tử hóa các giá trị kích
hoạt của 13 lớp mạng đầu tiên với số bít lượng tử là 4, 6 hoặc 8 bít tùy từng lớp (trung bình
là 6).
Kết quả kiểm thử mạng đã nén trên CSDL CIFAR-10 được thể hiện trong Bảng 4.1. Vì
mơ hình trên được lượng tử hóa với số bít lượng tử trung bình là 6 cho các giá trị kích hoạt
(A), nên nó đạt được độ chính xác cao hơn mạng BNN là 2%. Các mơ hình BWN và TWN
đạt được độ chính xác cao hơn nhưng các giá trị kích hoạt của chúng vẫn ở mức 32 bit. Điều
này cho thấy rằng phương pháp được đề xuất đạt được tỷ lệ nén tương đối cao cho các giá trị
trọng số (32 lần) và các giá trị kích hoạt (khoảng 5 lần) trong khi vẫn giữ độ chính xác gần
mới mơ hình đầy đủ.
Bảng 4.1 Độ chính xác và độ rộng bít khi nén mơ hình VGG16 với kỹ thuật được đề xuất,
so sánh với các nghiên cứu khác trên CSDL CIFAR-10
Model
Full precision**
BNN[2]**
BWN[3]**
TWN[13]*
Ours
Chú ý: * kết quả
4.3.5
Accuracy
Bitwidth(W/A)
93.48%
32/32
89.90%
1/1
92.65%
1/32
92.75%
2/32
92.22%
1/6
được trích từ nguồn, ** kết quả thực hiện lại thí nghiệm.
Thử nghiệm 2 - Nén mạng VGG16-SSD với bài toán phát hiện đối tượng
trên ảnh hướng tới triển khai trên FPGA
Tương tự với các bước thực hiện nén mạng VGG16 được huấn luyện và kiểm thử trên
CSDL VOC (VOC2017 + VOC 2012). Kết quả là thu được bộ tham số mạng đã được huấn
luyện với độ chính xác mAP=79.2%. Quá trình nén mạng được thực hiện qua 3 bước sau:
− Bước 1 (Ước lượng số bít lượng tử cho từng lớp): Dựa trên các công thức 4.3 và 4.4 đồng
thời ưu tiên dùng nhiều bít hơn cho các lớp mạng conv8_2, conv9_2, conv10_2, conv11_2
bởi chúng kết nối trực tiếp đến khối dự đốn.
− Bước 2 (Lượng tử hóa các giá trị trọng số): Thống kê sự phân bố các giá trị trọng số của
các lớp nhằm lựa chọn giá trị qmax phù hợp và tiến hành tính tốn các giá trị tham số khác
dựa vào các công thức 4.2, và số lượng bít được ước lượng tại bước 1. Giá trị trọng số của
các lớp còn lại được nhị phân hóa.
− Bước 3 (Lượng tử hóa các giá trị kích hoạt): Được thực hiện tương tự bước 2. Ngồi ra, tiến
hành thay thế hàm kích hoạt ReLU bởi CReLU với giá trị khởi tạo gấp đôi giá trị qmax ,
22
Bảng 4.2 Chi tiết các tham số lượng tử hóa phần bổ trợ của mơ hình VGG16-SSD thực thi
trên cơ sở dữ liệu VOC07+12
Phần mạng
Lớp
8_1
8_2
9_1
Phần bổ trợ 9_2
10_1
10_2
11_1
11_2
Phần dự đoán
Chú ý: n: độ rộng bít,
Chi
Trọng số
qmax n
s
_
1
_
0.023 2 1/26
_
1
_
0.023 2 1/26
_
1
_
0.023 2 1/26
_
1
_
0.023 2 1/26
_
1
_
s: bước nhảy.
tiết
Kích hoạt
qmax n
s
1.969 6 1/24
3.938 6 1/23
3.938 6 1/23
3.938 6 1/23
3.938 6 1/23
7.875 6 1/22
7.875 6 1/22
15.75 6 1/21
_
32
_
Chi tiết các tham số nén cho phần bổ trợ (Auxiliary) và phần dự đoán của VGG16-SSD
được thể hiện trong Bảng 4.2.
Bảng 4.3 so sánh thiết kế được đề xuất với một số nghiên cứu trước đó. Hai phương pháp
sử dụng kiến trúc tuần tự (Sequential) là [18] và [4] không loại bỏ được các thao tác truy cập
DRAM. Mơ hình trong nghiên cứu [4] có tỷ lệ nén cao (96%), nhưng nó bị mất độ chính xác
lớn là 14,7%. Trong nghiên cứu [11], tác giả đã kết hợp kỹ thuật cắt tỉa và lượng tử hóa để
đạt được tốc độ nén cao và số lượng nhỏ BRAM (1470). Tuy nhiên, lại yêu cầu một lượng lớn
khối DSP (3074) để tính tốn bít cao. Phương pháp do nghiên cứu sinh đề xuất có thể được
thực thi hoàn toàn trong bộ nhớ trên chip với 2974 BRAM (69% BRAM của mạch Xilinx
Kintex Ultrascale KCU1500 FPGA) và chỉ cần 552 khối DSP trong khi vẫn duy trì độ chính
xác so với mơ hình đầy đủ.
Bảng 4.3 So sánh với các phương pháp nén mạng VGG16-SSD khác
[18]
[4]
[11]
Kiến trúc
Tuần tự
Tuần tự
Luồng
CNN
VGG16-SSD Light-weight SSD VGG16-SSD
Input size
300×300
480×360
640×480
mAp
76.94%
62.8%
78.13%
Accuracy drop
0.36%
14.7%
1.93%
BRAM(18Kb)
3844
560
1470
DSP
4363
_
3074
DRAM access
Yes
Yes
No
Chú ý: * có nghĩa là được tính tốn theo lý thuyết.
4.4
Phương pháp đề xuất
Luồng
VGG16-SSD
300×300
77.4%
1.8%
2974*
552*
No
Kết luận chương
Chương này, nghiên cứu sinh đã tiến hành thử nghiệm một phương pháp nén mạng học
sâu, trong đó đề xuất kết hợp kết hợp nhị phân hóa với lượng tử hóa cho cả các giá trị trọng
số mạng và các giá trị kích hoạt. Việc lựa chọn các tham số cho giải thuật nén trên từng lớp
mạng dựa vào vai trị của lớp đó đối với mơ hình, thỏa mãn những giới hạn về tài nguyên
và thiết kế dạng luồng của phần cứng FPGA và dựa trên thống kê phân bố giá trị. Đề xuất
được thử nghiệm với mạng VGG16-SSD và mô phỏng trên Xilinx Kintex Ultrascale KCU1500
FPGA. Kết quả của chương này được trình bày chủ yếu trong cơng trình thứ 6.
23