Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018
DOI: 10.15625/vap.2018.00063
TÁI NHẬN DẠNG PHƯƠNG TIỆN GIAO THÔNG SỬ DỤNG MẠNG
KẾT HỢP CÁC ĐẶC TRƯNG HỌC SÂU
Trịnh Mẫn Hoàng, Nguyễn Thanh Sơn, Nguyễn Vinh Tiệp, Nguyễn Tấn Trần Minh Khang, Lê Đình Duy
PTN Truyền thông Đa phƣơng tiện, Đại học Công nghệ Thông tin ĐHQG TP. HCM
{sonnt, tiepnv, khangnttm, duyld}@uit.edu.vn
TĨM TẮT: Cơng trình này nghiên cứu về bài toán tái nhận dạng phương tiện giao thơng. Cho một ảnh phương tiện, nhiệm vụ bài
tốn tái nhận dạng phương tiện giao thơng là tìm kiếm trong tập dữ liệu các phương tiện có cùng định danh với phương tiện trong
ảnh. Đây là một bài toán đang nhận được rất nhiều sự quan tâm của cộng đồng vì khả năng ứng dụng của nó, đặc biệt trong các hệ
thống camera giám sát giao thông. Trong bài báo này, chúng tôi tập trung nghiên cứu về các đặc trưng được dùng biểu diễn
phương tiện và các kết quả thử nghiệm sẽ được đánh giá trên bộ dữ liệu VeRi-776, đây là bộ dữ liệu chuyên phục vụ bài tốn tái
nhận dạng phương tiện giao thơng. Với mục tiêu kết hợp các đặc trưng học sâu nhằm cải thiện hiệu quả tìm kiếm phương tiện và lưu
trữ đặc trưng, chúng tôi đã thực hiện một vài thử nghiệm trên hai loại đặc trưng VGG16, Vcolor và thiết kế một mạng nơron để kết
hợp hai đặc trưng trên. Các kết quả thực nghiệm cho thấy, đặc trưng được rút trích từ mạng nơron được đề xuất khơng những có
hiệu quả cao hơn so với các đặc trưng riêng biệt mà còn giảm được số chiều của đặc trưng cần lưu trữ đến 3 lần.
Từ khóa: Tái nhận dạng phương tiện giao thông, đặc trưng học sâu, kết hợp đặc trưng học sâu.
I. GIỚI THIỆU
Tái nhận dạng phƣơng tiện giao thơng là một bài tốn thƣờng đƣợc sử dụng trong quá trình tìm kiếm và theo dõi
phƣơng tiện. Mặc dù đã tồn tại nhiều phƣơng pháp để theo dõi và nhận dạng đối tƣợng nhƣ theo dõi bằng GPS hoặc
theo dõi bằng tín hiệu sóng Bluetooth1, hầu hết chỉ có thể áp dụng vào các phƣơng tiện công cộng hoặc phƣơng tiện
của một tổ chức nhất định. Sự phát triển của hệ thống camera giám sát giao thông trong các thành phố lớn đã mang lại
một nhiều thuận lợi cho việc xây dựng một hệ thống theo dõi phƣơng tiện giao thơng thơng qua áp dụng bài tốn tái
nhận diện phƣơng tiện giao thông vào các dữ liệu thu thập đƣợc (Vehicle re-identification).
Hình 1. Mục tiêu của tái nhận dạng phƣơng tiện giao thơng là tìm ra ảnh của mục tiêu đã di chuyển
qua vùng quan sát của nhiều camera khác nhau
Việc tái nhận dạng phƣơng tiện giao thông trong một hệ thống gồm nhiều camera khác nhau tồn tại rất nhiều
thách thức. Đặc biệt, trong môi trƣờng thực tế, khả năng tái nhận dạng càng thấp do các phƣơng tiện có thể bị che
khuất, các ảnh hƣởng của ánh sáng, góc quay,… Ngồi ra, với tính chất đặc biệt của loại dữ liệu, một vài sự nhập
nhằng khi so sánh hai ảnh của hai phƣơng tiện có thể xảy ra, ví dụ nhƣ hai phƣơng tiện có định danh khác nhau nhƣng
1
Thông tin đƣợc tham khảo từ />
Trịnh Mẫn Hoàng, Nguyễn Thanh Sơn, Nguyễn Vinh Tiệp, Nguyễn Tấn Trần Minh Khang, Lê Đình Duy
483
có ngoại hình hồn tồn tƣơng đồng hay cùng một phƣơng tiện có thể có thơng tin thị giác rất khác nhau ở các góc
chụp khác nhau,... cũng là các vấn đề lớn cần giải quyết để tái nhận dạng các phƣơng tiện một cách chính xác.
Để giải quyết các thách thức trên, các thông tin bổ sung nhƣ không gian và thời gian thƣờng đƣợc cung cấp
nhằm tăng hiệu quả so khớp. Tuy nhiên việc chỉ sử dụng duy nhất một đặc trƣng liệu có đủ để biễu diễn phƣơng tiện.
Để trả lời câu hỏi này, trong cơng trình [1], Xinchen Liu và cộng sự đã đề xuất một mơ hình kết hợp các đặc trƣng thủ
công BOW_SIFT [4], BOW_CN [5] và đặc trƣng học sâu GoogleNet [6] dựa trên kết hợp độ tƣơng đồng theo trọng số
gọi là Fusion of Attributes and Color feaTures (FACT) [1]. Cách kết hợp đặc trƣng của FACT đã giúp tăng hiệu quả
chung của hệ thống tái nhận dạng phƣơng tiện, tuy nhiên FACT gặp nhiều hạn chế vì quá phụ thuộc vào các trọng số
kết hợp cho trƣớc, điều này dẫn đến sự thiếu linh hoạt khi muốn mở rộng mơ hình, đồng thời, các đặc trƣng thủ cơng
trong FACT dƣờng nhƣ khơng đóng góp nhiều cho mơ hình kết hợp (xem hình 2).
Hình 2. Mơ hình Fusion of Attributes and Color feaTures.
Nhằm giải quyết vấn đề hạn chế về tọn số của mơ hình FACT, trong bài báo này, chúng tôi đã đề xuất một mơ
hình kết hợp hai đặc trƣng học sâu bằng mạng nơron với các trọng số đƣợc học tự động. Cụ thể, chúng tơi đánh giá đặc
trƣng rút trích từ mạng học sâu gồm Vcolor từ bài toán nhận dạng màu sắc phƣơng tiện giao thơng và VGG16 [2] từ
bài tốn tái nhận dạng phƣơng tiện giao thông trên bộ dữ liệu chuyên về tái nhận dạng phƣơng tiện giao thông là VeRi776 [1], [3] (776 phƣơng tiện và 50.000 ảnh). Từ các kết quả thực nghiệm, chúng tôi đƣa ra một số nhận xét về các kết
quả thu đƣợc.
Phần còn lại của bài báo đƣợc tổ chức nhƣ sau: trong phần II chúng tơi sẽ trình bày các cơng trình liên quan
đƣợc sử dụng trong bài báo này. Phần III sẽ trình bày các đặc trƣng học sâu đƣợc khảo sát trong bài báo này và mơ
hình kết hợp các đặc trƣng học sâu đƣợc đề xuất. Phần IV, chúng tơi sẽ trình bày mơi trƣờng thực nghiệm, kết quả thu
đƣợc và thảo luận về kết quả tƣơng ứng với các phƣơng pháp. Cuối cùng, Phần V sẽ kết luận bài báo và đƣa ra các
hƣớng nghiên cứu tiếp theo.
II. CÁC NGHIÊN CỨU LIÊN QUAN
Trong phần này, chúng tơi trình bày về mơ hình đƣợc sử dụng phổ biến trong q trình tái nhận dạng phƣơng
tiện giao thơng dựa trên đặc trƣng thị giác và các bài toán liên quan đến phƣơng tiện giao thơng.
Hình 3. Mơ hình phổ biến tái nhận dạng phƣơng tiện giao thông dựa trên đặc trƣng thị giác
Tái nhận dạng phƣơng tiện giao thông dựa trên đặc trƣng thị giác. Mơ hình phổ biến đƣợc sử dụng trong
bài toán tái nhận dạng phƣơng tiện giao thông dựa vào đặc trƣng thị giác gồm hai bƣớc chính là rút trích đặc trƣng và
so khớp đƣợc thực hiện theo thứ tự lần lƣợt (xem hình 3). Các phƣơng pháp rút trích đặc trƣng hiện nay đƣợc chia làm
hai loại: đặc trƣng thủ công và đặc trƣng học sâu. Các đặc trƣng sau khi đƣợc rút trích sẽ đƣợc dùng trong bƣớc so
khớp để tính độ tƣơng đồng giữa các cặp ảnh. Dựa trên độ tƣơng đồng đã tính, các ảnh trong tập dữ liệu sẽ đƣợc sắp
xếp theo thứ tự tăng dần độ tƣơng đồng hoặc giảm dần độ khác biệt so với ảnh tìm kiếm.
484
TÁI NHẬN DẠNG PHƢƠNG TIỆN GIAO THÔNG SỬ DỤNG MẠNG KẾT HỢP CÁC ĐẶC TRƢNG HỌC SÂU
Các bài toán liên quan đến phƣơng tiện giao thông. Cho đến hiện tại, bài tốn tái nhận diện phƣơng tiện giao
thơng đã kế thừa khá nhiều lợi ích từ bài tốn phân loại phƣơng tiện giao thông. Cụ thể, nhiều đặc trƣng học sâu đạt
hiệu quả cao từ bài toán phân loại phƣơng tiện giao thơng đã đƣợc áp dụng cho bài tốn tái nhận diện phƣơng tiện giao
thông nhƣ GoogleNet, VGG16. Tuy nhiên, để tránh trƣờng hợp overfit vào tập dữ liệu mang tính cá nhân của bài tốn
tái nhận diện phƣơng tiện giao thông, hầu hết đặc trƣng chỉ đƣợc rút trích từ mơ hình với trọng số của bài tốn phân
loại phƣơng tiện giao thơng. Bài tốn nhận diện màu sắc của phƣơng tiện giao thông đã đạt đƣợc nhiều thành tựu khả
quan trong thời gian gần đây. Nhiều mô hình học sâu đã đƣợc đề xuất nhƣ Vcolor [4], NIN [5],… đã mang lại hiệu quả
thực sự ấn tƣợng. Đặc biệt, các mơ hình này vẫn đạt kết quả tốt khi đƣợc áp dụng trên các bộ dữ liệu thực tế trong môi
trƣờng nội thành.
Các kĩ thuật tăng độ đa dạng của dữ liệu. Các kĩ thuật tăng độ đa dạng của dữ liệu thƣờng đƣợc áp dụng cho
các bài toán với bộ dữ liệu nhỏ. Các kĩ thuật hình học đơn giản nhƣ xoay, lật, thu phóng,… đã đƣợc sử dụng rộng rãi vì
tính đơn giản của chúng. Tuy nhiên, trong môi trƣờng thực tế, các kĩ thuật này dƣờng nhƣ không thể mô phỏng hết các
biến thể có thể xảy ra của dữ liệu. Để tạo ra các dữ liệu phù hợp với yêu cầu trên, hai kĩ thuật tăng độ đa dạng của dữ
liệu dựa trên máy học đã đƣợc giới thiệu là Generative adversarial networks (GANs) [6] và Neural Style Transfer [7].
Một mơ hình GANs có thể chuyển hố một ảnh từ điều kiện mơi trƣờng này sang điều kiện môi trƣờng khác sau khi đã
đƣợc huấn luyện một cách có điều kiện trên các dữ liệu tƣơng ứng. Sử dụng GANs tuy có thể đạt đƣợc kết quả tốt, tuy
nhiên lại tốn khá nhiều chi phí tính tốn. Nhằm giảm chi phí, ta có thể sử dụng một phƣơng pháp ít tốn kém hơn là
neural style transfer đã đƣợc giới thiệu trƣớc GANs. Với Neural Style Transfer, các thông tin khác nhau nhƣ cấu trúc,
môi trƣờng, màu sắc,… sẽ đƣợc thu thập và trộn lẫn vào nhau, bằng cách này chúng ta có thể tái tạo lại một biến thể
của dữ liệu tƣơng tự nhƣ GANs. Điều hạn chế của mơ hình này là ảnh đầu ra sẽ hơi thiên hƣớng hội hoạ hơn so với
GANs.
III. CÁC ĐẶC TRƢNG HỌC SÂU VÀ MƠ HÌNH KẾT HỢP ĐẶC TRƢNG
Trong phần này, chúng tôi sẽ giới thiệu các đặc trƣng học sâu và mơ hình kết hợp đặc trƣng đƣợc sử dụng trong
thực nghiệm. Cụ thể, chúng tôi sử dụng mạng học sâu VGG16 và Vcolor để tiến hành rút trích đặc trƣng.
3.1. VGG16 [2]
VGG16 là một mơ hình mạng học sâu đƣợc cơng bố Simonyan và Zisserman. Đƣợc chứng minh là mơ hình học
sâu hiệu quả cho việc rút trích đặc trƣng thị giác, đồng thời VGG16 đã đƣợc chứng minh đạt hiệu quả cao trong bài
tốn phân loại phƣơng tiện giao thơng (93,2 % rank 5 trong project DeepCar [8]). VGG16 có kiến trúc gồm 13 lớp
conv với 3 lớp cuối là fully connected layer. VGG16 sử dụng các bộ lọc có kích thƣớc nhỏ 3x3 (xem hình 3) để học
các đặc trƣng thị giác từ đơn giản ở các bộ lọc đầu và càng phức tạp hơn khi đi về cuối của mô hình. Dựa trên các
hƣớng dẫn của The Keras Blog [9] và những xem xét về hình ảnh thu thập đƣợc từ camera giám sát giao thông trong
thực tế, chúng tôi giảm kích thƣớc ảnh đầu vào cịn 150x150 so với 224x224 của mơ hình gốc. Sau đó, nhằm tránh
overfit vào các đặc trƣng cấp cao của tập dữ liệu huấn luyện, chúng tôi chọn rút đặc trƣng tại lớp pooling cuối cùng
trƣớc khi chuyển tiếp qua các lớp fully connected.
Hình 4. Kiến trúc mạng VGG16
3.2. Vcolor [4]
Mơ hình học sâu Vcolor đƣợc đề xuất bởi Reza Fuad Rachmadi và cộng sự năm 2017 có thể xác định đƣợc đặc
trƣng về mặt màu sắc của phƣơng tiện giao thông. Vcolor đặc biệt hiệu quả với hệ màu RGB và đang là mơ hình tốt
nhất trong bài tốn nhận diện màu sắc phƣơng tiện giao thông trong hệ màu này. Nhằm kế thừa những lợi ích từ bài
tốn nhận diện màu sắc phƣơng tiện giao thông vào bổ sung thông tin màu sắc cho kết hợp, chúng tôi sử dụng trọng số
và mơ hình đƣợc cơng bố trong bài báo Vehicle Color Recognition using Convolutional Neural Network[], sau đó
chúng tơi rút trích đặc trƣng tại lớp fc2 để làm đầu vào cho mạng kết hợp.
Trịnh Mẫn Hoàng, Nguyễn Thanh Sơn, Nguyễn Vinh Tiệp, Nguyễn Tấn Trần Minh Khang, Lê Đình Duy
485
Hình 5. Kiến trúc mạng Vcolor [4]
3.3. Mơ hình kết hợp đặc trƣng học sâu
Nhƣ đã trình bày, với mục tiêu kết hợp các đặc trƣng học sâu không chịu phụ thuộc vào các trọng số cho trƣớc.
Dựa trên kĩ thuật neural style transfer, chúng tôi đã thiết kế một mạng kết hợp các đặc trƣng đƣợc rút trích từ hai mạng
học sâu VGG16 và Vcolor, sau khi huấn luyện qua tập dữ liệu tái nhận dạng phƣơng tiện giao thông, chúng tôi sử dụng
mơ hình này để rút trích đặc trƣng kết hợp tại lớp fully connected.
Hình 6. Mạng kết hợp đƣợc đề xuất
Trong đó:
Lớp Concat làm nhiệm vụ nối hai đặc trƣng đầu vào.
Lớp fully connected làm nhiệm vụ kết hợp, trộn lẫn các đặc trƣng lại với nhau nhằm tạo ra một đặc trƣng tổng quát hơn
cho ảnh phƣơng tiện. Số chiều của lớp này là 4096 đƣợc lựa chọn dựa trên cấu trúc VGG16. Đây cũng là lớp rút trích đặc
trƣng của mạng
Lớp Softmax làm nhiệm vụ phân loại các đặc trƣng đầu ra từ lớp fully connected theo định danh trong quá trình huấn
luyện.
IV. THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1. Bộ dữ liệu
Hình 7. Minh hoạ quá trình thu thập dữ liệu của bộ dữ liệu VeRi-776 [3]
486
TÁI NHẬN DẠNG PHƢƠNG TIỆN GIAO THÔNG SỬ DỤNG MẠNG KẾT HỢP CÁC ĐẶC TRƢNG HỌC SÂU
Để đánh giá hiệu quả của mạng kết hợp đƣợc đề xuất, chúng tôi tiến hành các thực nghiệm trên bộ dữ liệu
VeRi-776 [1] [3]. Đây là bộ dữ liệu chuyên về bài toán tái nhận dạng phƣơng tiện giao thơng duy nhất có cung cấp
thêm các thông tin không gian và thời gian, điều này có thể giúp mở rộng các thử nghiệm sau này. VeRi-776 bao gồm
50.000 ảnh của 776 phƣơng tiện đƣợc thu thập từ 20 camera khác nhau đƣợc lắp đặt trong phạm vi 1 km2 trong vòng
24 tiếng. Mỗi phƣơng tiện có thể đƣợc thu thập thơng qua từ 2 đến 18 camera.
Để tiến hành thực nghiệm, chúng tôi sử dụng cách phân chia bộ dữ liệu đƣợc cung cấp bởi tác giả của bộ dữ liệu
VeRi-776. Cụ thể, VeRi-776 đƣợc chia làm hai tập huấn luyện và kiểm tra theo tỉ lệ 3:1. Tập huấn luyện bao gồm
37,781 ảnh và tập kiểm tra gồm 11.579 ảnh. Riêng trong tập kiểm tra, 1.678 ảnh sẽ đƣợc dùng nhƣ ảnh tìm kiếm.
Ngồi VeRi-776, bộ dữ liệu VehicleID [10] cũng là một bộ dữ liệu thơng dụng trong bài tốn này. Tuy nhiên,
mặc dù VehicleID lớn hơn VeRi-776 về số lƣợng định danh, cụ thể là 26.267 so với 776 của VeRi-776, các phƣơng
tiện trong VehicleID chỉ đƣợc chụp từ phía trƣớc hoặc phía sau. Trong khi đó, phƣơng tiện trong VeRi-776 đƣợc thu
thập với nhiều góc quay, điều kiện mơi trƣờng khác nhau khiến chúng không quá khác biệt so với điều kiện thực tế.
4.2. Phƣơng pháp đánh giá
Khi tìm kiếm bằng ảnh của một phƣơng tiện cần tái nhận dạng, hệ thống tái nhận dạng phƣơng tiện giao thông
sẽ trả về một danh sách xếp hạng các ảnh của các phƣơng tiện đã đƣợc thu thập trƣớc đó tại các vị trí camera. Các ảnh
này đƣợc xếp hạng theo thứ tự giảm dần độ tƣơng đồng hoặc tăng dần của độ khác biệt với ảnh của phƣơng tiện cần tái
nhận dạng. Trong bài báo này chúng tôi sử dụng độ đo sự khác biệt L2-normalization. Mục tiêu của bài tốn tái nhận
dạng phƣơng tiện giao thơng là của phƣơng tiện cần tìm có độ khác biệt càng thấp càng tốt, nghĩa là ngƣời sử dụng có
thể tìm thấy đối tƣợng theo dõi càng sớm càng tốt.
Hiện nay, nhiều phƣơng pháp để đánh giá hiệu suất của một hệ thống tái nhận dạng phƣơng tiện giao thông đã
đƣợc đề xuất. Trong bài báo này, chúng tôi sử dụng các độ đo phổ biến đƣợc sử dụng trong nhiều cơng trình nghiên
cứu khoa học trên thế giới bao gồm: mean Average Precision (mAP), Rank i. Trong đó, mAP biểu thị độ chính xác
trung bình tƣơng ứng với từng ảnh đƣợc tìm kiếm trong số 1.678 ảnh, rank i là tỉ lệ kết quả thứ i trong danh sách xếp
hạng là kết quả đúng. Với độ đo rank i, với i càng nhỏ, kết quả tại rank i càng cao càng tốt.
Với mỗi ảnh tìm kiếm q, giá trị Average Precision cho ảnh tìm kiếm q đƣợc tính tốn nhƣ sau:
∑
AP(q) =
()
()
(1)
Trong đó, P(i) biễu diễn precision tại vị trí thứ i, giá trị weight(i) sẽ là 1 hoặc 0 tƣơng ứng với kết quả tại vị trí
đó có liên quan hay khơng. Từ đó, mAP cho một tập ảnh đƣợc tính nhƣ sau:
mAP =
∑
( )
(2)
Trong đó, n_q biễu diễn tổng số lƣợng ảnh tìm kiếm (bằng 1.678 đối với VeRi-776). Dựa theo thiết lập thử
nghiệm của Xinchen Liu [], với mỗi ảnh tìm kiếm q, chỉ có ảnh có cùng định danh với q nhƣng đƣợc thu thập tại các
camera khác mới đƣợc sử dụng để tính mAP cũng nhƣ rank 1 và rank 5.
4.3. Kết quả thực nghiệm
Trong phần này, chúng tôi thực hiện các thử nghiệm trên bộ dữ liệu VeRi-776. Các kết quả tái nhận dạng
phƣơng tiện giao thông theo độ đo mAP và rank i (với i = 1, 5) đƣợc công bố trong bảng 1.
Nhằm đánh giá hiệu quả của các đặc trƣng, chúng tôi thử nghiệm sử dụng riêng biệt các đặc trƣng trong quá
trình so khớp. So sánh giữa kết quả giữa VGG16 đƣợc huấn luyện trên tập huấn luyện của VeRi-776 và FACT, ta có
thể nhận thấy VGG16 cho kết qua mAP thấp hơn FACT 0,4 % với độ đo mAP vì hiện tƣợng overfitting khi huấn luyện
mơ hình học sâu trên tập dữ liệu ở mức thực thể. Trong khi đó, đặc trƣng Vcolor cho kết quả rất thấp khi đứng riêng
biệt. Ngun nhân dễ nhận thấy là do chính mơ hình Vcolor chƣa từng đƣợc huấn luyện qua bộ dữ liệu phƣơng tiện ở
cấp độ thực thể.
Với giả thuyết rằng sự có mặt của Vcolor trong kết hợp sẽ giúp mạng kết hợp tạo nên các đặc trƣng đa dạng và
tổng quát hơn, dựa trên lý thuyết về Neural Style Transfer, chúng tôi thực nghiệm kết hợp hai đặc trƣng VGG16 và
Vcolor bằng mạng kết hợp đƣợc đề xuất. Tuy đạt hiệu quả thấp khi đứng riêng biệt, Vcolor vẫn có khả năng làm tăng
hiệu của bộ rút trích đặc trƣng, cụ thể với kết hợp hai đặc trƣng, hiệu quả của đặc trƣng rút trích từ mạng kết hợp đã
tăng 3,75 % mAP, 2,2 % với Rank 1 và 3,4 % cho rank 5 khi so sánh với trƣờng hợp chỉ sử dụng đặc trƣng VGG16.
Điều này chứng minh các thơng tin mà Vcolor học đƣợc từ bài tốn nhận dạng màu sắc phƣơng tiện có thể hỗ trợ bù
đắp cho các phần bị thiếu hụt của mơ hình chung. Tiếp tục so sánh sang mơ hình kết hợp FACT. Với các trọng số đƣợc
học tự động trong quá trình huấn luyện, đặc trƣng đƣợc rút trích từ mạng kết hợp đƣợc đề xuất cho kết quả tốt hơn mơ
hình kết hợp FACT ở cả 3 độ đo mAP, rank 1, rank 5. Cụ thể, đặc trƣng từ mạng kết hợp đƣợc đề xuất cho kết quả cao
Trịnh Mẫn Hoàng, Nguyễn Thanh Sơn, Nguyễn Vinh Tiệp, Nguyễn Tấn Trần Minh Khang, Lê Đình Duy
487
hơn mơ hình FACT lần lƣợt là 3,35 %, 13,53 % và 3,28 % ở ba độ đo mAP, rank 1 và rank 5. Rõ ràng, việc kết hợp với
đặc trƣng Vcolor đƣợc huấn luyện trên bộ dữ liệu nhận diện màu sắc đã giúp mơ hình bù trừ đƣợc một số trƣờng hợp
overfitting của VGG16 và tăng hiệu năng của mơ hình.
Từ hình 8 ta thấy kết quả từ mơ hình kết hợp đƣợc đề xuất cho kết quả cao vƣợt trội so với các phƣơng pháp
khác. Ngoài ra với đầu ra của đặc trƣng rút trích là 4.096 chiều, mạng kết hợp không chỉ giúp tăng hiệu quả chung của
đặc trƣng mà còn giảm số chiều của đặc trƣng cần lƣu trữ xuống 3 lần.
Bảng 1. Kết quả thực nghiệm
Phƣơng pháp
VGG16
Vcolor
FACT
Mơ hình kết hợp
mAP(%)
18,09
3,45
18,49
21,84
Rank 1 (%)
62,28
13,59
50,95
62,87
Rank 5 (%)
73,36
24,43
73,48
74,91
Hình 8. Kết quả thực nghiệm
V. KẾT LUẬN
Trong bài báo này, chúng tôi đề xuất một mơ hình mới để kết hợp các đặc trƣng học sâu. Dựa trên kỹ thuật
Neural Style Transfer chúng tôi đã thiết kế một mạng nơron kết hợp hai đặc trƣng VGG16 và Vcolor. Kết quả thực
nghiệm trên bộ dữ liệu VeRi-776 đã cho thấy hiệu quả rõ rệt của việc rút trích đặc trƣng từ mạng kết hợp đƣợc đề xuất.
Đồng thời, mạng kết hợp đề xuất còn giúp giảm số chiều đặc trƣng cần lƣu trữ đi 3 lần trong khi vẫn tăng hiệu năng
của đặc trƣng. Tuy nhiên, mơ hình mạng của chúng tơi vẫn cịn khá đơn giản, do đó, trong tƣơng lai, chúng tơi sẽ tiếp
tục thiết kế các mạng kết hợp phức tạp hơn cũng nhƣ cung cấp thêm cho mạng nhiều loại đặc trƣng hơn nhằm tăng tính
tổng qt của mơ hình. Ngồi ra, việc mơ hình đề xuất chỉ sử dụng thơng tin trích xuất từ ảnh thu thập giúp mơ hình có
thể mở rộng áp dụng trên bất kì loại đối tƣợng nào nhƣ ngƣời, động vật, xe máy,… có dữ liệu đƣợc thu thập từ nhiều
camera.
VI. LỜI CẢM ƠN
Nghiên cứu đƣợc tài trợ bởi Đại học Quốc gia Thành phố Hồ Chí Minh (ĐHQG-HCM) trong khn khổ đề tài
mã số B2015-26-01.
VIII. TÀI LIỆU THAM KHẢO
[1] Liu X., Liu W., Ma H., Fu H. "Large-scale vehicle re-identification in urban surveillance videos" in IEEE
International Conference on Multimedia and Expo, 2016.
[2] Karen Simonyan, Andrew Zisserman. "Very Deep Convolutional Networks for Large-scale Image Recognition" in
International Conference on Learning Representations, 2015.
488
TÁI NHẬN DẠNG PHƢƠNG TIỆN GIAO THÔNG SỬ DỤNG MẠNG KẾT HỢP CÁC ĐẶC TRƢNG HỌC SÂU
[3] Liu X., Liu W., Mei T., Ma H.. "A Deep Learning-Based Approach to Progressive Vehicle Re-identification for
Urban Surveillance" in European Conference on Computer Vision, 2016.
[4] Reza Fuad Rachmadi, I Ketut Eddy Purnama and Mauridhi Hery Purnomo. "Vehicle Color Recognition using
Convolutional Neural Network" in arXiv:1510.07391v2 [cs.CV], 2017.
[5] Boyang Su, Jie Shao, Jianying Zhou, Xiaoteng Zhang, Lin Mei. "Vehicle Color Recognition in The Surveillance
with Deep Convolutional Neural Networks" in Joint International Mechanical, Electronic and Information
Technology Conference, 2015.
[6] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron
Courville, Yoshua Bengio. "Generative Adversarial Nets" in NIPS, 2014.
[7] P.Rosinand, J.Collomosse. "Image and video-based artistic stylisation". Springer Science & Business Media, vol.
42, 2012.
[8] Charleo85. "GitHub" 14 10 2017. [Online]. Available: />[9] F. Chollet. "The Keras Blog". 5 6 2016. [Online]. Available: />[10] Liu, Hongye and Tian, Yonghong and Wang, Yaowei and Pang, Lu and Huang, Tiejun. "Deep Relative Distance
Learning: Tell the Difference Between Similar Vehicles" in IEEE Conference on Computer Vision and Pattern
Recognition, 2016.
[11] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan,
Vincent Vanhoucke, Andrew Rabinovich. "Going Deeper with Convolutions" in arXiv:1409.4842 [cs.CV], 2014.
[12] Linjie Yang, Ping Luo, Chen Change Loy, Xiaoou Tang. "A Large-Scale Car Dataset for Fine-Grained
Categorization and Verification" in Computer Vision and Pattern Recognition, 2015.
[13] Liang Zheng, Shengjin Wang, Wengang Zhou, and Qi Tian. "Bayes merging of multiple vocabularies for scalable
image retrieval" in CVPR, 2014.
[14] Liang Zheng, Liyue Shen, Lu Tian, Shengjin Wang, Jing- dong Wang, Jiahao Bu, and Qi Tian. "Scalable person
re- identification: A benchmark" in ICCV, 2015.
VEHICLE RE-IDENTIFICATION USING FUSION OF DEEP FEATURES
Trinh Man Hoang, Nguyen Thanh Son, Nguyen Vinh Tiep, Nguyen Tan Tran Minh Khang, Le Dinh Duy
ABSTRACT: This paper researches about the vehicle re-identification problem. With a vehicle image as an input, the task of
vehicle re-identification problem is to search the dataset for the vehicle with the same identity as the vehicle in the image. This is a
problem that is receiving a great deal of attention from the community because of its applicability, especially in traffic camera
systems. In this paper, we focus on the features used in vehicle representations and the test results will be evaluated on the VeRi-776
dataset, which is specific for the vehicle re-identification problem. With the goal of combining deep features to improve the of
vehicle identity searching and features storing efficiency, we have done several tests on the VGG16, Vcolor and designed a neural
network to fuse them. Experimental results show that the feature extracted from the neural network is not only more effective than
individual incorporating feature, but also reduces the size of feature that need to be stored up to three times.
Keywords: Vehicle Re-Identification, Deep features, incorporating Deep features.