Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020
DOI: 10.15625/vap.2020.00228
ƯỚC LƯỢNG SỐ NGƯỜI TRONG ĐÁM ĐƠNG SỬ DỤNG MẠNG
NƠRON TÍCH CHẬP
Đỗ Phúc Thịnh, Quách Thị Bích Nhƣờng, Trần Văn Ninh
Trƣờng Đại học Cơng nghệ Đồng Nai
, ,
TĨM TẮT: Ước lượng số người trong đám đông là một trong những nhiệm vụ quan trọng trong hệ thống camera giám sát.
Nó góp phần hỗ trợ cho các lĩnh vực như kinh doanh, giao thông, an ninh và gần đây nhất là lệnh cấm tụ tập khi đại dịch Covid-19
diễn ra. Trong bài báo này, chúng tơi sử dụng mạng nơron tích chập để sinh bản đồ mật độ và ước lượng số người dựa trên bản đồ
mật độ này. Việc làm này vừa tránh được bài toán phát hiện đối tượng vừa thể hiện được mức độ phân bố của người trong đám
đông. Thực nghiệm cho thấy, phương pháp của chúng tôi tốt hơn các phương pháp truyền thống khi kiểm thử trên các tập dữ liệu
UCF_CC_50, ShanghaiTech.
Từ khóa: Đếm số người, mạng học sâu, mạng tích chập, crowd counting, convolutional neural network.
I. GIỚI THIỆU
Hiện nay đang diễn ra cuộc cách mạng công nghệ lần thứ tƣ. Trong cuộc cách mạng này, con ngƣời muốn tự
động hóa mọi thứ. Một trong số đó là hệ thống các camera giám sát. Song song với đó, với sự gia tăng dân số và q
trình đơ thị hóa thì việc giám sát từng cá nhân đã chuyển dần sang giám sát cả đám đông. Đặc biệt, với tình hình dịch
bệnh Covid-19 vừa diễn ra, ngƣời ta muốn hạn chế việc tụ tập đơng ngƣời. Chính vì thế, việc tự động giám sát sự phân
bố của đám đông là cần thiết. Khi số ngƣời trong đám đông vƣợt ngƣỡng, hệ thống giám sát sẽ thông báo để có thể kịp
thời xử lý. Trong nửa thập kỷ gần đây, với sự ra đời của mạng học sâu, đặc biệt là mạng nơron tích chập
(Convolutional Neural Network - CNN) đã chiếm ƣu thế áp đảo trong các bài toán về thị giác máy tính, việc đếm số
ngƣời trong đám đông cũng không ngoại lệ. Cách tiếp cận đơn giản nhất để giải quyết vấn đề này là đếm số lƣợng
ngƣời phát hiện đƣợc. Một số mơ hình phát hiện đối tƣợng nhƣ YOLO [12], [13], [14], SSD [8] cho kết quả khá tốt
trong môi trƣờng thƣa ngƣời. Tuy nhiên, khi gặp các ảnh có đơng ngƣời nhƣ đám đơng (Hình 1), các mơ hình này hồn
tồn khơng thể phát hiện một cách chi tiết đƣợc. Để vƣợt qua đƣợc vấn đề này, rất nhiều phƣơng pháp khác đƣợc đề
xuất [22], [15], [4], [16], [18]. Hầu hết các phƣơng pháp này dựa vào bản đồ mật độ (chúng tôi sẽ nói về bản đồ mật độ
ở các phần sau), tuy nhiên mơ hình để sinh bản đồ mật độ cịn khá “nơng”. Chính vì thế, chúng tơi đề xuất sử dụng một
mơ hình học sâu để sinh bản đồ mật độ và ƣớc lƣợng số ngƣời dựa trên bản đồ mật độ này.
Hình 1. Ảnh đám đơng và bản đồ mật độ của nó, 1061 là tổng số ngƣời
Các phần còn lại của bài báo đƣợc tổ chức nhƣ sau. Trong phần kế tiếp, chúng tơi sẽ trình bày q trình phát triển
của việc ƣớc lƣợng số ngƣời trong đám đơng. Chúng tơi sẽ mơ tả về mơ hình đề xuất cũng nhƣ các thuật toán sử dụng
trong phần III. Phần IV sẽ là phần thực nghiệm và đánh giá và phần V sẽ là kết luận và hƣớng phát triển của mơ hình.
II. CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Thông thƣờng, việc ƣớc lƣợng hay đếm số ngƣời trong đám đơng đƣợc chia thành 3 hƣớng tiếp cận chính: Dựa
vào việc phát hiện đối tƣợng; dựa vào mơ hình hồi quy và dựa vào bản đồ mật độ:
A. Các phương pháp dựa vào việc phát hiện đối tượng
Đây là các phƣơng pháp sơ khai nhất, sử dụng việc phát hiện đối tƣợng để đếm số ngƣời có trong ảnh. Một số
cơng trình nhƣ [19], [3] sử dụng cửa sổ trƣợt để phát hiện đối tƣợng. Nhìn chung, nhƣợc điểm của các phƣơng pháp
này là khi mật độ ngƣời trong ảnh càng đơng, thì khả năng đếm càng thấp.
ƢỚC LƢỢNG SỐ NGƢỜI TRONG ĐÁM ĐÔNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP
678
B. Các phương pháp dựa vào mơ hình hồi quy
Với những ảnh có mật độ ngƣời đơng, các phƣơng pháp phát hiện đối tƣợng sẽ khơng cịn phù hợp. Khái niệm
“đếm” cũng đƣợc chuyển dần sang “ƣớc lƣợng” và chuyển hƣớng một cách tiếp cận khác là dựa vào mơ hình hồi quy.
Các phƣơng pháp dựa vào mơ hình hồi quy thƣờng đƣợc chia thành hai cơng đoạn: Rút trích đặc trƣng và xây dựng
một mơ hình hồi quy để ƣớc tính số đếm. Các kỹ thuật hồi quy nhƣ linear [11], ridge [2], Gaussian [9] đƣợc sử dụng để
ánh xạ các đặc trƣng với số đếm. Tác giả Wang và cộng sự [20] tiếp cận theo hƣớng sử dụng mạng Alexnet [6] để rút
trích đặc trƣng từ ảnh đám đông, đầu ra của mạng là một nút chỉ số đếm. Để có thể huấn luyện đƣợc mơ hình này, tác
giả thêm vào các mẫu âm (ảnh khơng có ngƣời). Các phƣơng pháp thuộc dạng này có thể giải quyết đƣợc bài tốn khó
là tránh việc phát hiện từng đối tƣợng. Tuy nhiên, các phƣơng pháp này chỉ có một thơng tin là số ngƣời có trong ảnh
mà không thể hiện đƣợc mức độ phân bố của ngƣời trong ảnh. Chính vì vậy, các nhà nghiên cứu đã đề xuất một hƣớng
đi mới, đó là dựa trên bản đồ mật độ.
C. Các phương pháp dựa vào bản đồ mật độ
Để thể hiện đƣợc mức độ phân bố của ngƣời trong ảnh, tác giả Lempitsky và cộng sự [7] đã đề xuất một phƣơng
pháp sử dụng bản đồ mật độ để ƣớc lƣợng số ngƣời. Bản đồ mật độ (Hình 1) là một ảnh hai chiều thể hiện đƣợc mật độ
ngƣời phân bố và số ngƣời có trong ảnh chính bằng tổng giá trị của nó. Tác giả Boominathan [1] sử dụng mơ hình gồm
hai “cột” CNN có độ sâu khác nhau. Đầu ra của hai mơ hình CNN đƣợc kết hợp bằng tầng tích chập 1x1 tạo nên bản
đồ mật độ. Một số tác giả khác nhƣ Onoro-Rubio và cộng sự [10], Zhang [22] cải tiến mơ hình bằng cách sử dụng ba
mơ hình CNN song song để sinh bản đồ mật độ. Tác giả Sam [15] cải tiến các mơ hình đa cột bằng cách thêm một bộ
phân loại, giúp tìm ra ảnh đầu vào phù hợp với mạng CNN nào. Tác giả Đỗ và cộng sự [4] làm giảm độ sai số của mơ
hình bằng cách loại bỏ các khu vực khơng có ngƣời trƣớc khi đem vào mơ hình. Điểm chung của các phƣơng pháp trên
là sử dụng mạng tích chập đơn giản để sinh bản đồ mật độ. Chính vì vậy, chất lƣợng của bản đồ mật độ không cao.
III. PHƢƠNG PHÁP ĐỀ XUẤT
Chúng tơi đề xuất mơ hình sử dụng mạng học sâu để xây dựng bản đồ mật độ. Cụ thể chúng tơi tận dụng sức
mạnh của mơ hình VGG-16 [17] để làm cơ sở (baseline) cho mơ hình của mình.
A. Mơ hình sinh bản đồ mật độ
Bản đồ mật độ
1x1x1
3x3x64
3x3x128
3x3x256
3x3x512
3x3x512
3x3x512
3x3x512
3x3x512
3x3x512
Max Pooling
3x3x256
3x3x256
3x3x256
Max Pooling
3x3x128
3x3x128
Max Pooling
3x3x64
3x3x64
Ảnh đầu vào
Nhƣ đã đề cập trƣớc đó, các phƣơng pháp cũ chỉ sử dụng mạng CNN có kiến trúc đơn giản để sinh bản đồ mật
độ. Điều này khiến chất lƣợng của bản đồ mật độ thấp. Với sự thành cơng của mơ hình VGG-16 trong bài tốn phân
loại đối tƣợng thì khả năng rút trích đặc trƣng của mơ hình này là khơng thể phủ nhận. Chính vì thể, chúng tơi sử dụng
lại kiến trúc các tầng đầu của mạng VGG-16, loại bỏ các tầng kết nối đầy đủ vì chúng khơng phù hợp với bài tốn đặt
ra. Chúng tôi thay thế các tầng kết nối đầy đủ bằng các tầng tích chập, đầu ra của các tầng này đƣợc kết hợp lại nhờ
một tầng tích chập 1x1. Mơ hình sinh bản đồ mật độ đƣợc mơ tả nhƣ Hình 2. Chúng tơi vẽ mơ hình nằm ngang để đỡ
chiếm khoảng trống. Trong đó, 3x3x64 dùng để chỉ tầng tích chập này gồm 64 bộ lọc kích thƣớc 3x3. Max Pooling là
tầng pooling sử dụng thuật toán max-pool với kích thƣớc bộ lọc là 2x2. Để dễ hình dung, các tầng ReLU (Rectified
Linear Units) khơng đƣợc vẽ trong hình.
Hình 2. Mơ hình sinh bản đồ mật độ
B. Bản đồ mật độ xác thực (ground truth)
Để có thể huấn luyện mơ hình theo các phƣơng pháp dựa vào bản đồ mật độ, các tập dữ liệu đám đông phải
đƣợc đánh dấu tại mỗi điểm đầu ngƣời (Hình 3). Tƣơng tự với các phƣơng pháp dựa vào bản đồ mật độ, với mỗi ảnh
đám đông, chúng tôi tạo bản đồ mật độ xác thực bằng cách đặt nhân Gaussian tại các điểm này.
∑
(
̅̅̅
)
(1)
(2)
trong đó,
là bản đồ mật độ xác thực,
là nhân Gaussian với độ lệch chuẩn đƣợc tính bằng cách nhân trung bình
khoảng cách từ điểm đang xét đến n điểm lân cận ̅ và tham số . Trong q trình thực nghiệm, chúng tơi chọn n = 4
và = 0,1 cho kết quả tốt nhất. Thuật toán sinh bản đồ mật độ xác thực đƣợc mô tả trong Hình 4.
Đỗ Phúc Thịnh, Qch Thị Bích Nhƣờng, Trần Văn Ninh
679
Hình 3. Ảnh đã đƣợc đánh dấu và bản đồ mật độ xác thực của nó
Thuật tốn 1. Sinh bản đồ mật độ xác thực
Đầu vào: Ảnh đám đông đã đƣợc đánh dấu tại mỗi đầu ngƣời
Đầu ra: Bản đồ mật độ xác thực
Bắt đầu:
B[] zeros // Khởi tạo bản đồ mật độ rỗng
foreach head in image // Với mỗi đầu ngƣời đƣợc đánh dấu
Nếu điểm đánh dấu nằm trong ảnh
Tính ̅ với n = 4
0.1 ̅
gauss Dùng bộ lọc Gaussian với độ lệch chuẩn
B[] += gauss
Return B[]
Kết thúc:
Hình 4. Thuật tốn sinh bản đồ xác thực
C. Huấn luyện mơ hình
Để tăng cƣờng số lƣợng dữ liệu cho quá trình huấn luyện, chúng tôi cắt ngẫu nhiên các ảnh đầu vào thành các
ảnh có kích thƣớc bằng 1/4 kích thƣớc ban đầu. Chúng tôi cũng áp dụng các cách để tăng dữ liệu nhƣ xoay ảnh, lấy đối
xứng ảnh, tăng giảm độ sáng. Mơ hình đƣợc huấn luyện dựa vào loss function sau:
( )
∑‖ ( )
‖
(2)
với N là số lƣợng ảnh,
là bản đồ mật độ xác thực của ảnh thứ , ( ) là bản đồ mật độ sinh từ mô hình với bộ
trọng số của ảnh thứ . Chúng tơi cũng mơ tả thuật tốn huấn luyện mơ hình nhƣ Hình 5.
Thuật tốn 2. Huấn luyện mơ hình
Đầu vào: Ảnh đám đông input và bản đồ mật độ xác thực gt của nó
Đầu ra: Mơ hình đã đƣợc huấn luyện
Bắt đầu:
for epoch in range(epochs)
model() // Khởi tạo mơ hình
gt_map gt
et_map model(input)
// Dùng SGD từ thƣ viện pytorch
loss MSELoss(gt_map, et_map)
optimizer.zero_grad()
loss.backward()
optimizer.step()
end for
Kết thúc:
Hình 5. Thuật tốn huấn luyện mơ hình
IV. THỰC NGHIỆM
Chúng tơi đánh giá mơ hình dựa trên hai tập dữ liệu ShanghaiTech và UCF_CC_50. Chúng tôi thực nghiệm trên
laptop i7 , 32GB RAM, GTX 1080 8GB, Windows 10 Pro 64bit và huấn luyện mơ hình bằng thuật
ƢỚC LƢỢNG SỐ NGƢỜI TRONG ĐÁM ĐÔNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP
680
tốn Stochastic Gradient Descent - SGD với hệ số học là 1e-7, số lần lặp là 300. Ngôn ngữ sử dụng để lập trình là
Python với bộ thƣ viện Pytorch.
A. Độ đo đánh giá
Với bài toán đếm, ƣớc lƣợng số ngƣời trong đám đông và để so sánh kết quả với các phƣơng pháp trƣớc đây,
chúng tôi sử dụng sai số tuyệt đối trung bình (Mean Absolute Error - MAE) và sai số bình phƣơng trung bình (Mean
Squared Error - RMSE):
∑|
|
(3)
√ ∑(
)
(4)
với N là số lƣợng ảnh,
là số đếm xác thực của ảnh thứ , là số đếm ƣớc lƣợng đƣợc từ mơ hình của ảnh thứ .
Nhƣ vậy, số đo của MAE và MSE càng bé thì độ chính xác của mơ hình càng cao.
B. Tập dữ liệu ShanghaiTech
Đây là một trong những tập dữ liệu về đám đông lớn nhất trong những năm gần đây với 1.198 ảnh và 330.165
điểm đầu ngƣời đã đƣợc đánh dấu [21]. Dựa theo phân bố về mật độ, tập dữ liệu đƣợc chia ra làm hai phần: Phần A
(ShanghaiTech Part A) và phần B (ShanghaiTech Part B). Phần A gồm những ảnh lấy ngẫu nhiên trên mạng còn phần
B là ảnh đƣợc lấy từ camera trên một con đƣờng ở Thƣợng Hải - Trung Quốc. Mật độ ngƣời của phần A nhiều hơn so
với phần B. Tập dữ liệu đã chia sẵn thành tập huấn luyện và tập kiểm thử, cụ thể, phần A gồm 300 ảnh huấn luyện và
182 ảnh kiểm thử. Phần B gồm 400 ảnh huấn luyện và 316 ảnh kiểm thử.
Bảng 1. Kết quả khi đánh giá mơ hình trên tập dữ liệu ShanghaiTech
Phƣơng pháp
Zhang [21]
MCNN [22]
Switch-CNN [15]
Do [4]
CP-CNN [18]
Phƣơng pháp đề xuất
Phần A
MAE MSE
181,8 277,7
110,2 173,2
90,4 135,0
81,9 122,1
73,6 106,4
70,5 120,7
Phần B
MAE MSE
32,0
49,8
26,4
41,3
21,6
33,4
20,9
33,1
20,1
30,1
12,5
20,4
Hình 6. Một số kết quả trên tập dữ liệu ShanghaiTech phần A
Hình 7. Một số kết quả trên tập dữ liệu ShanghaiTech phần B
Kết quả của mơ hình khi kiểm thử trên tập dữ liệu ShanghaiTech đƣợc mô tả ở Bảng 1. Với tập dữ liệu có mật
độ ngƣời thấp nhƣ Phần B thì mơ hình cho kết quả khá tốt. Mơ hình cũng hoạt động khá tốt ở những vùng khơng có
ngƣời nhƣ cây, nền nhà, mây,…
Đỗ Phúc Thịnh, Quách Thị Bích Nhƣờng, Trần Văn Ninh
681
C. Tập dữ liệu UCF_CC_50
UCF_CC_50 là tập dữ liệu đầy thách thức đối với bài toán đếm, ƣớc lƣợng số ngƣời trong đám đông. Tập dữ
liệu chỉ chứa 50 ảnh nhƣng mật độ ngƣời trong ảnh thay đổi rất nhiều, từ 94 lên tới 4.543 và chứa rất nhiều cảnh nhƣ
buổi hịa nhạc, các cuộc biểu tình, sân vận động [5]. Để đánh giá trên tập dữ liệu này, chúng tôi sử dụng kiểm chứng
chéo với k = 5 (5-fold cross-validation). Kết quả của mơ hình đƣợc mơ tả nhƣ Bảng 2. Với ảnh có mật độ ngƣời dày
đặc, mơ hình của chúng tôi tốt hơn so với một số phƣơng pháp truyền thống. Tuy nhiên, sai số khi ƣớc lƣợng trên các
ảnh này vẫn còn khá lớn.
Bảng 2. Kết quả khi đánh giá mơ hình trên tập dữ liệu UCF_CC_50
Phƣơng pháp
Lempitsky [7]
Idrees [5]
Zhang [21]
MCNN [22]
Hydra2s [10]
Switch-CNN [15]
Do [4]
IG-CNN [16]
Phƣơng pháp đề xuất
UCF_CC_50
MAE
MSE
493,4
487,1
419,5
487,1
467,0
498,5
377,6
509,1
333,73
425,26
318,1
439,2
383,7
250,5
291,4
349,4
290,3
390,4
Hình 8. Một số kết quả trên tập dữ liệu UCF_CC_50
V. KẾT LUẬN
Trong bài báo này, chúng tôi đã trình bày q trình phát triển của bài tốn đếm, ƣớc lƣợng số ngƣời trong đám
đông. Chúng tôi cũng đề xuất một mơ hình sử đụng mạng nơron tích chập để sinh bản đồ mật độ và ƣớc lƣợng số
ngƣời dựa trên bản đồ mật độ này. Mặt khác, chúng tơi cũng tận dụng sức mạnh rút trích đặc trƣng của mơ hình VGG16 cho mơ hình của mình. Thực nghiệm cho thấy điều này làm tăng hiệu quả của mơ hình khi so sánh với các phƣơng
pháp truyền thống. Trong tƣơng lai, chúng tơi sẽ nghiên cứu mơ hình ƣớc lƣợng số ngƣời trong khơng gian dựa vào
góc nhìn đa chiều của các camera giám sát và áp dụng cho nhiều đối tƣợng khác nhƣ động vật, tế bào, xe cộ,…
TÀI LIỆU THAM KHẢO
[1] L. Boominathan, S. S. Kruthiventi, R. V. Babu. “Crowdnet: A deep convolutional network for dense crowd
counting”. In Proceedings of the 2016 ACM on Multimedia Conference, ACM, pp. 640-644, 2016.
[2] K. Chen, C. C. Loy, S. Gong, and T. Xiang. “Feature mining for localised crowd counting”. In BMVC, 2012.
[3] Navneet Dalal and Bill Triggs. “Histograms of oriented gradients for human detection”. InComputer Vision
and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, Volume 1, pp. 886-893.
IEEE, 2005.
[4] Phuc Thinh Do and Ngoc Quoc Ly. “A New Framework For Crowded Scene Counting Based On Weighted Sum
Of Regressors and Human Classifier”. In SoICT ’18: Ninth International Symposium on Information and
Communication Technology, 2018.
[5] Haroon Idrees, Imran Saleemi, Cody Seibert, and MubarakShah. “Multi-source multi-scale counting in extremely
densecrowd images”. In Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition, pp.
2547-2554, 2013.
[6] A. Krizhevsky, I. Sutskever, G. Hinton. “Imagenet classification with deep convolutional neural networks”. In
Advances in neural information processing systems, pp. 1097-1105, 2012.
[7] V. Lempitsky and A. Zisserman. “Learning to count objects in images”. In Advances in neural information
processing systems, pp. 1324-1332, 2010.
[8] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. E. Reed. “SSD: single shot multibox detector”. CoRR,
abs/1512.02325, 2015.
682
ƢỚC LƢỢNG SỐ NGƢỜI TRONG ĐÁM ĐÔNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP
[9] A. N. Marana, L. F. Costa, R. A. Lotufo, and S. A. Velastin. “On the efficacy of texture analysis for crowd
monitoring”, in: Computer Graphics, Image Processing, and Vision, 1998. Proceedings. SIBGRAPI’98.
International Symposium on, IEEE. pp. 354-361, 1998.
[10] D. Onoro-Rubio and R.J. Lpez-Sastre. “Towards perspective-free object counting with deep learning”. In
Proceedings of the ECCV. Springer, pp. 615-629, 2016.
[11] Paragios, N., Ramesh, V., 2001. “A mrf-based approach for real-time subway monitoring”, in: Computer Vision
and Pattern Recognition, 2001.
[12] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. “You only look once: Unified, real-time object detection”.
arXiv preprint arXiv:1506.02640, 2015.
[13] J. Redmon and A. Farhadi. “Yolo9000: Better, faster, stronger. In Computer Vision and Pattern Recognition
(CVPR)”, 2017 IEEE Conference on, pp. 6517-6525. IEEE, 2017.
[14] J. Redmon and A. Farhadi. “YOLOv3: An incremental improvement”. arXiv:1804.02767, 2018.
[15] D. B. Sam, S. Surya, R. V. Babu. “Switching convolutional neural network for crowd counting”. In Proceedings
of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[16] D. B. Sam, N. N. Sajjan, R. V. Babu, and M. Srinivasan. “Divide and grow: Capturing hugediversity in crowd
images with incrementally growing cnn”. In The IEEE Conference on Computer Vision and Pattern Recognition
(CVPR), pp. 3618-3626, 2018.
[17] Karen Simonyan and Andrew Zisserman. “Very deep convolutional networks for large-scale image recognition”.
arXivpreprint arXiv: 1409.1556, 2014.
[18] Vishwanath A. Sindagi and Vishal M. Patel. “Generatinghigh-quality crowd density maps using contextual
pyramidcnns”. In The IEEE International Conference on Computer Vision (ICCV), pp. 1861-1870, 2017.
[19] Paul Viola and Michael J Jones. “Robust real-time face detection”. International journal of computer vision,
57(2): pp. 137-154, 2004.
[20] C. Wang, H. Zhang, L. Yang, S. Liu, X. Cao. “Deep people counting in extremely dense crowds”. In Proceedings
of the 23rd ACM international conference on Multimedia, ACM. pp. 1299-1302, 2015.
[21] C. Zhang, H. Li, X. Wang, X. Yang. “Cross-scene crowd counting via deep con volutional neural networks”. In
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 833-841, 2015.
[22] Y. Zhang, D. Zhou, S. Chen, S. Gao, Y. Ma. “Single image crowd counting via multi-column convolutional
neural network”. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 589597, 2016.
CROWD COUNTING USING CONVOLUTIONAL NEURAL NETWORKS
Do Phuc Thinh, Quach Thi Bich Nhuong, Tran Van Ninh
ABSTRACT: Crowd counting is one of the most important tasks in surveillance camera systems. It has supported areas
such as business, transportation, security and, most recently, the ban on gathering during the Covid-19 pandemic. In this paper, we
use convolutional neural networks to generate the density map and estimate the number of people based on this density map. This
work both avoids the object detection problem and shows the distribution of people in the crowd. Experiments show that our method
is better than traditional methods when testing on UCF_CC_50, ShanghaiTech datasets.