NGHIÊN CỨU PHƯƠNG PHÁP ĐẾM XE Ô TÔ SỬ DỤNG MÔ
HÌNH HỖN HỢP GAUSSIAN VÀ LUỒNG QUANG HỌC
Ngô Quốc Tạo1, Nguyễn Văn Căn2, Huỳnh Văn Huy3
(1)Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam
Email:
(2) Trường Đại học Kỹ thuật - Hậu cần CAND
Email:
(3) Trường Trung cấp chuyên nghiệp Bà Rịa
Email:
Tóm tắt - Nhiều phương pháp phát hiện, phân loại và theo dõi đối tượng chuyển động trong video giao thông được phát triển
trong những năm gần đây. Mục đích của bài viết này là trình bày phương pháp đếm số lượng xe trong vùng quan sát gồm: Thứ
nhất, tiến hành cải tiến phương pháp mô hình nền hỗn hợp Gaussian thích ứng tốt với sự thay đổi ánh sáng và nền động. Thứ
hai, kết hợp phương pháp phát hiện đối tượng chuyển động bằng phương pháp hỗn hợp Gaussian thích ứng, làm sạch khung
hình bằng phương pháp loại bỏ bóng và theo dõi, đếm số lượng đối tượng dựa trên luồng quang học. Chúng tôi đã tiến hành thử
nghiệm đếm xe với phương pháp đề xuất trên các tập dữ liệu video thu được từ một số tuyến đường ở Hà Nội và phụ cận. Kết quả
thu được tương đối chính xác với mật độ xe thấp trên các đường cao tốc.
Keywords: Gaussian Mixture Model (GMM), Optical Flow, Computer Vision, Car Counting.
1. Giới thiệu
Các ứng dụng khác nhau như giám sát video, thu nhận chuyển động quang học và đa phương tiện điều đầu tiên
cần đến là mô hình nền và sau đó là phát hiện các đối tượng chuyển động. Cách tốt nhất để thu nhận nền là lưu trữ
ảnh nền khi không có bất kỳ đối tượng chuyển động nào, nhưng trong môi trường thực thì khó có thể như vậy. Hơn
nữa, nó cũng luôn luôn thay đổi dưới điều kiện thực tế như thay đổi ánh sáng, các đối tượng đến hoặc rời khỏi cảnh.
Đếm số lượng phương tiện (xe ô tô) trên đường sẽ mang lại nhiều kết quả ứng dụng trong nhiều lĩnh vực trong
đó có giám sát giao thông. Lược đồ chung của phương pháp đếm số lượng xe tham gia giao thông trên đường thể
hiện trong hình 1.
Video
frames
Mô hình nền và
phát hiện xe
Xử lý trên tập
phát hiện được
Theo dõi,
xác thực
Đếm số
lượng
Hình 1. Lược đồ chung của quá trình thực hiện của thuật toán đếm số lượng xe
Trong lược đồ, có ba khối xử lý chính, liên quan đến các phương pháp tiếp cận phát hiện, phân loại và theo dõi.
- Mô hình nền và phát hiện xe: hầu hết các nghiên cứu sử dụng phương pháp mô hình trừ nền để phát hiện các
đối tượng chuyển động.
- Xử lý trên tập phát hiện được: bao gồm các phương pháp loại bỏ nhiễu, phát hiện biên, loại bỏ bóng, phân
hoạch các khối chuyển động.
- Theo dõi, xác thực: sử dụng luồng quang học để theo dõi hướng chuyển động, sử dụng đường biên và so khớp
mẫu để phân loại...
Trong các phần tiếp theo: mục 2 trình bày tổng quan về các phương pháp mô hình hóa nền và phát hiện đối
tượng, trong đó cải tiến phương pháp GMM thành phương pháp GMM thích ứng để phù hợp với sự thay đổi ánh
sáng và nền động; mục 3 trình bày phương pháp theo dõi luồng quang học; mục 4 trình bày một số giải thuật sử
dụng phương pháp đề nghị; mục 5 trình bày kết quả thực nghiệm và bàn luận; mục 6 là kết luận và hướng nghiên
cứu tiếp theo.
1
2. Phương pháp trừ nền
Có hàng trăm các nghiên cứu gần đây nhằm phát triển phương pháp trừ nền, chia thành các nhánh khác nhau
(mục 2.1), tuy nhiên, trong số đó các hướng tiếp cận nhiều nhất là phương pháp hỗn hợp Gaussian vì ưu điểm phù
hợp với những ứng dụng ngoài trời.
2.1. Một số mô hình trừ nền
Cách tốt nhất để thu nhận nền là lưu trữ ảnh nền khi không có bất kỳ đối tượng chuyển động nào, nhưng trong
môi trường thực thì khó có thể như vậy. Hơn nữa, dưới điều kiện thực tế nền cũng luôn thay đổi như thay đổi ánh
sáng, các đối tượng đến hoặc rời khỏi cảnh. Để giải quyết vấn đề này, nhiều phương pháp mô hình nền đã được phát
triển [8,9] và được phân loại thành các loại sau:
Mô hình nền cơ bản: sử dụng giá trị trung bình [10] hoặc bình quân [11] hoặc phân tích lược đồ xám cho toàn
thời gian [12].
Mô hình nền thống kê: sử dụng một Gauss đơn[13] hoặc một hỗn hợp Gauss[14] hoặc một tính toán mật độ lõi
[15]. Các biến thống kê được sử dụng để phân loại các điểm ảnh là điểm tiền cảnh hay là nền.
Mô hình nền mờ: sử dụng một giá trị trung bình mờ[16] hoặc hỗn hợp mờ loại 2 của Gauss[17]. Phát hiện tiền
cảnh được sử dụng tích hợp Sugeno [18] hoặc tích hợp Choquet[19]. Phát hiện tiền cảnh có thể thực hiện bằng logic
mờ tham khảo trong [5].
Phân cụm nền: mỗi điểm ảnh trong khung hình có thể được phân cụm theo thời gian xuất hiện. Các điểm ảnh
đang xem xét được xếp loại và ghép vào cụm theo một tiêu chí đặt ra. Cách tiếp cận phân cụm có sử dụng thuật toán
K-mean [3] hoặc sử dụng Codebook [6].
Mô hình nền mạng nơ ron: Mô hình nền được biểu diễn bằng trị trung bình của các hệ số của một mạng nơ ron
được đào tạo trên N khung sạch. Mạng huấn luyện như thế nào để phân loại mỗi điểm ảnh là nền hoặc tiền cảnh.
Mô hình nền Wavelet: Mô hình nền được định nghĩa trong vùng thời gian, sử dụng hệ số biến đổi wavelet rời
rạc (DWT) [2].
Ước tính nền: Nền được ước tính bằng cách sử dụng bộ lọc. Mỗi điểm ảnh của ảnh hiện tại lệch đáng kể so với
giá trị dự đoán được khai báo là nổi trên nền. Bộ lọc này có thể là lọc Wiener [20], lọc Kalman[21] hoặc lọc
Tchebychev [22].
Bảng 1. Phân loại một số phương pháp mô hình nền
Loại
Mô hình nền cơ bản
Mô hình nền thống kê
Mô hình nền logic mờ
Sự phân cụm nền
Mô hình nền mạng nơ ron
Mô hình nền Wavelet
Tính toán nền
Phương pháp, Tác giả (Năm xuất bản) [Tài liệu]
Trung bình, Lee (2002) [10]
Trung vị, Mac Farlane, (1995) [11]
Lược đồ xám toàn thời gian, Zheng (2006) [12]
Gauss đơn, Wren (1997) [13]
Hỗn hợp Gaussian, Stauffer và Grimson (1999) [14]
Ước tính mật độ lõi, Elgammal (2000) [15]
Giá trị trung bình chạy mờ, Sigari (2008) [16]
Hỗn hợp Gauss mờ loại 2n El Baf (2008) [17]
K trung bình, Bultler (2003) [3]
CodeBook, Kim (2005) [6]
Mạng nơ ron hồi quy tổng hợp, Culibrk (2006)[7]
Mạng nơ ron tự tổ chức, Maddalena và Petrosino (2007) [4]
Biến đổi Wavelet rời rạc, Biswas [2]
Lọc Wiener, Toyama (1999) [20]
Lọc Kalman Messelodi (2005) [21]
Lọc Tchebychev, Change (2004)[22]
Các phương pháp tiếp cận này đều sử dụng cách trừ nền: Mô hình hóa nền, khởi tạo nền, duy trì nền, phát hiện
tiền cảnh, chọn kích thước đặc trưng (điểm ảnh, khối hoặc cụm), chọn kiểu đặc trưng (đặc trưng màu sắc, đường
2
biên, stereo, chuyển động và đường vân). Phát triển phương pháp trừ nền tập trung vào các tình huống quan trọng
trong chuỗi video [5,20]: nhiễu ảnh, camera tự dịch chuyển, khẩu độ đối tượng, đối tượng chèn thêm vào nền, đối
tượng đang di chuyển thì dừng lại, và bóng (S). Sự khác nhau chính đến từ các nền động và sự thay đổi ánh sáng.
Tập dữ liệu tham khảo Wallflower[20]: Các nền động thường xuất hiện ở các cảnh ngoài trời, sự thay đổi ánh sáng
xuất hiện trong cả cảnh trong nhà và ngoài trời, sự thay đổi ánh sáng có thể dần dần hoặc đột ngột.
2.2. Phương pháp GMM truyền thống
GMM truyền thống đề xuất mỗi điểm ảnh trong ảnh được theo dõi độc lập và sự thay đổi trong vùng thời gian có
thể được mô phỏng bởi phân bố Gaussian K chiều. Ví dụ giá trị của điểm ảnh P(x,y) là {x 1, x2,..., xt} thì xác suất có
thể quan sát giá trị điểm ảnh hiện tại xt tại thời điểm t là:
P X t i , t X t , i , t , i , t
K
(1)
i 1
với các tham số: K là số lượng phân bố, i,t là trọng số tương ứng với Gauss thứ ith ở thời điểm t với trị trung
bình µi,t và độ lệch chuẩn i,t, là hàm mật độ xác xuất Gauss:
X t , ,
1
e
2 n / 2 1/ 2
1
X t 1 X t
2
(2)
Có thể sắp xếp trật tự của K phân bố Gaussian theo / và giả thiết phân bố B là mô hình nền:
B arg min b
|
T
i 1 i ,t i 1 i ,t
b
b
(3)
Nếu giá trị chênh lệch giữa giá trị điểm ảnh hiện tại và giá trị mô hình nền trong phạm vi nhất định, nó có thể
được coi là nền, đó là:
ρ=α.(Xt-1,µi,i)
(4)
với ci trong khoảng 2.5-3. Để có thể đáp ứng các phương trình trên, cập nhật theo các phương trình sau đây:
i,t+1 = (1-α)i,t + αMt
(5)
µi, t+1 = (1-)µi,t + .Mt+1
(6)
với tỷ lệ học ρ=α.(Xt-1,µi,i) là hằng số; Mt = 1 nếu phù hợp mô hình, Mt=0 với các trường hợp còn lại.
Để cập nhật nhanh GMM phụ thuộc vào tỷ lệ học α. Nếu giá trị α là nhỏ, tốc độ khởi tạo mô hình nền và cập
nhật tương ứng là chậm, cần có thời gian dài để phù hợp với sự thay đổi của môi trường. Ngược lại nếu giá trị α là
lớn, tốc độ sẽ nhanh để có thể đáp ứng sự thay đổi của môi trường, nhưng dễ bị nhiễu sai.
2.3. Phương pháp GMM thích ứng
Phương pháp tiếp cận trên mô hình điểm ảnh bằng việc xem xét giá trị điểm ảnh quan sát với vài mô hình
Gaussian đơn. Cần phải cập nhật tham số của mô hình cho mỗi giá trị điểm ảnh mới thu được. Các bước sửa đổi của
tham số của nó là như sau:
1) Với mỗi điểm ảnh mới, sẽ phát hiện sự phù hợp của nó với mô hình ở đầu tiên và phương pháp phát hiện là:
{
|
|
|
|
i=1,2,...,K
(7)
với là hằng số theo thực nghiệm thu được. Khi đó trích chọn các mẫu từ tất cả số lượng trong phân bố thường
và khoảng 95% các mẫu là rơi vào khoảng (-2, +2), do vậy, thường đặt trong khoảng 2 đến 3.
2) Vì 2 tình huống khác nhau nhận từ bước đầu tiên, có thể phù hợp các phương pháp thay đổi khác nhau:
Nếu Gaussian chắc chắn (số thứ tự k) của sưu tập đa chế độ được phù hợp với điểm Xt, cần cập nhật giá trị trọng
số Gaussian:
k,t = (1-α)k,t-1 + α(1-α)k,t-2
3
(8)
với α là hằng số tốc độ cập nhật nền – giá trị trọng số cập nhật trong khoảng [0,1], được đặt theo kinh nghiệm và
điều kiện cụ thể, để giảm nhiễu nền, thường đặt giá trị α nhỏ, ví dụ α=0.05.
Từ (8) mô hình được xác định có thể luôn luôn thực sự mô phỏng các tình huống phân chia giá trị nền pixel
trong thời điểm mới nhất. Theo định nghĩa của mô hình, các giá trị trọng số đại diện cho xác suất xuất hiện của các
giá trị điểm ảnh gần nhất. Sau đó, khi giá trị điểm ảnh mới thu được là phù hợp với một số hoặc một số mô hình đơn
trong phân phối này, nó có nghĩa là mô hình đơn đáp ứng tương đối phân phối các giá trị điểm ảnh của hiện tại và do
đó cần phải tăng giá trị trọng số của nó đúng cách. α tốc độ cập nhật các giá trị trọng số của số lượng các giá trị
trọng số của biến đổi và α lớn nhận ra sự thay đổi nhanh chóng.
Khi mô hình đơn là phù hợp với một giá trị pixel mới thu được, cần phải sửa đổi tham số mô hình µ k,t và ρk,t. Vì
khi giá trị điểm ảnh mới thu được kết hợp với chế độ đơn, theo phân bố xác suất, nó phải ảnh hưởng đến sự phân bố
xác suất ước tính ban đầu. Phương trình thay đổi theo công thức sau:
i+1(x,y)2 = (1-α) i-1(x,y)2 + αi(x,y)2
(9)
µi+1(x,y) = (1- α)µi(x,y) + αIi+1(x,y)
(10)
với Ii+1(x,y) là mức xám của khung hình video mới nhất thu được tại điểm (x,y).
Nếu giá trị điểm ảnh mới Xt là không phù hợp với một số phân phối Gaussian, có thể cho rằng các giá trị điểm
ảnh mới không thực hiện bất kỳ đóng góp để phân phối các mô hình đơn và sau đó không cần phải thay đổi thông số
phân phối Gaussian và chỉ thay đổi giá trị trọng của nó theo công thức sau:
k,t = (1-α) k,t-1
(11)
Điều này chỉ ra chỉ giá trị trọng số phân phối Gaussian phù hợp với X t có thể được tăng lên, và các giá trị phân
phối khác đều giảm.
Khi không có bất kỳ một phân phối Gaussian trong bộ sưu tập phù hợp với các giá trị điểm ảnh mới Xt, có nghĩa
là phân phối mới được tạo ra và phân phối phải ở trong các bộ sưu tập đa chế độ. Vì vậy, cần thêm một mô hình mới
đơn và trong thời gian trung bình loại bỏ phân phối Gaussian từ bộ sưu tập mô hình ban đầu. Phương pháp cụ thể là
để loại bỏ sự phân bố Gaussian với trọng lượng tối thiểu trong bộ sưu tập đa hiện tại và giới thiệu một phân phối
Gaussian mới trong bộ sưu tập đa theo Xt và cũng thiết lập một giá trị trọng số tương đối nhỏ và phương sai tương
đối lớn.
Trong phân phối Gaussian vừa được giới thiệu theo Xt, giá trị trọng số của nó là trọng số tối thiểu trong bộ sưu
tập đa hiện tại và giá trị trung bình là giá trị điểm ảnh mới và phương sai là một hằng số tương đối lớn.
3) Sau khi sửa đổi ở trên, cần phải xử lý các giá trị trọng số của mỗi mô hình đơn trong các mô hình với phương
pháp bình thường. Đối với việc cập nhật các giá trị gia quyền ở trên, khi một mô hình là phù hợp với một điểm ảnh
mới, bởi vì
∑
với
∑
(12)
∑
(13)
Vì vậy, không cần phải thực hiện các xử lý bình thường.
Nếu mô hình mới được tạo ra, tiến hành xử lý các giá trị trọng số của mỗi mô hình ban đầu:
(14)
∑
Đánh giá liệu mỗi giá trị pixel mới là các điểm ảnh đối tượng hoặc nền pixel hoặc không. Mô hình để thể hiện
nền pixel trong một mô hình hỗn hợp nên có các tính năng: giá trị trọng số tương đối lớn và thay đổi tương đối nhỏ.
Xem xét hai khía cạnh của các yếu tố. Nhưng rất khó để đánh giá một tham số nào quan trọng hơn tham số khác
để từ đó đánh giá liệu mô hình đơn là mô hình nền hay không. Chỉ cần phải xem xét hai thông số kích thước tương
đối trong bộ sưu tập mô hình để có được các giải pháp của các mô hình thuộc nền. Kích thước của giá trị tương đối
/ như mức độ ưu tiên của từng phân bố Gaussian.
Phương pháp để có được những mô hình điểm ảnh nền được hiển thị:
(1) Tính / mức độ ưu tiên của từng mô hình Gaussian.
4
(2) Sắp xếp thứ tự từng phân phối Gaussian từ cao đến thấp lần lượt theo kích thước của mức độ ưu tiên /.
(3) Chọn các phân bố Gaussian B đầu tiên từ tập K làm mô hình nền và xác định theo công thức:
B arg min b
|
T
i 1 i ,t i 1 i ,t
b
b
(15)
ở đây, T được coi là biện pháp giảm thiểu các ước tính nền. Mô hình nền được xây dựng theo các bản phân phối
B Gaussian đầu tiên phù hợp với Xt với mỗi bản phân phối Gaussian B riêng theo thứ tự mức độ ưu tiên. Nếu không
có bất kỳ phân phối Gaussian đó thể hiện sự phân bố nền là phù hợp với Xt, thời điểm này được đánh giá như là tiền
cảnh, nếu không là nền, và sau đó hoàn thành việc phát hiện đối tượng theo mô hình đa Gaussian thích nghi.
Vì GMM giả định rằng mỗi điểm ảnh là độc lập riêng biệt, khi sự thay đổi chiếu sáng ngoài trời gây ra sự thay
đổi cảnh, nó hoàn toàn có thể mang lại đối tượng giả trong khu vực rộng lớn dẫn đến đánh giá sai. Thông qua việc
quan sát sự biến chiếu sáng trong ứng dụng video thực sự, phân chia sự thay đổi ánh sáng thành hai loại: đột ngột và
dần dần. Bằng cách phân tích trên hai biến thể, sự chiếu sáng thay đổi yếu tố t để loại bỏ ảnh hưởng của sự biến
đổi ánh sáng về phát hiện đối tượng di chuyển:
(16)
√
(17)
√
ở đây, Et thể hiện thông tin entropy khung hiện tại và E R, EG, EB đại diện cho thông tin entropy khung hiện tại
của mỗi thành phần riêng biệt. Màu sắc của hình ảnh được kết nối chặt chẽ với các đối tượng của chúng và phân
phối khác nhau giá trị điểm ảnh chiếu sáng có thể phản ánh mức độ biến đổi ánh sáng của môi trường. Thông qua
các biểu đồ màu sắc để trích xuất tính năng màu. Khi hai hình ảnh phát hiện mẫu giá trị đặc trưng không giống nhau
nhưng sự khác biệt của hai giá trị nhỏ hơn giá trị ngưỡng nhất định, điều này cho thấy sự tương đồng của chúng
tương đối cao và hai hình ảnh phân phối thống kê giống nhau. Theo nguyên tắc này, đề xuất phương pháp phát hiện
sự thay đổi ánh sáng đó là thuật toán phù hợp với biểu đồ để phân biệt sự thay đổi dần dần của ánh sáng thay đổi đột
ngột.
Công thức được thể hiện như sau:
∑
(18)
với Hi đại diện cho biểu đồ của hình ảnh trong thời gian t và xử lý theo phương trình (10), và nhận được:
∑
(19)
∑
Sử dụng D(t, t-1) để phân biệt sự thay đổi ánh sáng đột ngột và dần dần :
{
(20)
với Ti là giá trị ngưỡng phù hợp tương tự. Cập nhật tỷ lệ học thích nghi α theo phương trình:
{
(21)
3. Theo dõi đối tượng chuyển động bằng luồng quang học
Phương pháp Optical flow[28] thực hiện bằng cách sử dụng các vector có hướng của các đối tượng chuyển động
theo thời gian để phát hiện các vùng chuyển động trong một ảnh [26].
Trong [29], Trần Thanh Việt và cộng sự đã trình bày nghiên cứu kỹ thuật Optical Flow để ứng dụng thử nghiệm
theo vết đối tượng trong camera và dựa trên các hành vi của đối tượng để điều khiển thiết bị máy tính như chuột,
lướt web, ra các sự kiện click, double click, right click, zoom out, zoom in.
Ý tưởng quan trọng của phương pháp tính Optical flow dựa trên giả định sau:
Bề ngoài của đối tượng không có nhiều thay đổi (về cường độ sáng) khi xét từ frame thứ n sang frame n+1.
Nghĩa là:
̅
̅
̅
(22)
5
Trong đó là hàm trả về cường độ sáng [27] của điểm ảnh tại thời điểm t (frame thứ t). là tọa độ của điểm ảnh trên
bề mặt (2D), là vector vận tốc, thể hiện sự thay đổi vị trí của điểm ảnh từ frame thứ t sang frame t+1).
Gọi xt = {xm,t; m =1,…,M} là tập các đối tượng tại thời điểm t. Trong đó, M là số đối tượng có trong hệ thống, M
có thể thay đổi theo thời gian. Gọi là tập biểu diễn kết quả phát hiện đối tượng của hệ tại thời điểm t tương ứng.
Ta có
{
}
(23)
D là số đối tượng phát hiện được.
Gọi
{
||
||
} với ngưỡng cho trước là tập các kết quả phát hiện
“cũ”, được hiểu theo nghĩa, nếu một phát hiện trong thời điểm t quá gần với một trạng thái đã có tại thời điểm t-1
thì nó sẽ được xem là trùng với đối tượng đó. Một cách gần đúng, ta giả định những phát hiện này xuất phát từ đối
tượng đã có từ thời điểm t-1 trước đó.
Tương tự, ta định nghĩa
tập các điểm cũ cách nhau một khoảng là d.
là tập những phát hiện “mới”, được hiểu là giữa tập các điểm mới và
4. Giải thuật đề xuất đếm số lượng xe
4.1. Giải thuật mô hình nền và phát hiện đối tượng chuyển động
Lược đồ chung
0. Xác định vùng quan tâm,
trích chọn frame
1. Xác định độ lệch chuẩn, giá
trị trung bình các kênh màu
2. Tách đối tượng chuyển động
ra khỏi frame
3. Tiền xử lý: làm sạch, loại bỏ
nhiễu, kết nối thành blob
Thuật toán EMB
Input: Video (online hoặc offline)
Output: Danh sách các khối đường viền đối tượng Blob(j)
1. Load ROI template
2. For each frame at time t
3. For each pixel (u,v) in ROI template
If I(u,v) > TROI then
- Update mean ( Red, Green và Blue)
mean(u,v) = (1-LR)*mean(u,v)+LR*I(u,v)
- Tính độ lệch chuẩn σ2) cho mỗi kênh màu
var(u,v)=(1-LR*LR)*var(u,v)+ LR*(I(u,v)-mean(u,v)))2
If var(u,v) < min_var then
var(u,v) = min_var
4. For each pixel (u,v) in ROI template
If I(u,v) > TROI then
Xử lý điểm ảnh (u,v) trong frame hiện tại
- if for each channel
if I(u,v)-mean(u,v)
then
FGt(u,v) = 0 //Nền
else
FGt(u,v) = 1 //Tiền cảnh
else
FGt(u,v) = 0 //Nền
6
5. For each pixel (u,v) in detected foreground
If k
FGt(u,v) = 0 //Nền
6. For each blob j
If Area(blob(j))
Assign blob j to background
4.2. Thuật toán Lucas-Kanade (Thuật toán LK)
Input: ảnh I, J và point(u) thuộc I, point(v) thuộc I
Output: mối quan hệ giữa u và v
1. Biểu diễn ảnh và khởi tạo
ImageLevelFunction(I) //Công thức 3.24
ImageLevelFunction(J) //Công thức 3.24
[
]
Khởi tạo
[
]
2. for L=Lm downto 0 with step=-1
[
]
2.1.
2.2.
2.3.
2.4.
2.5.
∑
∑
[
[
]
]
2.6. for k=1 to K with step=1
∑
∑
[
]
Kết thúc vòng lặp k
2.7.
2.8.
[
]
2.9. Kết thúc vòng lặp L
3.
4. v = u +d
5. End
4.3. Thuật toán trích chọn luồng quang học.
Input: Video (online hoặc offline)
Output: Đặc trưng véc tơ v biểu diễn luồng quang học
1. For each foreground frame at time t
2. If mod(t,Tof)=0 then
2.1. f1 BF
2.2. Top(BF) f2
2.3. Lucas-Kanade(f1,f2)
2.4. Feature V
4.4. Thuật toán đếm xe
Input: Video (online hoặc offline)
Output: Số lượng phương tiện chuyển động
1. Khởi tạo count = 0;
2. Kiểm tra tất cả các Fame trong vùng quan sát
While (frame != null)
frame read_frame(videoSource);
grayFrame convert_to_gray(frame);
roiFrame region_interest(grayFrame)
binaryImage motionGMM (roiFrame)
filterBinaryImage morphology(binaryImage)
contours = find_contour(filterBinaryImage)
3. for each(c in contours)
If (c satisfy as vehicle)
Generate tracking point Pi in object c
4. For each(tracking point Pi)
Pi +1 = optical_follow(Pi)
If (Pi + n) reach counting line
Count++;
else delete Pi;
7
5. End
5. Thực nghiệm và bàn luận
Thực nghiệm so sánh trên một số đoạn video tại một số cung đường khác nhau (Hình 2). Máy quay cố định, đặt
ở độ cao 5 mét, góc quay 30o, đối với cung đường sân bay nội bài, máy quay đặt ở độ cao 10m. Thử nghiệm trên
máy tính 2.5GHz. Trước hết so sánh mục tiêu ảnh hưởng của mức độ dày đặc của luồng phương tiện (số lượng xe di
chuyển trong 1 phút), chất lượng video ảnh hưởng đến mức độ chính xác, tiếp theo sau đó thực hiện thử nghiệm thời
gian xử lý của thuật toán.
a) Xe trên đường đại lộ Thăng Long
Time: 1m14s;
Size: 640x480;
Frame rate: 15 frame/s;
Mật độ: thưa
b) Xe trên sân bay nội bài
Time: 1m06s;
Size: 704x480;
Frame rate: 7frame/s.
Mật độ: trung bình
c) Xe trên cầu Thanh Trì
Time: 1m14s;
Size: 640x480;
Frame rate: 15 frame/s;
Mật độ: dày đặc
Hình 2. Một số hình ảnh từ camera đưa vào thực nghiệm
Hình 3. Giao diện kết quả thực nghiệm của hệ thống
Sau khi tiến hành thử nghiệm và so sánh với các kỹ thuật trừ ảnh và trừ nền về mức độ lỗi trung bình, độ nhiễu
và tỷ lệ chính xác khi gặp phải nguồn ảnh hoặc nguồn video chất lượng thấp, hoặc mức độ dày đặc của dòng phương
tiện thì phương pháp Optical flow kết hợp tái chọn mẫu đạt được độ ổn định qua bảng đánh giá sau:
Bảng 2. So sánh phản ứng của phương pháp với mật độ xe trên các cung đường
Cung đường
Cầu Như Quỳnh
Đại lộ Thăng
Long
Sân bay nội bài
Cầu Thanh Trì
Số khung
hình theo dõi
1450
1110
462
1450
Mật độ xe
Rất thưa
Tương đối
thưa
Trung bình
Rất dày đặc
Số lượng
thực
35
115
Số lượng đếm
bằng phần mềm
35
120
Độ chính
xác
100%
95.83%
70
170
80
185
87.50%
87.17%
Tại bảng 2, thấy rằng hệ thống phản ứng với mật độ rất rõ nét; khi các xe không chồng lấp lên nhau độ chính xác
lên tới 100%; ở mật độ dày tăng lên, các xe có sự chồng lấp hoặc bóng hình làm chồng chấp, thuật toán tách khối
8
chưa được áp dụng, dẫn đến sai số. Số lượng xe đếm được của hệ thống có xu hướng cao hơn số lượng thực, lý do
có thể do ngưỡng đặt phân khối ô tô còn bé, hệ thống có thể đếm nhầm sang xe máy. Các vấn đề này có thể khắc
phục khi hệ thống được phát triển kết hợp bài toán phân loại và theo dõi các loại đối tượng độc lập (bao hàm cả đếm
xe máy và các phương tiện khác).
Bảng 3. So sánh thời gian xử lý của thuật toán với mỗi khung hình
Phương pháp
GMM truyền thống
Phương pháp đề xuất
Thưa
17.86
6.28
Mật độ phương tiện
Trung bình
Dày đặc
17.67
17.06
9.56
16.09
Từ bảng 3, chúng ta có thể thấy rằng, trong cảnh với mật độ thưa và trung bình, thời gian xử lý trung bình của
phương pháp đề nghị được cải thiện đáng kể; Trong khi mật độ dày đặc, thời gian xử lý trung bình trong kỹ thuật đề
nghị đã được cải thiện ít hơn.
6. Kết luận
Bài báo đã nghiên cứu một số kỹ thuật phát hiện, theo dõi đối tượng, đồng thời tiến hành xử lý ra kết quả là số
lượng xe đang di chuyển trên đường. Bao gồm kỹ thuật cải tiến phương pháp GMM truyền thống thành phương
pháp GMM thích ứng. Xác định đối tượng xe vào vùng quan tâm, xử lý khối chuyển động bằng việc loại bỏ nhiễu,
theo dõi luồng quang học.
Chúng tôi đã tiến hành thử nghiệm đếm xe với phương pháp đề xuất trên các tập dữ liệu video thu được từ một
số tuyến đường ở Hà Nội và phụ cận. Kết quả thu được tương đối chính xác với mật độ xe thấp trên các đường cao
tốc.
Hệ thống lấy hình ảnh trực tiếp từ video (AVI) được quay từ thu được từ một số tuyến đường ở Hà Nội và phụ
cận. Chúng tôi đã tiến hành nghiên cứu một số hướng và chọn tiếp cận theo GMM kết hợp vớp OPTICALFLOW.
Hướng nghiên cứu tiếp theo, cần áp dụng các thuật kỹ thuật phát hiện biên (2D, 3D) để phân loại, theo dõi và
đếm nhiều đối tượng đồng thời (xe ô tô, xe máy, phương tiện khác), qua đó xác định các ngưỡng đường bao, ngưỡng
hình dạng để nâng cao độ chính xác của hệ thống.
Tài liệu tham khảo
[1]
Cheung S., Kamath C. Robust Background Subtraction with Foreground Validation for Urban Traffic Video, Journal of
Applied Signal Processing, Special Issue on Advances in Intelligent Vision Systems: Methods and Applications,
EURASIP 2005, Issue 14, pages 2330-2340, New York, USA, 2005.
[2]
Biswas S., Sil J., Sengupta N. Background Modeling and Implementation using Discrete Wavelet Transform: a Review,
JICGST-GVIP, Volume 11, Issue 1, pages 29-42, March 2011.
[3]
Butler D., Sridharan S. Real-Time Adaptive Background Segmentation, ICASSP 2003, 2003.
[4]
Maddalena L., Petrosino A. A self organizing approach to background subtraction for visual surveillance applications,
IEEE Transactions on Image Processing, Volume17, No. 7, pages 1729–1736, 2008 [334]Bouwmans T. Subspace
Learning for Background Modeling: A Survey, Recent Patents on Computer Science, Volume 2, No 3, pages 223-234,
November 2009.
[5]
Sivabalakrishnan M., Manjula D., Adaptive Background subtraction in Dynamic Environments Using Fuzzy Logic,
International Journal on Computer Science and Engineering, Volume 02, No. 2, pages 270-273, 2010.
[6]
Kim K., Chalidabhongse T., Harwood D., Davis L. Real-time Foreground-Background Segmentation using Codebook
Model, Real-Time Imaging, 2005.
[7]
Culbrik D., Marques O., Socek D., Kalva H., Furht B. Neural network approach to background modeling for video object
segmentation”, IEEE Transaction on Neural Networks, Volume 18, No. 6, pages 1614–1627, 2007
[8]
Elhabian S., El-Sayed K., Ahmed S. Moving Object Detection in Spatial Domain using Background Removal Techniques
- State-of-Art, Recent Patents on Computer Science, Volume 1, Number 1, pages 32-54, January 2008.
[9]
Cristani M., Farenzena M., Bloisi D., Murino V. Background Subtraction for Automated Multisensor Surveillance: A
Comprehensive Review, EURASIP Journal on Advances in Signal Processing, 24 pages, Volume 2010, 2010.
9
[10]
Lee B., Hedley M. Background Estimation for Video Surveillance, IVCNZ 2002, pages 315-320, 2002.
[11]
McFarlane N., Schofield C. Segmentation and tracking of piglets in images, BMVA 1995, pages 187-193, 1995.
[12]
Zheng J., Wang Y., Nihan N., Hallenbeck, E. Extracting Roadway Background Image: A mode based approach, Journal
of Transportation Research Report, No 1944, pages 82-88, March 2006.
[13]
Wren C., Azarbayejani A., Darrell T., Pentland A. Pfinder: Real-Time Tracking of the Human Body, IEEE Transactions
on Pattern Analysis and Machine Intelligence, Volume 19, No. 7, pages 780-785, July 1997.
[14]
Stauffer C., Grimson W. Adaptive background mixture models for real-time tracking, CVPR 1999, pages 246-252, 1999.
[15]
Elgammal A., Harwood D., Davis L. Non-parametric Model for Background Subtraction, ECCV 2000, pages 751-767,
Dublin, Ireland, June 2000.
[16]
Sigari M., Mozayani N., Pourreza H. Fuzzy Running Average and Fuzzy Background Subtraction: Concepts and
Application, International Journal of Computer Science and Network Security, Volume 8, No. 2, pages 138-143, 2008.
[17]
El Baf F., Bouwmans T., Vachon B., Type-2 fuzzy mixture of Gaussians model: Application to background modeling,
ISVC 2008, pages 772-781, Las Vegas, USA, December 2008.
[18]
Zhang H., Xu D Fusing Color and Texture Features for Background Model, International Conference on Fuzzy Systems
and Knowledge Discovery, Volume 4223, No. 7, pages 887-893, September 2006.
[19]
El Baf F., Bouwmans T., Vachon B., “Fuzzy Integral for Moving Object Detection”, FUZZ-IEEE 2008, pages 17291736, Hong-Kong, China, June 2008.
[20]
Toyama K., Krumm J. Brumitt B., Meyers B. Wallflower: Principles and Practice of Background Maintenance,
International Conference on Computer Vision, pages 255-261, Corfu, Greece, September 1999.
[21]
Messelodi S., Modena C., Segata N., Zanin M. A Kalman filter based background updating algorithm robust to sharp
illumination changes, ICIAP 2005, Volume 3617, pages 163-170, Cagliari, Italy, September 2005.
[22]
Chang R., Ghandi T., Trivedi M., Vision modules for a multi sensory bridge monitoring approach, ITSC 2004, pages
971-976, October 2004.
[24]
Porikli F. Human Body Tracking by Adaptive Background Models and Mean-Shift Analysis, PETS 2003, March 2003.
[25]
Porikli F., Tuzel O., “Bayesian Background Modeling for Foreground Detection”, VSSN 2005, pages 55-28, November
2005.
[26]
M. J. Black and P. Anandan. The robust estimation of multiple motions: Parametric and piecewisesmooth flow fields.
Computer Vision and Image Understanding, 63:75–104, 1996.
[27]
Mikic I., Trivedi M., Hunter E., Cosman P. Human Body Model Acquisition and Tracking using Voxel Data,
International Journal of Computer Vision, pages 199-223, July 2003.
[28]
J. R. Bergen, P. Anandan, K. Hanna, and R. Hingorani. Hierarchical model-based motion estimation. Proc. Second
European Conf. on Comp. Vis., pp. 237–252. Springer-Verlag, 1992.
[29]
Đỗ Năng Toàn, Trần Thanh Việt, Trần Công Chiến, Huỳnh Cao Tuấn, Nguyễn Hữu Nam, Trần Hành. Một kỹ thuật phát
hiện, bám sát đối tượng và ứng dụng. 2013.
[30]
Jean-Yves Bouguet. Pyramidal Implementation of the Lucas Kanade Feature Tracker Description of the algorithm. Intel
Corporation, Microprocessor Research Labs. 2002.
-------------------------------------------------
Title: RESEARCH METHOD CAR COUNT USED GAUSSIAN MODEL MIXING AND OPTICAL
Abtract: Several methods to detect, classify and track moving objects in video traffic is developed in recent
years. The purpose of this paper is to present the methodology used to count the number of vehicles in areas
including observations: First, methods improvement, Gaussian mixture background model to adapt well to changing
light and a static background. Second, the method combines object detection method using motion adaptive
Gaussian mixture, clean the frame with shadow removal method and tracking , counting the number of objects based
on optical flow. We have tested the car count with the proposed method on the video dataset collected from a
number of routes in Hanoi and surroundings. The results are relatively accurate with low density vehicle on the
highway.
Keywords: Gaussian Mixture Model (GMM), Optical Flow, Computer Vision, Car Counting.
10
11