Định vị đối tượng bay nhỏ, khoảng cách gần trên cơ sở camera với công nghệ deep learning

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (468.98 KB, 7 trang )

Kỷ yếu Hội nghị Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/08/2018
DOI: 10.15625/vap.2018.00020

ĐỊNH VỊ ĐỐI TƯỢNG BAY NHỎ, KHOẢNG CÁCH GẦN TRÊN CƠ SỞ
CAMERA VỚI CÔNG NGHỆ DEEP LEARNING
Hà Mạnh Đào1
1

Trường Đại học Công nghiệp Hà Nội (HaUI)
,

TÓM TẮT: Ở Việt Nam hiện nay các đối tượng bay nói chung, các đối tượng bay khơng người lái nói riêng như máy bay khơng
người lái, Quadcopter, Flyingcam,.... phát triển mạnh mẽ. Vấn đề định vị các đối tượng này đặc biệt được quan tâm trong an ninh
quốc phòng, trong sự phát triển kinh tế với Cách mạng Cơng nghiệp 4.0... đã có nhiều phương pháp định vị các đối tượng này
nhưng mỗi phương pháp đều có điểm mạnh và nhược điểm riêng. Trong bài báo này tác giả đề xuất một giải pháp định vị các đối
tượng bay kích cỡ nhỏ, trong khoảng cách gần trên cơ sở sử dụng stereo camera với thuật giải học sâu (deep learning) để giải quyết
vấn đề trên. Kết quả thử nghiệm giải pháp đề xuất cho kết quả hoạt động ổn định và có khả năng triển khai thực tế.
Từ khóa: stereo camera, học sâu, hệ thống định vị, đối tượng bay, Flyingcam.

I. ĐẶT VẤN ĐỀ
Trên thế giới các đối tượng bay nói chung, các đối tượng bay khơng người lái như máy bay không người lái,
Quadcopter, FlyingCam,... phát triển mạnh mẽ. Trong nước hiện nay các đối tượng bay cũng xuất hiện ngày càng nhiều
và được ứng dụng phổ biến trong nhiều lĩnh vực khác nhau. Chính vì vậy vấn đề định vị các đối tượng này được đặc
biệt quan tâm trong lĩnh vực an ninh quốc phòng, trong sự phát triển kinh tế với Cách mạng Công nghiệp 4.0, nhất là
vấn đề an tồn cho các tịa nhà chung cư, các vùng trọng điểm, an ninh biên giới,.... Đã có nhiều phương pháp định vị
các đối tượng này như ứng dụng phương pháp định vị Rada, GPS, camera quang học, Laze độ phân giải cao để định vị
các đối tượng bay.
Phương pháp định vị đối tượng bay bằng camera với các thành tựu khoa học mới hiện nay đang được phát triển
mạnh mẽ trên thế giới và trong nước. Việc xác định vị trí của đối tượng chuyển động bằng camera đòi hỏi các phương
pháp xử lý ảnh, các phương pháp nhận dạng, các phương pháp xác định vị trí của đối tượng qua các ảnh thu được liên
tiếp để từ đó xác định được vận tốc của đối tượng chuyển động đảm bảo thời gian thực.

Trong bài báo này, chúng tôi thực hiện xây dựng một hệ thống SCMS (Stereo Camera based Monitoring
System) sử dụng nhiều modul với 2 camera để thu ảnh và phân tích nhận dạng đối tượng qua ảnh sử dụng thuật giải
học sâu với mạng nơ ron tích chập (CNN). Từ đó hệ thống sẽ tiến hành tính tốn định vị các đối tượng bay và gửi qua
mạng về một trung tâm giám sát hiển thị và lưu trữ lên đám mây.
Phần tiếp theo của bài báo được bố trí như sau: phần II sẽ đề xuất và xây dựng hệ thống SCMS; phần III là phần
mô phỏng và cuối cùng là phần kết luận.
II. HỆ THỐNG SCSM VỚI THUẬT GIẢI HỌC SÂU
A. Mô tả hệ thống SCSM
Hệ thống SCSM ứng dụng thuật toán định vị để giám sát các đối tượng bay được thể hiện như hình 1. Hệ thống
gồm các thành phần:
Modul thu thập và xử lý ảnh
Camera1

Mạng truyền thông

PS1

Trung tâm

IPS1
Camera2
Camera1

Trung tâm giám sát

giám sát
PS2
IPS2

Mạng truyền thơng

Camera2

.................
Camera1

(Internet/4G)

PSn

Cloud

IPSn
Camera2

Hình 1. Hệ thống định vị và giám sát đối tượng

Hà
H Mạnh Đào

155

 Moduul định vị cục bộ sử dụng stereo camera PSi
P với i=1,..., n.
 Trungg tâm giám sáát: Thu thập thhông tin định vị
v của các đốii tượng được nnhận dạng từ các modul PS
Si được gửi
về quua mạng Internnet/4G. Dữ liệệu định vị này
y sẽ được Trun

ng tâm giám ssát xử lý để looại bỏ dữ liệu dư thừa và
được gửi lưu lên đáám mây cho pphép truy cập theo
t
dõi ở bất cứ đâu qua m
mạng.
mây: Cho phéép lưu trữ dữ liệu định vị nhằm
n
phục vụụ cho người sử
ể truy xuất
ử dụng có thể
 Thànhh phần đám m
giám sát vị trí của ccác đối tượng bay tại bất cứ
ứ đâu qua mạn
ng sử dụng cácc thiết bị di độộng.
B.
B Modul PSi và nhận dạn
ng ảnh với thu
uật giải học sâ
âu
t
phần xử
ử lý ảnh, địnhh vị đối tượngg IPS (Image Processing
Mỗi moodul PSi (i=1...n) gồm có 2 camera và thành
System).
S
IPS phải
p có tài nguuyên xử lý mạạnh như PC nh
húng PC104, Raspberry
R
Pi, FPGA,... để ccó thể đáp ứng thời gian

th
hực. IPS có nhiệm
n
vụ tại m
mỗi thời điểm
m thu đồng thờ
ời 2 ảnh từ 2 camera,
c
thực hiện tiền xử llý ảnh và nhận
n dạng các
đối
đ tượng ảnh thông qua mạạng CNN. Trêên cơ sở các đối tượng đượcc nhận dạng, IIPS sẽ thực hiiện tính vị trí 3D
3 của các
đối
đ tượng tronng hệ tọa độ ccục bộ và hệ ttọa độ hệ thốn
ng. Sau đó nó
ó sẽ chuyển dữ
ữ liệu này về trung tâm giá
ám sát qua
mạng
m
truyền thhông là mạng Internet tốc đđộ cao hoặc 4G
G.
1.
1 Thuật giải học
h sâu
Thuật giải
g học sâu sử
ử dụng mạng nơ ron tích chập
c

(CNN) để nhận dạng ccác đối tượngg bay. Hình 2 là cấu trúc
các
c lớp của mộột mạng nơ roon CNN. Nó ggồm 3 loại lớp
p chính: Lớp tíích chập, lớp sub-samplingg (pool), lớp đầ
ầu ra (FC).
Các
C lớp của mạng
m
được sắpp xếp theo kiếnn trúc truyền thẳng,
t
lần lượ
ợt sau mỗi lớp tích chập là m
một lớp sub-sa
ampling và
sau
s lớp tích chhập cuối cùng là lớp đầu ra. Các lớp tích chập
c
và sub-saampling là cácc lớp hai chiềuu còn lớp đầu ra là lớp 1
chiều.
c

Hình 2. Cấu
C trúc lớp củaa CNN

- Lớp tíích chập: Bản đồ đặc trưng đầu ra của lớp
p tích chập đư
ược tính theo ccơng thức sau [2]:

Yk  f (W
Wk * x)

(2)

với
v x là ảnh vàào, bộ lọc tíchh chập liên quaan đến bản đồ
ồ đặc trưng thứ
ứ k là Wk; ‘*’ thể hiện tốnn tử tích chập 2D; f (.)
th
hể hiện hàm kích
k
hoạt phi tuyến cho phhép trích lọc các
c đặc trưng phi tuyến. Hààm kích hoạt phi tuyến đượ
ợc sử dụng
phổ
p biến hiện nay
n là ReUL [3] thay cho hhàm sigmoid, hyperbolic
h
tan
ngent trong mạạng nơ ron truuyền thống.
 Lớp tổng hợp (poool/sub-samplinng): lớp này cho
c phép tổng
g hợp để giảm
m độ phân giảii không gian của
c bản đồ
đặc
đ trưng để đạt
đ được sự bấất biến không gian do sự biiến dạng và dịịch đầu vào. L
Lớp này có thhể lấy trung bình của các
đầu
đ vào hoặc lấy cực đại giiá trị của các đầu vào. Như

ưng hiện nay lớp tổng hợp thường sử dụụng toán tử cự
ực đại theo
hàm
h sau [5]:
(3)
Ykij  max xkpq
( p , q )ij

c phép toánn tổng hợp liênn kết với bản đồ đặc trưng
g thứ k;
Ykij là đầu ra của
vùng
v
tổng hợpp ij thể hiệnn các phần tử xxung quanh vị trí (i, j).

xkpq là phần tử tạii vị trí (p, q) chứa trong

156

ĐỊNH VỊ ĐỐI TƯỢNG BAY NHỎ, KHOẢNG CÁCH GẦN TRÊN CƠ SỞ CAMERA VỚI CÔNG NGHỆ DEEP LEARNING

- Lớp kết nối đầy đủ (FC: Full Connection): Lớp này có kết nối đầy đủ để thực hiện chức năng lập luận mức
cao. Trong bài tốn phân loại chuẩn nó sử dụng toán tử Softmax [5] và toán tử này hiện nay thường được thay thế bởi
máy véc tơ trợ giúp (SVM) để cải tạo độ chính xác phân loại mẫu [6].
Mạng CNN để có thể sử dụng để nhận dạng được ảnh nói chung, nhận đạng đối tượng bay nói riêng, thì nó phải
được huấn luyện. CNN được huấn luyện bằng thuật học có giám sát. Q trình huấn luyện thực chất là quá trình đi cực
tiểu hàm sai số giữa tín hiệu ra thực sự với tín hiệu đầu ra mong muốn sử dụng tập dữ liệu mẫu là các cặp {xk, dk} với
k=1, 2,..., K.
Giả sử tập dữ liệu huấn luyện gồm K ảnh đầu vào và K mẫu đầu ra mong muốn. xk là ảnh đầu vào thứ k, dk là

mẫu ảnh đầu ra mong muốn tương ứng. Hàm sai số của CNN có dạng:

1
E (w) 
KxN L

K

NL

 ( y
k 1 n 1

k
n

 d nk ) 2

(1)

Trong đó yk là ảnh đầu ra thực sự tương ứng với cặp mẫu {xk, dk} tại kỳ huấn luyện nào đó. Mạng CNN thường
được huấn luyện ở chế độ mini-batch với thuật giảm gradient sai số E (t ) Các thuật giảm gradient sai số phổ biến là
GD, GDMV, RPROP, CG, LM [2]. Quá trình huấn luyện CNN gồm 2 pha: Pha truyền thẳng và pha truyền ngược để
cập nhật trọng số cho các liên kết lớp mạng nhằm làm giảm sai số đầu ra. Quá trình xây dựng và huấn luyện CNN nhận
dạng các đối tượng bay được thực hiện thông qua các bước sau:








Tạo tập dữ liệu ảnh mẫu các đối tượng bay gồm 2 tập: Tập huấn luyện và tập test.
Tạo mạng CNN
Khởi tạo các trọng liên kết và ngưỡng (bias)
Tính tốn đầu ra tương ứng với mỗi mẫu đầu vào (truyền xuôi)
Huấn luyện mạng để đạt đầu ra mong muốn đối với các mẫu đầu vào (truyền ngược)
Thực hiện kiểm thử CNN với tập dữ liệu test.

Trong các bước xây dựng CNN, tập dữ liệu huấn luyện CNN đóng một vai trị quan trọng trong việc phân loại
và nhận dạng đối tượng. Đối với các đối tượng bay, tập dữ liệu huấn luyện phải thu thập được nhiều hình ảnh khác
nhau, nhiều kích cỡ khác nhau cho một đối tượng vì các đối tượng đi vào trường quan sát của mỗi Camera với các tư
thế bay và khoảng cách bay khác nhau.
2. Xác định vị trí trong PSi
a) Xác định vị trí trong hệ tọa độ PSi
Xét hệ Camera gồm Camera1( Left Camera) và Camera2 (Right Camera) như hình 3. Từ hình 3 tọa độ của đối
tượng p là (Xp, Yp, Zp) được tính từ 2 ảnh của hệ camera theo các công thức (2), (3), (4).
Z

P(xp,

Zp
E

(2)

(3)
01

0

02
Xp

f
Xl
Left Camera

(4)

Xr
Right Camera

Hình 3. Hệ stereo camera

b) Tính tốn vị trí trong hệ tọa độ hệ thống
Giả sử các PSi có tọa độ 0i là (xi, yi, zi) với i=1,..,n, nếu đối tượng j trong hệ tọa độ cục bộ 0i có tọa độ là (xij, yij,
zij) thì tọa độ của đối tượng j trong hệ tọa độ hệ thống 0 có tọa độ tương ứng là (x,y,z) được tính theo công thức (5).
(xq, yq, zq, 1)= (xij, yij, zij, 1) R
(5)
với R là ma trận biến đổi: R=RTRα trong đó RT, Rα là các phép biến đổi tịnh tiến và phép biến đổi quay tương ứng được
xác định trước từ việc bố trí ban đầu các modul PSi. Ví dụ giả sử tại thời điểm T từ 2 camera của PS1 thu được 2 ảnh
và xác định được tọa độ trong hệ trục tọa độ 01 là A(15,7, Z0), B(10,11, Z0); từ 2 camera của PS2 tính được tọa độ của

Hà Mạnh Đào

157

2 đối tượng là C(6, 6, Z0) và D(10, 11,Z0), giả sử độ xâu Z như nhau. Trong hệ tọa độ hệ thống 0XY: 01y1x1 có tọa độ

(10, 5, 0), 02x2y2 có tọa độ (14, 10, 0) thì tọa độ của các đối tượng A, B, C, D trong hệ 0XY sẽ được xác định là: A’:
(25,12, Z0), B’: (20,16, Z0), C’: (20, 16, Z0), D’: (30, 11, Z0). Các dữ liệu tọa độ này từ PS1, PS2 gửi về Trung tâm
giám sát sẽ được xử lý và xác định được tọa độ của 3 đối tượng P->B’=C’, Q->A’, R->D’ (hình 4).
y2

Y

D(10,11)
C(6,7)

Y
P(20,16)

02

Q(25,12)

x2

y1

R(30,11)

B(10,11)
A(15,7)
0
x1

01
0

X

X
Hình 4: Ánh xạ tọa độ của các đối tượng trong PSi vào 0XY

C. Trung tâm giám sát
Begin
Khởi động và đồng bộ hệ thống

Thu dữ liệu tọa độ từ các PSi
(i=1...n)

Loại bỏ dữ liệu dư thừa

Cập nhật tọa độ lên bản đồ Google Map

Gửi dữ liệu lên đám mây

Tiếp tục ?

End

Hình 5. Lưu đồ thuật tốn của Trung tâm giám sát

Trung tâm giám sát có nhiệm vụ:




Đồng bộ hóa các modul PSi mỗi khi khởi động
Quét nhận tọa độ của các đối tượng gửi về, cập nhật và thực hiện hiển thị trên bản đồ Google Map nhằm giám
sát các đối tượng.
Gửi dữ liệu lên đám mây.
Lưu đồ thuật toán của Trung tâm giám sát đơn giản thể hiện như hình 5.

158
1

ĐỊNH VỊ
V ĐỐI TƯỢNG
G BAY NHỎ, K
KHOẢNG CÁCH GẦN TRÊN CƠ SỞ CAMER
RA VỚI CÔNG
G NGHỆ DEEP LEARNING
L

III. MÔ
Ô PHỎNG SC
CSM
Hệ thốnng mơ phỏng như hình 5, trrong đó gồm 2 bộ PS1, PS2
2 cùng chung m
một kit Raspbberry Pi3 với các
c camera
có
c thơng số nhhư sau:
 Kít Raspberry
R
Pi3: Kít sử dụng hhệ điều hành Raspbian

R
sử dụ
ụng OpenWR
RT. Trên kít càài đặt môi trườ
ờng Python
3.4 vớ
ới thư viện OppenCV3.3. Trrên hệ thống này
n mạng nơ ron
r CNN với m
mã Python sẽẽ được chạy và
à thực hiện
nhận dạng đối tượnng từ ảnh, mỗii kênh cameraa là một CNN.
mera: có các thhơng số sau
 Camm
o Ống kính t iêu cự: F6.0M
MM
o Focus khoảảng: 20MM
o Độ phân giiải Video: 6440 x 480
o Kích thướcc: 3.8 x 1.5 x 3cm

Hình 5. Mơ hình mơ phỏng 2 mo
odul PS1, PS2

Hệ thốnng sử dụng C
CNN AlexNett của thư viện
n OpenCV 3.3 được viết tr
trong ngôn nggữ Python. Đâ
ây là CNN
được
đ

huấn luyyện trước với hhàng triệu mẫẫu. Với CNN này
n cho phép huấn luyện thheo phương p háp chuyển giao với tập
mẫu
m mới (hìnhh 6) để đảm bảảo tốc độ huấnn luyện nhanh.

Hìình 6. Tập mẫẫu huận luyện chuyển giao
Quá trìnnh huấn luyệnn với tập mẫu trong mô phỏ
ỏng được thựcc hiện trên PC
C mạnh và đượợc huấn luyện
n trong 300
kỳ
k huấn luyện.
X
y2

y1
P1(x11,,y11,z)

x1
1

O1

P2(x21,yy21,z)

O2

x2

O

Y
PS1

PS
S2

v các hệ tọa độ cục bộ và hhệ thống
Hình 7. Bố ttrí PS1, PS2 với

Hà
H Mạnh Đào

159

Q trìnnh test: Chươnng trình mơ phhỏng thực hiệện song song 2 bộ camera bốố trí như hìnhh 7, mỗi bộ thu
u 2 ảnh với
th
hời gian cắt mẫu
m T=20 ms. Từ mỗi cặp ảảnh các IPS thực hiện xác địịnh vị trí của ccác đối tượng trong hệ trục tọa độ cục
bộ,
b tính tốn trrong hệ trục ttọa độ hệ thốnng và gửi tới PC
P để cập nhậật lên màn hìnnh giám sát h ệ thống. Sau đó
đ nó tổng
hợp
h vị trí từ 2 bộ PS để choo kết quả cuối cùng. Các thô
ông số hệ 2 caamera: B= 3,88 cm, f= 0,2 cm
m, O1O2=30 cm, tọa độ
O1(50,

O
10,0), O2(80,10,0),
O
kkhoảng cách Z
Z=1m từ đó cáác tọa độ x, y được xác địnhh bởi các côngg thức (3), (4) và tọa độ
hệ
h thống được tính theo cơnng thức (5). Kếết quả thu đượ
ợc tương ứng với
v các đối tượợng từ 2 bộ PS
S thể hiện như
ư bảng 1.
O222

O112

O21

O111

O13

O14

O244

O23
3

Hình 8. K
Kết quả ảnh thu

u được với các đối
đ tượng từ 2 bbộ PS
Bảng 1. Tọaa độ cục bộ (PS) và tọa độ hệ th
hống của các đốối tượng

Objjects

Tọa độ cục bộ
(xi, yi, zi)

Tọa độ
ộ hệ thống
(X, Y, Z)

Tọa độ Hệ thống
sauu khi xử lý

O11
O12
O13
O14
O21
O22
O23
O24

(20, 20, 1000)
(30, 30, 1000)
(40, 20, 1000)
(50, 26, 1000)

(-10, 20, 1000)
(0, 30, 1000)
(10, 20, 1000)
(20, 26, 1000)

(70, 30, 100)
(80, 40, 100)
(90, 30, 100)
(100, 36, 100)
(70, 30, 100)
(80, 40, 100)
(90, 30, 100)
(100, 36, 100)

O
O11=O21
O
O12=O22
O
O13=O23
O
O14=O24

IV. KẾT LUẬN
Vấn đềề an ninh, kinhh tế, xã hội đốối với các đối tượng bay kíích cỡ vừa, nhhỏ, tốc độ thấpp trong thực tế
t hiện nay
th
hực sự là mộtt vấn đề đáng qquan tâm. Để quản lý, cảnh
h báo, ngăn ch
hặn các vấn đềề tiêu cực từ cáác đối tượng này

n đòi hởi
phải
p giám sát được
đ
vị trí tốcc độ của các đđối tượng này. Bài báo này đã
đ thực hiện xxây dựng một hệ thống định
h vị trên cơ
sở
s camera sử dụng
d
công nghhệ học sâu màà cụ thể là mạạng nơ non tích chập (CNN)). Kết quả thử
ử nghiệm đã chứng tỏ hệ
th
hống là khả thhi trong thực ttế. Tuy nhiên hệ thống còn nhiều hạn chế: Chưa thực nghiệm trongg thực tế, chưa
a phân tách
được
đ
đối tượng che khuất nnhau, chưa thử
ử nghiệm với hệ
h thống GIS và đám mây tthực tế, tập dữ
ữ liệu huấn lu
uyện cịn ít.
Trong
T
thời giaan tới chúng ttơi sẽ khắc phhục các hạn ch
hế đồng thời ứng dụng hệ thống này vàào giám sát ca
acstoaf nhà
chung
c
cư, giám

m sát các khuu vực nhậy cảm
m; thử nghiệm
m giám sát chu
uyển hàng lậuu qua biên giớới với các đối tượng bay
khác
k
nhau...
V. TÀI LIIỆU THAM KHẢO
K
[1] Waseem Rawat,
R
Zenghhui, Deep Coonvolutional Neural
N
Netwo
orks for Imagge Classificattion: A Comprehensive
Review, Neural Computtation 29, 23522–2449, 2017.
[2] S. L. Phunng and A. Bouzerdoum, M
MATLAB library for conv
volutional neuural network, Technical Report, ICT
Research Innstitute, Visuaaland Audio S
Signal Processsing Laboratorry, University of Wollongonng.
[3] Nair, V., & Hinton, G. E., Rectifed llinear units im
mprove restrictted Boltzmannn machines, Proceedings of
o the 27th
Internationnal Conferencee on Machine Learning (pp. 807–814), In
nternational M
Machine Learnning Society, 2010.
2
[4] LeCun Y., Bengio, Y., & Hinton, G., D
Deep learning

g, Nature, 521(7553), 436–4444, 2015.
[5] Szegedy, C., Liu, W., Jia, Y., Serrmanet, P., Reed, S., Anguelov, D.,... Rabinovich, A., Going de
eeper with
convolutionn, Proceedinggs of the IEE
EE Conferencee on Computeer Vision andd Pattern Recognition (pp. 1–9), Los
Alamitos, CA:
C IEEE Com
mputer Societty, 2015.

160

ĐỊNH VỊ ĐỐI TƯỢNG BAY NHỎ, KHOẢNG CÁCH GẦN TRÊN CƠ SỞ CAMERA VỚI CÔNG NGHỆ DEEP LEARNING

[6] Tang, Y., Deep learning using linear support vector machines, 2013.
[7] Deepika Jaswal, Sowmya.V, K.P.Soman, Image Classification Using Convolutional Neural Networks ,
International Journal of Advancements in Research & Technology, Volume 3, Issue 6, ISSN 2278-7763 , June2014.

FLYING OBJECT LOCATION ESTIMATION FROM A STEREO CAMERA
BASED THE DEEP LEARNING TECHNOLOGY
Ha Manh Dao
ABSTRACT: In Vietnam, the flying subjects in general , unmanned objects in particular, such as unmanned aircraft, Quadcopter,
FlyingCam,.... developed strongly. The problem of locating these objects is particularly concerned in defense security, in the
economic development with the industrial revolution 4.0... There are many methods of locating these objects but each method is has
its strengths and weaknesses. In this paper, the we proposes a solution for locating small size objects, distance near, low velocity,
using a stereo camera with deep learning algorithm to solve the problem. Test results show that the system can be deployed in
practical applications.

Định vị đối tượng bay nhỏ, khoảng cách gần trên cơ sở camera với công nghệ deep learning

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về