Tải bản đầy đủ (.pdf) (24 trang)

Nhận dạng hành động người bằng kỹ thuật học sâu 3d CNN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (639.13 KB, 24 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

LÊ CÔNG HIẾU

NHẬN DẠNG HÀNH ĐỘNG NGƯỜI
BẰNG KỸ THUẬT HỌC SÂU 3D-CNN

Chuyên ngành: Khoa học máy tính
Mã số: 8480101

TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2018


Công trình được hoàn thành tại
TRƯỜNG ĐẠI HỌC BÁCH KHOA

Người hướng dẫn khoa học: TS. HOÀNG VĂN DŨNG

Phản biện 1: TS. NGUYỄN VĂN HIỆU

Phản biện 2: TS. PHẠM XUÂN HẬU

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp
thạc sĩ kỹ thuật chuyên ngành Khoa học may tính họp tại Trường Đại
học Bách khoa Đà Nẵng vào ngày 05 tháng 01 năm 2018

Có thể tìm hiểu luận văn tại:
- Trung tâm Học liệu và Truyền thông Trường Đại học Bách khoa


Đại học Đà Nẵng tại
- Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa
Đại học Đà Nẵng


1
MỞ ĐẦU
1. Lý do chọn đề tài
Cùng với sự phát triển của khoa học công nghệ của cuộc cách
mạng công nghiệp 4.0, các ứng dụng về trí tuệ nhân tạo (TTNT) và
học máy ngày càng phát triển và là lĩnh vực được quan tâm nhiều
nhất hiện nay, trong đó lĩnh vực học sâu (Deep Learning) là một loại
phổ biến của máy học đã có những thành tựu phát triển vượt bậc. Nó
đã mở ra một bước ngoặc mới trong việc giải quyết các bài toán về
TTNT trước đây đã gặp phải khó khăn như nhận thức sự vật (object
perception), nhận diện hình ảnh, hành động, hệ thống gợi ý
(recommend system) trên các nền tảng dữ liệu lớn….Trong đó phải
kể đến sự phát triển của lĩnh vực thị giác máy tính (computer vision),
đặt nền tảng cho nhiều ứng dụng trong thực tiển như các hệ thống xe
tự hành, rôbôt thông minh, nhận dạng hành động trong các hệ thống
tương tác người – máy.
Lĩnh vực học sâu (Deep Learning) là một kỹ thuật trong học
máy sử dụng mạng nơron nhiều lớp để giải quyết các bài toán phức
tạp dựa trên phương pháp tích chập và trích chọn các đặc trưng từ tập
dữ liệu lớn và đã đem lại kết quả chính xác cao trong giải quyết các
bài toán TTNT. Cụ thể là nó đã tập trung giải quyết các vấn đề liên
quan đến mạng neural về thị giác máy tính, xử lý ngôn ngữ tự nhiên,
xử lý giọng nói…
Hiện nay, cũng có nhiều nghiên cứu về nhận diện hành động
con người thông qua video để xác định hành vi của con người. Tuy

nhiên đây là lĩnh vực này tương đối rộng và hiện có nhiều kỹ thuật
khác nhau để giải quyết bài toán này. Vì vậy, trong phạm vi luận văn
này tập trung nghiên cứu lý thuyết và sử dụng các kỹ thuật mạng học


2
sâu 3D CNN vào việc giải quyết bài toán nhận diện hành động con
người trong tương tác người–máy, tập trung hướng đến các hành
động bất thường của con người trong lĩnh vực xác định hành động
đáng ngờ. Thông qua đó nghiên cứu đề xuất cải tiến các tham số đầu
vào và các thuật toán để tăng hiệu quả về thời gian xử lý và độ chính
xác nhận dạng, so sánh kết quả thực hiện với một số cơ sở dữ liệu
chuẩn đã có nhằm đánh giá tính hiệu quả của các kỹ thuật mới được
áp dụng.
2. Mục đích nghiên cứu
Mục tiêu chính của đề tài là nghiên cứu nhận dạng hành động
người, tập trung vào các hành động bất thường dựa trên các kỹ thuật
học sâu mạng tích chập 3D-CNN trong lĩnh vực thị giác máy tính,
các nguyên lý hệ thống tương tác người máy.
Thực nghiệm áp dụng kỹ thuật mạng tích chập 3D-CNN trong
trích xuất đặc trưng hình ảnh từ video để dự đoán hành động con
người phục vụ các hệ thống tương tác người máy. Từ đó phân tích,
đánh giá hiệu quả và độ chính xác trên các thư viện chuẩn có sẵn.
Xây dựng tập dữ liệu và thực nghiệm đoán nhận một số hành
động bất thường trong hệ thống camera giám sát an ninh.
3. Tổng quan về các nghiên cứu liên quan
Trong những năm gần đây, lĩnh vực trí tuệ nhân tạo đã được
các nhà khoa học, giớ chuyên gia và các công ty công nghệ quan tâm
và đầu tư nghiên cứu ứng dụng vào thực tiển nhiều như Google,
Baidu,Apple,… ). Các cuộc hội thảo về các lĩnh vực trí tuệ nhân tạo

cũng được tổ chức thường xuyên để giải quyết các bài toán về thị
giác máy tính ( Computer Vision), nhận dạng giọng nói, xử lý ngôn
ngữ tự nhiên…Song song với đó, kỹ thuật học sâu sử dụng trong lĩnh


3
vực thị giác máy tính ngày càng phổ biến (nhận diện hình ảnh, các
lĩnh vực khác) và phát triển nhờ vào tính ưu việt và hỗ trợ của thiết
bị phần cứng để tăng tốc độ xử lý (GPU/ GPGPU). Đối với bài toán
nhận dạng hành động cũng là một lĩnh vực không mới, có rất nhiều
bài báo tại các hội thảo trình bày này đã được trình bày. Có nhiều
giải pháp, kiến trúc mạng học sâu được đề xuất và đưa ra với các kết
quả khác nhau như phương pháp “Two-stream model (fusion by
SVM)” của nhóm tác giả Karen Simonyan, Karen Simonyan cho ra
kết quả độ chính xác 88% ( trên tập UCF101), 59.4% ( trên tập
HMDB-51); phương pháp ResNeXt-101 cho ra kết quả độ chính xác
90.7% (trên tập UCF101),63.8% ( trên tập HMDB-51); TDD and
iDT cho ra kết quả độ chính xác 91.5% ( trên tập UCF101),65.9% (
trên tập HMDB-51)…
Ở Việt Nam, việc nghiên cứu về thị giác máy tính (Computer
Vision) và các kỹ thuật xử lý ảnh, trí tuệ nhân tạo (AI) để áp dụng
giải quyết các bài toán tự động nhận dạng hành động, nhận diện
khuôn mặt …chưa được nghiên cứu nhiều. Các sản phẩm thực tế ứng
dụng từ các kỹ thuật và công nghệ này chưa phổ biến. Vì thế trong
luận văn này, tôi nghiên cứu các kỹ thuật học sâu ứng dụng nhận
dạng hành động đáng ngờ nhằm hỗ trợ các hệ thống giám sát dựa
trên đề xuất kiến trúc mới nhằm cải tiến và tối ưu hóa để cho ra kết
quả khả quan hơn các phương pháp trên về độ chính xác, hiệu năng
chương trình.
4. Đối tượng và phạm vi nghiên cứu

Nghiên cứu về các phương pháp Học máy (Machine
Learning), các lĩnh vực học máy và thị giác máy tính trong nhận
dạng hành động con người trong tương tác người máy, đặc biệt là các


4
hành động bất thường phục vụ trong lĩnh vực chăm sóc sức khỏe
người già.
- Hệ thống tương tác người máy và các hệ thống thông minh.
- Lý thuyết về trí tuệ nhân tạo, mạng neural và mạng học sâu.
- Đánh giá trên một số cơ sở dữ liệu chuẩn như UCF101,
HMDB51.
- Công cụ lập trình Mathlab, Python 3.6, các thư viện khác…
5. Phương pháp nghiên cứu
- Nghiên cứu lý thuyết: Tổng hợp thu thập và nghiên cứu các
tài liệu có liên quan đến đề tài như đã nêu trong mục 3 bao gồm: lý
thuyết về xử lý ảnh, trích xuất đặc trưng ảnh. Lý thuyết về học máy,
mạng neural tích chập, kỹ thuật học sâu trong mạng 3D-CNN trong
nhận dạng hành động con người để phân loại, nhận dạng.
- Phương pháp thực nghiệm: Đánh giá một số kỹ thuật thị
giác máy tính trong nhận dạng hành động con người, phân tích thiết
kế hệ thống nhận dạng hành động bằng kỹ thuật học sâu 3D-CNN.
Lựa chọn công cụ đã có để cài đặt, đề xuất mô hình và thể hiện cụ
thể những kết quả đã nghiên cứu, kết quả thực nghiệm so với các cơ
sở dữ liệu chuẩn để so sánh đánh giá.
6. Ý nghĩa khoa học và ý nghĩa thực tiễn
Với việc nghiên cứu và thực nghiệm kỹ thuật học sâu trong
kiến trúc mạng 3D CNN để nhận dạng hành động con người cho ra
kết quả mong muốn, sử dụng tập dữ liệu huấn luyện lớn đóng vai trò
quan trọng trong việc xây dựng mô hình để dự đoán kết quả đầu ra

chính xác hơn. Với các tập/bộ dữ liệu lớn bao gồm nhiều hành động
thì có thể áp dụng vào xây dựng các hệ thống trong thực tế mang tính


5
thực tiển cao như các hành động bất thường trong hệ thống tương tác
người máy như hỗ trợ giám sát an ninh, chăm sóc y tế, người già,…
7. Cấu trúc luận văn
Luận văn được chia làm 3 chương:
Chương 1: Tổng Quan
+ Tổng quan các hệ thống thông minh.
+ Trí tuệ nhân tạo và ứng dụng: các khái niệm về học máy,
các phương pháp học máy, mạng neuron nhân tạo.
+ Lý thuyết về xử lý ảnh: tìm hiểu các phương pháp trích
chọn và biểu diễn đặc trưng ảnh.
+ Kỹ thuật học sâu (Deep Learning): khái niệm, mạng
neuron học sâu, mạng neuron tích chập.
Chương 2: Kỹ thuật mạng tích chập trong nhận dạng hành động
+ Tích chập 3D.
+ Kiến trúc 3D CNN trong nhận dạng.
+ Thiết kế mô hình nhận dạng hành động.
+ Phân tích các thành phần hệ thống.
+ Phát biểu bài toán.
Chương 3: Thực nghiệm và đánh giá.
- Kết luận và hướng phát triển.
- Tài liệu tham khảo.


6
CHƯƠNG 1 TỔNG QUAN

1.1. Tổng quan về các hệ thống thông minh
1.1.1. Khái niệm
Hệ thống thông minh (Intelligent Systems – IS) là một hệ
thống thực thi một mục đích hoạt động xã hội nào đó, nó được xem
như một máy tính được kết nối với các máy tính khác qua hệ thống
mạng internet, có khả năng thu thập và phân tích dữ liệu và giao tiếp
các hệ thống khác. Các tiêu chí của hệ thống thông minh bao gồm
khả năng học hỏi từ kinh nghiệm, bảo một, kết nối, khả năng thích
ứng theo dữ liệu hiện tại và khả năng giám sát và quản lý từ xa.
1.1.2. Hệ thống tương tác người - máy (robot)
Tương tác người - máy (Human-computerinteraction (HCI))
nghiên cứu về việc thiết kế công nghệ máy tính, đặc biệt tập trung
tương tác giữa con người (người dùng) và máy tính.
1.1.3. Hệ thống tương tác thực ảo
Thực tế ảo (virtual reality- VR) là một hệ thống giao diện cao
cấp giữa người sử dụng và máy tính. Hệ thống này mô phỏng các sự
vật và hiện tượng theo thời gian thực và tương tác với người sử dụng
qua tổng hợp các kênh cảm giác ( thị giác, thính giác, xúc giác, khứu
giác và vị giác).
1.1.4. Hệ thống hỗ trợ chăm sóc bệnh nhân, người già
1.2. Trí tuệ nhân tạo và ứng dụng
1.2.1. Một số khái niệm chung
“Trí tuệ nhân tạo hay trí thông minh nhân tạo là khoa học
nghiên cứu các hành vi thông minh nhằm giải quyết các vấn đề được
đặt ra đối với chương trình máy tính”.


7
1.2.2. Một số ứng dụng của trí tuệ nhân tạo
+ Lĩnh vực giáo dục.

+ Lĩnh vực y tế.
+ Công nghiệp.
1.2.3. Học máy
Học máy hay máy học (machine learning) là một lĩnh vực của
TTNT liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho
phép các hệ thống “học” tự động từ dữ liệu để giải quyết những vấn
đề cụ thể nào đó.
1.2.4. Phân loại phương pháp học máy
1.2.5. Mạng neural nhân tạo
Mạng neural nhân tạo (Artificial Neural Network - ANN), hay
thường gọi ngắn gọn là mạng neural, là mô hình xử lý thông tin được
mô phỏng theo cách thức xử lý thông tin của các hệ neural sinh học.
Nó bao gồm có một nhóm các neural nhân tạo (mỗi neural là một
nút) kết nối với nhau qua các liên kết ( biểu diễn bằng các trọng số
w), và xử lý thông tin bằng cách truyền theo các kết nối như một thể
thống nhất để giải quyết một vấn đề nào đó. Một mạng neural nhân
tạo được xây dựng cho một ứng dụng cụ thể (nhận dạng mẫu, phân
loại,...) thông qua một quá trình học từ tập các mẫu huấn luyện.


8
CHƯƠNG 2. KỸ THUẬT MẠNG TÍCH CHẬP TRONG NHẬN
DẠNG HÀNH ĐỘNG
2.1.

Mạng neural tích chập

2.1.1. Giới thiệu về mạng tích chập
Mạng neural tích chập là một mô hình mạng học sâu (Deep
Learning) giúp cho chúng ta xây dựng được những hệ thống thông

minh với độ chính xác cao như hiện nay, sử dụng phép tích chập để
trích chọn các đặc trưng đầu vào kết hợp với các hàm kích hoạt phi
tuyến như ReLU để tạo ra thông tin trừu tượng hơn cho các layer tiếp
theo, quá trình này được lặp lại qua nhiều lớp ẩn (sử dụng bộ lọc tích
chập) để sau cùng có một số đặc trưng để nhận dạng đối tượng.
Mạng CNN thường được áp dụng trong các bài toán về nhận dạng
hình ảnh, xử lý ngôn ngữ tự nhiên,…
CNN được phát triển dựa trên ba ý tưởng chính: tính kết nối
cục bộ tính bất biến và tính bất biến đối với quá trình chuyển đổi cục
bộ.
2.2. Một số mạng neural học sâu sử dụng trong nhận dạng
2.2.1. Mạng LeNet
2.2.2. Mạng AlexNet
2.2.3. Mạng ZFNet
2.2.4. Mạng GoogLeNet
2.3. Mạng neural tích chập 3D-CNN
Mạng neural tích chập 3D-CNN là một mạng tích chập CNN
sử dụng phép tích chập khối (ma trận 3 chiều, thêm trục thời gian),
thường được sử dụng trong các bài toán nhận dạng (hành động, phân
lớp) trong các video. Chuyển động trong các video được hiểu là bao


9
gồm tập các hình ảnh được biểu diễn trong một trục thời gian nhất
định, do đó phát sinh thêm trục thời gian (chiều thời gian).
2.3.1. Phép tích chập 3D

Hình 2.1. (a) Tích chập 2D, (b) Tích chập 3D
Kích thước kernel trong 3D theo thời gian là 3, các bộ kết nối
cùng màu có cùng trọng số chia sẽ (shared weights). Trong tích chập

3D, các kernel giốn nhau cùng được áp dung khối 3D chồng lền nhau
trong video đầu vào để trích xuất các tính năng chuyển động.
Trong phép tích chập 3D kernel chỉ có thể trích xuất một
trong các đặc trưng của khung hình khối lập phương đó, các trọng số
kernel được tính toán trong hình khối lập phương. Nguyên tắc chung
trong mô hình CNNs là số các feature map được tăng lên ở các lớp
sau bằng cách sinh ra từ nhiều đặc trưng từ một tập các feature map
lớp trước đó. Tương tự trường hợp tích chập 2D, 3D cũng thực hiện
nhiều phép tích chập với các kernel khác nhau đến từ cùng một vị trí
lớp trước đó.


10
2.3.2. Kiến trúc 3D- CNN
Dựa trên mô tả phép tích chập 3D, có rất nhiều các kiến trúc
được đưa ra, trong luận văn này tôi đưa ra một kiến trúc 3D CNN mà
tôi sẽ phát triển cho việc nhận dạng hành động con người.
Hình 2.2 là một mô hình kiến trúc 3D CNN cho nhận dạng
hành động, có 1 lớp hardwired layer (lớp khởi tạo ban đầu được trích
xuất theo các đặc tính cố định để khởi tạo cho các layer tiếp theo so
với việc khởi tạo ngẫu nhiên). Chúng ta có 7 frame với kích thước
60x40 (input frame). Kết quả này sẽ cho ra 33 feature maps ở trong
lớp thứ 2 với 5 kênh khác nhau đó bởi các phép lọc gray, gradient-x,
gradient-y, optflow-x và optflow-y. Kênh gray chứa các giá trị pixel
xám của 7 input frame. Các feature map trong kênh lọc gradient-x và
gradient-y được tính theo chiều ngang và dọc tương ứng 7 input
frame. Các optflow-x và optflow-y chứa các trường quang học theo
các hướng ngang và dọc tương ứng tính từ input frame liền kề trước
đó.


Hình 2.2. Kiến trúc 3D CNN cho nhận dạng hành động, bao
gồm 1 lớp hardwired, 3 lớp tích chập, 2 lớp subsampling và 1 lớp
full connection.


11
2.4. Giải pháp nhận dạng hành động bằng mạng tích chập
2.4.1. Bài toán nhận dạng hành động
Các hệ thống hỗ trợ giám sát an ninh sẽ có cảnh báo tùy thuộc
vào khi nó thu nhận hình ảnh và phát hiện ra các hành động của
người khả nghi như hành động leo trèo qua cửa sổ, đột nhập vào
những khu vực nhạy cảm trong tòa nhà, trộm cắp xe,… Có một số
dấu hiệu và hành vi nghi ngờ có thể dẫn đến khả nghi phạm tội ví dụ
như như một người đột nhiên chạy nhanh giữa đám đông, trèo tường
mang theo đồ vật qua khu vực đánh dấu nhạy cảm, hay như hành vi
cho thấy ai đó đang làm vội vã đi với tư thế không bình thường, có
cảm giác căng thẳng thiếu tự tin trong quá trình di chuyển so với
xung quanh,...
Bài toán tự động dự đoán hành động của con người đóng vai trò
quan trọng trong các hệ thống giám sát, tương tác người máy và các
hệ thống tự động hóa khác. Tuy nhiên, các giải pháp hiện nay gặp
phải những thách thức lớn chưa giải quyết được như độ chính xác,
thời gian xử lý. Đặc biệt là các ứng dụng giám sát công cộng với sự
thay đổi của hình dáng người, điều kiện ánh sáng và sự đa dạng các
nhóm hành động của con người. Qua thực nghiệm và thực tế ứng
dụng, các kỹ thuật học sâu đã cho thấy những kết quả khả quan, độ
chính xác cao trong nhận dạng đối tượng, dự đoán hình ảnh,... Với
năng lực và hiệu quả cao của học sâu, hy vọng kỹ thuật có thể sử
dụng trong đoán nhận hành động này sẽ có thể giúp tăng cường độ
chính xác của hệ thống nhận dạng.

Phần này chúng tôi trình bày một cách tiếp cận mới sử dụng
mạng tích chập 3D dựa trên kiến trúc tuần tự của mạng neural học
sâu để xử lý dữ liệu 3D về không gian và thời gian. Kiến trúc mạng


12
học sâu được xây dựng bằng cách xử dụng một số inception các lớp
ẩn kết hợp với nhau nhằm thực hiện song song các biến đổi tích chập
trên mạng nhằm làm giảm thời gian tính toán.
Bên cạnh đó, trong nhiều bài báo khoa học đã chỉ ra kỹ thuật
học sâu đạt được độ chính xác cần thiết nếu có đủ dữ liệu cho huấn
luyện mô hình và độ sâu đủ lớn để có thể tham số hóa được các thực
thể cần xử lý. Nhằm nâng cao độ chính xác của mô hình đề xuất, dữ
liệu huấn luyện được tăng cương bằng cách sử dụng các phép biến
đổi ảnh nhằm làm cho số lượng mẫu dữ liệu đủ lớn cho việc huấn
luyện một mạng neural học sâu.
2.4.2. Thiết kế mô hình nhận dạng hành động
Dữ liệu video vào

Tập dữ liệu hành
động bát thường

Trích xuất đặc trưng
(ROIs)

Huấn luyện Tập dữ
liệu

Phát hiện con người


Mô hình hành động

Nhận dạng hành động

Phân tích hành vi hành động
dạng ngữ nghĩa

Cảnh báo đến bộ phận giám
sát an ninh

Hình 2.3 Tổng quan kiến trúc hệ thống nhận dạng hành động
bất thường


13
Tập dữ liệu video chứa các hành động đáng ngờ được gán nhãn,
tao thành tập đầu vào huấn luyện hệ thống. Tập này được đưa vào
mạng DNN để huấn luyện trích xuất đặc trưng.Sau khi đã có các
trích xuất đặc trưng của tập hành động đáng ngờ, các video từ các hệ
thống giám sát sẽ được qua hệ thống trích xuất các vùng quan tâm (
ROIs) và phát hiện con người, sau đó nhận dạng hành động bất
thường dựa trên việc trích xuất đặc trưng của hình ảnh thu được với
dữ liệu đã huấn luyện để phát hiện xem hành động đó có đáng ngờ
không để cho ra kết quả.
2.4.3. Thiết kế mạng neural tích chập nhận dạng hành động
Trong phạm vi luận văn này chúng tôi đề xuất một phương pháp
tiếp cận mới trong việc dự đoán hành động từ video giám sát được
tiền xử lý thành dạng hình ảnh đơn theo trục thời gian, đó là dùng
cách tiếp cận kết hợp giữa mô hình DNN để trích xuất các đặc trưng
và máy phân lớp SVM.

Đầu vào của mô hình này là video chứa các hành động của con
người từ các hệ thống giám sát, sau đó từ video sẽ được trích xuất ra
tập các ảnh tuần tự (sequence images), tiếp theo hệ thống được đưa
vào lớp tích chập (Convolution) để giảm kích thước ảnh, sau đó đưa
qua lớp hiệu chỉnh ReLu để loại bỏ các giá trị âm ( đưa về bằng 0).
Dữ liệu tiếp tục được đưa xuống lớp lọc cực đại (Max Pooling) để
tiếp tục giảm kích thước ảnh. Tiếp tục được đưa qua lớp chuẩn hóa
(Normalization) để chuẩn hóa dữ liệu, sau đó tiếp tục được đưa vào
khối inception để tạo mạng có độ sâu và rộng hơn, sau đó được đưa
qua lớp lọc trung bình (Average pooling) để giảm kích thước, sau đó
ta cho dữ liệu qua lớp Dropout để giải quyết vấn đề quá khớp với dữ
liệu (overfitting). Tiếp theo, dữ liệu được đưa vào lớp kết nối đầy đủ


14
với mục đích là để nhận dạng đối tượng với độ chính xác cao hơn.
Cuối cùng hệ thống đưa dữ liệu vào lớp đầu ra Softmax để phân lớp
dữ liệu và chuyển dữ liệu ra ở đầu ra.
Video
Inception 1
Inception 2
Trích xuất ra ảnh tuần tự
Sequence Images

Inception 3

Inception 4
Inception 5
Lớp tích chập
Convolution


Lớp lọc trung bình
Average pooling

Lớp hiệu chỉnh
ReLU

Lớp Dropout
Lớp kết nối đầy đủ
Fully connection

Lớp lọc cực đại
Max Pooling

Lớp Softmax

Lớp chuẩn hóa
Normalization

Ouput

Hình 2.4. Sơ đồ tổng thể kiến trúc mạng học sâu cho nhận dạng
hành động
Đối với mô hình thứ 2 là dựa trên học máy kết hợp giữa DNN
để trích xuất đặc trưng và dùng SVM để nhận dạng hành động.
Chúng truyền vào hình ảnh đầu vào một mạng đồ thị theo chu kỳ


15
(DAG) để học sâu để trích xuất các đặc trưng thay vì phân loại, mô

tả như hình 2.5.

Images tuần tự

DNN trích xuất đặc trưng
(Activate at 1th FC layer)

Vecto đặc trưng

SVM

Action results
Hình 2.5. Nhận dạng hành động dựa trên phép lai của học máy
sử dụng DNN và SVM


16
CHƯƠNG 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ
3.1. Môi trường và các công cụ sử dụng thực nghiệm
3.2. Dữ liệu thực nghiệm nhận dạng hành động
3.3. Thiết lập các thao số thực nghiệm hệ thống
3.3.1. Tiền xử lý video:
3.3.2. Tạo các lớp:
3.3.3. Quá trình huấn luyện vào đánh giá:
3.4. Phân tích, đánh giá kết quả thực nghiệm
Trong luận văn này, chúng tôi đánh giá trên hai loại mô hình
nhận dạng. Đầu tiên là mạng DNN được sử dụng trích xuất các đặc
trưng và nhận dạng hành động. Trong phương pháp này, kiến trúc
mạng bao gồm 103 lớp, gồm cả lớp phân loại hành động cuối cùng
trong kiến trúc. Hệ thống nhận đạng hành động được thiết kế như

hình 2-16. Hệ thống này được tiếp cận theo cách truyền thống trong
mạng DNN, tuy nhiên nó giải quyết được vấn đề overfitting trong dữ
liệu huấn luyện như UCF101, HMDB5, như hình 3-3. Kết quả huấn
luyện cho thấy rằng hệ thống đạt được độ chính xác gần 99,98% và
hàm mất chỉ ra một tỉ lệ học tập rất nhỏ dựa trên tốt độ phân rã của
nó sau một số epochs.


17

Hình 3.1. Mạng DNN huấn luyện và xác thực trên tập dữ liệu
UCF101: (a) độ chính xác và (b) giá trị hàm lỗi hội tụ đến giá trị kỳ
vọng sau một vài epochs.
Phương pháp thứ hai là dựa trên học máy kết hợp giữa DNN
để trích xuất đặc trưng và SVM để nhận dạng hành động như trong
hình 2-18. Chúng truyền vào hình ảnh đầu vào một mạng đồ thị theo
chu kỳ (DAG) để học sâu để trích xuất các đặc trưng thay vì phân
loại. Dữ liệu đầu vào là tập hợp cường độ điểm ảnh của hình được
đưa vào mạng học sâu. Quá trình training và testing tập dữ liệu được
thử nghiệm là đồng nhất với khung hình 240x320 pixcel. Dữ liệu đầu
vào bao gồm hình ảnh gốc 240x320x15 và kích hoạt lớp FC đầu tiên
kết quả cho ra 874.368 vecto đặc trưng. Trong giai đoạn training, các
vecto đặc trưng, được trích xuất từ tập dữ liệu training, được cấp cho
SVM để học. Trong giai đoạn đánh giá, DNN để trích xuất các vectơ
đặc trưng từ tập dữ liệu test được đưa vào mô hình SVM để nhận
dạng hành động.
Trong mô hình này, các bộ lộc tích chập tại lớp input đầu
tiên là 15 kênh tương ứng với 15 frame xám. Các bộ lọc độc lập



18
được kết nối với nhau trong 15 kênh các hình ảnh đầu vào. Lớp cuối
cùng xử lý trên các vectơ đặc trưng sẽ được kích hoạt bởi kết nối đầy
đủ, sau đó được chuyển cho SVM để xử lý. Chi tiết kiến trúc nhận
dạng này được chỉ ra trong hình 2-5. Phương pháp SVM thực hiện
nhiệm vụ quan trọng trong tác vụ phân loại ảnh.
3.5. Xử lý tăng cường dữ liệu
Do vấn đề mất cân đối về dữ liệu huấn luyện, Tăng cường dữ
liệu là việc quan trọng , điều này sẽ tạo ra sự cân bằng và đủ dữ liệu
để xây dựng các tham số mạnh mẽ cho hệ thống nhận dạng. Vấn đề
tăng cường dữ liệu có nghĩa là tăng số lượng tập dữ liệu hình ảnh. Có
nhiều cách để tăng cường dữ liệu bao gồm xoay ảnh theo một góc
ngẫu nhiên, thay đổi điều kiện ánh sáng, cắt xén theo hướng khác
nhau, lật ảnh, vì vậy đối với một hình ảnh có thể được tạo ra các mẫu
ảnh phụkhác nhau bằng cách làm trên. Video clip của tập phim hành
động được chuyển đổi để tạo ra các mẫu mới với cùng một lớp hành
động bằng các tham số ngẫu nhiên để xử lý tăng cường. Một số kết
quả tăng cường của hình ảnh được thể hiện trong hình 3.2.

Hình 3.2. Ví dụ về tăng cường hình dữ liệu hình ảnh


19
3.6. Kết quả thực nghiệm
Hai bộ dữ liệu chuẩn được xem xét để đánh giá phương
pháp, bao gồm HMDB51, UCF101. Bộ dữ liệu HMDB51 và
UCF101 là những hành động thực tế, được thu thập từ phim,
YouTube. Đầu tiên, HMDB51Dataset bao gồm 51 lớp hoạt động của
video thực tế, được ghi lại từ nhiều loại hoạt động như tập thể dục,
thể thao, nhạc cụ và các hoạt động sinh hoạt hàng ngày khác. Tổng

cộng, có 6.766 video của 51 danh mục hành động. Video được chuẩn
hóa thành tốc độ khung hình 25fps và độ phân giải video là 320 ×
240 pixel. Thứ hai, tập dữ liệu UCF101 bao gồm 101 lớp hành động
từ video hành động thực tế, được truy xuất từ YouTube. Tập dữ liệu
của 101 danh mục hành động bao gồm 13.320 video. Các bộ video là
với một sự xuất hiện đối tượng đa dạng và tư thế, quy mô đối tượng,
quan điểm, nền lộn xộn, điều kiện chiếu sáng, chuyển động máy ảnh
và như vậy. Video được làm đồng đều với tốc độ khung hình là 25
khung hình / giây và độ phân giải video là 320 × 240 pixel. Một vài
hành động trong video như hình 3.1, 3.2.
Trong phần huấn luyện, có nhiều cách tiếp cận để xây dựng
mạng nơ-ron học sâu để nhận dạng hành động. Một vài mô hình tiền
huấn luyện (pretrain) có thể được sử dụng trong một số tình huống
đặc biệt để dự đoán hành động bằng cách sử dụng mô hình huấn
luyện lại. Căn cứ trên dữ liệu hành động, thì sử dụng kiến trúc khối
inception là một lựa chọn phù hợp cho việc xây dựng một mạng
DNN. Kích thước các frame tuần tự được đưa vào lớp input là
240x320 pixels với 15 frame tuần tự liên tục theo một trục thời gian.


20

Hình 3.3. Trọng số của mặt nạ lọc của lớp tích chập đầu tiên
Các trọng số của bộ loc kernel trong phép tích chập đầu tiên
được minh họa trong hình 3.3. Lớp này bao gồm 64 kernels (7x7) kết
nối với 15 khung hình tiếp theo của các tham số đầu vào, hình 3.3.a
và hình 3.3.b minh họa cho 15 kernel tích chập theo chiều thời gian
của 15 frame liên tiếp và 16 kernels của 64 kernels tích chập độc lập
tương ứng. Kết quả của một vài lớp được minh họa trong hình 3.4,
kết quả được trả lại từ các mẫu hình ảnh vào. Kết quả cho thấy lớp

ReLu có ý nghĩa đáng kể so với chỉ sử dụng một số lớp tích chập.


21

Hình 3.4. Kết quả kích hoạt của một số lớp DNN
Kết quả kiểm tra chéo cho thấy độ chính xác của hệ thống có
thể đạt được tỷ lệ chính xác trung bình đến 90,6%. Kết quả cho thấy
rằng cách tiếp cận dựa trên sự kết hợp cho ra kết quả tốt hơn tốt hơn
so với học máy truyền thống SVM. Cách tiếp cận này là thích hợp
cho ứng dụng trong điều kiện chung của tiền giấy trong thực tế. Kết
quả cuối cùng được minh họa trong Bảng 3-1.
STT

HMD

Phương pháp

UCF101

1

Stream CNN [16]

88.0

59.4

2


ResNeXt [17]

90.7

63.8

3

TDDs [18]

90.3

63.2

4

Sử dụng CNN

86.5

59.8

5

Kết hợp CNN+SVM

90.6

65.2


B51

Bảng so sánh độ chính xác trên tập UCF101 và HMDB51 giữa
các phương pháp


22

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Với những kiến thức tôi đã nghiên cứu các vấn đề về kỹ thuật
xử lý ảnh, máy học, trí tuệ nhân tạo và đặc biệt là tìm hiểm sâu về
mạng tích chập 3D-CNN trong xử lý nhận dạng hành động đáng ngờ
trong các hệ thống giám sát an ninh, rong luận văn này tôi đã ứng
dụng kết hợp mạng DNN và SVM truyền thống trong việc dự đoán
và nhận dạng hành động đáng ngờ trong các hệ thống camera giám
sát an ninh.
Với kết quả nghiên cứu và thực nghiệm so sánh các kết quả
khác nhau trên tập dữ liệu huấn luyên UCF101 và HMDB51 để nhận
dạng các hành động đáng ngờ đã cho thấy. Việc sử dụng phép kết
hợp giữa mạng DNN và SVM đã mang lại kết quả tốt hơn so với một
số phương pháp khác như hệ thống SVM độc lập, hay sử dụng CNN
trong tất cả các trường hợp. Trong hệ thống này, có một sự tiếp cận
khác biệt với truyền thống là sự liên kết tích chập của CNN xử lý
trên các frame tuần tự liên tục được sử dụng trích xuất đặc trưng thay
vì phân lớp. Các mẫu video được phân loại thành các lớp hành động
sử dụng kỹ thuật phân lớp SVM.
Về chương thực nghiệm và minh họa, mặc dù tôi đã dùng các
phương pháp khác nhau để so sánh độ chính xác trên các hệ cơ sở dữ
liệu huấn luyện và kiểm thử mẩu test. Tuy nhiên để có thể áp dụng
vào trong các hệ thống giám sát thực tế thì cần phải tiếp tục nghiên

cứu giảm chi phí tính toán để mang tính khả thi cao hơn trong nhận
dạng hành động theo thời gian thực. Ngoài ra, để có thể đánh giá
chính xác khách quan hơn nữa thì có thể xây dựng một tập các video
hành động từ thực tế để đánh giá độ chính xác tốt hơn.



×