Tải bản đầy đủ (.pdf) (77 trang)

Hệ thống điểm danh tự động học sinh trung học phổ thông qua camera trong lớp học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.77 MB, 77 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH

Nguyễn Thị Sen

HỆ THỐNG ĐIỂM DANH TỰ ĐỘNG
HỌC SINH TRUNG HỌC PHỔ THÔNG
QUA CAMERA TRONG LỚP HỌC

LUẬN VĂN THẠC SĨ MÁY TÍNH

Thành phố Hồ Chí Minh - 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH

Nguyễn Thị Sen

HỆ THỐNG ĐIỂM DANH TỰ ĐỘNG
HỌC SINH TRUNG HỌC PHỔ THÔNG
QUA CAMERA TRONG LỚP HỌC
Chuyên ngành : Khoa học máy tính
Mã số
: 8480101

LUẬN VĂN THẠC SĨ MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. PHẠM THẾ BẢO


Thành phố Hồ Chí Minh - 2018


LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của bản thân tôi dưới sự
hướng dẫn khoa học của PGS.TS. Phạm Thế Bảo. Các thông tin và số liệu của
luận văn có nguồn gốc rõ ràng, cụ thể, các trích dẫn theo đúng quy định.
Kết quả nghiên cứu của luận văn hoàn toàn trung thực, khách quan và
chưa từng được sử dụng hay công bố trong bất kỳ cơng trình nghiên cứu nào
khác.
Thành phố Hồ Chí Minh tháng 9 năm 2018
Học viên

Nguyễn Thị Sen


LỜI CẢM ƠN
Lời đầu tiên, tơi xin bày tỏ lịng biết ơn chân thành và sâu sắc nhất đến
Thầy PGS.TS. Phạm Thế Bảo - giảng viên hướng dẫn luận văn. Trong q trình
tìm hiểu và nghiên cứu đề tài, tơi đã gặp rất nhiều khó khăn nhưng nhờ Thầy
ln động viên, hết lịng hướng dẫn và giúp đỡ nên tơi đã hồn thành luận văn
này.
Tơi cũng xin gửi lời cảm ơn chân thành đến quý Thầy/Cô – Trường Đại
học Sư phạm Thành phố Hồ Chí Minh đã tận tâm dạy dỗ và truyền đạt những
kiến thức quý báu trong quá trình học tập. Đồng thời, tơi cũng xin cảm ơn
thầy/cơ Khoa Cơng nghệ Thơng tin và Phịng Sau Đại học đã hỗ trợ và tạo điều
kiện cho tôi trong thời gian qua.
Cuối cùng, tơi xin bày tỏ lịng biết ơn đến gia đình, trường THPT Vũng
Tàu – nơi tơi đang công tác, đã luôn động viên và giúp đỡ tôi trong suốt quá
trình học tập cũng như thực hiện luận văn.

Thành phố Hồ Chí Minh tháng 9 năm 2018
Học viên thực hiện
Nguyễn Thị Sen


MỤC LỤC
Trang
Trang phụ bìa
Lời cam đoan
Lời cảm ơn
Mục lục
Danh mục thuật ngữ và viết tắt
Danh mục các bảng
Danh mục hình vẽ, biểu đồ
Chương 1.

GIỚI THIỆU ..................................................................... 1

1.1. Đặt vấn đề...................................................................................... 1
1.2. Mục tiêu của luận văn ................................................................... 2
1.3. Nội dung thực hiện ........................................................................ 2
1.4. Những khó khăn thách thức .......................................................... 3
1.5. Các hướng tiếp cận ........................................................................ 4
1.6. Hướng giải quyết ........................................................................... 8
1.7. Bố cục luận văn ............................................................................. 8
Chương 2.

CƠ SỞ LÝ THUYẾT ..................................................... 10

2.1. Mạng nơ-ron nhân tạo ................................................................. 10

2.1.1. Cấu trúc của mạng nơ-ron .................................................... 10
2.1.2. Một số dạng mạng nơ-ron ..................................................... 14
2.1.3. Quá trình học của mạng nơ-ron ............................................ 14
2.1.4. Mạng nơ-ron nhân tạo trong xử lí ảnh .................................. 14
2.2. Mạng nơ-ron tích chập ................................................................ 15
2.2.1. Tích chập............................................................................... 16
2.2.2. Lớp hàm kích hoạt ................................................................ 17


2.2.3. Lớp tổng hợp ......................................................................... 18
2.2.4. Lớp kết nối đầy đủ ................................................................ 19
2.2.5. Nguyên lý hoạt động của mạng nơ-ron tích chập ................. 19
2.3. Mơ hình YOLO ........................................................................... 20
2.3.1. Cấu trúc mạng YOLO ........................................................... 22
2.3.2. Nguyên tắc hoạt động của YOLO ........................................ 23
2.3.3. Quá trình huấn luyện của YOLO .......................................... 24
2.4. Lọc theo mức độ tương quan của hàm nhân ............................... 27
2.4.1. Các vấn đề liên quan ............................................................. 29
2.4.2. Phương pháp theo dõi đối tượng bằng lọc theo mức độ tương
quan của hàm nhân ............................................................... 31
Chương 3.

XÂY DỰNG THUẬT TOÁN ......................................... 40

3.1. Phát hiện đối tượng đầu học sinh ................................................ 41
3.2. Theo vết chuyển động đầu học sinh trong lớp học ..................... 44
3.3. Xác định vị trí đầu học sinh dựa trên trung bình ........................ 46
3.4. Điểm danh học sinh ..................................................................... 47
Chương 4.


KẾT QUẢ THỰC NGHIỆM VÀ HƯỚNG PHÁT
TRIỂN .............................................................................. 49

4.1. Môi trường thực nghiệm ............................................................. 49
4.2. Xây dựng dữ liệu ......................................................................... 49
4.3. Kết quả ........................................................................................ 49
4.3.1. Thời gian thực hiện ............................................................... 49
4.3.2. Phát hiện đối tượng đầu học sinh.......................................... 50
4.3.3. Xác định vị trí đối tượng đầu học sinh ................................. 52
4.4. Đánh giá ...................................................................................... 53
4.4.1. Ưu điểm ................................................................................ 53
4.4.2. Nhược điểm........................................................................... 54


4.5. Hướng phát triển ......................................................................... 59
TÀI LIỆU KHAM KHẢO .................................................................... 60


DANH MỤC THUẬT NGỮ VÀ VIẾT TẮT
THPT

Trung học phổ thông

TP

Thành Phố

CNN

Convolution Neural Network


YOLO

You Only Look Once

YOLO v1

You Only Look Once version 1

YOLO v2

You Only Look Once version 2

YOLO v3

You Only Look Once version 3

EFK

Extended Kalman Filter

UKF

Unscented Kalman Filter

DL

Deep Learning

ANN


Artificial Neural Network

DBN

Deep Belief Network

CNN

Convolutional Neural Network

RNN

Recurrent Neural Network

R-CNN

Regions with Convolutional Neural Network

RELU

Rectified Linear Unit

IOU

Intersection Over Union

DCF

Discriminatively Correlation Filters


SRDCF

Spatially Regularized Discriminatively Correlation Filters

KCF

Kernelized Correlation Filter

TLD

Tracking-Learning-Detection

MOSSE

Minimum Output Sum of Squared Error

HOG

Histogram of Oriented Gradients

DFT

Discrete Fourier Transform

RGB

Red, Green and Blue



DANH MỤC CÁC BẢNG
Bảng 4.1. Thời gian trung bình trên một frame. ..................................... 49
Bảng 4.2. Độ chính xác của giai đoạn phát hiện..................................... 50
Bảng 4.3. Độ chính xác của giai đoạn theo vết đối tượng đầu học sinh. 51
Bảng 4.4 Độ chính xác của giai đoạn xác định vị trí. ............................. 52


DANH MỤC HÌNH VẼ, BIỂU ĐỒ
Hình 2.1. Cấu trúc một nơ ron ................................................................ 11
Hình 2.2. Cấu trúc nơ-ron đầy đủ 3 tầng ................................................ 11
Hình 2.3. Cấu trúc nơ-ron đầy đủ có nhiều tầng ..................................... 12
Hình 2.4. Cấu trúc nơ-ron khơng có tầng ẩn ........................................... 13
Hình 2.5. Mơ hình CNN.......................................................................... 16
Hình 2.6. Phương pháp tích chập ............................................................ 17
Hình 2.7. Tính tốn với phương pháp MaxPooling ................................ 19
Hình 2.8. Nguyên lý hoạt động của mạng nơ-ron tích chập ................... 20
Hình 2.9. Hệ thống phát hiện đối tượng dựa vào YOLO........................ 21
Hình 2.10. Mạng phát hiện đối tượng có 24 lớp tích chập và 2 lớp kết
nối đầy đủ.............................................................................. 23
Hình 2.11. Mơ hình phát hiện đối tượng bằng phương pháp hồi quy .... 25
Hình 2.12. Các mẫu huấn luyện thu được bằng cách thay đổi theo chu
kỳ của một mẫu cơ sở không thể đại diện cho nội dung hình
ảnh đúng cách. ...................................................................... 29
Hình 2.13. Ma trận chuẩn hóa khơng gian. ............................................. 35
Hình 2.14. Sơ đồ thuật toán lọc theo mức độ tương quan ...................... 39
Hình 3.1. Mơ hình mơ tả hoạt động bài tốn .......................................... 40
Hình 4.1. Phát hiện nhiều bao biên trên một đối tượng ở một frame ..... 54
Hình 4.2. Phát hiện nhiều bao biên trên một đối tượng ở frame sau so
với hình 4.1 ............................................................................. 55
Hình 4.3. Kết quả thuật tốn 2 ................................................................ 55

Hình 4.4. Khơng thể phát hiện do q ít thơng tin.................................. 56
Hình 4.5. Có đối tượng bị vật thể che khuất ........................................... 56
Hình 4.6. Các bao biên đối tượng bị sai.................................................. 57
Hình 4.7. Frame đầu tiên của video ........................................................ 57


Hình 4.8. Frame bắt đầu phát hiện .......................................................... 58
Hình 4.9. Theo vết chưa chính xác ......................................................... 59
Biểu đồ 4.1. Độ chính xác phát hiện đối tượng đầu học sinh của các lớp
kiểm tra và độ chính xác trung bình phát hiện đối tượng . 51
Biểu đồ 4.2. Độ chính xác của giai đoạn theo vết đối tượng đầu học sinh
và tỉ lệ trung bình độ chính xác các lớp kiểm tra ............. 52
Biểu đồ 4.3. Độ chính xác của giai đoạn sau khi sử dụng phép chiếu để
xác định vị trí phát hiện đối tượng đầu học sinh. ............. 53


1

Chương 1. GIỚI THIỆU
Chương 1 luận văn sẽ trình bày tổng quan bài toán “Hệ thống điểm
danh tự động học sinh THPT qua camera trong lớp học”.
Đặt vấn đề

1.1.

Ngày nay công nghệ thông tin phát triển không ngừng, điều này đồng
nghĩa với sự phát triển song hành các thiết bị phần cứng lẫn phần mềm đáp ứng
nhu cầu con người ngày càng cao và phức tạp. Trong đó phải kể đến sự phát
triển của các thiết bị thu nhận hình ảnh từ thế giới thực, chẳng hạn như các hệ
thống giám sát bằng camera và hệ thống giám sát này xuất hiện khắp nơi: nhà

riêng, đường phố, siêu thị, cửa hàng, cơ quan, trường học,… [1]-[3].
Thông qua thiết bị thu nhận hình ảnh này nhu cầu khai thác của con người
ở mỗi lĩnh vực khác nhau sẽ có nhu cầu khác nhau, có rất nhiều bài tốn được
đặt ra địi hỏi phải xử lí các hình ảnh thu nhận được từ hệ thống giám sát [3].
Chẳng hạn như: Các hệ thống giám sát của một ngân hàng nhằm phát hiện các
hành vi khả nghi của tội phạm; Hệ thống giám sát ngoài đường phố nhằm phát
hiện tội phạm, những người vi phạm luật giao thông; Hệ thống giám sát tại siêu
thị, cửa hàng để chống trộm cắp,… Mỗi bài toán sẽ cần những thuật toán –
phương pháp xử lý khác nhau để đạt hiệu quả tốt cho từng môi trường khác
nhau.
Hiện nay tại các trường học đã và đang sử dụng hệ thống giám sát thông
qua camera gắn cố định trong phịng học nhằm quản lí nền nếp và hỗ trợ điểm
danh cả học sinh lẫn giáo viên trong quá trình diễn ra tiết học tránh tình trạng
học sinh trốn tiết học. Cụ thể, tôi đã khảo sát một số trường THPT tại Thành
phố Vũng Tàu có sử dụng camera giám sát trong lớp học cũng với mục đích
tương tự.


2

Sau khi các trường đầu tư một khoản kinh phí rất lớn để trang bị các thiết
bị cần thiết thì việc quản lí và khai thác các thiết bị cũng gặp rất nhiều khó
khăn. Nhân viên hoặc giáo viên được phân công trong nhiệm vụ trực giám sát
camera phải thường xun thay đổi kích thước hiển thị màn hình để kiểm tra sĩ
số học sinh khi bắt đầu mỗi tiết học và trực cả buổi học để làm công việc này,
một cơng việc địi hỏi mất rất nhiều thời gian và kinh phí lẫn sức khỏe.
Hiện nay, trên thị trường có nhiều loại thiết bị hỗ trợ điểm danh như: quét
vân tay, hay quẹt thẻ từ … [4] , [5]. Tuy nhiên, các giải pháp trên rất khó để
ứng dụng trong trường học; đặc biệt là ở trường THPT với đặc thù của học sinh
chưa tự giác (quẹt thẻ giùm), tạo ùn tắc (khi quét vân tay) hay dễ hư hỏng.

Từ bài toán thực tế của các trường THPT thành phố Vũng Tàu tôi nghiên
cứu “Hệ thống điểm danh tự động học sinh THPT qua camera trong lớp học”
để có thể áp dụng mang lại hiệu quả cao với trang thiết bị đã có sẵn của các
trường.
1.2.

Mục tiêu của luận văn
+ Nghiên cứu mạng Nơ-ron tích chập (Convolution Neural Network -

CNN), mà cụ thể là YOLO v2 (You Only Look Once - YOLO) ứng dụng trong
bài toán.
+ Nghiên cứu bài toán theo vết đối tượng.
+ Xây dựng các thuật giải với dữ liệu tại một trường THPT.
1.3.

Nội dung thực hiện
Để có thể giải quyết được bài tốn điểm danh học sinh trong trường THPT

thông qua camera được lắp đặt tại lớp, chúng tơi cần giải quyết các bài tốn:


Xác định đầu học sinh trong các frame ảnh, để xác định đối tượng

người – mà cụ thể là học sinh trong lớp thì có nhiều phương pháp như: xác định
người, xác định khn mặt, … Nhưng vì camera được lắp đặt trong phòng học
thường cao hơn đầu của học sinh nhiều nên việc xác định khn mặt sẽ rất khó,


3


không những vậy việc xác định người bằng các phương pháp cũng rất khó. Từ
đây chúng tơi đề xuất xác định vị trí trong ảnh có vùng đầu của học sinh để làm
tiền đề cho bài toán điểm danh.


Trong quá trình dữ liệu lấy từ camera sẽ có những học sinh ln

di chuyển vì thế chúng tơi sẽ bắt đầu xác định vị trí đầu của học sinh khi giáo
viên bắt đầu vào lớp và học sinh đứng lên chào giáo viên. Trong khoảng thời
gian này vẫn sẽ có những học sinh chuyển động đầu và thân thể; nhưng không
đáng kể; và vì có chuyển động nên có thể đường biên đầu học sinh này chồng
lắp đầu học sinh khác. Để giả quyết vấn đề này chúng tôi sẽ xác định vị trí đầu
học sinh trong nhiều frame của một đoạn video dữ liệu từ camera rồi tổng hợp
để có kết quả tốt nhất về vị trí đầu của học sinh trong lớp học.


Vì học sinh có thể di chuyển đầu trong q trình xác định đầu nên

chúng tơi cần tìm được tâm vùng đầu của từng học sinh trong lớp ở video, nếu
chúng ta xác định đầu trong tất cả các frame của video thì sẽ mất nhiều thời
gian nên rất khó để áp dụng vào thực tế, nên chúng tôi sẽ đề xuất dùng phương
pháp theo vết chuyển động của đối tượng đầu học sinh để tìm được các vùng
tâm của từng học sinh.


Từ dữ liệu này, chúng tơi sẽ tìm vị trí trung bình của vùng đầu

từng học sinh của lớp học. Sau đó chúng tơi sẽ chiếu vị trí trung bình này xuống
sơ đồ lớp học để có thể điểm danh tất cả học sinh của lớp.
1.4.


Những khó khăn thách thức
Trong q trình khảo sát và thu thập dữ liệu tại một số trường THPT tại

TP Vũng Tàu tơi nhận thấy có những khó khăn thách thức:


Chất lượng hình ảnh phụ thuộc cơ sở vật chất của trường vì phụ

thuộc vào kinh phí và thời điểm lắp đặt camera.


4



Các yếu tố ảnh hưởng đến chất lượng video: ánh sáng, thời tiết…

gây nhiễu làm hình ảnh khơng rõ nét. Các thành phần khác trong phòng học
làm che khuất các đối tượng muốn theo dõi như quạt, rèm cửa,…


Vị trí đặt camera giám sát cũng ảnh hưởng một phần không nhỏ

đến dữ liệu muốn thu thập.
1.5.

Các hướng tiếp cận
Để giải quyết bài toán điểm danh học sinh trong lớp học thông qua camera


được lắp đặt trong lớp học, chúng ta cần giải quyết từng bài tốn đó là: phát
hiện đầu, theo vết chuyển động đầu, tìm vị trí trung bình đầu, chiếu vị trí trung
bình vào sơ đồ lớp học.
a. Phát hiện chuyển động của đối tượng đầu học sinh trong lớp học
Phát hiện đối tượng đầu học sinh trong lớp học là bài toán xác định đối
tượng trong video và cần xác minh sự hiện diện của các đối tượng trong chuỗi
ảnh và cũng có thể định vị chính xác. Các hệ thống theo dõi đối tượng thường
bắt đầu bằng q trình phát hiện đối tượng, ngồi ra phát hiện đối tượng được
lặp lại trong chuỗi ảnh sẽ cần thiết cho việc hỗ trợ và xác minh cho quá trình
theo vết đối tượng.
Một số cách tiếp cận phát hiện đối tượng:
 Phát hiện đối tượng dựa trên đặc trưng
Tùy vào đặc trưng được chọn, ta có các cách tiếp cận khác nhau như: dựa
trên hình dáng, dựa trên màu sắc [6], [7]. Trong đó, cách tiếp cận dựa trên màu
sắc được xem là thơng dụng nhất vì đặc trưng màu sắc thì dễ dàng lấy được và
chi phí tính toán thấp.


5

 Phát hiện đối tượng dựa trên mẫu
Nếu như có một mẫu mơ tả đối tượng, thì việc phát hiện đối tượng trở
thành quá trình so khớp các đặc trưng giữa mẫu và chuỗi ảnh dưới sự phân tích,
xác định xem mẫu có xuất hiện trong hình hay khơng, nếu có khoanh vùng khu
vực tương ứng. Có hai kiểu so khớp mẫu, so khớp mẫu cố định và so khớp mẫu
biến dạng [8].
Phát hiện đối tượng với việc so khớp chính xác thường tốn nhiều chi phí
và chất lượng so khớp phụ thuộc vào chi tiết và mức độ chính xác của mẫu đối
tượng.
 Phát hiện đối tượng chuyển động

Phát hiện đối tượng chuyển động từ hệ thống giám sát được quan tâm rất
nhiều bởi hầu hết các hệ thống này giám sát thông qua video và được ứng dụng
trong rất nhiều lĩnh vực, có rất nhiều kỹ thuật phát hiện chuyển động của đối
tượng được sử dụng.
Đối với vấn đề phát hiện đối tượng chuyển động có thể dùng biện pháp
trừ nền. Bước đầu xây dựng mơ hình nền, mơ hình nền này có thể được học qua
nhiều frame ảnh nếu nền bị thay đổi, ngược lại ta có thể chọn một nền có sẵn
nếu nền khơng bị thay đổi. Sau đó, ta sẽ dùng mơ hình nền này để so sánh với
frame ảnh hiện tại và kết quả là ta sẽ nhận biết được đâu là vùng phần nền, đâu
là các phần chuyển động.
Ngồi ra, cũng có nhiều kỹ thuật tiếp cận để phát hiện chuyển động trong
hình ảnh video liên tục. Có thể so sánh khung hình hiện tại với hình nền chúng
ta chụp từ ban đầu khi bật camera hoặc từ khung hình trước. Đối với kỹ thuật
trừ nền thì giảm được việc xử lý. Tuy nhiên, cách tiếp cận có một bất lợi lớn,
ví dụ nếu có một đối tượng đang di chuyển ở frame đầu tiên nhưng sau đó nó
đã biến mất. Với kỹ thuật Yolo v2 thì xử lý phức tạp hơn, xử lý nhiều hơn
nhưng lại thích nghi với mọi mơi trường, kể cả mơi trường ít thay đổi hoặc thay
đổi nhiều. Nhược điểm là nếu đối tượng có kích thước nhỏ, bị che khuất thì hệ


6

thống khơng phát hiện ra nhưng đối với bài tốn cụ thể vẫn đáp ứng được vì ở
đây đối tượng là học sinh trong lớp học nên có vị trí ngồi với khoảng cách cố
định ít thay đổi. Chính vì vậy, đề xuất giải pháp sử dụng Yolo v2 để phát hiện
đối tượng đầu học sinh.
b. Theo vết đối tượng đầu học sinh trong lớp.
Với bài toán cụ thể, phát hiện và theo dõi đối tượng học sinh trong thời
gian thực (real-time object tracking) cũng là vấn đề mà lĩnh vực thị giác máy
tính (computer vision) rất quan tâm trong thời gian qua. Mức độ khó khăn của

vấn đề này phụ thuộc nhiều vào đối tượng được phát hiện và theo vết như thế
nào. Hiện nay, có rất nhiều phương pháp theo vết chuyển động, cụ thể như:
 So khớp mẫu
So khớp mẫu là phương pháp nhằm phân loại đối tượng dựa vào mức độ
tương tự giữa những đối tượng xem xét với mẫu cho trước. Trong trường hợp
được ứng dụng để giải quyết yêu cầu rất cụ thể như cho trước một mẫu và một
hình bất kì đa mức xám lớn hơn mẫu, xác định xem đối tượng mẫu có xuất hiện
trong hình hay khơng, nếu có thì khoanh vùng khu vực tương ứng đó, nếu khơng
thì báo là không tồn tại đối tượng.
Ưu điểm của phương pháp này là không chịu ảnh hưởng bởi nhiễu và hiệu
ứng chiếu sáng, có thể theo vết chuyển động được các đối tượng biến dạng
nhưng độ phức tạp tính tốn cao, chất lượng so khớp phụ thuộc vào chi tiết và
độ chính xác của mẫu đối tượng.
 Mean shift
Dorin Comaniciu [9] đã giới thiệu phương pháp theo vết Mean shift. Đây
là một phương pháp theo vết tối ưu hóa tối thiểu cục bộ. Mean shift là một
phương pháp đơn giản và hiệu quả cho theo vết thời gian thực, thích hợp các
video có đối tượng thay đổi do máy quay chuyển động, có ảnh nền lộn xộn
nhưng nó chỉ tối ưu hố cục bộ chứ khơng tồn cục. Khi màu nền và màu đối
tượng giống nhau, phương pháp này sẽ không thể theo vết đối tượng được.


7

 Lọc Kalman
Lọc Kalman đã được biết như là một phương pháp cổ điển, nổi tiếng được
phát minh từ năm 1960 bởi R.E.Kalman. Nó là một thuật tốn theo vết tối ưu
nhất trong trường hợp hệ là tuyến tính và nhiễu có phân phối Gauss với ngun
lý “dự đốn – hiệu chỉnh” [10] sử dụng thuật toán hồi quy để ước lượng biến
trạng thái của hệ thống. Nhưng trong thực tế không phải luôn đảm bảo các yêu

cầu ràng buộc của bộ lọc Kalman mà nó hồn tồn có thể được biểu diễn bởi
các phương trình phi tuyến, đồng thời nhiễu là phi Gauss. Để giải quyết vấn đề
này nhiều phương pháp được đưa ra nhằm cải tiến bộ lọc Kalman truyền thống
như: EKF (Extended Kalman Filter), UKF (Unscented Kalman Filter)... Mục
đích của các bộ lọc này nhằm tuyến tính hóa các hệ thống phi tuyến bằng
phương pháp khai triển Taylor các hàm phi tuyến thành chuỗi các hàm số sơ
cấp tuyến tính. Các giải pháp này thường gặp phải các nhược điểm như khối
lượng tính tốn địi hỏi q lớn với các hệ thống phức tạp và nhiễu đo đạc bị
phân cực lớn.
 Lọc tương quan
Ma et al. [11] đề xuất các bộ lọc mức độ tương quan trên mỗi lớp tích chập
và suy luận phân cấp đáp ứng tối đa trên mỗi lớp để xác định vị trí mục tiêu. Ý
tưởng chính của thuật tốn lọc tương quan sẽ học một bộ lọc trong suốt quá
trình theo dõi, sao cho bộ lọc khi tích chập với ảnh bao biên đối tượng thì kết
quả sẽ có thơng tin tập trung xung quanh tâm của đối tượng.
Mỗi phương pháp có điểm mạnh và điểm yếu riêng, tuy nhiên phương
pháp lọc tương quan có thể khắc phục được những nhược điểm của các phương
pháp khác như: theo vết các đối tượng tốt trong trường hợp phi tuyến và không
phải nhiễu Gauss.


8

1.6.

Hướng giải quyết
Từ các nhận xét trên chúng tôi đề xuất phương pháp giải quyết cho từng

bài toán:
(a) Bài toán 1 – xác định vùng đầu học sinh, chúng tôi sử dụng mơ

hình học chun sâu (Deep Learning – DL) để huấn luyện và xác định các vùng
trong ảnh là đầu của học sinh vì DL cho phép “thấy” được nhiều chi tiết nhỏ
qua quá trình học rất hiệu quả.
(b) Bài toán 2 – theo vết chuyển động các vùng đầu học sinh, vì vùng
đầu học sinh (người Việt Nam) có màu đồng nhất (học sinh phổ thơng khơng
được nhuộm tóc khi đi học – theo nội quy) nên phương pháp theo vết chuyển
động theo bộ lọc tương quan (trong xác suất thống kê) sẽ có ưu thế hơn so với
các phương pháp khác.
(c) Bài tốn 3 – tìm vị trí trung bình tâm các vùng đầu, chúng tơi dùng
phương pháp tính tâm trung bình để tìm tâm của các vị trí đầu của một học sinh.
(d) Bài tốn 4 – điểm danh học sinh theo sơ đồ, chúng tôi dùng
phương pháp chiếu với độ đo Euclide được dùng để điểm danh học sinh theo
sơ đồ lớp.
1.7.

Bố cục luận văn
Bố cục luận văn được chia thành 4 chương:
Chương 1 trình bày một số vấn đề từ thực tế làm phát sinh vấn đề cần

nghiên cứu. Trong đó cũng sẽ giới thiệu những mục tiêu, nội dung nghiên cứu,
các giải pháp giải quyết vấn đề, những khó khăn thách thức khi giải quyết bài
tốn và cuối cùng là bố cục trình bày của luận văn.
Chương 2 trình bày những vấn đề lý thuyết nghiên cứu trong đề tài: mạng
nơ-ron nhân tạo, mạng nơ-ron tích chập, lọc theo mức độ tương quan.
Chương 3 trình bày thuật giải sử dụng để giải quyết từng bài toán.


9

Chương 4 trình bày kết quả nghiên cứu và hướng phát triển của đề tài

trong tương lai.


10

Chương 2. CƠ SỞ LÝ THUYẾT
Chương 2 luận văn trình bày những vấn đề lý thuyết nghiên cứu
trong đề tài: mạng nơ-ron nhân tạo, mạng nơ-ron tích chập, lọc theo
mức độ tương quan
2.1.

Mạng nơ-ron nhân tạo
Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) là một mơ hình

xử lý thơng tin phỏng theo cách thức xử lý thông tin của các hệ nơron sinh học.
Nó được tạo nên từ một số lượng lớn các phần tử (nơ-ron) kết nối với nhau
thông qua các liên kết (trọng số liên kết) làm việc như một thể thống nhất để
giải quyết một vấn đề cụ thể nào đó. Một mạng nơ-ron nhân tạo được cấu hình
cho một ứng dụng cụ thể (nhận dạng mẫu, phân loại dữ liệu,...) thơng qua một
q trình học từ tập các mẫu huấn luyện [12].
2.1.1.

Cấu trúc của mạng nơ-ron

Cấu trúc của mạng nơ-ron bao gồm một nhóm các nơ-ron nhân tạo (phần
tử) liên kết với nhau, mạng nơ-ron xử lý thông tin bằng cách truyền thông tin
theo các kết nối và tính giá trị mới tại các hàm, hình 2.1. Trong nhiều trường
hợp, mạng nơ-ron nhân tạo là một hệ thống thích ứng, nghĩa là mạng nơ-ron có
thể tự thay đổi cấu trúc của mình dựa trên các thơng tin bên ngồi hay bên trong
truyền qua mạng trong quá trình học.Một ANN gồm ba tầng: tầng đầu vào chạy

lớp đầu vào, các tầng ẩn hay lớp ẩn và cuối cùng là tầng đầu ra được mơ tả
trong hình 2.2, trong đó, tầng ẩn gồm nhiều nơ-ron nhận dữ liệu đầu vào từ các
lớp trước đó để xử lý và chuyển đổi các dữ liệu này cho các lớp tiếp theo. Một
ANN có thể có nhiều lớp ẩn, hình 2.3; hoặc khơng có lớp ẩn, hình 2.4.


11

Hình 2.1. Cấu trúc một nơ ron

Hình 2.2. Cấu trúc nơ-ron đầy đủ 3 tầng


12

Mỗi tầng trong ANN có thể có một hay nhiều nơ-ron (tương ứng ta có thể
có nhiều đặc trưng, nhiều dữ liệu, nhiều h(x)…). Về cơ bản, lớp đầu vào và
lớpđầu ra chỉ có một, riêng lớp ẩn có thể có nhiều, số lượng lớp ẩn sẽ khiến cho
độ phức tạp của mơ hình thay đổi. Khi đó ta khơng cần thêm quá nhiều thành
phần đa thức vào các đặc trưng để khiến cho mơ hình đủ phức tạp để phù hợp
với dữ liệu.

Hình 2.3. Cấu trúc nơ-ron đầy đủ có nhiều tầng
Hàm kích hoạt hay hàm chuyển đổi ℎ𝑘 (𝑥) tính tốn đầu ra của một nơ-ron
để chuyển đến lớp tiếp theo trong mạng nơ-ron. Hàm kích hoạt phi tuyến được
sử dụng vì mạng chỉ sử dụng các hàm kích hoạt tuyến tính có thể lược giản
thơng qua các biến đổi đại số thành mơ hình perceptron một lớp (là mơ hình
ANN đơn giản nhất, khơng có lớp ẩn). Một số hàm kích hoạt phi tuyến thường
dùng là ReLU (Rectified Linear Unit), sigmoid, logistic, Gauss, tanh, softmax.



13

Hình 2.4. Cấu trúc nơ-ron khơng có tầng ẩn
ℎ (𝑥 ) = {

0
𝑥

, 𝑥<0
, 𝑥≥0

(2.1)

Hàm Sigmoid
1
1 + 𝑒 −𝑥

(2.2)

2
−1
1 + 𝑒 −2𝑥

(2.3)

ℎ (𝑥 ) =

Hàm Tanh
ℎ (𝑥 ) =


Kết quả xử lý đầu ra hàm tổng của nơ-ron đôi khi quá lớn, hàm kích hoạt
thường dùng để xử lý đầu ra này trước khi chuyển đến lớp tiếp theo. Đôi khi
thay vì sử dụng hàm kích hoạt, ta thường sử dụng giá trị ngưỡng để kiểm soát
đầu ra của nơ-ron. Nếu đầu ra của một nơ-ron nhỏ hơn ngưỡng thì sẽ không
được chuyển đến lớp tiếp theo.


14

2.1.2.

Một số dạng mạng nơ-ron

Hiện nay có một số dạng mạng nơ-ron cơ bản:
 Mạng kết nối đầy đủ nếu mọi đầu ra của một lớp liên kết với mọi
nơ-ron của lớp tiếp theo.
 Mạng lan truyền thẳng nếu không tồn tại liên kết giữa các nơ-ron
thuộc cùng một lớp.
 Mạng phản hồi nếu tồn tại đầu ra của một nơ-ron liên kết ngược lại
làm đầu vào của một nơ-ron cùng lớp.
 Mạng hồi quy nếu các mạng phản hồi có các vịng lặp kín.
2.1.3.

Q trình học của mạng nơ-ron

Dữ liệu được học thơng qua các lớp của mơ hình này sẽ được “học” ra các
đặc trưng để tiến hành phân lớp một cách hiệu quả.
ANN được huấn luyện hay được học theo hai kỹ thuật cơ bản đó là học có
giám sát và học khơng giám sát.

Học có giám sát là quá trình huấn luyện được lặp lại cho đến kết quả của
ANN đạt được kết quả mong muốn mà chúng ta đã biết trước. Điển hình kỹ
thuật này là mạng nơ-ron lan truyền ngược.
Học khơng giám sát thì sẽ khơng sử dụng tri thức bên ngồi trong q
trình học, nên còn gọi là tự tổ chức. Mạng nơ-ron điển hình được huấn luyện
theo kiểu Sefl – Organizing Map (SOM).
2.1.4.

Mạng nơ-ron nhân tạo trong xử lí ảnh

Mơ hình mạng nơ-ron nhân tạo truyền thẳng ra đời đã được áp dụng nhiều
trong các bài toán nhận dạng. Tuy nhiên mạng nơ-ron truyền thẳng không thể
hiện tốt đối với các dữ liệu như hình ảnh. Chính sự liên kết q đầy đủ tạo nên
những hạn chế cho mơ hình. Dữ liệu hình ảnh có kích thước khá lớn, một ảnh
xám có kích thước 32×32 (điểm ảnh) sẽ cho ra vector đặc trưng có 1024 chiều,
cịn đối với ảnh màu cùng kích thước sẽ là 3072 chiều. Điều này cũng có nghĩa


×