Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (10.02 MB, 53 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<small>MAI NGOC HUYNH</small>
<small>(Theo định hướng ứng dụng)</small>
<small>MAI NGOC HUYNH</small>
<small>CHUYEN NGANH: HE THONG THONG TINMA SO: 8.48.01.04</small>
<small>(Theo định hướng ứng dung)</small>
<small>NGƯỜI HƯỚNG DAN KHOA HỌC: TS. NGUYEN NGỌC DIEP</small>
<small>Em xin cam đoan luận án này là cơng trình nghiên cứu của cá nhân em, được</small>
<small>Nguyễn Ngọc Điệp.</small>
Các số liệu, kết quả nêu trong luận án là trung thực và chưa từng được ai công bồ trong bắt kỳ công trình nào khác.
<small>Hà Nội Ngày thang nam 2023Học viên thực hiện</small>
<small>Mai Ngọc Huynh</small>
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">Em xin chân thành gửi lời cam ơn đến TS. Nguyễn Ngọc Điệp vi tận tinh chỉ
dạy và hướng dẫn em trong việc lựa chọn đề tài, thực hiện đề tài và viết báo cáo
luận án. Sự hỗ trợ của thầy đã giúp em hoàn thành tốt luận án này.
Em xin gửi lời cảm ơn đến tất cả thầy cô giáo tại Trường Học viện Cơng nghệ Bưu chính Viễn thơng vì sự tận tình dạy dỗ và chỉ bảo trong suốt 2 năm học
<small>của em.</small>
Cuối cùng, em xin cảm ơn gia đình, bạn bè và đồng nghiệp cùng những người đã luôn bên cạnh, động viên và giúp đỡ em trong suốt thời gian học tập và làm luận án. Nhờ có sự hỗ trợ của họ, em đã có mơi trường tốt nhất để hồn
<small>thành luận án của mình.</small>
Du đã cố gắng nghiên cứu trong khả năng và phạm vi cho phép, nhưng chắc
chắn sẽ không tránh khỏi những thiếu sót. Em rất mong nhận được sự góp ý và
thơng cảm từ thầy cô và các bạn. Xin chân thành cảm ơn!
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><small>MỤC LỤC</small>
<small>MO ĐẦẦU... 25:25:22 521221122112111211121112112111211211221211211112111111 yeu 11 CHƯƠNG 1. TONG QUAN VE BÀI TOÁN NHAN DIỆN KHN MẬẶT... 31.1 Tổng quan về nhận diện khn mặt...--- St +E+E9EE+E+E9EEEE2EEEEEE+EEESESEEEEErErrrrrei 31.1.1 Giới thiệu về bài toán nhận diện khuôn mặt...--2- 2s +s+E£E+Ee£xzEerxzrs 31.1.2 Các yêu cầu tổng quan bài tốn nhận diện khn mặt...- 2-2 55+: 4</small>
<small>II Pham vi va thach 0ì).vÈEšadađaiidẳẢẲi.. 4</small>
<small>1.2 Vai tro va tam quan trong cua hé théng diém danh tu động tại các trường dai học</small>
<small>1.3 Bài toán điểm danh sinh viên qua nhận diện khuôn mặt... - -- 5 55+ 5</small>
<small>1.4 Khảo sát một số phương pháp nhận diện khuôn mặt...- - 2 2 2 +22 6</small>
<small>2 CHƯƠNG 2. NGHIÊN CUU CÁC PHƯƠNG PHAP NHAN DIỆN KHUÔN MAT...9</small>
<small>2.1 Nghiên cứu các phương pháp phat hiện khuôn mặt... --- --- -- 5555 ‡+++<>>+ss2 92.1.1 Phương pháp V1oÌa-ÏOTI€S... ..- cv TH nh nh nh TH nh nh nhàn 9</small>
<small>2.1.1.1 Cấu trúc mơ hình Viola-Jones...---c¿-cccvvccrctrrtrkerrrrrrrrtrrrrrrrree 9</small>
<small>2.1.1.2 Cac đặc trưng Haar-ÌIke...- óc 3c 321131 111119 111911 11 re 102.1.1.3 Lớp chọn đặc trưng Ada BOOSI... 0 2+ St Sinh 112.1.2 Phương pháp Multi-task Cascaded Convolutional Networks (MTCNN)... 12</small>
<small>2.1.2.1 Cấu trúc mơ hình Multi-task Cascaded Convolutional Networks</small>
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6"><small>2.2 Nghiên cứu các phương pháp nhận diện khuôn mặt... .-- 5 5-55 ++s+ 162.2.1 Phương pháp VGGFaCG...-- G1111 S1 T1 v1 vn vn rưy 16</small>
<small>2.2.1.1 Tổng quan mơ hình VGGFace...- 2-2 52+ £+EE+£E2EE2EEzErErrxerxrrree 16</small>
<small>2.2.1.2 Phương thức hoạt động VGGFace... .. óc ng nh gi, 172.2.1.2.1 Phân loại khuôn mặt... .- + 2+ + +2 E222 1E E221 E382 EEcEEeszkeeeeszze 182.2.1.2.2 Nhận diện khuôn mặt sử dung triplet ÏOSs...---- 55555 s++<ss+2 182.2.2 xoocoi 00:00 v0 0n ... 19</small>
<small>2.2.2.1 Tổng quan mơ hình FacelNet...---¿--2¿+¿22++22+2E+2ExzEzxeerxerxrrei 192.2.2.2 Kiến trúc mơ hình FacelNet...---¿-2¿2+z22+2EECSEECEE2EEEEEEEerkrrkrrei 19</small>
<small>2.2.2.3 Phương thức hoạt động của FacNet... --- che reg 20</small>
<small>2.2.2.3.1 Trích suất đặc trưng dé nhận diện QUON mặt... ..---«++-+2 20</small>
<small>2.2.2.3.2 Nhận diện gương mặt... --- - 22 2+ + St S2 SE ng Hiệp 20</small>
<small>2.3 Đề xuất giải pháp nhận diện khuôn mặt dé ứng dụng cho bài toán điểm danh sinh</small>
<small>viên. 20</small>
<small>2.4 Kết luận chương...---2--5+ 222k EE2E127121121171211211711211 211111 e6 213 CHƯƠNG 3. UNG DỤNG CÁC PHƯƠNG PHÁP NHẬN DIỆN KHUÔN MAT</small>
<small>TRONG DIEM DANH SINH VIÊNN... 2: 5+ 52‡EE EE2E1E211112112112112112121121.1... xe 223.1. Thiết kế tổng thé hệ thống điểm danh sinh viên...-2- 2 ¿+5 x+5++£zz£z+5+2 223.1.1 Sơ đồ thiết kế hệ thống nhận diện khuôn mặt...-- 2-2 2+ + +x+£z+£z+s+2 223.1.2 Mơ hình triển khai dự kiẾn...---- 22 22+ 2EE2EEt2EE2212212112211221221 22. crk.233.1.3. Môi trường triển khai...--- 2-52 2222 EEEEEEEEE71717111111111 1.111.111 te. 233.1.4 Thiết kế ứng dụng...----:-©-¿+2++2E2E1£EEE2E12212712112717111112112111 11.1. txe 24</small>
<small>3.2 __ Thử nghiệm các phương pháp và đánh giá... ---- S2 + s+svsserrrrerke 27</small>
<small>3.2.1 Thu thập dit liệu đầu vào...----:-2¿+2s+2x+2E2EEE2E2E127121127171.211 2121. 273.2.2 Dữ liệu huấn 907... 1... 27</small>
<small>3.2.3 Tham số dữ liệu đầu vào...--- 2¿+++22+2EEt2EEE2212221211211211221221 212 re. 29</small>
<small>3.2.4 Quá trình huấn luyỆn...----¿- 2 5++SE2EEt2E2E1E71211271211271 711211111111. xe 293.2.4.1 Huấn luyện phát hiện khuôn mặặtt:...- --- -- 2222322 *++EE++eExseersrerxes 293.2.4.2 Huấn luyện nhận diện khuôn mặt...--- 2 2 ++++£++£E+E++Exrxezrxez 303.3 Thử nghiệm chạy hệ thống nhận diện khuôn mặt nhận diện sinh viên... 30</small>
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7"><small>43</small>
<small>3.3.1 6š) ôi. ... 30</small>
<small>3.3.2 Kết quả thực nghiệm...-- 2-52 2 S22 2EEEEEEEE717171111111111. 111111 te. 323.4 Cài đặt, triển khai "38311111177. ƯƠ...ÀÀÀ. 34</small>
<small>3.4.1 Giao diện màn hình webcam nhận dạng khn mặt...-- - ---+=+ss+ 34</small>
<small>3.4.2 Giao điện màn hình chức năng quản lý điểm danh sinh viên... 35</small>
<small>3.4.3. Giao diện màn hình chức năng quản lý mơn học... -- ¿+2 +++s*++sx>++s 353.4.4 Giao diện màn hình chức năng quản lý sinh vIÊn...- 5-5555 **++s++s+ 36</small>
<small>3.5 _ Kết luận chương...--- 5-22 2E E1211211111211111211211111.11 11 1E nrye 36</small>
<small>KET LUẬYN... 5c 51k 1211212121211 1 1 re 37DANH MỤC CÁC TÀI LIEU THAM KHAÁO...-222:522522255++22+>2cvvscesvszs 38</small>
Tên viết tắt Tiếng Anh Tiếng Việt
<small>CNN Convolutional Neural Network Mang no-ron tich chap</small>
FC Fully-connected Lớp kết nỗi day đủ
LDA Principal Components Analysis | Phân tích thành phan
MLP Principal Components Analysis | Mang noron truyền
thang nhiều lớp
MTCNN Multi-task Cascaded Kién trac mang no-ron <small>Convolutional Networks tich chap</small>
PCA Principal Components Analysis Phân tích thành phan
ReLU Rectified Linear Unit Lớp phi tuyên
<small>CSDL Database Cơ sở dữ liệu</small>
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"><small>DANH MỤC HINH ANH</small>
<small>Hình 1-1 Tổng quan các bước cho nhận điện khuôn mặt... 2-2: 2 22 22 +x+zxz£+zsz+2 3Hình 2-1 Tổng quan mơ hình hoạt động Viola-Jones...---- 2-2 5+ ++2x+EzEe£xezxzzzez 10</small>
<small>Hinh 2-2 9714041505) 211 ..ố... 10</small>
<small>Hình 2-3 Đặc trưng cạnh... .-- --- c2. 21121121111 311 15111 11111115111 11111117 11 11 11 11 1H Hư Hy 10</small>
<small>Hình 2-4 Đặc trưng Ẩường... - - - --- -- 22c + 2k1 112112112 12111 11211 11 11 11111 T1 ng 11Hình 2-5 Đặc trưng xung quanh tam... ccc ceccccescesseseceeceseesececeeeeseeseceeeeeeseeeeeeeeseeeensees 11Hình 2-6 Cac bước loại khuôn mặt hay không...- --- --- 5 2222 + SE *++EE++vEEsrersreerrrersrke II</small>
<small>Hình 2-7 kết hợp các bộ phân loại yếu thành bộ phân loại mạnh...-- 2-2 552 12Hình 2-8 Cấu trúc MTCNN...---.:-222:2222+22211222111222112221112111121221121..1. de 13</small>
<small>Hình 2-9 Kim tự tháp hình ảnh...---- c2: 1221121121121 1251151 1512111111111 11 11 11 E11 1g k ngư 14</small>
<small>Hình 2-10 Kernel tìm kiếm khn mặt... ....---::-+2©++++2E+++2£EE+2EEE2EEtzErvsrrvsrrrrrrer 14Hình 2-11 Kiến trúc mơ hình VGGFacc...2--222222222222222221122111221112221 22122 tre 18Hình 2-12 Q trình huấn luyện với Triple Ìoss...-- 2-2-5522 x+S£+£+2E££Evzxzzzxzxrred 19</small>
<small>Hình 2-13 Tạo Vector từ gương TMẶặT... - -- E1 SE H TH TH HT ng HT Hư 19</small>
<small>Hình 3-1 Sơ đồ thiết kế hệ thống nhận diện khn mặt...- 2-2-2 22x+zzz+zz+z+zc+2 22Hình 3-2 Mơ hình triển khai hệ thống...--- ¿- 2 S2 2+EE£EE2EEEEEEEEE2EEEEE1211271 71122121 Ee. 23Hình 3-3 So đồ huấn luyện phát hiện khuôn mặt...-- 2 2 2 + +E££E££E£EE£EEeExzrsrxee 24</small>
<small>Hình 3-4 Quy trình xác định khn mặt... .-- --- --- 5c 3 3223221331351. rrrke 25</small>
<small>Hình 3-5 Quy trình huấn luyện nhận diện khn mặt... -- 2 + + +x+£E+£++E+zz++xez 25Hình 3-6 Quy trình nhận diện khn mặt thực hiện điểm danh...- 2: s-csccxscsrxzxcrx 26Hình 3-7 Database hệ thống điểm danh... -- ¿+ S+£EE£EE£EE£EEEEEEEEEEEEEEEEEEEEEEEerkrreree 26Hình 3-8 Ví dụ về ảnh của một người trOng...----¿- 22 22+2+z+2+++EE+£EEEE2EE2Exerxerxrrxrres 27Hình 3-9 Ảnh 12 khuôn mặt người được đánh thứ tự từ 1 đến 12...---:--- 27Hình 3-10 Dữ liệu huấn luyện nhận diện khn mặt [22]... --- 55+ 5+ ++++s++scx+secsss 28Hình 3-11 Hệ thống nhận diện bình thường...-- - ¿c2 E321 1E 333 EEEErrrrerrrrrse 31</small>
<small>Hình 3-12 Nhận diện khn mặt đeo kính...-- c5 223 221 E +2 + E+EEEEEEEeeekeeeeereseves 31</small>
<small>Hình 3-13 Thực nghiệm nhận diện nhiều khn mặt có điều kiện ánh sáng khác nhau...32</small>
<small>Hình 3-14 Độ chính xác nhận diện trên bộ Faces94 theo từng thư mục... ---- 33</small>
<small>Hình 3-15 Độ chính xác nhận diện trên lớp BA học viện VÏTÌ...----s-s++++<xx++sesss 33</small>
<small>DANH MỤC BẢNG</small>
<small>Bảng 1 Kết quả thực nghiệm... -- 2-2 ©522S2‡SE92EE9EE9EE12E1271211271711211271211211 11.21. crx. 32</small>
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9"><small>Nhận diện khuôn mặt là một trong những lĩnh vực quan trọng của xử</small>
<small>lĩnh vực an ninh, hay trong xử lý video, ảnh. Một trong những ứng dụng</small>
<small>Samsung đang sử dụng.</small>
<small>các phương pháp dùng mơ hình mạng nơ ron sâu như FaceNet, DeepFace,</small>
<small>phương pháp phù hợp, ứng dụng cho việc nhận diện, xác minh sinh viên.Nội dung luận án</small>
CHUONG 1. Tổng quan về bài tốn nhận diện khn mặt
L.1. Tổng quan về xử lý ảnh và bài tốn nhận diện khn mặt
1.2. Một số ứng dụng nhận diện khn mặt
L3. Vai trị và tam quan trọng của hệ thống điểm danh tự động tai các trường
<small>đại học</small>
L4. Kết luận chương
<small>CHƯƠNG 2. Nghiên cứu các phương pháp nhận diện khuôn mặt</small>
2.1. Giới thiệu lý thuyết về học máy, học sâu
CHƯƠNG 3. Ứng dụng các phương pháp nhận diện khuôn mặt trong điểm <small>danh sinh viên</small>
3.1. _ Bài toán điểm danh sinh viên qua nhận diện khuôn mặt
<small>3.2. Thử nghiệm các phương pháp và đánh giá</small>
<small>3.3. Xây dựng ứng dụng thử nghiệm</small> 3.4. Kết luận chương
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11"><small>1</small>
<small>Bài tốn nhận diện khn mặt là một trong những bai toán quan trọng trong</small>
lĩnh vực xử lý ảnh và trí tuệ nhân tạo. Nó liên quan đến việc xác định và phân
<small>biệt các khuôn mặt của con người trong hình ảnh hoặc video. Bài tốn này có</small>
nhiều ứng dụng thực tế, từ nhận diện khuôn mặt trong ảnh chụp, video giám sắt an ninh cho đến các ứng dụng nhận diện khuôn mặt trong điện thoại di động, máy tính hoặc hệ thống đăng nhập bằng khn mặt.
Tuy bài tốn nhận diện khn mặt đã được nghiên cứu và phát triển trong
nhiều năm, nhưng vẫn còn đầy thách thức. Điều này bởi vì nhận diện khn mặt phải đối mặt với các yếu tố biến đổi như thay đổi ánh sáng, góc nhìn, biéu cảm và sự thay đổi trong thời gian. Tuy nhiên, với sự phát triển của công nghệ máy <small>học va học sâu, các phương pháp nhận diện khn mặt ngày cảng dat được độ</small> chính xác cao và ứng dụng rộng rãi trong nhiều lĩnh vực như bảo mật, giao tiếp <small>máy-tài nguyên và nhận diện cá nhân.</small>
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">Bai tốn nhận diện khn mặt có một số u cầu quan trọng dé đạt được kết quả tốt. Dưới đây là các u cầu cơ bản trong bài tốn nhận diện khn mặt:
<small>- Phat hiện và xác định vi trí khn mặt</small>
- Tinh nhất quán và đồng nhất - Trich xuất đặc trưng
<small>- Kha năng nhận diện và phân loại</small>
- _ Độ chính xác và tốc độ xử lý <small>1.1.3 Pham vi và thách thức</small>
<small>Pham vi:</small>
Phạm vi ứng dụng: Bài toán nhận diện khn mặt có thé được áp dụng trong nhiều lĩnh vực, bao gồm an ninh, xác thực người dùng, nhận diện khuôn mặt trong ảnh hoặc video, nhận diện khuôn mặt trong thời gian thực, và nhiều ứng
<small>dụng khác. Tuy nhiên trong luận án này sẽ tập trung vào là xác định danh tính</small>
của sinh viên bằng cách nhận diện và phân loại khn mặt trong q trình điểm
<small>danh. Bài toán tập trung vào việc phát hiện và nhận diện khuôn mặt của sinh viên</small>
<small>dựa trên co sở dữ liệu đã được xây dựng trước đó, đảm bảo tính chính xác và</small>
hiệu suất xử lý trong thời gian thực.
Phạm vi đối tượng: Hệ thống nhận diện khn mặt có thê được thiết kế để nhận diện khuôn mặt của một người cụ thể hoặc nhận diện và phân biệt giữa nhiều khuôn mặt khác nhau trong một cơ sở đữ liệu.
<small>Thách thức:</small>
Khi thực hiện bài tốn nhận diện khn mặt, có một số thách thức quan trọng
mà cần được vượt qua để đạt được kết quả tốt. Dưới đây là một số thách thức
<small>chính:</small>
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">- Thay đổi ánh sáng
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">- Bién đổi góc độ
- _ Biểu cảm khuôn mặt
- Su thay đối về thời gian - _ Độc lập về gương mặt
- Dé liệu huấn luyện hạn chế
<small>trường đại học</small>
Hệ thong diém danh tự động tại các trường đại hoc có vai trị va tầm quan
<small>trọng lớn trong quản lý và theo dõi sự hiện diện của sinh viên trong các khóa học.</small>
Dưới đây là vai trị và tầm quan trọng của hệ thống điểm danh tự động:
- _ Tiết kiệm thời gian và cơng sức
<small>- _ Chính xác va đáng tin cậy</small>
- Theo dõi hiệu suất học tập
- Tang cường an ninh và kiểm soát
- Tao điều kiện cho việc nghiên cứu và phân tích dữ liệu
Với sự phát triển của giáo dục tại Việt Nam, sỐ lượng sinh viên tại các trường đại học ngày càng gia tăng, dẫn đến cơng tác quản lý khó khăn, phức tạp, địi hỏi một hệ thống quản lý thơng minh với ứng dụng của trí tuệ nhân tạo. Khi
36 lượng sinh viên lớn, điều kiện môi trường phức tạp, việc xác minh chính xác được danh tính của sinh viên là một thử thách lớn, mắt thời gian, tốn nhân lực. Do đó các phương pháp điểm danh sinh viên cũ như :
<small>- Giai pháp vân tay- _ GIải pháp thẻ từ</small>
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">Với những nhược điểm rất lớn của các phương pháp điểm danh truyền thống Việc điểm danh qua nhận diện khuôn mặt trở nên cấp thiết vì những lợi ích sau
đây so với các phương pháp điểm danh truyền thống: Không cần thiết sử dụng
<small>thẻ hoặc vân tay, xác thực chính xác và đáng tin cậy, có khả năng tích hợp vào</small>
các hệ thống quản lý điểm danh tự động hiện có một cách linh hoạt. Với những ưu điểm nồi bật trên thì bài tốn xác minh sinh viên qua nhận diện khn mặt khi vào lớp, phòng thi của các trường đại học là một bài tốn cấp thiết.
<small>Mơ tả bài tốn:</small>
Bai tốn điểm danh sinh viên qua nhận diện khn mặt nhằm tự động xác định danh tính của sinh viên trong lớp học. Thay vì sử dụng phương pháp truyền
<small>sinh viên.</small>
<small>1.4.1 Phương pháp Viola-Jones</small>
Phương pháp nhận diện khn mặt Viola-Jones là một thuật tốn phổ biến và hiệu quả được sử dụng dé phát hiện khn mặt trong hình ảnh. Được giới thiệu
<small>bởi Paul Viola và Michael Jones vào năm 2001, thuật toán này đã trở thành mộtcông cụ quan trọng trong lĩnh vực nhận diện khuôn mặt.</small>
<small>Phương pháp Viola-Jones hoạt động theo các bước sau:- Tao ra các tính năng (features)</small>
- Huan luyện một bộ phân lớp AdaBoost
<small>- _ Xác định vi trí khuôn mat</small>
- _ Điều chỉnh thông số AdaBoost
<small>- _ Đánh giá và lọc các khuôn mặt được phát hiện</small>
<small>1.4.2 Phuong pháp VGGFace</small>
<small>Phương pháp VGGFace là một phương pháp nhận diện khn mặt dựa trên</small>
mạng nơ-ron tích chập (CNN) được phát triển bởi nhóm nghiên cứu tại Đại học Oxford. Nó được thiết kế để nhận diện và nhúng các đặc trưng của khuôn mặt
<small>vào không gian vector sô học.</small>
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">Các bước cơ bản của phương pháp VGGFace bao gồm: - _ Xác định và cắt ra khuôn mặt
- Biểu diễn khn mặt bằng mạng nơ-ron tích chập VGGFace
<small>- Nhung khuôn mặt vào không gian vector- So sánh và nhận diện khuôn mặt</small>
<small>1.4.3 Phương pháp Eigenfaces</small>
<small>Eigenfaces là một phương pháp nhận diện khuôn mặt được giới thiệu bởi</small>
<small>Sirovich va Kirby vào năm 1987. Phương pháp nay dựa trên phân tích thành</small> phan chính (PCA) dé giảm số chiều của dữ liệu khuôn mặt và tạo ra một không gian con chứa các thành phần chính quan trọng.
<small>Các bước chính trong phương pháp Eigenfaces là:</small>
- Chuan bị dé liệu:
<small>- _ Xây dựng ma trận anh</small>
<small>- Tinh tốn trung bình khn mặt</small>
<small>- Tinh tốn ma trận hiệp phương sai</small>
<small>- Tinh toán các vectơ riêng và gia tri riêng</small>
- Chon các thành phan chính
- _ Chiếu khn mặt mới
Khi nghiên cứu tổng quan các giải pháp nhận diện khuôn mặt như
Viola-Jones, VGGFace và Eigenfaces dé thực hiện điểm danh tự động, có một số khó
khăn và hạn chế sau đây:
e Kho khăn trong việc phát hiện khuôn mặt với độ chính xác cao khi đối diện với các tình huống có nhiễu, ánh sáng yếu hoặc góc nhìn khác nhau.
© Có thé xảy ra những sai sót trong việc xác định đúng vị trí và đặc trưng của khn mặt, đặc biệt là đối với những khn mặt có biến đổi lớn về góc, tỷ lệ
<small>hoặc ánh sáng.</small>
<small>VGGFace:</small>
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">® Doi hỏi một lượng lớn dt liệu huấn luyện để đạt được độ chính xác cao. Việc thu thập và chuẩn bị đữ liệu huấn luyện có thể tốn kém và tốn thời gian.
<small>¢ D6 phức tạp của mơ hình VGGFace là khá lớn, địi hỏi sức mạnh tính tốn</small>
cao và tài ngun phần cứng mạnh để triển khai và chạy mơ hình một cách
<small>hiệu quả.</small>
e u cau tiền xử ly đữ liệu phức tap, bao gồm việc chuan hóa kích thước va độ
<small>sang cua ảnh.</small>
e Khả năng phân biệt va đặc trưng của mơ hình có thé bị giới hạn khi đối mặt với các biến đôi nghiêng, quay, hay biến dạng ngoại lệ của khuôn mặt.
Đề xuất thực hiện:
Dé giải quyết các van đề trên và cải thiện độ chính xác và hiệu suất của hệ thống điểm danh tự động, có thé sử dụng xử lý ảnh và các thuật toán học sâu như MTCNN và FaceNet. Các giải pháp đề xuất bao gồm:
<small>Bài tốn nhận diện khn mặt là một trong những bai toán quan trọng trong</small>
lĩnh vực xử lý ảnh và máy tính. Nó đóng vai trị quan trọng trong nhiều ứng dụng thực tiễn như bảo mật, điểm danh tự động, giám sát an ninh, xác thực người dùng
Trong quá trình tìm hiểu và nghiên cứu bài toán này, chúng ta đã được tiếp cận với các phương pháp nhận diện khuôn mặt phổ biến: VGGFace, Eigenfaces, Viola-Jones và các ứng dụng của bài toán nhận diện khuôn mặt trong đời sống
Sử dụng MTCNN và FaceNet cho bài tốn nhận diện khn mặt có nhiều ưu
điểm. Đầu tiên, MTCNN và FaceNet có khả năng học được các đặc trưng phức
<small>tạp và phụ thuộc vào ngữ cảnh của ảnh, giúp tăng độ chính xác của bài tốn. Thứ</small> hai, MTCNN và FaceNet cũng có khả năng tự động học các đặc trưng cần thiết từ dữ liệu, giảm thiểu công sức va thời gian cần để tinh chỉnh các thông số của <small>phương pháp nhận diện.</small>
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">Tổng quan, sử dụng MTCNN và FaceNet là một phương pháp hiệu quả dé
đầy đủ tài nguyên và công sức cho việc thu thập và chuẩn bị đữ liệu, cũng như huấn luyện và tinh chỉnh mơ hình deep learning.
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19"><small>2.1. Nghiên cứu các phương pháp phát hiện khuôn mặt</small>
<small>Phát hiện khuôn mặt là một lĩnh vực quan trọng trong lĩnh vực nhận dạngkhuôn mặt và thị giác máy tính. Mục tiêu của nghiên cứu này là tìm ra các</small>
phương pháp hiệu quả để nhận diện và định vị khn mặt trong hình ảnh và
Có nhiều phương pháp đã được đề xuất và nghiên cứu trong lĩnh vực này.
Một trong những phương pháp tiếp cận đầu tiên là sử dụng các đặc trưng cơ bản của khuôn mặt, chăng hạn như mắt, mũi và miệng, để nhận dang và định vi khuôn mặt. Các phương pháp như Viola-Jones, LBP và HOG đã được sử dụng để
trích xuất và xác định các đặc trưng này.
Trong những năm gan đây, các mạng nơ-ron tích chập (CNN) đã trở thành một phương pháp mạnh mẽ để phát hiện khuôn mặt. Các mạng nơ-ron sâu như MTCNN đã được áp dụng dé phát hiện khuôn mặt với hiệu suất cao. Các mạng CNN có khả năng tự động học các đặc trưng từ dữ liệu và đạt được kết quả ấn
<small>tượng trong việc phát hiện khuôn mặt.</small>
Trong luận văn này tập trung nghiên cứu về 2 phương pháp phát hiện khuôn mặt phô biến nhất hiện nay là Viola-Jones và MTCNN.
<small>2.1.1 Phương pháp Viola-Jones</small>
Mơ hình Viola-Jones là một phương pháp phổ biến trong nhận diện đối
tượng, đặc biệt là trong nhận diện khn mặt. Nó được sử dụng để phát hiện các đặc trưng (features) quan trọng trong ảnh và dựa vào đó để xác định có mặt của đối tượng trong ảnh.
Cấu trúc chính của mơ hình Viola-Jones bao gồm hai phần chính: Haar-like <small>features và AdaBoost.</small>
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20"><small>Điều chỉnh thông so AdaBoost</small>
<small>Hình 2-2 Tống quan mơ hình hoạt động Viola-Jones</small>
<small>2.1.1.2 Các đặc trưng Haar-like</small>
<small>Các đặc trưng Haar-like được sử dụng trong việc xác định khn mặt người</small>
là các hình chữ nhật den và trắng. Có tổng cộng bốn đặc trưng cơ bản dé nhận diện khuôn mặt người. Mỗi đặc trưng Haar-like được tạo thành từ sự kết hợp của hai hoặc ba hình chữ nhật trắng hoặc đen, như minh họa dưới đây:
<small>Hình 2-3 Đặc trưng Haar-like</small>
Đề áp dụng các đặc trưng nay vào việc xác định khuôn mặt người, 4 đặc
<small>trưng Haar-like cơ bản đã được mở rộng và chia thành 3 tập đặc trưng như sau:</small>
<small>Đặc trưng canh(edge feature)</small>
<small>Hinh 2-4 Dac trung canh</small>
<small>Đặc trưng đường(line feature)</small>
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21"><small>Hinh 2-6 Dac trung xung quanh tam</small>
<small>2.1.1.3 Lép chon dac trung Ada Boost</small>
Trong một cửa số nhất định, có rất nhiều đặc trưng có thé được lấy ra, nhưng
chỉ có một số ít trong số đó thực sự hữu ích trong việc nhận diện khn mặt. Đề tìm ra những đặc trưng tốt nhất, thuật tốn Adaboost được sử dụng. Các đặc trưng được gan trọng số dé tạo ra một hàm đánh giá quyết định, xác định xem một cửa số có chứa khn mặt hay khơng. Mỗi đặc trưng chỉ được chọn nếu nó có khả năng phát hiện đúng nhiều hơn một nửa các trường hợp ngẫu nhiên.
<small>Hình 2-7 Các bước loại khn mặt hay không</small>
<small>AdaBoost sẽ kêt hợp các bộ phân loại yêu thành bộ phân loại mạnh như sau:</small>
<small>Với a,>= 0 hệ sơ chn hóa cho các bộ phân loại u</small>
Đây là hình ảnh minh họa việc kết hợp các bộ phân loại yếu thành bộ phân <small>loại mạnh</small>
<small>weak weak weak strong</small>
<small>classifier 1 classifier 2 classifier 3 classifier</small>
<small>h2) a(x) hae)</small>
<small>Hình 2-8 kết hợp các bộ phân loại yếu thành bộ phân loại mạnh</small>
</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23"><small>Mơ hình Multi-task Cascaded Convolutional Networks (MTCNN) là một</small>
kiến trúc mạng nơ-ron tích chập (CNN) được sử dụng cho việc nhận diện khuôn
mặt và định vị các điểm đặc trưng trên khuôn mặt trong ảnh. MTCNN là một mơ
hình tổng hợp gồm ba giai đoạn (P-Net, R-Net và O-Net), mỗi giai đoạn tập
<small>MTCNN là một phương pháp nhận diện khuôn mặt được xây dựng dựa trên</small>
mạng Convolutional Neural Network (CNN). Nó bao gồm 3 mạng CNN được xếp chồng và hoạt động đồng thời dé phát hiện khn mặt. Mỗi mạng có cấu trúc <small>riêng biệt và đảm nhận vai trò khác nhau trong nhiệm vụ nhận diện khuôn mặt.</small>
Kết quả đầu ra của MTCNN bao gồm vi trí của khn mặt và các điểm đặc trưng
<small>trên khuôn mặt như mắt, mũi, miệng...</small>
<small>TT “Gonv: 353 Conv3x3 ‘onv: 3x3 ee BH.</small>
<small>Hình 2-9 Cấu trúc MTCNN</small>
</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24"><small>2.1.2.2 Phương thức hoạt động của MTCNN</small>
<small>MTCNN thực hiện quy trình nhận diện khn mặt qua ba bước, mỗi bước sử</small>
dụng một mạng nơ-ron riêng. Bước đầu tiên là mạng P-Net (Proposal Network) để dự đoán các vùng trong ảnh có thê chứa khn mặt. Bước thứ hai là mạng R-Net (Refine R-Network) sử dụng kết quả đầu ra của P-R-Net để loại bỏ các vùng không phải khuôn mặt. Cuối cùng, mạng đầu ra (Output Network) sử dụng đầu ra
của R-Net dé cung cấp kết quả cuối cùng, bao gồm 5 điểm đánh dấu trên khuôn mặt: 2 điểm mắt, 1 điểm mũi và 2 điểm khóe miệng [21].
<small>Đối với mỗi hình ảnh đầu vào, mạng tạo ra một kim tự tháp hình ảnh, tức là</small>
<small>tạo ra nhiêu phiên bản của hình ảnh đó ở các kích thước khác nhau. Mục đích của</small>
việc này là để phát hiện khn mặt ở mọi kích thước có thể có.
<small>Hình 2-10 Kim tự tháp hình ảnh</small>
<small>2.1.2.2.I Mạng P-Net</small>
</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25"><small>Tại mạng P-Net, mỗi hình ảnh được chia tỉ lệ và áp dụng một hạt nhân</small>
(kernel) kích thước 12x12 để qt qua hình ảnh và tìm kiếm khn mặt. Trong
hình ảnh dưới đây, hình vng màu đỏ biểu thị cho hạt nhân di chuyên qua hình ảnh dé tiến hành q trình tìm kiếm khn mặt.
Trong mỗi hạt nhân 12x12 này, có 3 cau trúc khác nhau được áp dụng với
<small>hạt nhân 3x3. Sau mỗi lớp tích chập, một lớp prelu được áp dụng. Ngồi ra, sau</small>
lớp prelu đầu tiên, một lớp max pool được thêm vào dé chỉ lay giá trị lớn nhất
<small>trong vùng lân cận, bỏ qua các giá trị còn lại.</small>
Cấu trúc P-Net trong MTCNN:
Mạng P-Net sử dụng kiến trúc CNN với 3 lớp tích chập và 1 lớp co. Kích thước đầu vào của cửa số trượt là 12x12x3, trong đó 3 đại diện cho 3 kênh mau
(đỏ, xanh lục, xanh lam) trong không gian màu RGB. Kết quả được tạo ra bởi
P-Net bao gồm 3 cụm như sau:
Cụm thứ nhất chứa 2 bộ lọc kích thước 1x1 được sử dụng dé nhận diện
<small>khuôn mặt.</small>
Cụm thứ hai chứa 4 bộ lọc kích thước 1x1 được sử dụng dé tạo khung bao
<small>quanh 4 vi trí giới hạn khn mặt.</small>
Cum thứ ba chứa 10 bộ lọc kích thước 1x1 được sử dụng để tạo khung bao
<small>quanh 10 vi trí khn mặt.</small>
<small>2.1.2.2.2 Mang R- Net</small>
</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">Mang R-Net có cau trúc tương tự P-Net, tuy nhiên có số lớp nhiều hơn. Nó
<small>chính xác hơn.</small>
Cấu trúc R-Net trong MTCNN:
Trong bước R-Net sử dụng kiến trúc CNN gồm: 3 lớp tích chập, 2 lớp co và
1 lớp kết nối đầy đủ. Đầu vào cửa sô trượt với kích thước 24x24x3 (3 tương ứng
với 3 màu: Đỏ, xanh lục, xanh lam trong hệ màu RGB thông thường). Kết quà
<small>của R-Net phân được 3 cụm:</small>
- Cụm thứ nhất có 2 lớp nhận diện khn mặt;
- Cụm thứ hai có 4 lớp đánh dấu vị trí hộp giới hạn;
<small>- Cụm thứ ba có 10 lớp vi trí khn mặt.</small>
<small>2.1.2.2.3 Mạng O-Net</small>
</div>