Tải bản đầy đủ (.doc) (133 trang)

Báo cáo đề xuất phương pháp truy tìm ảnh mặt người trên video

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.72 MB, 133 trang )

Lời cám ơn

Xin chân thành cám ơn các thầy, các cô thuộc khoa điện- điện tử trường Đại Học Tôn
Đức Thắng đã tận tình truyền đạt cho chúng em nhiều kiến thức quý báu.
Chúng em xin gửi lời cám ơn sâu sắc đến Thầy Đỗ Đình Thuấn, Thầy đã hướng dẫn,
giúp đỡ chúng em trong suốt thời gian thực hiện đề tài.
Em xin cảm ơn!

Thành phố Hồ Chí Minh, tháng 5/2012
Nhóm sinh viên thực hiện:
Kiều Anh Dũng – Nguyễn Thanh
Liêm- Trần Nguyễn Văn Đoài
Trình bày báo cáo NCKH
Nội dung của NCKH được tổ chức và trình bày trong 6 chương:
Chương 0: Mở đầu: Giới thiệu về đề tài.
Chương 1: Tổng quan về bài toán nhận dạng mặt người và các cách tiệp cận.
Chương 2:Dò tìm khuôn mặt trong ảnh.
Chương 3: Trích chọn đặc trưng cho ảnh khuôn mặt.
Chương 4:Nhận dạng ảnh khuôn mặt.
Chương 5: Ứng dụng thử nghiệm.
Chương 6: Đánh giá và hướng phát triển.
2
Mục lục
Danh sách các hình
Hình 1.3.1 – 1 : Mô hình tổng quát của bài toán nhận dạng biển số xe 14
Hình 2.2.1 – 1 : Sơ đồ hệ dò tìm khuôn mặt bằng AdaBoost – NN 19
Hình 2.2.2 – 1 : Minh hoạ hệ dò tìm khuôn mặt bằng AdaBoost-Adaboost 19
Hình 2.3.1 – 3 : Ví dụ về ảnh ngược sáng 20
Hình 2.3.1 – 4: Ví dụ về ảnh bị che khuất thành phần quan trọng 20
Hình 2.3.1 – 5 : Ví dụ về ảnh có cảm xúc đặc biệt 20
Hình 3.3.2 – 2: Các ảnh với phương pháp rút trích PCA bị nhận dạng sai với bộ dữ liệu nước


ngoài 22
Hình 3.3.2 – 3 : Các ảnh với phương pháp rút trích ICA bị nhận dạng sai với bộ dữ liệu nước
ngoài 23
Bảng 3.3.4 – 1 : Kết quả so sánh PCA và ICA trên bộ dữ liệu trong nước 24
Hình 3.3.4 – 2 : Các ảnh với phương pháp rút trích PCA bị nhận dạng sai với bộ dữ liệu tự tạo
24
Hình 4.2.1 – 1 :Sơ đồ hệ thống nhận dạng mặt người dùng SVM 26
Hình 4.2.2 – 1 :Sơ đồ hệ thống nhận dạng mặt người dùng mạng Nơron 27
Bảng4.3.2 – 1 : Thời gian huấn luyện SVM và NN bộ dữ liệu nước ngoài 27
Bảng 4.3.2 – 2 : Thời gian nhận dạng thư mục test nước ngoài bằng SVM và NN 28
Bảng 4.3.2 – 3 : Kết quả so sánh nhận dạng SVM và NN trên bộ dữ liệu nước ngoài 29
Hình 4.3.2 – 1 : Biểu đồ kết quả thử nghiệm hai phương pháp nhận dạng SVM và NN trên 29
bộ dữ liệu nước ngoài: thống kê trên bộ test 29
Bảng 4.3.4 - 1: Thời gian huấn luyện SVM và NN bộ dữ liệu trong nước 30
3
Bảng 4.3.4 - 2: Thời gian nhận dạng thư mục test trong nước bằng SVM và NN 30
Bảng 4.3.4 - 3: Kết quả so sánh SVM và NN trên bộ dữ liệu trong nước 31
Hình 4.3.4 - 1 :Biểu đồ kết quả thử nghiệm hai phương pháp nhận dạng SVM và NN 31
trên bộ dữ liệu trong nước: thống kê trên bộ test 31
Hình A.2.2 – 1 : Strong classifier H(x) được xây dựng bằng AdaBoost 41
Hình A.2.2 - 2: Ví dụ minh hoạ sự kết hợp của 3 phân lớp tuyến tính 42
Bảng A.2.2 – 1 : Thuật toán AdaBoost 43
Bảng A.2.2 – 2 : Một phiên bản khác của thuật toán AdaBoost 46
Hình A.2.3 - 1 : Các đặc trưng Haar-like cơ sở 47
Hình A.2.3 - 2: Các miền hình học đặc trưng Haar – like 47
Hình A.2.3 - 3: Ý nghĩa hình học của đạo hàm ảnh 48
Hình A.2.3 - 4: Cách tính giá trị một ô đặc trưng 48
Hình A.2.3 - 5: Dò tìm bàn tay bằng đặc trưng Haar – like 49
Hình A.2.3 - 6: Dò tìm khuôn mặt bằng đặc trưng haar – like 49
50

Hình A.2.4 - 1: Cascade Classifier 50
Hình A.3.3 - 1 Hướng của véc tơ riêng 53
Hình A.4.2 - 1: Hai tín hiệu nguồn ( không quan sát trực tiếp được, tức các tính hiệu ẩn là s1(t)
và s2(t)), hai tín hiệu trộn (quan sát được là x1(t) và x2(t) ) 58
Hình A.4.3 - 1: Các kí hiệu trong ICA 60
Hình A.4.6 - 1: Phân bố kết hợp của hai thành phần độc lập s1, s2 có phân bố đồng nhất (trục
ngang: s1, trục đứng s2) 63
Hình A.4.6 - 2: Phân bố kết hợp của các trộn lẫn x1, x2 (trục ngang x1, trục đứng x2) 63
Hình A.4.6 - 3: Phân phối kết hợp của hai biến Gauss 64
Hình A.4.7.2.1 - 1: Hàm mật độ của phân phối Laplace, một điển hình của phân phối siêu
Gauss, so với phân phối Gauss ở đường gạch nét, cả hai mật độ được chuẩn hóa phương sai
đơn vị 66
Hình A.4.10.2 - 1:Minh họa kiến trúc 1 trong mô hình ICA 75
4
Hình A.4.10.2 - 2: véctơ đặc trưng cho mỗi kĩ thuật. Hàng đầu chứa 8 véctơ riêng với 8 trị
riêng lớn nhất trong PCA. Hàng 2 chứa các vectơ đặc trưng trong ICA với kiến trúc I, hàng 3
chỉ ra 8 véctơ đặc trưng trong ICA với kiến trúc 2 76
Hình A.4.10.2 - 3:Mô hình tổng hợp ảnh cho kiến trúc 1 của ICA 77
Hình A.4.10.3 - 1:minh họa kiến trúc 2 trong mô hình ICA 78
Hình A.4.10.3 - 2:Mô hình tổng hợp ảnh cho kiến trúc 2 của ICA 79
Hình A.4.10.3 - 3:Mô hình tổng hợp ảnh cho kiến trúc 2 của ICA trên pixel 79
Hình A.4.11.1- 2. Sự phân phối dữ liệu trong không gian 3 chiều và các trục tương ứng của
PCA và ICA. Mỗi trục là một cột của ma trận nghịch đảo của ma trận trộn W-1 tìm thấy bới
PCA và ICA. Các trục của PCA trực giao trong khi ICA thì không, do đó khoảng cách các
điểm dữ liệu sẽ thay đổi khi chiếu xuống không gian mới này 81
Hình A.5.1 - 1 : Siêu mặt phân cách tuyến tính cho trường hợp phân cách được và 82
kí hiệu các support véc tơr chính là các điểm được bao bằng viền tròn 82
Hình A.6.1-1: Mô hình một Nơron thần kinh 88
Hình A.6.2.1 - 1: Mô hình Nơron nhân tạo 89
Hình A.6.2.1.1 - 1: Mô hình toán học tổng quát của một Nơron 90

Hình A.6.2.1.3 - 1: Các xử lý tương đương trong một Nơron 91
Hình A.6.2.1.4 - 1: Hoạt động tính toán của Nơron 93
Hình A.6.2.2 - 1: Năm sơ đồ liên kết cơ bản của mạng Nơron: (a) mô hình mạngtruyền thẳng
một lớp; (b) mô hình mạng truyền thẳng đa lớp; (c) mô hình: một Nơron đơn với liên kết phản
hồi đến chính nó; (d) mô hình: mạng lặp một lớp; (e) mô hình: mạng lặp đa lớp 96
Hình A.6.2.2 - 2: Liên kết bên trong của phản hồi 97
Hình A.6.2.3 - 1: Ma trận trọng số nối kết 98
Hình A.6.2.3 - 2 : Học có giám sát 99
Hình A.6.2.3 - 3 : Học tăng cường 99
Hình A.6.2.3 - 4: Học không giám sát 100
Hình A.6.2.3 - 5: Luật học phát sinh trọng số (di không được cung cấp trong trường hợp học
không giám sát) 102
Hình A.6.2.4 - 1: Một số dạng hàm dùng trong ánh xạ từ đầu vào -> đầu ra 104
5
Bảng A.6.2.4 – 1 : Một số hàm truyền thông dụng trong mạng Nơron 105
Hình A.6.2.5 – 1 : Các loại liên kết của Nơron 106
Hình A.6.3.1 - 1 : Cấu hình mạng RBF tiêu biểu 107
Hình A.6.3.1 - 2 : Những tập phân lớp trong không gian 2 chiều 109
HìnhA.6.3.1 - 3 : Ánh xạ các tập phân lớp lên neuron RBF 110
Hình A.6.4.1-1: Minh họa mạng lan truyền thẳng ba lớp 112
Hình B.3.1 – 1: Giao diện chính của chương trình 121
Hình B.3.2 -1: Màn hình minh họa chức năng test trên video 122
Hình B.3.2 – 2 : Giao diện của chương trình khi hoạt động 123
Hình B.3.3 – 1 : Màn hình tham số huấn luyện cho mạng nơron 124
Hình B.3.4 -1 : Màn hình đọc dữ liệu đã huấn luyện 125
Hình B.3.5 – 1: Màn hình test thư mục 126
Hình B.3.6 – 1 : Màn hình nhận dạng trên ảnh tĩnh 127
6
Danh sách các bảng
Hình 1.3.1 – 1 : Mô hình tổng quát của bài toán nhận dạng biển số xe 14

Hình 2.2.1 – 1 : Sơ đồ hệ dò tìm khuôn mặt bằng AdaBoost – NN 19
Hình 2.2.2 – 1 : Minh hoạ hệ dò tìm khuôn mặt bằng AdaBoost-Adaboost 19
Hình 2.3.1 – 3 : Ví dụ về ảnh ngược sáng 20
Hình 2.3.1 – 4: Ví dụ về ảnh bị che khuất thành phần quan trọng 20
Hình 2.3.1 – 5 : Ví dụ về ảnh có cảm xúc đặc biệt 20
Hình 3.3.2 – 2: Các ảnh với phương pháp rút trích PCA bị nhận dạng sai với bộ dữ liệu nước
ngoài 22
Hình 3.3.2 – 3 : Các ảnh với phương pháp rút trích ICA bị nhận dạng sai với bộ dữ liệu nước
ngoài 23
Bảng 3.3.4 – 1 : Kết quả so sánh PCA và ICA trên bộ dữ liệu trong nước 24
Hình 3.3.4 – 2 : Các ảnh với phương pháp rút trích PCA bị nhận dạng sai với bộ dữ liệu tự tạo
24
Hình 4.2.1 – 1 :Sơ đồ hệ thống nhận dạng mặt người dùng SVM 26
Hình 4.2.2 – 1 :Sơ đồ hệ thống nhận dạng mặt người dùng mạng Nơron 27
Bảng4.3.2 – 1 : Thời gian huấn luyện SVM và NN bộ dữ liệu nước ngoài 27
Bảng 4.3.2 – 2 : Thời gian nhận dạng thư mục test nước ngoài bằng SVM và NN 28
Bảng 4.3.2 – 3 : Kết quả so sánh nhận dạng SVM và NN trên bộ dữ liệu nước ngoài 29
Hình 4.3.2 – 1 : Biểu đồ kết quả thử nghiệm hai phương pháp nhận dạng SVM và NN trên 29
bộ dữ liệu nước ngoài: thống kê trên bộ test 29
7
Bảng 4.3.4 - 1: Thời gian huấn luyện SVM và NN bộ dữ liệu trong nước 30
Bảng 4.3.4 - 2: Thời gian nhận dạng thư mục test trong nước bằng SVM và NN 30
Bảng 4.3.4 - 3: Kết quả so sánh SVM và NN trên bộ dữ liệu trong nước 31
Hình 4.3.4 - 1 :Biểu đồ kết quả thử nghiệm hai phương pháp nhận dạng SVM và NN 31
trên bộ dữ liệu trong nước: thống kê trên bộ test 31
Hình A.2.2 – 1 : Strong classifier H(x) được xây dựng bằng AdaBoost 41
Hình A.2.2 - 2: Ví dụ minh hoạ sự kết hợp của 3 phân lớp tuyến tính 42
Bảng A.2.2 – 1 : Thuật toán AdaBoost 43
Bảng A.2.2 – 2 : Một phiên bản khác của thuật toán AdaBoost 46
Hình A.2.3 - 1 : Các đặc trưng Haar-like cơ sở 47

Hình A.2.3 - 2: Các miền hình học đặc trưng Haar – like 47
Hình A.2.3 - 3: Ý nghĩa hình học của đạo hàm ảnh 48
Hình A.2.3 - 4: Cách tính giá trị một ô đặc trưng 48
Hình A.2.3 - 5: Dò tìm bàn tay bằng đặc trưng Haar – like 49
Hình A.2.3 - 6: Dò tìm khuôn mặt bằng đặc trưng haar – like 49
50
Hình A.2.4 - 1: Cascade Classifier 50
Hình A.3.3 - 1 Hướng của véc tơ riêng 53
Hình A.4.2 - 1: Hai tín hiệu nguồn ( không quan sát trực tiếp được, tức các tính hiệu ẩn là s1(t)
và s2(t)), hai tín hiệu trộn (quan sát được là x1(t) và x2(t) ) 58
Hình A.4.3 - 1: Các kí hiệu trong ICA 60
Hình A.4.6 - 1: Phân bố kết hợp của hai thành phần độc lập s1, s2 có phân bố đồng nhất (trục
ngang: s1, trục đứng s2) 63
Hình A.4.6 - 2: Phân bố kết hợp của các trộn lẫn x1, x2 (trục ngang x1, trục đứng x2) 63
Hình A.4.6 - 3: Phân phối kết hợp của hai biến Gauss 64
Hình A.4.7.2.1 - 1: Hàm mật độ của phân phối Laplace, một điển hình của phân phối siêu
Gauss, so với phân phối Gauss ở đường gạch nét, cả hai mật độ được chuẩn hóa phương sai
đơn vị 66
Hình A.4.10.2 - 1:Minh họa kiến trúc 1 trong mô hình ICA 75
8
Hình A.4.10.2 - 2: véctơ đặc trưng cho mỗi kĩ thuật. Hàng đầu chứa 8 véctơ riêng với 8 trị
riêng lớn nhất trong PCA. Hàng 2 chứa các vectơ đặc trưng trong ICA với kiến trúc I, hàng 3
chỉ ra 8 véctơ đặc trưng trong ICA với kiến trúc 2 76
Hình A.4.10.2 - 3:Mô hình tổng hợp ảnh cho kiến trúc 1 của ICA 77
Hình A.4.10.3 - 1:minh họa kiến trúc 2 trong mô hình ICA 78
Hình A.4.10.3 - 2:Mô hình tổng hợp ảnh cho kiến trúc 2 của ICA 79
Hình A.4.10.3 - 3:Mô hình tổng hợp ảnh cho kiến trúc 2 của ICA trên pixel 79
Hình A.4.11.1- 2. Sự phân phối dữ liệu trong không gian 3 chiều và các trục tương ứng của
PCA và ICA. Mỗi trục là một cột của ma trận nghịch đảo của ma trận trộn W-1 tìm thấy bới
PCA và ICA. Các trục của PCA trực giao trong khi ICA thì không, do đó khoảng cách các

điểm dữ liệu sẽ thay đổi khi chiếu xuống không gian mới này 81
Hình A.5.1 - 1 : Siêu mặt phân cách tuyến tính cho trường hợp phân cách được và 82
kí hiệu các support véc tơr chính là các điểm được bao bằng viền tròn 82
Hình A.6.1-1: Mô hình một Nơron thần kinh 88
Hình A.6.2.1 - 1: Mô hình Nơron nhân tạo 89
Hình A.6.2.1.1 - 1: Mô hình toán học tổng quát của một Nơron 90
Hình A.6.2.1.3 - 1: Các xử lý tương đương trong một Nơron 91
Hình A.6.2.1.4 - 1: Hoạt động tính toán của Nơron 93
Hình A.6.2.2 - 1: Năm sơ đồ liên kết cơ bản của mạng Nơron: (a) mô hình mạngtruyền thẳng
một lớp; (b) mô hình mạng truyền thẳng đa lớp; (c) mô hình: một Nơron đơn với liên kết phản
hồi đến chính nó; (d) mô hình: mạng lặp một lớp; (e) mô hình: mạng lặp đa lớp 96
Hình A.6.2.2 - 2: Liên kết bên trong của phản hồi 97
Hình A.6.2.3 - 1: Ma trận trọng số nối kết 98
Hình A.6.2.3 - 2 : Học có giám sát 99
Hình A.6.2.3 - 3 : Học tăng cường 99
Hình A.6.2.3 - 4: Học không giám sát 100
Hình A.6.2.3 - 5: Luật học phát sinh trọng số (di không được cung cấp trong trường hợp học
không giám sát) 102
Hình A.6.2.4 - 1: Một số dạng hàm dùng trong ánh xạ từ đầu vào -> đầu ra 104
9
Bảng A.6.2.4 – 1 : Một số hàm truyền thông dụng trong mạng Nơron 105
Hình A.6.2.5 – 1 : Các loại liên kết của Nơron 106
Hình A.6.3.1 - 1 : Cấu hình mạng RBF tiêu biểu 107
Hình A.6.3.1 - 2 : Những tập phân lớp trong không gian 2 chiều 109
HìnhA.6.3.1 - 3 : Ánh xạ các tập phân lớp lên neuron RBF 110
Hình A.6.4.1-1: Minh họa mạng lan truyền thẳng ba lớp 112
Hình B.3.1 – 1: Giao diện chính của chương trình 121
Hình B.3.2 -1: Màn hình minh họa chức năng test trên video 122
Hình B.3.2 – 2 : Giao diện của chương trình khi hoạt động 123
Hình B.3.3 – 1 : Màn hình tham số huấn luyện cho mạng nơron 124

Hình B.3.4 -1 : Màn hình đọc dữ liệu đã huấn luyện 125
Hình B.3.5 – 1: Màn hình test thư mục 126
Hình B.3.6 – 1 : Màn hình nhận dạng trên ảnh tĩnh 127
Chương 0: Giới thiệu
Mở đầu, chúng tôi sẽ trình bày về hiện trạng thực tế và cách tiếp cận của đề tài:
10
Những năm gần đây, bài toán nhận dạng đã được rất nhiều tác giả quan tâm và đề
xuất nhiều phương pháp giải khác nhau. Tuy nhiên độ chính xác của các phương pháp
chưa cao, các kết quả chứng thực chưa tốt.
Dưới đây tổng kết một số phương pháp trong và ngoài nước đã tiến hành:
 Nước ngoài [3]:
• Dùng phương pháp SVM để nhận dạng khuôn mặt, sử dụng chiến
lược kết hợp nhiều bộ phân loại nhị phân để xây dựng bộ phân loại đa
lớp.
• Sử dụng phương pháp PCA kết hợp LDA (phân tích độc lập tuyến
tính). Bước 1, chiếu ảnh khuôn mặt từ không gian ảnh thô sang các
không gian khuôn mặt (Mỗi lớp khuôn mặt được nhận dạng sẽ được
mô hình hóa bằng một không gian khuôn mặt) dùng PCA. Bước 2, sử
dụng phương pháp LDA để tạo bộ phân loại tuyến tính có khả năng
phân lớp các lớp khuôn mặt
• Sử dụng phương pháp mạng Neural nhân tạo để xử lý và nhận dạng
khuôn mặt
 Trong nước:
• Nhận dạng mặt người dựa vào thông tin dựa vào thông tin khuôn mặt
xuất hiện trên ảnh. Sử dụng phương pháp SVM và HMM [2].
• Nhận dạng mặt người dựa trên FSVM và AdaBoost [1].
• Đề xuất phương pháp rút trích đặc trưng hình học (phát hiện mắt,
miệng) cho bài toán nhận dạng mặt người [3].
Ở giai đoạn dò tìm khuôn mặt phần lớn chỉ áp dụng phương pháp Adaboost, tuy
nhiên phương pháp Adaboost có nhược điểm là phát hiện ra đôi khi sai ảnh khuôn mặt.

Có nhiều phương pháp chứng thực lại ảnh khuôn mặt sau khi được phát hiện bởi
Adaboost, trong luận văn chúng tôi so sánh các phương pháp đã được thực hiện là
11
Adaboost, Adaboost + NN, Adaboost + RBF và đề xuất của chúng tôi là Adaboost +
Adaboost.
Sau khi dò tìm được khuôn mặt, phương pháp trích chọn đặc trưng truyền thống
được sử dụng là phương pháp chia ô lưới thông thường, hoặc phương pháp PCA, tuy
nhiên các phương pháp này còn có những yếu điểm vì vậy chúng tôi áp dụng phương
pháp rút đặc trưng mới ICA. Sau đó, quá trình phân lớp sẽ được thực hiện bằng
phương pháp SVM, Mạng Nơron và so sánh kết quả của hai phương pháp phân lớp
này. Sau đó, từ các kết quả lý thuyết và thực nghiệm chúng tôi lựa chọn ra phương
pháp tốt nhất trong từng giai đoạn để tạo thành một hệ thống tối ưu.
Hệ thống đề xuất cũng được kiểm chứng thông qua một ứng dụng thực tế: truy tìm đối
tượng trong video. Cụ thể, bài toán có thể phát biểu ngắn gọn như sau: Cho trước một
CSDL ảnh mặt người các đối tượng cần truy tìm và một đoạn video quay lại khu vực
cần kiểm soát. Vấn đề đặt ra là: xây dựng hệ thống truy tìm tự động trả lời câu hỏi: ảnh
mặt nguời các đối tượng cần truy tìm có xuất hiện trong đoạn video đã quay hay
không? Bài toán này được áp dụng rộng rãi cho nhiều lĩnh vực khác nhau: Phát hiện
khủng bố, ngăn chặn truy cập bất hợp pháp, …
Đó chính là nội dung đề tài khóa luận của chúng tôi: “Đề xuất phương pháp truy tìm
ảnh mặt người trên video”
Về nội dung, luận văn tập trung vào các vấn đề sau:
 Tìm hiểu cơ sở lý thuyết áp dụng cho bài toán nhận dạng: AdaBoost, PCA,
ICA, SVM, Mạng Nơron.
 Dò tìm và chứng thực khuôn mặt: Adaboost, Mạng Nơron truyền thẳng ba
lớp, mạng nơron RBF.
 Áp dụng phương pháp trích chọn đặc trưng mới ICA.
 Chuẩn bị cơ sở dữ liệu riêng cho ứng dụng: bộ dữ liệu chuẩn nước ngoài và
bộ dữ liệu tự tạo.
12

 Báo cáo kết quả thử nghiệm. Tiến tới xây dựng mô hình nhận dạng tối ưu
nhất.
 Xây dựng ứng dụng truy tìm đối tượng trên video.
Chương 1 Tổng quan về bài toán nhận dạng mặt người
1.1 Một số ứng dụng của nhận dạng biển số xe trong thực tế:
13
-
1.2. Những khó khăn đề ra trong bài toán nhận dạng biển số:
-
1.3. Đề xuất mô hình giải quyết ứng với từng khâu của bài toán nhận dạng mặt
người.
1.3.1 Mô hình tổng quát của bài toán nhận dạng mặt người:
Hình 1.3.1 – 1 : Mô hình tổng quát của bài toán nhận dạng biển số xe
1.3.2 Các công trình nghiên cứu về phương pháp dò tìm và nhận dạng khuôn
mặt:
Bài toán nhận dạng biển số xe cần xác định bốn vấn đề chính:
Ngoài nước:
 Wenyi Zhao, Arvindh Krishnaswamy, Rama Chellappa, Danie L.Swets, John Weng
14
(1998) sử dụng phương pháp PCA (phân tích thành phần chính) kết hợp LDA
(phân tích độc lập tuyến tính). Bước 1, chiếu ảnh khuôn mặt từ không gian ảnh thô
sang không gian các không gian khuôn mặt (Mỗi lớp khuôn mặt được nhận dạng sẽ
được mô hình hóa bằng mộtkhông gian khuôn mặt) dùng PCA. Bước 2, sử dụng
phương pháp LDA để tạo bộ phân loại tuyến tính có khả năng phân lớp các lớp
khuôn mặt.
 John Daugnman (1998) , đưa ra phương pháp dùng đặc trưng về tròng của mắt để
phân biệt cặp (trai/gái) song sinh.
 Emmanuel Viennet và Francoise Fogelman Soulie (1998) , sử dụng phương pháp
mạng neural nhân tạo để xử lý và nhận dạng khuôn mặt.
 Antonio J.Colmenarez và Thomas S.Huang (1998), sử dụng kỹ thuật học thị giác và

phù hợp mẫu 2-D. Ông quan niệm bài toán dò tìm khuôn mặt là thao tác phân loại
khuôn mặt trong đó khuôn mặt thuộc về một lớp và các đối tượng khác thuộc về
lớp còn lại bằng cách ước lượng mô hình xác suất cho mỗi phân lớp, và việc dò
tìm sử dụng luật quyết định Maximum-likelihood.
 Kazunori Okada, Johannes Steffens, Thomas Maurer, Hai Hong, Egor Elagin,
Hartmut Neven, and Christoph (1998), nhận dạng khuôn mặt dựa vào sóng Gabor
và phương pháp phù hợp đồ thị bó. Với ý tưởng dùng đồ thị để biểu diễn khuôn
mặt, ảnh khuôn mặt được đánh dấu tại các vị trí đã được xác định trước trên khuôn
mặt, gọi các vị trí này chính là các vị trí chuẩn. Khi thực hiện thao tác so khớp đồ
thị với một ảnh, các điểm chuẩn (Jets) sẽ trích ra từ ảnh và so sánh các điểm chuẩn
này với tất cả các điểm chuẩn tương ứng trong các đồ thị khác nhau, và đồ thị nào
phù hợp nhất với ảnh sẽ được chọn.
 Baback Moghaddam và Alex Pentland (1998) , đưa ra phương pháp phù hợp thị
giác trực tiếp từ các ảnh cần sử dụng cho mục đích nhận dạng khuôn mặt và dùng
độ đo xác suất để tính độ tương tự.
 Massimo Tistaelli và Enrico Grosso (1998), đưa ra kỹ thuật thị giác động. Vì khả
15
năng quan sát các chuyển động của khuôn mặt và xử lý các tính huống theo dự định
là thông tin rất quan trọng, từ đó nhận được mô tả đầy đủ hơn về khuôn mặt cho
mục đích thu thập mẫu và nhận dạng.
 Jeffrey Huang, Chengjun Liu, và Harry Wechsler (1998), đề xuất thuật toán căn cứ
trên tính tiến hóa (Evolutionary computation) và di truyền (Genetic) cho các tác vụ
nhận dạng khuôn mặt. Đối với cách tiếp cận này, hai mắt sẽ được dò tìm trước tiên
và thông tin này được xem là vết để quan sát khuôn mặt, trình xử lý dò tiếp mắt
bằng cách sử dụng một thuật toán lai để kết hợp thao tác học và tiến hóa trong quá
trình học.
 Daniel Bgraham và Nigel M Allinson (1998), sử dụng phương pháp được gọi là tạo
bản sao không gian đặc trưng để biểu diễn và nhận dạng hướng di chuyển của
khuôn mặt.
 Ara V.Nefian và Monson H.Hayes III (1998) trình bày hướng tiếp cận theo mô

hình mô hình Markov ẩn (HMM) trong đó ảnh mẫu khuôn mặt được lượng hóa
thành chuỗi quan sát trên khuôn mặt theo quan niệm dựa trên thứ tự xuất hiện các
đặc trưng khuôn mặt {hai chân mày, hai lông mi, mũi, miệng, cằm}. Trong chuỗi
quan sát đó, mỗi quan sát lại là một vector nhiều chiều và mỗi vector quan sát này
được sử dụng để đặc trưng cho mỗi trạng thái trong chuỗi trạng trạng thái của
HMM. Mỗi người được ước lượng bằng một mô hình của HMM.
 Guodong Guo, Stan Z.Li, Kap Luk Chan (17 January 2001), dùng phương pháp
SVM để nhận dạng khuôn mặt. Sử dụng chiến lược kết hợp nhiều bộ phân loại nhị
phân để xây dựng bộ phân loại SVM đa lớp.
Trong nước:
 Trần Phước Long, Nguyễn Văn Lượng (Luận văn cử nhân tin học, ĐH KHTN
TP.HCM, 7/2003) , nhận dạng khuôn mặt dựa vào các thông tin xuất hiện trên ảnh
bằng SVM và HMM.
 Lu Buon Vinh, Hoàng Phương Anh (Luận văn cử nhân tin học, ĐH KHTN
16
TP.HCM, 7/2004) , nhận dạng mặt người dựa trên FSVM và AdaBoost.
 Nguyễn Anh Tuấn (Luận văn cử nhân tin học, ĐH KHTN TP.HCM 7/2004), khảo
sát ứng dụng của tập thô trong lựa chọn và rút gọn đặc trưng cho bài toán nhận
dạng mặt người.
 Lê Minh Trí – Nguyễn Thúy Hằng (2006) [3], Đề xuất phương pháp trích chọn đặc
trưng mới cho bài toán nhận dạng mặt người, Luận văn Cử nhân CNTT Trường Đại
Học KHTN TPHCM
1.3.3 Hướng tiếp cận trong luận văn để giải quyết bài toán nhận dạng khuôn
mặt:
- Giải quyết bài toán nhận dạng mặt người là giải quyết một bài toán lớn, trong
bài toán này người ta phải giải quyết bốn bài toán nhỏ hơn, chính là bốn vấn đề
chính trong bài toán nhận dạng mặt người 1.3.2, trong bốn bài toán nhỏ có rất
nhiều phương pháp để giải quyết, luận văn chúng tôi sẽ giải quyết từng giai đoạn
của bài toán nhận dạng mặt người bằng cách so sánh các phương pháp đã có và
các phương pháp do chúng tôi đề xuất.

- Từ kết quả so sánh, tiến tới xây dựng mô hình hoàn chỉnh cho bài toán nhận
dạng mặt người.
- So sánh, đánh giá mô hình đề xuất với một số mô hình truyền thống trên CSDL
ứng dụng cụ thể, từ đó chỉ ra tính ưu việt của mô hình đề xuất, từ đó đưa ra lớp bài
toán thích hợp với mô hình đề xuất.
Cụ thể trong từng vấn đề:
 Để detect khuôn mặt trong ảnh, luận văn so sánh bốn phương pháp: Adaboost [3],
Adaboost + mạng Nơron 3 lớp [12], Adaboost + Mạng Nơron RBF [27], Adaboost
+ Adaboost.
 Đặc trưng được lựa chọn cho khuôn mặt là đặc trưng toàn cục của khuôn mặt kết
hợp với các đặc trưng của các bộ phận: mắt trái, mắt phải, miệng [3].
 Về vấn đề rút trích đặc trưng, luận văn so sánh hai phương pháp rút trích đặc trưng
17
cho khuôn mặt được xem là mạnh nhất hiện nay là phân tích thành phần chính
(Principal Component Analysis - PCA) [3] và phân tích thành phần độc lập
(Independent Component Analysis - ICA).
 Phương pháp huấn luyện cho máy nhận dạng khi đã có tập vectơ đặc trưng: luận
văn so sánh hai phương pháp được xem là mạnh nhất hiện nay là Mạng Nơron (NN)
và Support Vectơ Machine (SVM) [6].
Chương 2: Dò biển số xe trong ảnh
2.1 Bài toán:
18
Ảnh biển số xe thường là ảnh bao gồm cả background, để có thể nhận dạng được đối
tượng trong ảnh trước hết phải giải quyết bài toán dò tìm biển số xe của đối tượng nằm
tại vị trí nào trong ảnh.
2.2 Đề xuất phương pháp:
2.2.1 Các phương pháp đã được thực hiện [1][3][12][27]:
Hình 2.2.1 – 1 : Sơ đồ hệ dò tìm khuôn mặt bằng AdaBoost – NN
2.2.2 Phương pháp đề xuất trong luận văn:
Hình 2.2.2 – 1 : Minh hoạ hệ dò tìm khuôn mặt bằng AdaBoost-Adaboost

2.3 Các kết quả thực nghiệm của từng phương pháp:
2.3.1 Cơ sỡ dữ liệu thử nghiệm:
19
Hình 2.3.1 – 3 : Ví dụ về ảnh ngược sáng
Hình 2.3.1 – 4: Ví dụ về ảnh bị che khuất thành phần quan trọng
Hình 2.3.1 – 5 : Ví dụ về ảnh có cảm xúc đặc biệt
.
20
Chương 3 Trích chọn đặc trưng cho biển số xe
3.1 Bài toán:
Sau khi phát hiện được khuôn mặt trong ảnh đầu vào ta cần phải biểu diễn ảnh khuôn
mặt thành một véc tơ đặc trưng, tuy nhiên vì kích thước ảnh khuôn mặt quá lớn nếu
biểu diễn véc tơ là các pixel của ảnh khuôn mặt thì có thể làm cho quá trình huấn luyện
và nhận dạng rất chậm, và xảy ra trường hợp quá khớp vì vậy bài toán đặt ra là cần phải
có phương pháp để biểu diễn ảnh khuôn mặt thành véc tơ đặc trưng mà vẫn giữ lại
được những thành phần quan trọng của ảnh.
3.2 Đề xuất phương pháp:
3.2.1 Các phương pháp đã được thực hiện [3][6][12]:
3.3 Các kết quả thực nghiệm của từng phương pháp:
3.3.1 Cơ sở dữ liệu thử nghiệm chuẩn nước ngoài :
3.3.2 Kết quả :
21
Nhận xét:
Các ảnh với phương pháp rút trích PCA bị nhận dạng sai:
Hình 3.3.2 – 2: Các ảnh với phương pháp rút trích PCA bị nhận dạng sai với bộ dữ liệu nước ngoài
22
Các ảnh với phương pháp rút trích ICA bị nhận dạng sai:
Hình 3.3.2 – 3 : Các ảnh với phương pháp rút trích ICA bị nhận dạng sai với bộ dữ liệu nước ngoài
3.3.3 Cơ sở dữ liệu tự tạo:
Bộ dữ liệu được tổng hợp từ hai nguồn:

 Học sinh trường THPT Nguyễn Hữu Cầu ( huyện Hóc Môn, thành
phố Hồ Chí Minh) [6]
 Một số sinh viên trong khoa CNTT trường khoa học tự nhiên[3]
Tổng cộng ảnh của 19 người Số ảnh huấn luyện là 83 ảnh, số ảnh test là 76 ảnh
Nhận xét tập ảnh trong nước: Tập ảnh học sinh trường THPT Nguyễn Hữu Cầu có
nhiều ảnh khuôn mặt quay trái, phải, một số ảnh quá tối, hoặc độ sáng không đồng đều
trên khuôn mặt:
3.3.4 Kết quả :
Người
Số ảnh
train
Train
đúng
Số ảnh
test
PCA + FNN ICA +FNN
Đúng Tỉ Lệ Đúng Tỉ Lệ
23
1 6 100% 5 5 100.00% 5 100.00%
2 6 100% 5 5 100.00% 5 100.00%
3 5 100% 3 3 100.00% 3 100.00%
4 5 100% 3 3 100.00% 3 100.00%
5 5 100% 4 3 75.00% 4 100.00%
6 4 100% 5 5 100.00% 5 100.00%
7 5 100% 6 5 83.33% 6 100.00%
8 3 100% 4 4 100.00% 4 100.00%
9 4 100% 4 4 100.00% 4 100.00%
10 5 100% 3 3 100.00% 3 100.00%
11 4 100% 4 4 100.00% 4 100.00%
12 3 100% 5 5 100.00% 5 100.00%

13 3 100% 4 4 100.00% 4 100.00%
14 4 100% 2 2 100.00% 2 100.00%
15 4 100% 3 3 100.00% 3 100.00%
16 5 100% 5 5 100.00% 5 100.00%
17 4 100% 4 4 100.00% 4 100.00%
18 4 100% 4 4 100.00% 4 100.00%
19 4 100% 3 3 100.00% 3 100.00%
Tổng
cộng 83 100% 76 74 97.37% 76 100.00%
Bảng 3.3.4 – 1 : Kết quả so sánh PCA và ICA trên bộ dữ liệu trong nước
Các ảnh nhận dạng sai của rút trích PCA
Hình 3.3.4 – 2 : Các ảnh với phương pháp rút trích PCA bị nhận dạng sai với bộ dữ liệu tự tạo
3.4 Kết luận:
24
Từ cơ sở lý thuyết ta thấy phương pháp rút trích đặc trưng ICA tốt hơn phương pháp
PCA và điều này đã được chúng tôi kiểm chứng qua thực nghiệm trên tập dữ liệu chuẩn
CalTech cũng như tập dữ liệu do chúng tôi tự tạo. Tóm lại tại giai đoạn rút trích đặc
trưng phương pháp ICA tốt hơn phương pháp PCA.
Chương 4 : Nhận dạng biển số xe
4.1 Bài toán :
Sau khi có được véc tơ đặc trưng của khuôn mặt, vấn đề tiếp theo cần phải giải quyết là
làm sao để so khớp hai véc tơ đặc trưng, tức là làm sao để xác định một khuôn mặt có
sẵn trong cơ sở dữ liệu và một khuôn mặt đầu vào của hệ thống nhận dạng có phải là
một hay không. Có nhiều phương pháp để giải quyết vấn đề này. Trong luận văn chúng
tôi áp dụng hai phương pháp nhận dạng được xem là mạnh nhất hiện nay.
25

×