Tải bản đầy đủ (.pdf) (110 trang)

Nghiên cứu và biểu diễn nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy.

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.41 MB, 110 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

NGUYỄN NĂNG HÙNG VÂN

NGHIÊN CỨU BIỂU DIỄN VÀ NHẬN DẠNG
ĐỐI TƯỢNG CHUYỂN ĐỘNG DỰA TRÊN ĐẠI SỐ
HÌNH HỌC BẢO GIÁC VÀ HỌC MÁY

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Đà Nẵng – 2021


BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

NGUYỄN NĂNG HÙNG VÂN

NGHIÊN CỨU BIỂU DIỄN VÀ NHẬN DẠNG
ĐỐI TƯỢNG CHUYỂN ĐỘNG DỰA TRÊN ĐẠI SỐ
HÌNH HỌC BẢO GIÁC VÀ HỌC MÁY

Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số

: 62 48 01 01

LUẬN ÁN TIẾN SĨ KỸ THUẬT



Người hướng dẫn khoa học:
1. PGS.TS. Kanta Tachibana
2. TS. Phạm Minh Tuấn

Đà Nẵng - 2021


LỜI CAM ĐOAN
Tôi cam đoan các kết quả nghiên cứu được trình bày trong luận án là trung
thực và khơng sao chép từ bất kỳ luận án nào khác. Một số kết quả nghiên cứu là
thành quả của tập thể và đã được các đồng tác giả đồng ý cho sử dụng. Mọi trích dẫn
đều có ghi nguồn gốc xuất xứ rõ ràng và đầy đủ.

Tác giả

Nguyễn Năng Hùng Vân

i


MỤC LỤC
LỜI CAM ĐOAN ................................................................................................... i
MỤC LỤC ............................................................................................................. ii
DANH MỤC CÁC TỪ VIẾT TẮT ....................................................................... v
DANH MỤC KÝ HIỆU TOÁN HỌC .................................................................. vi
DANH MỤC HÌNH VẼ ....................................................................................... vii
DANH MỤC BẢNG BIỂU .................................................................................... x
MỞ ĐẦU ................................................................................................................ 1
1. Mục tiêu nghiên cứu.................................................................................. 3

2. Đối tượng và phạm vi nghiên cứu............................................................. 4
3. Phương pháp nghiên cứu .......................................................................... 5
4. Bố cục của luận án .................................................................................... 5
5. Đóng góp chính của luận án...................................................................... 6
Chương 1. PHƯƠNG PHÁP BIỂU DIỄN ĐỐI TƯỢNG CHUYỂN ĐỘNG
TRONG HỌC MÁY .............................................................................................. 9
1.1 Phương pháp biểu diễn dữ liệu trong không gian ................................. 9
1.1.1 Phương pháp biểu diễn dữ liệu bằng không gian vectơ................. 10
1.1.2 Phương pháp biểu diễn dữ liệu bằng ma trận ................................ 10
1.1.3 Phương pháp biểu diễn dữ liệu bằng Ten-xơ ................................ 11
1.2 Phương pháp biểu diễn đối tượng chuyển động trong học máy ......... 12
1.2.1 Biểu diễn dữ liệu dựa trên mơ hình xác suất ................................. 13
1.2.2 Phương pháp giảm chiều dữ liệu .................................................. 16
1.2.3 Phương pháp tăng chiều dữ liệu ................................................... 19
1.3 Phương pháp biểu diễn đối tượng chuyển động sử dụng CGA........... 25
1.3.1 Đại số hình học ............................................................................ 27

ii


1.3.2 Đại số hình học bảo giác .............................................................. 27
1.4 Kết luận chương .................................................................................... 28
Chương 2. ĐỀ XUẤT PHƯƠNG PHÁP BIỂU DIỄN ĐỐI TƯỢNG CHUYỂN
ĐỘNG DỰA TRÊN ĐẠI SỐ HÌNH HỌC BẢO GIÁC ..................................... 31
2.1 Đại số hình học hình học bảo giác ........................................................ 31
2.1.1 Đại số hình học ............................................................................ 31
2.1.2 Đại số hình học Bảo giác ............................................................. 37
2.2 Đề xuất phương pháp phân cụm dữ liệu sử dụng CGA ...................... 41
2.2.1 Phân cụm dữ liệu sử dụng CGA dựa trên GMM........................... 43
2.2.2 Lượng tử hóa vectơ dựa trên phân cụm dữ liệu sử dụng CGA ...... 45

2.2.3 Phương pháp kết hợp HMM với phân cụm sử dụng CGA ............ 49
2.3 Đề xuất phương pháp trích chọn đặc trưng sử dụng CGA ................. 50
2.3.1 Phương pháp trích chọn đặc trưng sử dụng PCA .......................... 51
2.3.2 Phương pháp trích chọn đặc trưng sử dụng CGA ......................... 53
2.3.3 Phương pháp PCR kết hợp với CGA ............................................ 55
2.3.4 Phương pháp trích chọn đặc trưng sử dụng CGA kết hợp RNN.... 60
2.4 Kết luận chương .................................................................................... 64
Chương 3. TRIỂN KHAI THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ........ 67
3.1 Dữ liệu thực nghiệm .............................................................................. 68
3.1.1 Đối tượng chuyển động trong không gian .................................... 68
3.1.2 Bộ dữ liệu chuyển động CMU...................................................... 69
3.1.3 Dữ liệu thực nghiệm .................................................................... 71
3.2 Nhận dạng hành động dựa trên phân cụm CGA kết hợp với HMM .. 71
3.2.1 Kết quả thực nghiệm .................................................................... 72
3.2.2 Đánh giá kết quả .......................................................................... 74

iii


3.3 Nhận dạng hành động dựa vào phương pháp PCR kết hợp với CGA 75
3.3.1 Các phương pháp thực nghiệm ..................................................... 76
3.3.2 Kết quả thực nghiệm .................................................................... 76
3.3.3 Đánh giá kết quả .......................................................................... 79
3.4 Nhận dạng hành động dựa vào phương pháp CGA kết hợp với RNN79
3.4.1 Kết quả thực nghiệm .................................................................... 79
3.4.2 Đánh giá kết quả .......................................................................... 81
3.5 Kết luận chương .................................................................................... 82
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN........................................................... 84
1. Kết quả của luận án ................................................................................ 84
2. Đánh giá kết quả ..................................................................................... 84

3. Hướng nghiên cứu tiếp theo.................................................................... 87
DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ..................... 88
TÀI LIỆU THAM KHẢO ................................................................................... 89

iv


DANH MỤC CÁC TỪ VIẾT TẮT
Thuật ngữ

Tiếng Anh

Tiếng Việt

2D

Two Dimension

Hai chiều

3D

Three Dimension

Ba chiều

AI

Artificial Intelligence


Trí tuệ nhân tạo

ANN

Artificial Neural Network

Mạng nơron nhân tạo

CGA

Conformal Ageometric Algebra

Đại số hình học bảo giác

CMU

Carnegie Mellon University

Đại học Carnegie Mellon

CNN

Convolutional Neural Network

Mạng nơron tích chập

Deep Learning

Học sâu


Dynamic Time Warping

So khớp thời gian động

EM

Expectation Maximization

Thuật toán cực đại hóa kỳ vọng

GA

Geometric Algebra

Đại số hình học

GMM

Gaussian Mixture Model

Mơ hình hỗn hợp Gauss

HAR

Human Activity Recognition

Nhận dạnh hành động người

HMM


Hidden Markov Model

Mơ hình Markov ẩn

KNN

k-Nearest Neighbor

LDA

Linear Discriminant Analysis

Phân tích biệt thức tuyến tính

LSTM

Long Short Term Memory

Mạng nơron nhớ ngắn-dài hạn

m-D

m-Dimension

m chiều

PCA

Principal Components Analysis


Phân tích thành phần chính

PCR

Principal Component Regression

Hồi quy thành phần chính

RGB

Red Green Blue

Hệ màu Đỏ-Lục-Lam

RNN

Recurrent Neural Network

Mạng nơron hồi quy

SVM

Support Vector Machine

Máy vectơ hỗ trợ

Vector Quantization

Lượng tử hóa vectơ


DL
DTW

VQ

láng giềng gần nhất

v


DANH MỤC KÝ HIỆU TOÁN HỌC
Ký hiệu, từ viết tắt

Diễn giải
Hàm số Lagrange
Ma trận phương sai trong CGA
Ma trận phương sai trong PCA
Ma trận khoảng cách
Hàm mật độ xác suất Gauss
Tập dữ liệu huấn luyện
Số phân cụm
Xác suất chuyển từ trạng thái trong HMM
Mật độ xác suất đầu ra trong HMM
Tập các điểm trong không gian CGA
Vectơ bảo giác trong khơng gín CGA
Các trạng thái trong HMM
Vectơ trọng số của phép biến đổi tuyến tính trong PCA
Vectơ trung bình trong tập dữ liệu
Hàm kích hoạt trong mơ hình RNN


vi


DANH MỤC HÌNH VẼ
Hình 1.1: Mơ hình huấn luyện dữ liệu trong học máy ................................... 9
Hình 1.2: Mơ hình hỗn hợp Gauss của M phân phối thành phần ................. 14
Hình 1.3: Mơ hình Markov ẩn 3 trạng thái. ................................................. 15
Hình 1.4: Biểu diễn dữ liệu trong không gian mới của PCA ........................ 17
Hình 1.5: Phương pháp phân tích biệt thức tuyến tính hai lớp ..................... 18
Hình 1.6: Xác định siêu phẳng với lề cực đại của SVM trong 2D................ 20
Hình 1.7: Minh họa quá trình biểu diễn tăng số chiều dữ liệu bằng phương
pháp kernel SVM ........................................................................................ 21
Hình 1.8: Mạng nơron với các nút kết nối với nhau để mô phỏng mạng nơron
trong não người........................................................................................... 22
Hình 1.9: Kiến trúc của mạng nơron tích chập gồm hai thành phần ............. 23
Hình 1.10: Phép tích chập trong mạng nơron tích chập ............................... 24
Hình 1.11: Tầng hợp nhất (max pool) với bộ lộc và bước nhảy (stride) bằng 2
trong mạng nơron tích chập......................................................................... 25
Hình 1.12: Mơ hình khớp xương và mật độ phân bố dữ liệu khớp lhumerus 26
Hình 2.1: Biểu diễn 2 vectơ trong khơng gian Clifford 2D .......................... 32
Hình 2.2: Biểu diễn 3 vectơ trong khơng gian Clifford 3D .......................... 33
Hình 2.3: Phép ngoại tích trong đại số hình học .......................................... 34
Hình 2.4: Phản xạ một vectơ qua một mặt phẳng trong khơng gian GA ...... 35
Hình 2.5: Phép quay trong khơng gian GA .................................................. 36
Hình 2.6: Mơ hình nhận dạng hành động dựa trên phương pháp phân cụm sử
dụng CGA kết hợp với HMM ..................................................................... 42
Hình 2.7: Dữ liệu của đối tượng phân bố dạng hình cung ............................ 43
Hình 2.8: Phân cụm dữ liệu bằng cách sử dụng đại số hình học bảo giác .... 48

vii



Hình 2.9: Mơ hình nhận dạng hành động bằng phương pháp lượng tử hóa vectơ
dựa trên phân cụm dữ liệu sử dụng CGA và thuật tốn k-means ................. 48
Hình 2.10: Mơ hình nhận dạng hành động bằng hương pháp kết hợp HMM với
phân cụm sử dụng CGA .............................................................................. 49
Hình 2.11: Mơ hình nhận dạng hành động sử dụng phương pháp trích chọn đặc
trưng sử dụng CGA_PCA ........................................................................... 51
Hình 2.12: So sánh phương pháp biểu diễn dữ liệu trong PCA và CGA ...... 54
Hình 2.13: Minh họa phương pháp biểu diễn dữ liệu sử dụng PCR trong một
lớp .............................................................................................................. 55
Hình 2.14: Dữ liệu phân bố hai lớp dạng hỗn hợp của đối tượng chuyển động
trong khơng gian ......................................................................................... 57
Hình 2.15: Mơ hình đề xuất nhận dạng hành động dựa vào PCR kết hợp với
CGA ........................................................................................................... 58
Hình 2.16: Ma trận khoảng cách của đối tượng ........................................... 59
Hình 2.17: Phương pháp trích chọn đặc trưng sử dụng CGA kết hợp với RNN
để nhận dạng hành động con người ............................................................. 61
Hình 2.18: Mơ hình mạng nơron hồi quy ‘many to one’.............................. 63
Hình 3.1: Mơ hình khởi tạo đối tượng (marker) chuyển động trên cơ thể, nguồn
từ [21] ......................................................................................................... 68
Hình 3.2: Mơ hình hóa các khớp xương (marker) trên cơ thể ...................... 69
Hình 3.3: Kết quả nhận dạng sử dụng HMM dựa trên thuật toán phân cụm kmean và phương pháp đề xuất CGA clustering ........................................... 75
Hình 3.4: Mơ hình khớp xương và mật độ phân bố dữ liệu khớp lhumerus . 77
Hình 3.5: Kết quả của phương pháp đề xuất sử dụng PCR kết hợp với CGA để
nhận dạng hành đồng con người.................................................................. 78
Hình 3.6: So sánh kết quả của các phương pháp đề xuất thực nghiệm ......... 78

viii



Hình 3.7: Kết quả nhận dạng hành động người khi kết hợp PCA và RNN ... 80
Hình 3.8: Kết quả nhận dạng hành động người khi kết hợp CGA và RNN .. 81

ix


DANH MỤC BẢNG BIỂU
Bảng 3.1: Bộ dữ liệu thực nghiệm ............................................................... 71
Bảng 3.2: Bảng so sánh kết quả nhận dạng hành động khi sử dụng CGA
clustering và thuật toán k-means trong VQ ................................................. 73
Bảng 3.3: Bảng so sánh kết quả khi sử dụng phương pháp tiền xử lý trên mơ
hình huấn luyện RNN ................................................................................. 80
Bảng 3.4: Bảng so sánh kết quả của hai phướng pháp đề xuất ..................... 82
Bảng 3.5: Bảng tổng hợp kết quả của các phương pháp đề xuất .................. 85

x


MỞ ĐẦU
Học máy là một lĩnh vực của Trí tuệ nhân tạo liên quan đến việc phát triển các
kỹ thuật cho phép máy tính có thể thực hiện được các bài toán phức tạp. Cốt lõi của
học máy là phân tích các tập dữ liệu để tìm ra những quy luật và mơ hình thích hợp
nhất để vận dụng vào thực tiễn. Những nghiên cứu trong lĩnh vực học máy đang
hướng đến tất cả lĩnh vực khác nhau trong cuộc sống như tin sinh học, y học, thị giác
máy tính [14], xử lý ngơn ngữ tự nhiên [19] và Trí tuệ nhân tạo [54] để cung cấp cho
người dùng các công cụ xử lý thông tin và hỗ trợ ra quyết định [62].
Ngày nay, khoa học và công nghệ phát triển đã tạo ra một khối lượng dữ liệu
lớn từ các hệ thống giao dịch điện tử, hệ thống lưu trữ dữ liệu đa phương tiện và các
ứng dụng của cảm biến trong internet vạn vật (internet of things). Sự phát triển công

nghệ đã thúc đẩy các nhà nghiên cứu chuyển từ thu, nhận dữ liệu ở mức thấp sang
nghiên cứu tích hợp mức cao có khả năng phân tích, nhận dạng và dự báo các vấn đề
có thể xảy ra trong tương lai [20]. Do đó, ngày càng nhiều bài toán thực tế cần được
giải quyết, đặc biệt là nhận dạng đối tượng chuyển động trong không gian để hỗ trợ
cho các hệ thống an ninh, ngôi nhà thông mình, bệnh viện thơng minh, v.v. và cung
cấp cho người dùng những cơng cụ ngày càng hồn thiện hơn.
Trong mơ hình huấn luyện nhận dạng đối tượng chuyển động [45], dữ liệu đầu
vào được biểu diễn dưới dạng không gian vectơ đặc trưng và sử dụng các phương
pháp biểu diễn dữ liệu để trích chọn đặc trưng cho các mơ hình học máy [14] phân
loại đối tượng. Hiện nay, có rất nhiều nghiên cứu liên quan đến biểu diễn đối tượng
trong học máy được các nhà khoa học đề xuất và thử nghiệm. Các nghiên cứu đã tập
trung vào phương pháp trích chọn đặc trưng giảm số chiều dữ liệu như phân tích
thành phần chính (Principal Components Analysis - PCA) [36], phân tích biệt thức
tuyến tính (Linear Discriminant Analysis - LDA) [42] và hồi quy thành phần chính
(Principal Component Regression - PCR) [35] và phương pháp tăng chiều dữ liệu
như máy vectơ hỗ trợ (kernel Support Vector Machine - SVM) [11, 90] và mạng

1


nơron (Neural Network - NN) [8]. Tuy nhiên, các phương pháp này chủ yếu sử dụng
phương pháp tuyến tính và giả sử dữ liệu phân bố trên mặt phẳng hay siêu mặt phẳng
đặc biệt nào đó mà khơng phải dạng phân bố ngẫu nhiên trong khơng gian. Do đó,
q trình biểu diễn các đối tượng chuyển động dựa vào học máy đã gặp rất nhiều khó
khăn:
-

Thứ nhất, việc thu thập dữ liệu đầu vào từ nhiều nguồn, nhiều định dạng
khác nhau rất phức tạp, trong khi đó các phương pháp biểu diễn dữ liệu bị
giới hạn bởi các thuật toán đã có sẳn.


-

Thứ hai, các đặc trưng của đối tượng thường rất lớn và không phải đặc
trưng nào cũng tốt cho các mơ hình học máy.

-

Thứ ba, các thuật tốn phổ biến trong học máy thường sử dụng các phép
biến đổi tuyến tính và giả sử các đối tượng đều phân bố trên mặt phẳng hay
siêu phẳng. Điều này dẫn đến những khó khăn nhất định đối với dữ liệu
phân bố trên hình cầu hay siêu cầu, chẳng hạn như các đối tượng chuyển
động quay trong không gian nhiều chiều.

-

Thứ tư, các hàm tối ưu trong học máy đa phần sử dụng hàm khoảng cách
Euclid nên không phản ánh được mối liên kết hình học và biểu diễn khơng
chính xác chuyển động của đối tượng. Ví dụ như, D. Gehrig [15] sử dụng
các phương pháp biệt thức tuyến tính (LDA) và chuyển tiếp tuần tự
(Sequential Forward Selection - SFS) để lựa chọn đặc trưng và giảm chi
phí tính tốn. L. Fengjun [26] phân tích và đưa ra bảy loại đặc trưng khác
nhau dựa vào tư thế người và kết hợp với các khớp xương, sau đó sử dụng
mơ hình Markov ẩn (Hidden Markov Model - HMM) [24, 44, 53] để xây
dựng mơ hình nhận dạng. J. B. MacQueen [37] đã phân cụm dữ liệu bằng
cách tối thiểu hàm mục tiêu khoảng cách để gắn nhãn cho dữ liệu.

Vì vậy, luận án đề xuất sử dụng đại số hình học bảo giác (Conformal
Geometric Algebra - CGA) [17, 18] để biểu diễn các đối tượng chuyển động trong
không gian. CGA được mở rộng từ không gian thực


2

chiều bằng cách thêm hai


vectơ cơ sở và sử dụng phép biến đổi để chuyển các vectơ trong không gian thực
thành tập hợp điểm trong không gian CGA. Một vectơ trong không gian CGA được
biểu diễn dưới dạng là một điểm, mặt phẳng, siêu phẳng hoặc siêu cầu. Vì vậy, sử
dụng CGA để biểu diễn các đối tượng chuyển động trong khơng gian có dữ liệu phân
bố phức tạp dạng siêu phẳng hoặc siêu cầu rất đơn giản và chính xác.
Xuất phát từ nhu cầu thực tiễn trên, tôi chọn đề tài “Nghiên cứu biểu diễn và
nhận dạng đối tượng chuyển động dựa trên đại số hình học bảo giác và học máy”
để làm nội dung nghiên cứu của luận án Tiến sĩ, nhằm góp phần vào việc biểu diễn
đối tượng chuyển động trong không gian và ứng dụng vào lĩnh vực xử lý ảnh, nhận
dạng vật thể chuyển động quay trong không gian và nhận dạng hành động con người.
1. Mục tiêu nghiên cứu
Mục tiêu của luận án là nghiên cứu đại số hình học bảo giác để biểu diễn các
đối tượng chuyển động phức tạp trong khơng gian. Trên cơ sở đó, đề xuất mơ hình
kết hợp đại số hình học bảo giác với học máy để nâng cao hiệu quả nhận dạng các
đối tượng chuyển động trong không gian và hành động của con người. Đặc biệt, luận
án tập trung vào các vấn đề nghiên cứu sau đây:
-

Thứ nhất, luận án nghiên cứu tổng quan về biểu diễn dữ liệu trong không
gian và phương pháp biểu diễn dữ liệu trong học máy. Tổng quan về đại
số hình học, đại số hình học bảo giác và tìm hiểu về một số mơ hình học
máy được sử dụng phổ biến hiện nay.

-


Thứ hai, luận án nghiên cứu và đề xuất kết đại số hình học bảo giác với
học máy để phân cụm dữ liệu cho mơ hình Markov ẩn huấn luyện và nhận
dạng.

-

Thứ ba, từ những ưu điểm của đại số hình học bảo giác để biểu diễn đối
tượng chuyển động trong không gian, luận án đề xuất sử dụng CGA thay
thế cho PCA để tối ưu hóa dữ liệu trong mơ hình học máy PCR và áp dụng
cho nhận dạng hành động con người.

3


-

Thứ tư, luận án đề xuất giảm chiều dữ liệu bằng phương pháp trích chọn
đặc trưng sử dụng đại số hình học bảo giác và kết hợp với mạng nơron hồi
quy (RNN) để nhận dạng hành động con người.

-

Thứ năm, luận án kiểm chứng các mơ hình đề xuất bằng cách xây dựng mơ
hình thực nghiệm dựa trên các phương pháp đề xuất để đánh giá và chọn
ra mơ hình có kết quả tốt nhất.

Nhằm đáp ứng hiệu quả các phương pháp được đề xuất, luận án đã tiến hành
thiết lập và thử nghiệm trên bộ dữ liệu chụp chuyển động của Trường Đại học
Carnegie Mellon (Carnegie Mellon University, USA – CMU) [95] với nhiều hành

động khác nhau của con người. Các thực nghiệm được tiến hành với nhiều tham số
khác nhau để so sánh, đánh giá và phân tích các kết quả thu được để từ đó đưa ra
hướng nghiên cứu phù hợp cho luận án.

2. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận án gồm:
-

Đại số hình học và đại số hình học bảo giác.

-

Một số mơ hình học máy như HMM, PCR và RNN.

-

Phương pháp phân cụm dữ liệu và trích chọn đặc trưng sử dụng đại số hình
học bảo giác trong chuyển động quay và hành động con người.

Xác định mục tiêu và đối tượng nghiên cứu như trên, phạm vi nghiên cứu của
luận án tập trung vào các vấn đề chính như sau:
-

Nghiên cứu về đại số hình học bảo giác dựa trên mối liên kết hình học như
điểm, đường thẳng, mặt phẳng, hình cầu, siêu cầu để áp dụng vào học máy.

-

Nghiên cứu mơ hình đại số hình học bảo giác trong học máy bao gồm hai
cơng việc chính là: (1) sử dụng CGA để phân cụm và trích chọn đặc trưng

của đối tượng; (2) kết hợp CGA với một số mơ hình học máy để huấn luyện
và nhận dạng đối tượng chuyển động.

Luận án đề xuất sử dụng CGA để biểu diễn đối tượng chuyển động và kết hợp

4


CGA với học máy để nhận dạng hành động người.

3. Phương pháp nghiên cứu
Việc thực hiện luận án dựa trên cơ sở kế thừa các kiến thức nền tảng trong
khoa học và kỹ thuật sau đây:
-

Đại số hình học và đại số hình học bảo giác

-

Các kỹ thuật và mơ hình trong học máy.

-

Xử lý ảnh và khoa học dữ liệu.

Phương pháp nghiên cứu sử dụng trong luận án là phương pháp kết hợp lý
thuyết và thực nghiệm để đánh giá kết quả của mơ hình đề xuất, như:
-

Tìm hiểu các nghiên cứu liên quan về học máy và đại số hình học bảo giác.

Trên cơ sở đó đánh giá ưu điểm, khuyết điểm của từng phương pháp để đề
xuất phương pháp nghiên cứu và mơ hình biểu diễn đối tượng chuyển động
trong không gian. Việc đánh giá các phương pháp sẽ dựa vào tỷ lệ nhận
dạng chính xác và tốc độ xử lý.

-

Phân tích những đặc điểm của đối tượng chuyển động trong không gian 3D
và sử dụng bộ dữ liệu CMU để thực nghiệm.

Xây dựng mơ hình dựa trên các phương pháp đề xuất để thực nghiệm và đánh
giá kết quả.

4. Bố cục của luận án
Trên cơ sở các nhiệm vụ nghiên cứu, để đạt mục tiêu đề ra và đảm bảo tính
hợp lý của vấn đề nghiên cứu, ngoài phần mở đầu, phần kết luận và hướng phát
triển, luận án được cấu trúc với ba chương và nội dung chính của các chương như
sau:
Chương 1. Phương pháp biểu diễn đối tượng chuyển động trong học máy.
Giới thiệu tổng quan về phương pháp biểu diễn dữ liệu trong không gian và phương
pháp biểu diễn dữ liệu trong học máy, trong đó chú trọng vào phương pháp biểu diễn

5


đối tượng chuyển động bằng cách sử dụng đại số hình học bảo giác.
Chương 2. Đề xuất phương pháp biểu diễn đối tượng chuyển động dựa
trên đại số hình học bảo giác. Trình bày về đại số hình học với các toán tử, phép
phản xạ và phép quay được sử dụng để giải quyết các vấn đề trong không gian nhiều
chiều; đại số hình học bảo giác giới thiệu về phương pháp xấp xỉ siêu phẳng và siêu

cầu. Trình bày các đề xuất áp dụng đại số hình học bảo giác để biểu diễn đối tượng
chuyển động trong không gian. Trong đó, tập trung vào đề xuất kết hợp đại số hình
học bảo giác với mơ hình hỗn hợp Gauss và lượng tử hóa vectơ để phân cụm dữ liệu,
phương pháp kết hợp CGA với PCR để phân lớp dữ liệu và phương pháp trích chọn
đặc trưng của đối tượng dựa vào CGA. Cuối cùng là phần kết luận và đánh giá những
ưu điểm, nhước điểm của các mơ hình đề xuất cũng như sự cần thiết của việc kết hợp
đại số hình học với học máy.
Chương 3. Triển khai thực nghiệm và đánh giá kết quả. Trình bày về việc
xây dựng các mơ hình thực nghiệm dựa trên mơ hình đề xuất và dữ liệu của đối tượng
chuyển động. Mơ hình phân cụm dữ liệu sử dụng CGA kết hợp với HMM, mơ hình
phân lớp PCR sử dụng CGA và phương pháp trích chọn đặc trưng CGA kết hợp với
RNN. Cuối cùng là kết luận và đánh giá kết quả thử nghiệm để từ đó đưa ra hướng
nghiên cứu tiếp theo của luận án.

5. Đóng góp chính của luận án
Để thực hiện các mục tiêu đặc ra, luận án đã nghiên cứu về mặt lý thuyết, xây
dựng mơ hình đề xuất và tiến hành thực nghiệm để có các kết quả định lượng cao như
mong đợi. Các đóng góp chính của luận án bao gồm những nội dung sau:
Đóng góp thứ nhất của luận án là đề xuất phương pháp phân cụm dữ liệu
bằng cách sử dụng đại số hình học bảo giác và kết hợp với mơ hình Markov ẩn để
huấn luyện và nhận dạng hành động. Cụ thể là:
-

Hàm mật độ xác suất của phân phối Gauss biểu diễn dữ liệu bằng cách tối
ưu khoảng cách từ điểm đến vectơ trung bình và phân phối dữ liệu thường

6


gom cụm với nhau dạng hình “chng”, tức là dữ liệu gần tâm được phân

bố dày hơn và dữ liệu xa tâm thì phân bố thưa hơn. Nên khi dữ liệu phân
bố phức tạp trong khơng gian như hình cong hay siêu cầu thì hàm mật độ
Gauss thường biểu diễn khơng chính xác. Vì vậy, luận án đề xuất phương
pháp kết hợp CGA với hàm mật độ Gauss để phân cụm dữ liệu phân bố
phức tạp trong không gian.
-

Phương pháp phân cụm dữ liệu sử dụng thuật toán k-means để phân tách
dữ liệu thành

cụm dựa vào bài toán tối ưu khoảng cách Euclid từ điểm

đến trọng tâm của cụm, tức là khoảng cách từ một điểm đến một điểm trong
mặt phẳng. Luận án đề xuất phương pháp lượng tử hóa vectơ dựa trên phân
cụm dữ liệu CGA. CGA sẽ tối ưu khoảng cách từ điểm đến trọng tâm
(vectơ đại diện) của cụm có thể là điểm, mặt phẳng hoặc siêu cầu trong
khơng gian CGA. Vì vậy, trong trường hợp dữ liệu phân bố phức tạp như
hình cong hoặc siêu cầu thì đề xuất này sẽ biểu diễn rất chính xác.
Đóng góp thứ hai của luận án là đề xuất phương pháp sử dụng CGA thay thế
cho PCA để xác định phương sai trong mơ hình phân lớp dữ liệu sử dụng phương
pháp hồi quy thành phần chính (PCR). Cụ thể là:
-

Phương pháp hồi quy thành phần chính sẽ đi tìm tọa độ của từng lớp sao
cho phương sai của dữ liệu khi chiếu lên hệ trục mới là nhỏ nhất, tức là
PCR sẽ giải quyết bài toán tối ưu cho từng lớp bằng cách sử dụng thuật
tốn PCA để tìm phương sai nhỏ nhất trong từng lớp. Luận án đề xuất
phương pháp PCR kết hợp với CGA để giải quyết bài toán tối ưu khoảng
cách từ một điểm đến một vectơ trong khơng gian CGA xác định tìm
phương sai (giá trị riêng) nhỏ nhất trong từng lớp.


Đóng góp thứ ba của luận án là đề xuất phương pháp giảm chiều dữ liệu
bằng cách trích chọn đặc trưng sử dụng đại số hình học bảo giác. Cụ thể là:
-

Phương pháp giảm chiều dữ liệu thơng thường sử dụng các thuật tốn PCA
và LDA để xây dựng hệ trục tọa độ mới và xác định phương sai của đối
7


tượng trên hệ trục này. Tuy nhiên, luận án đề xuất phương pháp trích chọn
đặc trưng sử dụng đại số hình học bảo giác và xác định phương sai bằng
cách tối ưu hàm khoảng cách từ một điểm đến vectơ đại diện trong khơng
gian CGA (vectơ này có thể là điểm, đường, siêu phẳng hoặc siêu cầu).
Phương pháp đề xuất này rất phù hợp cho dữ liệu phân bố phức tạp dạng
hỗn hợp siêu phẳng hoặc siêu cầu trong không gian.
Đóng góp thứ tư của luận án là đề xuất phương pháp tiền xử lý dữ liệu đầu
vào cho phương pháp trích chọn đặc trưng của đối tượng nhằm nâng cao hiệu quả
trong nhận dạng hành động người. Cụ thể là:
-

Khi con người di chuyển thì các khớp sẽ di chuyển theo và dữ liệu các
khớp phân bố phức tạp trong không gian. Tuy nhiên, trong một số trường
hợp khi con người di chuyển thì có những khớp khơng dịch chuyển hoặc ít
dịch chuyển (dịch chuyển khơng đáng kể). Vì vậy, nếu lấy dữ liệu tất cả
các khớp để trích chọn đặc trưng hoặc huấn luyện thì dữ liệu sẽ rất lớn, nên
luận án đề xuất phương pháp tiền xử lý để chọn ra những khớp có dịch
chuyển lớn. Phương pháp đề xuất này sẽ xây dựng ma trận khoảng cách
giữa các cặp khớp, tiếp đến là lựa chọn các khớp bằng cách xác định
phương sai của các cặp khớp nằm trong giá trị của ngưỡng sẽ được chọn.


-

Hành động con người sẽ không đồng nhất với nhau như đi bộ, chạy thì
hành động này sẽ dịch chuyển tịnh tiến theo một hướng. Đối với những
hành động như múa hay nhảy thì chuyển động sẽ diễn ra tại một vị trí cố
định (khơng tịnh tiến). Vì vậy, luận án đề xuất phương pháp tiền xử lý để
đồng bộ các hành động này lại với nhau bằng cách dịch tọa độ các khớp để
các hành động như múa, nhảy, đi bộ và chạy… diễn ra tại một vị trí.

Luận án nghiên cứu theo hướng ứng dụng kỹ thuật vào thực tiễn. Kết quả
nghiên cứu đã mở ra một hướng mới về biểu diễn đối tượng chuyển động trong không
gian dựa vào đại số hình học bảo giác và kết hợp đại số hình học bảo giác với các mơ
hình học máy.
8


Chương 1.
PHƯƠNG PHÁP BIỂU DIỄN ĐỐI TƯỢNG CHUYỂN ĐỘNG
TRONG HỌC MÁY

Trong chương 1, luận án sẽ trình bày các vấn đề liên quan đến phương pháp
biểu diễn dữ liệu trong không gian và biểu diễn đối tượng chuyển động dựa vào các
kỹ thuật học máy. Đặc biệt là những khó khăn khi biểu diễn dữ liệu đối tượng chuyển
động trong khơng gian mà luận án tập trung nghiên cứu. Hình 1.1 khái qt hóa các
nội dung chính trong chương, bao gồm: Phần 1.1 trình bày các phương pháp biểu
diễn dữ liệu trong không gian bằng cách khởi tạo không gian vectơ, ma trận, ten-xơ
(tensor) đặc trưng. Phần 1.2 trình bày các phương pháp biểu diễn dữ liệu trong học
máy như phương pháp xác định xác suất phân bố của dữ liệu, phương pháp biểu diễn
dữ liệu tăng và giảm số chiều. Phần 1.3 là phương pháp biểu diễn đối tượng chuyển

động trong không gian bằng cách sử dụng đại số hình học bảo giác. Cuối cùng là phần
kết luận chương và nêu ra một số vấn đề quan trọng mà luận án đã tập trung giải
quyết.

Hình 1.1: Mơ hình huấn luyện dữ liệu trong học máy

1.1 Phương pháp biểu diễn dữ liệu trong không gian
Dữ liệu đầu vào trong các mơ hình học máy thơng thường là dữ liệu thơ (dữ
liệu ghi nhận từ các thiết bị đầu vào) có thể tồn tại ở các dạng khác nhau như văn bản
(text), âm thanh (sound), hình ảnh (image) và phim (video). Các loại dữ liệu này sẽ
9


được biểu diễn theo những đặc điểm dữ liệu riêng như âm thanh có thể được biểu
diễn dưới dạng tần số và cường độ, hình ảnh có thể biểu diễn dưới dạng mức sáng và
màu (RGB) và phim thì có thể biểu diễn dưới dạng khung hình và màu hình…. Tuy
nhiên, để xử lý cũng như thực hiện các tính tốn trong học máy thì dữ liệu được biểu
diễn lại dưới dạng không gian vectơ [78, 56], ma trận [31, 72] hoặc ten-xơ (tensor)
[26] đầu vào của các thuật toán trong học máy [6, 36, 40, 85].

1.1.1 Phương pháp biểu diễn dữ liệu bằng không gian vectơ
Phương pháp biểu diễn dữ liệu bằng không gian vectơ là phương pháp ánh xạ
một tập dữ liệu vào không gian vectơ nhiều chiều và được áp dụng trong hầu hết các
lĩnh vực của khoa học máy tính. Một khơng gian vectơ chứa các dãy số, các giá trị
trong dãy số được gọi là các phần tử của vectơ và có thể viết

để chỉ phần tử thứ

trong vectơ . Trong toán học, một vectơ cột được biểu diễn dưới dạng


vectơ hàng được biểu diễn dưới dạng
các phần tử thứ đến thứ
={

∈ ℝ},



=[

], trong đó

=





, …,



của vectơ và các phần tử này là số thực thì có thể ký hiệu

∈ {1, … , }.

1.1.2 Phương pháp biểu diễn dữ liệu bằng ma trận
Phương pháp biểu diễn dữ liệu bằng ma trận là phương pháp sử dụng rất phổ
biến trong xử lý ảnh và nhận dạng [12, 73]. Một ma trận được khái quát hóa để biểu
diễn dữ liệu bằng hai trục gọi là hàng và cột. Một ma trận

cột có các phần tử là giá trị số thực, mỗi phần tử
{1, … ,

} và cột thứ ∈ {1, … , } của ma trận

=





10

×

gồm

hàng và

sẽ nằm ở hàng thứ ∈

. Trong toán học, một ma trận có

thể được biểu diễn như sau,





∈ℝ





Trong ma trận

∈ℝ

×

bất kỳ có số hàng bằng số cột (

= ) thì ma trận

được gọi là ma trận vng. Trong tính tốn, có thể hốn đổi các hàng và cột của
ma trận

để có được ma trận chuyển vị được ký hiệu là

, nếu

=

=

thì

với mọi và .
Hai phương pháp biểu diễn dữ liệu đầu vào bằng ma trận có thể kể đến là mạng
nơron tích chập [85] và thuật tốn P. Viola [72] trong nhận dạng hình ảnh.


1.1.3 Phương pháp biểu diễn dữ liệu bằng Ten-xơ
Ten-xơ (tensor) [1] là một khái niệm phổ biến sử dụng để biểu diễn dữ liệu
nhiều chiều trong học máy. Ten-xơ số thực với




∈ {1, … ,

bậc dạng tổng quát



} trong không gian Euclid ℝ , trong trường hợp vectơ ( =

1) và ma trận ( = 2). Các phần tử trong ten-xơ được xác định bằng các chỉ số trên
từng chiều của ten-xơ, trong trường hợp ten-xơ ba chiều được ký hiệu là
mỗi phần tử

sẽ nằm ở hàng thứ ∈ {1, … ,

∈ℝ

× ×

,

}, cột thứ ∈ {1, … , } và chiều sâu


∈ {1, … , } của ten-xơ . Các dạng dữ liệu phổ biến được biểu diễn bằng ten-xơ:
-

Dữ liệu vectơ (vector data) là một ten-xơ hai chiều thường áp dụng trong
các thuật tốn học máy và có cấu trúc hàng và cột như (sample, feature).
Trong đó, sample là số chuỗi và feature là số đặc trưng của dữ liệu.

-

Dữ liệu chuỗi thời gian và dữ liệu chuỗi (time series and sequence data)
là một cấu trúc dữ liệu gồm nhiều giá trị liên tiếp theo trình tự thời gian
dạng ba chiều. Dữ liệu dạng này thường được ứng dụng rộng rãi trong
nhiều lĩnh vực như quản lý quy trình chất lượng, phân tích thị trường chứng
khốn và dự báo và phân tích kinh tế [20].

-

Dữ liệu hình ảnh (image data) là một ten-xơ có cấu trúc thơng thường
chứa các thơng tin độ sáng, điểm ảnh và kênh màu có dạng (sample, height,
width, chanel). Trong đó, sample là số hình ảnh, height là chiều cao của
hình, width là chiều rộng của hình, chanel là số kênh màu. Ví dụ có 5000
hình có kích thước 200 × 200, đối với ảnh màu RGB là (5000, 200, 200,

11


3), ảnh trắng đen hay xám là (5000, 200, 200, 1) [5, 86].
-

Dữ liệu video (video data) là một cấu trúc ten-xơ và mỗi video bao gồm

nhiều khung hình (mỗi hung hình là một hình ảnh). Nên dữ liệu video sẽ
có dạng (sample, frames, height, width, chanel) hoặc đơn giản hơn là dữ
liệu dạng tọa độ 3 chiều của các đối tượng [95].

Ngày nay, lượng dữ liệu được sinh ra rất nhanh từ các giao dịch điện tử, dữ
liệu âm thanh, hình ảnh và các ứng dụng của cảm biến trong Internet of Things. Lượng
dữ liệu lớn đã thúc đẩy các nhà nghiên cứu chuyển từ thu, nhân dữ liệu sang nghiên
cứu tích hợp ở mức cao hơn có khả năng phân tích, dự báo và nhận dạng các đối
tượng. Vì vậy, cần phải lựa chọn phương pháp học máy phù hợp với dữ liệu đầu vào
để biểu diễn dữ liệu và xây dựng mơ hình huấn luyện nhằm nâng cao hiệu quả xử lý
dữ liệu.

1.2 Phương pháp biểu diễn đối tượng chuyển động trong học máy
Học máy (tiếng Anh: Machine Learning) [14] có rất nhiều phương pháp và
thuật tốn khác nhau. Đồng thời cũng có nhiều cách để phân loại các thuật toán học
máy, cách phân loại phổ biến nhất là chia học máy thành hai loại cơ bản là học có
giám sát và học khơng giám sát:
-

Học có giám sát (Supervised learning) [14] là phương pháp học máy sử
dụng bộ dữ liệu huấn luyện có gán nhãn. Tức là dữ liệu bao gồm các cặp
các đối tượng có đầu vào và đầu ra tương ứng. Một số thuật tốn học có
giám sát phổ biến như: máy vectơ hỗ trợ [12, 66], mơ hình Markov ẩn 24,
53], mạng nơ-ron (NN) [54].

-

Học không giám sát (Unsupervised learning) [96] là phương pháp học máy
sử dụng tập dữ liệu không gán nhãn (gọi là tập dữ liệu quan sát), tức là
không biết trước đầu ra tương ứng cho mỗi đối tượng. Một số phương pháp

phổ biến trong học không giám sát như k-mean [71], Fuzzy C-means
(FCM), Hierarchical Agglomerative Clustering (HAC) [47], Mô hình hỗn
hợp Gauss (GMM) [40, 43].
12


Việc lựa chọn phương pháp học máy để biểu diễn dữ liệu phụ thuộc rất nhiều
vào dữ liệu đầu vào và mục đích biểu diễn dữ liệu của hệ thống. Dưới đây, luận án
giới thiệu một số phương pháp biểu diễn dữ liệu rất phổ biến như mơ hình xác suất,
phương pháp biểu diễn giảm và tăng chiều dữ liệu trong học máy.

1.2.1 Biểu diễn dữ liệu dựa trên mô hình xác suất
Mơ hình xác suất [14] là một trong những mơ hình quan trọng nhất của khoa
học hiện đại và đặc biệt là học máy [10] bởi vì đa phần các thuật toán trong học máy
đều dựa trên cơ sở xác suất. Trong các mơ hình học máy thơng thường dữ liệu đầu
vào rất lớn, nếu chúng ta xử lý trên toàn bộ dữ liệu đầu vào này sẽ tốn rất nhiều chi
phí tính tốn và khơng gian lưu trữ. Vì vậy, sử dụng các tham số trong mơ hình xác
suất như trung bình, phương sai và độ lệch chuẩn để thay thế cho dữ liệu lớn sẽ làm
giảm được chi phí tính tốn và lưu trữ.
Trong phần này, luận án trình bày hai mơ hình xác suất được áp dụng rất phổ
biến là mơ hình hỗn hợp Gauss để biểu diễn dữ liệu và HMM áp dụng phổ biến trong
huấn luyện dữ liệu và nhận dạng.
1.2.1.1 Mơ hình hỗn hợp Gauss
Mơ hình hỗn hợp Gauss (tiếng Anh: Gaussian Mixture Model - GMM) [25,
40, 43] là một mơ hình phân phối xác suất rất quan trọng và được sử dụng rất phổ
biến trong các nghiên cứu về nhận dạng hình ảnh, nhận dạng tiếng nói và hành động
[51, 89]. GMM được biểu diễn bởi tổng trọng số các hàm mật độ xác suất của
phối Gauss [1] thành phần là

,


( )=
trong đó,
chiều,



,…,

.
( | ,∑ )

(1.1)

là vectơ đặc trưng của đối tượng cần biểu diễn trong không gian

là các trọng số của hỗn hợp thoả mãn điều kiện 0 ≤

1, ∈ {1, … ,

phân

≤ 1 và ∑

} là số lượng các thành phần của hàm mật độ Gauss như Hình 1.2.

13

=



×