Tải bản đầy đủ (.pdf) (23 trang)

tiểu luận môn học khai thác dữ liệu đề tài tìm hiểu các mô hình học sâu cho bài toán đánh giá cảm xúc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (700.03 KB, 23 trang )

lOMoARcPSD|9242611

Bà GIAO THƠNG VÀN TÀI
TR¯àNG Đ¾I HàC GIAO THƠNG V¾N TÀI TP.HCM

TIÂU LN MƠN HàC
KHAI THÁC DỮ LIÞU

ĐÀ TÀI:
TÌM HIàU CÁC MƠ HÌNH HàC SÂU
CHO BÀI TỐN ĐÁNH GIÁ CÀM XC
HVTH:

ắNG THANH V - 1948010109
TRĂNG THị BIN - 1948010106

Lp:

Khoa hỏc máy tính - KM1902

GVHD:

TS. LÊ VN QUàC ANH

TP.HCM, tháng 07 năm 2022


lOMoARcPSD|9242611

MĀC LĀC
1.



Giới thiáu ................................................................................................................3

2.

Tổng quan ...............................................................................................................5

3.

2.1.

Ph°¡ng pháp truyÁn tháng..............................................................................6

2.2.

Ph°¡ng pháp hián đ¿i .....................................................................................7

Mơ hình m¿ng tích chÁp cho nhÁn d¿ng cÁm xúc qua khuôn mặt ..........................8
3.1.

Tổng quan vÁ CNN cho nhÁn d¿ng cÁm xúc qua khn mặt .........................8

3.2.

Mơ hình ki¿n trúc nhÁn d¿ng cÁm xúc qua khuôn mặt ..................................9

3.3.

Hồi quy tuy¿n tính (Linear Regression) .......................................................10


3.4.

Máy vect¡ hß trợ (SVM) ..............................................................................11

3.5.

M¿ng n¡-ron tích chÁp (CNN) .....................................................................12

3.6.

Mát sá mơ hình khác ....................................................................................13

3.6.1.

M¿ng n¡-ron cổ điÃn..............................................................................13

3.6.2.

M¿ng n¡-ron hồi quy (RNN) .................................................................14

3.6.3.

M¿ng bá nhớ dài-ngắn (Long Short Term Memory networks) .............15

3.6.4.

M¿ng sinh đái nghßch (GAN) ................................................................16

3.6.5.


Boltzmann machine ...............................................................................17

3.6.6.

Hác tng c°ờng sâu ...............................................................................17

a.

Autoencoder ..............................................................................................18

b.

Backpropagation .......................................................................................18

c.

Gradient Descent .......................................................................................19

d.

M¿ng n¡ ron sâu (Deep Neural Network - DNN).....................................20

e.

M¿ng hác sâu niÁm tin (Deep belief net-DBN) ........................................21

K¿t luÁn..........................................................................................................................22
TÀI LIàU THAM KHÀO .............................................................................................23



lOMoARcPSD|9242611

1. Gißi thißu
Khn mặt của con ng°ời biÃu hián nhiÁu cÁm xúc mà khơng cần phÁi nói ra. Đó
là mát trong những ph°¡ng tián m¿nh mẽ và tự nhiên nhất đà con ng°ời truyÁn đ¿t thÃ
hián cÁm xúc. Không giáng nh° các hình thức giao ti¿p phi ngơn ngữ khác, cÁm xúc trên
khn mặt nó phổ qt. Hián nay, nhÁn d¿ng và phân tích cÁm xúc khn mặt tự đáng là
mát vấn đÁ thú vß và đầy thách thức, có Ánh h°ởng to lớn đ¿n xã hái. CÁm xúc trên khuôn
mặt và hành đáng của chúng ta là ph°¡ng tián giao ti¿p phi ngôn ngữ, bao gồm 93% cÁm
xúc giao ti¿p của con ng°ời, trong đó 55% thà hián cử chỉ khuôn mặt và hành đáng của
con ng°ời. CÁm xúc khn mặt có thà đ°ợc phân tích dß dàng thơng qua hình Ánh khn
mặt và máy tính có thà t°¡ng tác với con ng°ời, nh° cách con ng°ời t°¡ng tác với nhau.
Đó là lý do t¿i sao nhÁn d¿ng cÁm xúc qua khuôn mặt ngày càng đ°ợc sự quan tâm trong
mái lĩnh vực. Các nhà nghiên cứu đã chỉ ra rằng cÁm xúc trên khuôn mặt là phổ quát và
bẩm sinh trong tất cÁ các chủng tác, giới tính và đá tuổi. Thêm cÁm xúc trung tính là có
bÁy cÁm xúc c¡ bÁn, gồm: trung tính, giÁn dữ, ghê tởm, sợ hãi, h¿nh phúc, buồn và bất
ngờ. NhÁn d¿ng cÁm xúc qua khn mặt có ứng dụng trong các lĩnh vực khác nhau:

Hình 1. Trạng thái cảm xúc khn mặt cơ bản trong nghiên cứu của Matsumoto


Giáo dục: PhÁn ứng của ng°ời hác trong thời gian thực và sự tham gia vào nái
dung là giáo dục là mát th°ớc đo l°ờng cho hiáu quÁ của bài giÁng.

GVHD: Lê Vn Quác Anh

Trang 3


lOMoARcPSD|9242611


ã

Tip thò: õy l mỏt cỏch tuyỏt vi cỏc cơng ty kinh doanh phân tích cách
khách hàng phÁn hồi với quÁng cáo, sÁn phẩm, bao bì và thi¿t k¿ cửa hàng của
há.



Ch¡i game: Với sự ra đời của game thực t¿ Áo gần với trÁi nghiám thực t¿. NhÁn
d¿ng cÁm xúc khn mặt đóng mát vai trị quan tráng đà cÁi thián trÁi nghiám
ch¡i trị ch¡i.



BÁo mÁt: Nó có thà giúp xác đßnh hành vi đáng ngờ trong đám đơng và có thÃ
đ°ợc sử dụng đà ngn chặn tái ph¿m và những kẻ khủng bá tiÁm nng.



Chm sóc sức khße: Nó có thà hữu ích trong viác tự đáng hóa dßch vụ y t¿. CÁ
sức khße thà chất và tinh thần có thà đ°ợc phân tích thơng qua ứng dng ny.

ã

Dòch v khỏch hng: Qun lý dòch v khỏch hàng có thà hiáu quÁ h¡n bằng cách
sử dụng há tháng nhÁn d¿ng cÁm xúc khn mặt. Phân tích phÁn hồi của khách
hàng và phÁn ứng của máy tính sẽ đÁm bÁo t°¡ng tác máy tính với con ng°ời
trong cuác sáng thực. Há tháng nhÁn dián cÁm xúc khuôn mặt đ°ợc sử dụng
nhiÁu trong cuác sáng: điÁu trß y t¿, giao ti¿p song ngôn ngữ, đánh giá đau của

bánh nhân, phát hián nói dái, giám sát tr¿ng thái của ng°ời lái xe phát hián tr¿ng
thái buồn ngủ dựa vào cÁm xúc trên khuôn mặt đ°ợc phát triÃn đà cÁnh báo cho
ng°ời lái xe khi thấy dấu hiáu buồn ngủ, mát mßi.
Há c¡ mặt đóng vai trị quan tráng trong viác t¿o ra các biÃu cÁm của mặt, các c¡

trên khuôn mặt ở tr¿ng thái khác nhau với những tr¿ng thái biÃu cÁm khác nhau.

Hình 2. Hệ cơ mặt
GVHD: Lê Vn Quác Anh

Trang 4


lOMoARcPSD|9242611

Nói chung, tr°ớc khi có những sự phát triÃn trong lĩnh vực công nghá thông tin,
đặc biát là trong lĩnh vực thß giác máy, viác phân tích biÃu cÁm khn mặt vÁ c¡ bÁn là
vấn đÁ của những nhà nghiên cứu tâm lý và bác sĩ. Tuy nhiên sau đó đã có những sự
thay đổi và đã xuất hián nhiÁu nhóm nghiên cứu, nhiÁu cơng ty đầu t° vào vấn đÁ phân
tích biÃu cÁm khn mặt trên ph°¡ng dián xử lý Ánh và đồ háa máy tính. Có thà kà đ¿n
mát vài k¿t quÁ khởi đầu nh°: vào nm 1978, Suwa và các cáng sự đã trình bày mát
khÁo sát s¡ bá vÁ viác phân tích biÃu cÁm khn mặt tự đáng từ mát chi các hình Ánh;
vào những nm 90, vấn đÁ nghiên cứu biÃu cÁm khuôn mặt tự đáng đ¿t đ°ợc nhiÁu sự
quan tâm với sự tiên phong của Mase và Pentland, trong cơng trình này các tác giÁ trình
bày mát ph°¡ng pháp sử dụng luồng quang hác đà °ớc l°ợng các cử đáng của c¡ mặt
và dựa vào đó đà nhÁn d¿ng mát sá biÃu cÁm đặc tr°ng, theo đó những thí nghiám ban
đầu cho thấy đá chính xác khoÁng 80% khi nhÁn bán lo¿i: h¿nh phúc, giÁn dữ, ghê tởm,
và ng¿c nhiên. Nghiên cứu vÁ biÃu cÁm khuôn mặt trong lĩnh vực công nghá thông tin
rất đ°ợc quan tâm đ¿n chính bởi vì nó hứa hẹn rất nhiÁu ứng dụng trong cuác sáng,
chẳng h¿n:



Các há tháng xác thực bằng sinh trắc hác trong thời gian thực cho phép ng°ời
dùng đng nhÁp bằng cách nhìn vào áng kính camera



Các há tháng kiÃm sốt vào ra và có l°u v¿t thời gian



Các ứng dụng nhÁn d¿ng đái t°ợng khơng cần sự ghi danh tr°ớc.



Há tháng giám sát video và nhÁn d¿ng khuôn mặt tự đáng

2. Tổng quan
Đầu tiên, khi muán nghiên cứu vÁ đÁ tài này, b¿n cần phÁi chuẩn bß những ki¿n
thức hác máy là gì? Phân lo¿i các kỹ thuÁt hác máy? аa ra mát sá kỹ thuÁt hác máy?
Ti¿p theo, tìm hiÃu vÁ SVM cách thức ho¿t đáng và ứng dụng của SVM trong thực t¿.
Cuái cùng, tìm hiÃu vÁ CNN: giới thiáu vÁ khái niám và mơ hình CNN. Các ki¿n thức
trên, các b¿n có thà dß dàng tìm hiÃu qua các bài báo, website khác trên m¿ng, mình sẽ
khơng nhắc đ¿n nữa, n¿u có thời gian mình sẽ có những bài báo đi chi ti¿t vÁ những chủ
đÁ này. Sau đây, mình xin bắt đầu vào phần nái dung chính của bài vi¿t và theo nh° mình
có tìm hiÃu thì ch°a có nhiÁu bài vi¿t nào đ°ợc nhắc đ¿n nái dung nghiên cứu này. Chủ

GVHD: Lê Vn Quác Anh

Trang 5



lOMoARcPSD|9242611

đÁ của mình là nhÁn d¿ng cÁm xúc qua khn mặt, sử dụng 2 ph°¡ng pháp chính là SVM
và CNN. Mục tiêu của bài vi¿t:


So sánh ph°¡ng pháp SVM và CNN trong nhÁn d¿ng cÁm xúc qua khn mặt.



So sánh ph°¡ng pháp CNN c¡ bÁn và CNN c¡ bÁn k¿t hợp các đặc tr°ng trun
tháng Mình có tìm hiÃu 1 sá bài báo và 1 sá các phần mÁm ứng dụng thực t¿ hián
nay vÁ nhÁn dián khn mặt thì thấy có 2 vấn đÁ chính và quan tráng nhất cần
giÁi quy¿t là: Thi¿u dữ liáu traning và các bi¿n thà không liên quan đ¿n biÃu hián
cÁm xúc: ánh sáng, t° th¿ đầu và sai lách nhÁn d¿ng. Đà giÁi quy¿t vấn đÁ trên
thì ph°¡ng pháp nhÁn d¿ng cÁm xúc qua khuôn mặt đ°ợc chia thành nhiÁu h°ớng
theo các tiêu chí khác nhau, chia thành hai lo¿i chính: ph°¡ng pháp truyÁn tháng
và ph°¡ng pháp hián đ¿i. Đà hiÃn rõ h¡n th¿ nào là ph°¡ng pháp truyÁn tháng,
ph°¡ng pháp hián đ¿i, thì mình sẽ nói qua vÁ nái dung này:

2.1. Ph°¢ng pháp trun thống
Há tháng nhÁn d¿ng cÁm xúc qua khn mặt với ph°¡ng pháp truyÁn tháng thì xử lý bài
qua các giai đo¿n: tiÁn xử lý hình Ánh khn mặt, trích xuất đặc tr°ng và phân lo¿i.

Hình 3. Kiến trúc nhận dạng khn mặt bằng phương pháp truyền thống


TiÁn xử lý là quá trình đ°ợc sử dụng đà cÁi thián hiáu suất của há tháng nhÁn

d¿ng cÁm xúc qua khuôn mặt và đ°ợc thực hián các lo¿i quy trình khác nhau: cn
chỉnh đá rõ, chia tỷ lá hình Ánh, điÁu chỉnh đá t°¡ng phÁn và sử dụng các quy
trình nâng cao đà cÁi thián các khung biÃu thức.



Trích xuất đặc tr°ng trong thß giác máy tính là mát giai đo¿n quan tráng, nó phát
hián ra viác chun từ mơ tÁ đồ háa sang mơ tÁ dữ liáu ẩn, trích chán những đặc

GVHD: Lê Vn Quác Anh

Trang 6


lOMoARcPSD|9242611

tr°ng riêng nhất của hình Ánh, sau đó những mơ tÁ dữ liáu này có thà đ°ợc sử
dụng làm đầu vào cho bài tốn phân lo¿i.


Phân lo¿i là giai đo¿n cuái cùng của há tháng nhÁn dián cÁm xúc qua khuôn mặt
(FER), đà phân lo¿i ra các lo¿i cÁm xúc trên khuôn mặt: h¿nh phúc, buồn bã, bất
ngờ, tức giÁn, sợ hãi, ghê tởm và bình th°ờng. Sử dụng các ph°¡ng pháp phân
lo¿i nh°: Cây quy¿t đßnh (ID3), SVM, HMM (Hidden Markov Model) ... thì phân
lo¿i SVM cho đá chính xác và phân lo¿i tát nhất. Chính vì vÁy, mình chán SVM
đ¿i dián cho ph°¡ng pháp truyÁn tháng đà sử dng cho hỏ thỏng nhn diỏn ca
mỡnh.

2.2. PhÂng phỏp hiòn đ¿i
Trong phần này, sẽ mơ tÁ các b°ớc chính phổ bi¿n trong há tháng nhÁn d¿ng cÁm

xúc qua khuôn mặt thực hián qua các giai đo¿n: tiÁn xử lý, phân lớp sử dụng hác sâu.
Những nm gần đây, hác sâu có đá chính xác h¡n ph°¡ng pháp trun tháng vì nó khơng
phÁi qua b°ớc trích xuất các đặc tr°ng mát cách t°ờng minh, nó sẽ thực hián đi kèm với
ph°¡ng pháp phân lo¿i.

Hình 4. Kiến trúc hệ thống nhận dạng cảm xúc khn mặt bằng phương pháp deep learning


TiÁn xử lý Ánh: cũng phÁi xử lý 1 sá vấn đÁ của Ánh đầu vào há tháng, xử lý tr°ớc
quá trình trainning. Các b°ớc thực hián: Cn chỉnh khuôn mặt đà phát hián khn
mặt, tng dữ liáu hình Ánh đÁm bÁo đủ dữ liáu training, cuái cùng là chuẩn hóa
dữ liáu khuôn mặt. Sử dụng các ph°¡ng pháp CNN, DBN, DAE, RNN, GAN...

GVHD: Lê Vn Quác Anh

Trang 7


lOMoARcPSD|9242611



Phân lo¿i: Trong ph°¡ng pháp trun tháng b°ớc trích xuất đặc tr°ng và b°ớc
phân lo¿i tính nng là đác lÁp với nhau, trong Deep learning có thà thực hián FER
theo cách từ đầu đ¿n cuái. Mát lớp mất đ°ợc thêm vào cuái m¿ng đà điÁu chỉnh
lßi lan truyÁn ng°ợc, sau đó xác suất dự đốn của từng m¿u có thà đ°ợc m¿ng
trực ti¿p xuất ra.

3. Mơ hình m¿ng tích ch¿p cho nh¿n d¿ng cÁm xúc qua khuôn m¿t
Trong nái dung này, chúng ta sẽ đặt câu hßi

và CNN cho há tháng nhÁn d¿ng cÁm xúc qua khuôn mặt không?=. ĐÃ trÁ lời cho câu hßi
trên, cần phÁi làm rõ và tìm hiÃu các nái dung nh°: giới thiáu tổng quan vÁ ph°¡ng pháp
CNN cho há tháng nhÁn d¿ng cÁm xúc qua khuôn mặt, ti¿p theo sẽ giới thiáu mơ hình
thi¿t k¿ CNN k¿t hợp đặc tr°ng truyÁn tháng cho há tháng nhÁn d¿ng cÁm xúc qua khn
mặt

3.1. Tổng quan vß CNN cho nh¿n d¿ng cÁm xúc qua khuôn m¿t
NhÁn d¿ng cÁm xúc qua khuôn mặt trong môi tr°ờng tự nhiên là mát trong những
lĩnh vực đ°ợc nghiên cứu tích cực trong nhiÁu nm nay, tuy nhiên khơng tránh khßi mát
sá những thách thức trong há tháng cần phÁi tìm cách giÁi quy¿t khắc phục các vấn đÁ
đó. Đà giÁi quy¿t các thách thức đó, há đã tổ chức thành cuác thi đà thúc đẩy sự ti¿n bá
trong lĩnh vực này. Trong sá các cuác thách thức, có mát cuác thi thách thức dùng
database FER2013, k¿t quÁ chi¿n thắng chung cuác là sử dụng ph°¡ng pháp CNN dùng
đà nhÁn d¿ng cÁm xúc khuôn mặt.

GVHD: Lê Vn Quác Anh

Trang 8


lOMoARcPSD|9242611

3.2. Mơ hình kiến trúc nh¿n d¿ng cÁm xúc qua khn m¿t

Hình 5. Mơ hình CNN kết hợp đặc trưng truyền thống cho hệ thống nhận dạng cảm xúc

Hình 5 mơ hình thi¿t k¿ của há tháng nhÁn d¿ng cÁm xúc qua khuôn mặt sử dụng ph°¡ng
pháp CNN k¿t hợp với đặc tr°ng truyÁn tháng. Đầu vào là hình Ánh có kích th°ớc 48x48
pixel và 1 chanels (Ánh xám) đ°ợc lấy trong bá dữ liáu dataset FER2013, đầu ra của há
tháng là dự đốn cÁm xúc của hình Ánh. ĐÃ thực hián q trình có đ°ợc đầu ra há tháng

cần thực hián theo hai giai đo¿n: tiÁn xử lý hình Ánh, phân lớp sử dụng hác sâu. Trong
đó b°ớc trích chán đặc tr°ng đ°ợc thực hián mát cách không t°ờng minh, ẩn bên trong
giai đo¿n phân lớp sử dụng hác sâu, các giai đo¿n thực hián mát cách liÁn m¿ch không
phân chia mát cách quá cụ thà và rõ ràng nh° ph°¡ng pháp trun tháng. Hình 5 mơ hình
ki¿n trúc của ph°¡ng pháp CNN, đầu vào là hình Ánh có kích th°ớc là 48x48, sau đó
đồng thời thực hián 2 viác song song:


Ành đầu vào thực hián đi qua ph°¡ng pháp deep learning hián đ¿i. Trong giai
đo¿n này, thực hián đi qua các b°ớc các tầng tích chÁp, tầng gáp, tầng k¿t nái.
T¿o ra tầng k¿t nái có kích th°ớc 1024.

GVHD: Lê Vn Quác Anh

Trang 9


lOMoARcPSD|9242611



Ành đầu vào k¿t hợp với các đặc tr°ng truyÁn tháng (Face lanmarks + HoG
features). Đầu ra là t¿o ra tầng k¿t nái có kích th°ớc 1024. Ci cùng, hai công
viác thực hián song song gáp l¿i t¿o thành tầng k¿t nái đầy đủ có kích th°ớc 256
và cho ra k¿t quÁ đầu ra là mát trong 7 tr¿ng thái cÁm xúc. Mơ hình SVM thi¿t
k¿ cho há tháng nhÁn d¿ng cÁm xúc qua khn mặt

Mơ hình CNN c¡ bÁn thi¿t k¿ cho há tháng nhÁn d¿ng cÁm xúc qua khn mặt

3.3. Hồi quy tuyến tính (Linear Regression)

Phân tích hồi quy tuy¿n tính là mát ph°¡ng pháp phân tích quan há giữa bi¿n phụ
thuác y với mát hay nhiÁu bi¿n đác lÁp x. Đây đ°ợc coi là mơ hình c¡ bÁn và đ¡n giÁn
nhất trong hác máy. Ý t°ởng của mơ hình là xây dựng mát hàm tuy¿n tính ÿ̂ bằng cách

k¿t hợp các bi¿n đầu vào sao cho ÿ̂ -> y

Trong đó, ý0 , ý1 , &, ý�㕘 (với ví dụ trên k = 3) đ°ợc gái là các tham sá của mơ

hình, ý0 cịn đ°ợc gái là bias. þ�㕖 là các đặc tr°ng đ°ợc đ°a vào mơ hình. y là đ¿i dián
GVHD: Lê Vn Quác Anh

Trang 10


lOMoARcPSD|9242611

cho các lớp của đầu ra, với bài toán này, y = 0 t°¡ng ứng với tiêu cực, y = 1 t°¡ng ứng
với tích cực. ÿ̂ là k¿t quÁ dự đốn của mơ hình hác máy, ÿ̂ ∈ (0,1), n¿u ÿ̂ -> 0 thì câu

đầu vào đ°ợc dự đốn thc lớp tiêu cực, ng°ợc l¿i n¿u ÿ̂ -> 1 thì câu đó đ°ợc k¿t ln
thc lớp tích cực.

¯u điÃm: Đ¡n gin, dò ci t v s dng.
Nhc im:

ã Dò nhy cm vi nhiòu.
ã Khụng biu diòn c cỏc mụ hỡnh phức t¿p.

3.4. Máy vect¢ hỗ trÿ (SVM)
Nh° đã bi¿t, với bài tốn phân lo¿i nhß phân tuy¿n tính ta cần vẽ đ°ợc mặt phân

tách (với khơng gian 2 chiÁu thì mt phng ny l ng phõn tỏch): ỵ + Ā = 0 đÃ

phân biát đ°ợc dữ liáu. Khi đó dấu của hàm °ớc l°ợng H = {x -> sng(ÿ�㕇 þ + Ā), a ∈ �㕅�㕁 ,

b ∈ R} sẽ thà hián đ°ợc điÃm dữ liáu x nằm ở cụm dữ liáu nào. SVM chính là mát bián
pháp đà thực hián đ°ợc phép lấy mặt phẳng nh° vÁy.

Mát máy vector hß trợ thực hián phân lo¿i bài vi¿t thành 2 lớp tích cực và tiêu cực

bằng cách lÁp bÁn đồ phi tuy¿n của tÁp dữ liáu huấn luyán thành mát khơng gian đặc
tr°ng đa chiÁu. Sau đó, xây dựng mát siêu phẳng (ranh giới quy¿t đßnh) N-chiÁu đà tách
bá dữ liáu thành hai cụm tích cực và tiêu cực.

Hình 6. Ví dụ về 2 đường thẳng khác nhau cho phép tách bộ dữ liệu thành 2 cụm

Hình 6 cho thấy mát bá dữ liáu tuy¿n tính đ°ợc tách biát trong mát không gian 2
chiÁu với hai cách khác nhau đà phân biát chúng. Chất l°ợng của siêu phẳng này đ°ợc
quy¿t đßnh bởi mát khoÁng cách (đ°ợc gái là biên) của điÃm dữ liáu gần nhất của mßi

GVHD: Lê Vn Quác Anh

Downloaded by tran quang ()

Trang 11


lOMoARcPSD|9242611

lớp đ¿n mặt phẳng này. KhoÁng cách biên càng lớn thì sự phân chia các điÃm ra thành
hai lớp càng tát, nghĩa là sẽ đ¿t đ°ợc k¿t quÁ phân lo¿i tát.

Đái với bài tốn phân tích tình cÁm trong câu, mßi bình ln đầu vào sẽ cho n đặc
tr°ng thơng qua kỹ thuÁt tf-idf. Do đó, các câu này sẽ đ°ợc biÃu dißn thành các điÃm dữ
liáu trong khơng gian n chiÁu. Nhiám vụ của chúng ta là sử dụng SVM đà xây dựng 2
siêu phẳng làm biên t°¡ng ứng cho 2 lớp tích cực và tiêu cực sao cho khoÁng cách biên
này là lớn nhất.
¯u điÃm:
• Hiáu quÁ trong khơng gian sâu.
• V¿n hiáu q trong tr°ờng hợp kích thc khụng gian ln hĂn sỏ mu.
ã Dò tựy chnh với nhiÁu hàm kernel khác nhau.
Nh°ợc điÃm:
• N¿u sử dụng sá l°ợng đặc tr°ng lớn h¡n nhiÁu sá l°ợng m¿u s dò xy ra hiỏn
tng over-fitting.
ã Cỏc SVM khụng trc ti¿p cung cấp các °ớc tính xác suất, chúng đ°ợc tính tốn
bằng cách sử dụng five-fold cross-validation.

3.5. M¿ng n¢-ron tích ch¿p (CNN)
M¿ng n¡-ron tích chÁp (Convolutional Neural Network – CNN) là mát ki¿n trúc
m¿ng n¡-ron nhân t¿o nâng cao, đ°ợc xây dựng đà giÁi quy¿t các bài toán phức t¿p, đặc
biát là liên quan đ¿n xử lý hình Ánh.
Tích chÁp là mát khái niám trong xử lý tín hiáu sá nhằm bi¿n đổi thơng tin đầu vào
qua mát phép tích chÁp với bá lác, nhằm trÁ vÁ đầu ra là mát tín hiáu mới. Tín hiáu này
sẽ giÁm bớt những đặc tr°ng mà bá lác không quan tâm, giữ l¿i những đặc tr°ng chính
và quan tráng nhất.
Bên c¿nh input layer và output layer, mơ hình CNN cịn có thêm mát sampling
layer đà giới h¿n sá l°ợng n¡-ron tham gia vào các layer t°¡ng ứng. Viác xây dựng mơ
hình trÁi qua ba giai đo¿n chính:
• Q trình tích chÁp (convolution): Thơng qua các tích chÁp giữa ma trÁn đầu vào
với bá lác đà t¿o thành các đ¡n vß trong mát tầng mới. Q trình này có thà dißn

GVHD: Lê Vn Qc Anh


Downloaded by tran quang ()

Trang 12


lOMoARcPSD|9242611

ra liên tục ở phần đầu của m¿ng và th°ờng sử dụng kèm với hàm kích ho¿t ReLU.
Mục tiêu của tầng này là trích suất đặc tr°ng hai chiÁu.
• Q trình tổng hợp (max pooling): GiÁm kích th°ớc khái ma trÁn đầu vào thơng
qua viác tìm ra 1 giá trß đ¿i dián cho mßi mát vùng khơng gian mà bá lác đi qua
sẽ không làm thay đổi các đ°ờng nét chính của bức Ánh nh°ng l¿i giÁm đ°ợc kích
th°ớc của Ánh.
• Q trình k¿t nái hồn tồn (fully connected): Sau khi đã giÁm kích th°ớc đ¿n
mát mức đá hợp lý, ma trÁn cần đ°ợc trÁi phẳng (flatten) thành mát vector và sử
dụng các k¿t nái hoàn toàn giữa các tầng. Tầng k¿t nái hoàn toàn cuái cùng (fully
connected layer) sẽ có sá l°ợng đ¡n vß bằng với sá lớp.
Dựa vào những đặc điÃm của mình, các ứng dụng phổ bi¿n nhất của m¿ng CNN
gồm có: NhÁn dián, phân tích và phân khúc hình Ánh, phân tích video, xử lý ngơn ngữ tự
nhiên, &

3.6. Một số mơ hình khác
3.6.1. M¿ng n¢-ron cổ đián
Ki¿n trúc cổ điÃn của m¿ng n¡-ron là m¿ng k¿t nái đầy đủ, th°ờng đ°ợc xác đßnh
bằng các perceptron đa lớp. (Perceptron là mát thuÁt toán đ¡n giÁn, cho phép tìm mát
ranh giới siêu phẳng cho các bài tốn phân lớp nhß phân). M¿ng n¡-ron cổ điÃn đ°ợc thi¿t

GVHD: Lê Vn Quác Anh


Downloaded by tran quang ()

Trang 13


lOMoARcPSD|9242611

k¿ bởi Fran Rosenblatt vào nm 1958, chủ y¿u đ°ợc sử dụng cho các bài tốn phân lớp
nhß phân. Có ba lo¿i hàm th°ờng đ°ợc sử dụng trong mơ hình này là:

3.6.2. M¿ng n¢-ron hồi quy (RNN)
Recurrent Neural Network (RNN) là mát thuÁt toán nổi ti¿ng trong lĩnh vực xử lý
ngơn ngữ tự nhiên. Trong các mơ hình m¿ng n¡-ron truyÁn tháng, đầu vào và đầu ra đác
lÁp với nhau, tuy nhiên RNN thực hián cùng mát tác vụ cho tất cÁ phần tử của mát chußi
với đầu ra phụ thc vào cÁ các phép tính tr°ớc đó. Vì vÁy m¿ng RNN có khÁ nng nhớ
các thơng tin đ°ợc tính tốn tr°ớc đó.
Có hai thi¿t k¿ chính của RNN:
• LSTM (Long Short-Term Memory): аợc dùng đà dự đoán dữ liáu d¿ng chi
thời gian, có khÁ nng bß đi hoặc thêm các thơng tin cần thi¿t, đ°ợc điÁu chỉnh
bởi các nhóm đ°ợc gái là cổng (gate): Input, Output và Forget.
• Gated RNN: Cũng là mát thi¿t k¿ phổ bi¿n trong lĩnh vực dự đốn dữ liáu của
chi thời gian, có hai cổng là Update và Reset.
Các d¿ng bài tốn RNN:
• One to one: Chỉ có mát input k¿t nái với mát output duy nhất, chẳng h¿n nh° các
bài toán phân lo¿i hình Ánh.
• One to many: Mát input liên k¿t với nhiÁu chi output, phổ bi¿n là các bài tốn
đặt caption cho Ánh.
• Many to One: NhiÁu input nh°ng chỉ có output, ví dụ phổ bi¿n là bài tốn phân
lo¿i cÁm xúc.
• Many to many: NhiÁu input và nhiÁu output, chẳng h¿n nh° phân lo¿i video.


Hình 7. Mạng nơ-ron hồi quy (RNN)

GVHD: Lê Vn Quác Anh

Downloaded by tran quang ()

Trang 14


lOMoARcPSD|9242611

3.6.3. M¿ng bộ nhß dài-ngắn (Long Short Term Memory networks)
M¿ng bá nhớ dài-ngắn (Long Short Term Memory networks) th°ờng đ°ợc gái là
LSTM – là 1 d¿ng đặc biát của RNN, nó có khÁ nng hác đ°ợc các phụ thuác xa. LSTM
đ°ợc giới thiáu bởi Hochreiter và Schmidhuber, và sau đó đã đ°ợc cÁi ti¿n và phổ bi¿n
bởi rất nhiÁu ng°ời trong ngành. Chúng ho¿t đáng cực kỳ hiáu quÁ trên nhiÁu bài toán
khác nhau nên dần đã trở nên phổ bi¿n nh° hián nay.
LSTM đ°ợc thi¿t k¿ đà tránh đ°ợc vấn đÁ phụ thuác xa (long-term dependency).
Viác nhớ thông tin trong st thời gian dài là đặc tính mặc đßnh của chúng, chứ ta khơng
cần phÁi huấn lun nó đà có thà nhớ đ°ợc. tức là ngay nái t¿i của nó đã có thà ghi nhớ
đ°ợc mà khơng cần bất kỳ can thiáp nào.
Thay vì chỉ có mát tầng m¿ng n¡-ron nh° trong RNN, chúng có tới 4 tầng (hình
8) t°¡ng tác với nhau mát cách rất đặc biát.

Hình 8. Cấu tạo của một nút trong mạng LSTM

LSTM có khÁ nng bß đi hoặc thêm vào các thơng tin cần thi¿t cho tr¿ng thái t¿
bào, chúng đ°ợc điÁu chỉnh cẩn thÁn bởi các nhóm đ°ợc gái là cổng (gate). Hián nay,
có nhiÁu bi¿n thà của LSTM đ°ợc đÁ xuất nh°: Bi-LSTM, GRu, &

Trong bài toán này, đầu vào và đầu ra của m¿ng LSTM đ°ợc thi¿t lÁp t°¡ng tự
nh° m¿ng CNN.
¯u điÃm:
• Th°ờng đ°ợc áp dụng cho các đái t°ợng vn bÁn hoặc âm thanh vì có khÁ nng
ghi nhớ tát.

GVHD: Lê Vn Quác Anh

Downloaded by tran quang ()

Trang 15


lOMoARcPSD|9242611

• Khơng cần phÁi huấn lun nó đà có thà nhớ đ°ợc, Do đó, giÁi quy¿t đ°ợc vấn
đÁ phụ thuác xa mà RNN khơng làm đ°ợc.
Nh°ợc điÃm:
• Phức t¿p h¡n m¿ng RNN do đó tác đá th°ờng chÁm h¡n.
• Do có mát tÁp các cơng thức, khi¿n cho LSTM trở nên khá khó hiÃu

3.6.4. M¿ng sinh đối nghßch (GAN)
Generative Adversarial Networks (GAN) là lớp mơ hình có mục tiêu t¿o ra dữ liáu
giÁ giáng với thÁt, tên của m¿ng đ°ợc dựa trên ki¿n trúc gồm hai m¿ng có mục tiêu đái
nghßch nhau: Generator và Discriminator. Trong đó Generator hác cách sinh dữ liáu giÁ
đà lừa mơ hình Discriminator, cịn Discriminator l¿i hác cách phân biát giữa dữ liáu giÁ
và dữ liáu thÁt. Thơng qua q trình huấn lun thì cÁ hai mơ hình này đÁu cùng cÁi thián
đ°ợc khÁ nng của mình.
Mát sá ứng dụng phổ bi¿n của GAN là: T¿o khuôn mặt ng°ời, thay đổi đá tuổi
khuôn mặt, sinh Ánh vÁt thÃ, t¿o nhân vÁt ho¿t hình, &


Hình 9. Mạng sinh đối nghịch (GAN)

GVHD: Lê Vn Quác Anh

Downloaded by tran quang ()

Trang 16


lOMoARcPSD|9242611

3.6.5. Boltzmann machine
Đây là mát mơ hình m¿ng khơng có h°ớng xác đßnh, vì vÁy các node của m¿ng này đ°ợc
liên k¿t với nhau thành mát hình trịn. Dựa vào ki¿n trúc này, máy Boltzmann (Boltzmann
machine) th°ờng đ°ợc sử dụng đà t¿o ra các tham sá cho mơ hình. Các ứng dụng phổ
bi¿n nhất của mơ hình là: giám sát há tháng, xây dựng há tháng khuy¿n nghß nhß phân,
&

3.6.6. Hác tăng c°áng sâu
Deep Reinforcement Learning là quá trình mà các tác tử (agent) t°¡ng tác với môi
tr°ờng đà thay đổi tr¿ng thái của chính nó. Các tác tử có thà quan sát và thực hián những
hành đáng phù hợp, từ đó giúp m¿ng đ¿t đ°ợc mục tiêu.
Mơ hình m¿ng này gồm mát input layer, output layer và nhiÁu hidden layer khác,
trong đó tr¿ng thái của mơi tr°ờng chính là input layer. Mơ hình sẽ huấn lun liên tục
đà dự đốn điÃm đ¿t đ°ợc sau mßi hành đáng đ°ợc thực hián trong từng tr¿ng thái nhất
đßnh.
Mơ hình hác tng c°ờng sâu đ°ợc ứng dụng chủ y¿u trong các game cờ vua, poker,
xe tự lái, robot, &


Hình 10. Học tăng cường sâu

GVHD: Lê Vn Quác Anh

Downloaded by tran quang ()

Trang 17


lOMoARcPSD|9242611

a. Autoencoder
Autoencoder là mát trong những kỹ thuÁt Deep Learning phổ bi¿n nhất hián nay,
có khÁ nng hác các biÃu dißn của dữ liáu đầu vào mà khơng cần nhãn, hay nói cách khác
thì m¿ng này có khÁ nng hác khơng giám sát (unsupervised learning).
Mát sá lo¿i autoencoder chính gồm có:
• Sparse (th°a): Sá l°ợng hidden layer lớn h¡n sá l°ợng input layer nhằm h¿n ch¿
hián t°ợng quá khớp (overfitting). Ph°¡ng pháp này giới h¿n hàm mất mát và
ngn không cho autoencoder l¿m dụng tất cÁ các node có trong mng.
ã Denoising (lỏc nhiòu): Mỏt phiờn bn input c chuyn thành 0 ng¿u nhiên.
• Contractive: Bổ sung há sá ph¿t vào hàm mất mát đà h¿n ch¿ overfitting trong
tr°ờng hợp sá l°ợng hidden layer lớn h¡n input layer.
• Stacked: X¿p chồng nhiÁu hidden layer lên nhau đà t¿o thành mát m¿ng
autoencoder.
• Các ứng dụng phổ bi¿n: Phát hián đặc tr°ng, xây dựng há tháng khuy¿n nghß, bổ
sung đặc tr°ng cho tÁp dữ liáu, &

Hình 11. Autoencoder

b. Backpropagation

Lan truyÁn ng°ợc (backpropagation) là mát trong những kỹ thuÁt quan tráng nhất của
m¿ng n¡-ron. VÁ c¡ bÁn thì đây là ph°¡ng pháp giúp tính gradient ng°ợc từ layer cuái

GVHD: Lê Vn Quác Anh

Downloaded by tran quang ()

Trang 18


lOMoARcPSD|9242611

cùng đ¿n layer đầu tiên của m¿ng. Tr°ớc h¿t, m¿ng sẽ phân tích các tham sá rồi điÁu
chỉnh thơng qua hàm mất mát. Ti¿p theo, giá trß lßi đ°ợc tính toán sẽ lan truyÁn ng°ợc
l¿i đà điÁu chỉnh các tham sá cho phù hợp.

Hình 12. Backpropagation

c. Gradient Descent
Trong Deep Learning và tái °u hố, ta th°ờng phÁi tìm giá trß nhß nhất (hoặc lớn
nhất) của mát hàm sá nào đó. Tuy nhiên viác tìm các điÃm tái °u tồn cục của hàm mất
mát th°ờng rất phức t¿p, đôi khi là bất khÁ thi. Do đó ta có thà cá gắng tìm những điÃm
cực tiÃu đßa ph°¡ng và có thà xem là nghiám cần tìm của bài tốn.
Các điÃm cực tiÃu đßa ph°¡ng vÁ mặt tốn hác là nghiám hác ph°¡ng trình đ¿o hàm
bằng 0, tuy nhiên viác giÁi ph°¡ng trình đ¿o hàm bằng 0 gần nh° là không thà trong
Machine Learning hay Deep Learning. Mát cách ti¿p cÁn phổ bi¿n là xuất phát từ mát
điÃm mà ta coi là gần với nghiám của bài tốn, sau đó dùng mát phép lặp đà ti¿n dần đ¿n

GVHD: Lê Vn Quác Anh


Downloaded by tran quang ()

Trang 19


lOMoARcPSD|9242611

điÃm cần tìm. Ph°¡ng pháp này đ°ợc gái là h¿ gradient và đ°ợc sử dụng vô cùng phổ
bi¿n trong tái °u.
Với các m¿ng n¡-ron hián đ¿i, nhờ vào thuÁt toán lan truyÁn ng°ợc mà gradient
descent có thà nhanh h¡n hàng triáu lần so với cách truyÁn tháng.

Hình 13. Gradient Descent

d. M¿ng n¢ ron sâu (Deep Neural Network - DNN)
M¿ng n¡ ron sâu (Deep Neural Network - DNN) là mát d¿ng cụ thà của lĩnh vực
hác sâu. M¿ng n¡ ron sâu là mát m¿ng n¡ ron nhân t¿o nh°ng có ki¿n trúc phức t¿p và
"sâu" h¡n nhiÁu so với ki¿n trúc của m¿ng n¡ ron truyÁn tháng. Nghĩa là nó có sá nút
trong mßi lớp và sá lớp ẩn lớn h¡n rất nhiÁu và cách thức ho¿t đáng của nó phức t¿p
h¡n so với ki¿n trúc m¿ng n¡ ron truyÁn tháng. Mát sá nghiên cứu đã chỉ ra sự v°ợt trái

GVHD: Lê Vn Quác Anh

Downloaded by tran quang ()

Trang 20


lOMoARcPSD|9242611


của mơ hình này trong viác phát hián xâm nhÁp, trên nhiÁu tÁp dữ liáu KDDCup 99,
NSL-KDD, Kyoto, UNSW-NB15, WSN-DS, and CICIDS 2017.
e. M¿ng hác sâu nißm tin (Deep belief net-DBN)
M¿ng hác sâu niÁm tin (Deep belief net-DBN) là mát mơ hình m¿ng n¡-ron nhân
t¿o nhiÁu lớp. Q trình huấn luyán m¿ng DBN gồm hai pha: tiÁn huấn luyán và hiáu
chỉnh tráng sá. Trong pha tiÁn huấn luyán, máy hác Boltzmann đ°ợc sử dụng đà khởi
t¿o tráng sá tát nhất cho mơ hình với dữ liáu khơng cần đ°ợc gán nhãn. Trong pha hiáu
chỉnh tráng sá, DBN ti¿p tục đ°ợc huấn luyán bằng ph°¡ng pháp lan truyÁn ng°ợc cổ
điÃn với dữ liáu đ°ợc gán nhãn. Đái với IDS, DBN đ°ợc sử dụng cho các nhiám vụ trích
xuất đặc tr°ng và phân lớp.

GVHD: Lê Vn Quác Anh

Downloaded by tran quang ()

Trang 21


lOMoARcPSD|9242611

Kết lu¿n
Dựa vào các giới thiáu vÁ các mơ trình trên và tùy từng bài tốn cụ thÃ, ta có thÃ
áp dụng mát trong những mơ hình Deep learning đà ứng dụng xử lý bài tốn mát cách
thích hợp nhất.
Đây không hẳn là mát lĩnh vực quá mới mẻ, nh°ng sự bùng nổ dữ liáu trong nhiÁu
nm gần đây đã giúp các nhà khoa hác tÁn dụng đ°ợc tái đa khÁ nng của các mơ hình
m¿ng n¡-ron nhân t¿o, t¿o tiÁn đÁ cho viác giÁi quy¿t nhiÁu bài toán t°ởng chừng nh°
là bất khÁ thi trong nhiÁu nm vÁ tr°ớc. Hy váng qua bài tìm hiÃu trên đã cung cấp cho
các b¿n những ki¿n thức hữu ích.


GVHD: Lê Vn Quác Anh

Downloaded by tran quang ()

Trang 22


lOMoARcPSD|9242611

TÀI LIÞU THAM KHÀO
1. a/p/nghien-cuu-va-ung-dung-cac-ky-thuat-nhan-dang-cam-xucqua-khuon-mat-ORNZqdmeK0n
2. />3. />4. />5. />6. a/p/recurrent-neural-networkphan-1-tong-quan-va-ung-dungjvElaB4m5kw

GVHD: Lê Vn Quác Anh

Downloaded by tran quang ()

Trang 23



×