Tải bản đầy đủ (.pdf) (41 trang)

Rút trích, phân loại và tổng hợp thông tin từ các phản hồi trên mạng xã hội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (460.21 KB, 41 trang )

I H C QU C GIA TP. HCM
I H C BÁCH KHOA
-------------------

TR N MINH HÙNG

RÚT TRÍCH, PHÂN LO I VÀ T NG H P THÔNG TIN
T

CÁC PH N H I TRÊN M NG XÃ H I

Chuyên ngành : KHOA H C MÁY TÍNH
Mã s : 60 48 01

LU

TP. H CHÍ MI


C HOÀN THÀNH T I
I H C BÁCH KHOA -

Cán b

- HCM

ng d n khoa h c: PGS. TS. Qu

Cán b ch m nh n xét 1: TS. Nguy

ng



Cán b ch m nh n xét 2: TS. Lê Thanh Vân

Lu
ngày 23 tháng 07

cb ov t

i h c Bách

2013

Thành ph n H

m:

1. Ch t ch: TS. Ph m Tr
2.

Ng c Châu

3. Ph n bi n 1: TS. Nguy

ng

4. Ph n bi n 2: TS. Lê Thanh Vân
5. y viên: TS. Tr
Xác nh n c a Ch t ch H
ngành sau khi lu
CH T CH H


ng Khoa qu n lý chuyên
c s a ch a (n u có).

NG

NG KHOA

ii


T NAM
-

-

MSHV: 10070481
23/02/1987
Chuyên ngành: Kho

: 60 48 01

I.

II.
áp
-domain

III. NGÀY GIAO NHI


: 02/07/2012

IV.
V. CÁN

: 30/11/2012
:

13

iii


Tôi xin chân thành c
cô gi ng d

ih cc bi t c

d n, truy
th

ng d n, ch d

t n tình c a các th y

i h c Bách khoa thành ph H Chí Minh.
y PGS. TS.

,


i

ng

t nh ng ki n th c và kinh nghi

ki n

hoàn thành lu

Và xin c m

n bè và nh

ng và truy n

thêm ngh l c cho tơi trong q trình h c t p, nghiên c u c a b n thân.
M

g ng r t nhi u trong vi c th c hi n lu

h n, nên không th tránh kh i nh ng thi u sót,
cs

i th i gian có
nh, r t mong nh n

n c a quý Th y Cô và các b n.

H c viên

Tr n Minh Hùng

x


V i s phát tri n c a m ng xã h i, ngày càng nhi
ki n

i tham gia và chia s các ý

a h v nh ng s n ph m và d ch v mà h

d ng. Các ph n

h i này cung c p nhi u thông tin h u ích, giúp

các quy t

nh mua s m và các công ty c i thi n s n ph m c a h .
Vi c rút trích các thơng tin h u ích t
v

ng ph n h i quá l n không ph i là m t

i r t nhi u th i gian và công s

nhi

ng nghiên c


Nhi u b phân l

này,

t trong s
c phát tri

c c. Tuy nhiên, c
u này

gi i quy t v

phân lo i m t ph n h i là tích c c hay tiêu

c th hi n khác nhau trong các mi n d li u khác nhau;
chính xác c a vi c phân lo i. Các b phân l p m

chính xác khi áp d ng v i nh ng mi n d li u khác v i mi n hu n luy n.
M c tiêu c a lu

là xây d ng m t b phân l p có th ho

ng t t trên

các mi n d li u khác nhau.
ASTRACT
With the growth of social networks, more and more people take part and share their
comments and reviews about products and services they used. These comments
provide useful information, helping consumers make shopping decisions and
companies improve their products.

But the amount of these comments is so big that extracting useful information from
them is not easy, require a lot of time and effort. As a result, many research
directions have been proposed, one of them is Sentiment Analysis.
Many classifiers have been developed to classify a comment as either positive or
negative. However, sentiment is expressed differently in different domains, which
affect the accuracy of sentiment classification. Trained classifiers lose accuracy
when used on domains different from the training domain.
The aim of this thesis is to develop a classifier which can perform well on different
domains.
xi


ng trình nghiên c u c a tơi. Các s li u, k t qu nêu
trong lu n án là trung th c, khách quan

c công b trong b t k m t

cơng trình nào khác.
.

H c viên
Tr n Minh Hùng

xii


NHI M V LU
L IC

.................................................................... iii


........................................................................................................ x

TÓM T T ............................................................................................................. xi
L

................................................................................................ xii

M C L C ...........................................................................................................xiii
I THI U ....................................................................................... 1
1.1.

Lý do ch

tài: ..................................................................................... 1

1.2.

M c tiêu và gi i h n c

1.3.

tài: ............................................................... 2

tài: ................................................................................. 2
NG QUAN ...................................................................................... 3

2.1.

n theo c m xúc ................................ 3


2.2.

V

2.3.

Domain Adaptation .................................................................................. 7

2.4.

c chú ý g

ng ti p c n c

-domain classification ...................... 5

tài....................................................................... 11

LÝ THUY T ........................................................................ 13
3.1.

Support Vector Machine (SVM) ............................................................ 13

3.2.

Ti n x

n .................................................................................. 15


3.3.

Bi

n Vector Space Model .............................................. 16

3.4.

DeltaTFIDF............................................................................................. 18

3.5.

t qu phân lo i .................................................................... 19
T K VÀ HI N TH

4.1.
4.2.

.......................... 21

xu t: ............................................................................ 21
Thi t k và hi n th

...................................................... 23

C NGHI M .............................................................................. 27
5.1.

T p d li u: ............................................................................................. 27


5.2.

K t qu thí nghi m ................................................................................. 28

5.3.

Nh n xét: ................................................................................................. 29
T LU N ....................................................................................... 30

TÀI LI U THAM KH O ................................................................................... 31

xiii


1.1.

Lý do ch

tài:

Các ph n h i, bình lu n

c chia s b

i dùng trên các trang m ng xã h i là

m t ngu n d li u phong phú, cung c p nhi u thông tin h u ích v
c a các s n ph m, d ch v mà h
nh vào vi c quy


m

d ng. Các thông tin này góp ph n khơng

nh mua s m c

i tiêu dù

nhà s n su t

ng phát tri n, c i ti n các s n ph m.
Tuy nhiên, v i s phát tri n ngày càng m nh c a các m ng xã h i, s
ph n h

ng các

c chia s ngày càng nhi u, vi c rút trích ra các thơng tin h u ích là m t

v

n nhi u th i gian và công s c.
gi i quy t v

s

này, nhi u

ng nghiên c u m

Sentiment Classification (phân lo


b n theo c m xúc là m

ng h

c phân lo i d

t trong

n theo c m xúc). Phân lo

c bi t c a bài toán phân lo
ng c m xúc c a chúng.

n, các
ng phân lo i

ng là các câu bình lu n, ph n h i trên các m ng xã h i ho c
m t s n ph m, d ch v

c

phân lo i làm hai l p chính là tích c c và tiêu c c.
M t trong nh ng thách th c c n gi i quy t
c m xúc là v

c phân lo

Domain Dependence (ph thu c mi n). Các b phân l


xây d ng ch

c k t qu phân lo i t t trên mi n d li

áp d ng sang mi n d li u khác thì k t qu
Nguyên nhân là do có nh ng t ch xu t hi n
delicious
i hi
b phân l
tr ng s

n theo
c

c hu n luy n, khi

chính xác r t th p.
m t s mi n d li u nh

nh, ví d

th hi n c m xúc tích c
c s d ng trong các nh n xét v

ym t

c hu n luy n trên t p d li u là các nh n xét v sách s khơng có
ch cv t

delicious


dùng b phân l

phân

lo i các nh n xét v
Ngồi ra, x

ng tình c m c a m t s t có th

c s d ng. Ví d , t

unpredictable
1

i tùy theo ng c nh mà nó


c khi nói v kh

n hành n

nh c a m t chi c xe.
Hi n nay vi c xây d ng m t b phân l p có kh
nhi u mi n khác nhau là m t v

1.2.

c quan tâm gi i quy t.


M c tiêu và gi i h n c

M c tiêu c

i t t d li u thu c

tài:

tài là nghiên c u hi n th c m t b phân l p có th phân lo i hi u

qu các ph n h i thu c nhi u mi n d li u khác nhau, s d ng k thu t nh n d ng
các t khoá phân lo

c l p mi n (domain-independent keywords).

tài này ch t p trung x lý các ph n h i b ng ngôn ng ti
xu

ng d

c các y u t c a m ng xã h

chính

xác c a b phân l p.

1.3.

tài:


V im

ra và k t qu
Xây d

c, nh

tài mang l i là:

c b phân l p cho d li u thu c nhi u mi n d li

xác c a b phân l

i m t s cơng trình nghiên c u khác.

Tìm hi u và áp d ng k thu t nh n d ng các t khoá phân lo
(domain-independent keywords) d a trên tr ng s
thành công các t

Góp ph n ch

phát hi n

n theo c m xúc cho k t qu

i tr ng s TFIDF.
c vi c k t h p thêm thông tin v

c m c a các t
c phân lo


c l p mi n

c l p mi n và ph thu c mi n. Cho th y vi c s

d ng tr ng s DeltaTFIDF trong phân lo
phân lo i t

chính

ng tình

n nâng cao hi u qu trong
n theo c m xúc.

2


ta s kh o sát m t s cơng trình nghiên c u có liên quan m t
thi

tài.

2.1.
Phân lo

n theo c m xúc là m

ng h


n nay, nhi u nghiên c
l p

c bi t c a bài toán phân lo i

c ti n hành nh m xây d ng các b phân

c này
D a trên các gi i thu t h c máy (machine learning):

V

b phân l

c xây d ng d a trên các gi i thu t h c máy

và t p d li u hu n luy n g m các

n

c gán nhãn s n.

chính xác c a

b phân l p ph thu c khá nhi
thu t h c máy

n. Các gi i

c s d ng là Support Vector Machine (SVM), Naive


Bayes, maximum entropy,

d a trên các gi i thu t h

chính xác khá cao v i bài toán phân lo
Pang et al. [10

t

n truy n th ng theo ch

o sát hi u qu c a

.

i bài toán phân lo i

n c m xúc. Các gi i thu t h c máy Naive Bayes, maximum entropy và
support vector machines (SVMs)

c áp d ng trên t p d li u là nh ng nh n xét

v phim nh. K t qu th c nghi m cho th y
phân lo

n theo ch

c th


truy n th ng. Nguyên nhân d

trong m t s nh n xét v phim nh

i nh n xét c

i
u này là do
t ng quát

cv
Ví d xét các câu nh n xét v m t b
This film should be brilliant. It sounds like a great plot, the actors are first grade,
and the supporting cast is good as well, and Stallone is attempting to deliver a good
performance. However, it can't hold up
b n có s d ng nhi u t

ng tích c
i là m t nh n xét tiêu c c.

3


V i nh ng

ng h

ng tình c m c a

ng tình c m c a h u h t các t trong


n

cv i

n

phân l

ra k t qu phân lo i chính xác.
D a trên

ng tình c m c a các t v ng

V

c phân lo

c th c hi n ch d

ng tình

c m c a các t v ng, ta không c n s d ng t p d li

hu n luy n.

Turney [14]

M t nh n xét


u vào s

ra m t gi i thu t tiêu bi
c phân lo i là tích c c hay tiêu c c qua m t gi i thu

a. T nh

ng m

u vào, áp d ng b gán nhãn t lo i (part-ofm t có ch a các t mang nhi

ng tình c m

, phó t .
b.

ng

ng tình c m c a các c m t


nh. Ch n hai t

i di n cho các t tích c c và tiêu c c, d a trên

liên k t ng

a các c m t v i hai t

ng


tình c m c a chúng. C m t có m i liên k t v i t

nhi

cl is
c.

c.

ng tình c m c a t t c các c m t , t

i câu

nh n xét là tích c c hay tiêu c c.
o sát trên t p d li u g m các câu nh n xét v s n ph m và phim nh.
v i k t qu c

ng c m xúc c a các nh n xét v

phim nh có th khơng ph thu
chính xác c a b phân l p ch

ng c m xúc c a các c m t trong câu,
t kho ng 66%.

chính xác c

áp d ng thêm các k


thu t x lý ngôn ng t
m

ph

nh, t

ng ho c gi m nh

phân l p SO-CAL (the Semantic Orientation CALculator)

c a Taboada et al. [13]. SO-

c kh o sát trên m t vài t p d li u khác

nhau và cho k t qu phân lo i khá t t,

nh, không ph thu c nhi u vào m t

mi n d li u c th nào.
4


Tóm l i, có hai lo
phân lo

xây d ng b phân l p

n theo c m xúc


c

t lo i d a trên các gi i thu t h c máy

t o ra các b phân l p s d ng các t p d li u hu n luy n. Lo i th hai không
c n s d ng các t p d li u hu n luy n, các b phân l

c t o ra d a trên tính

ng tình c m c a các t và các k thu t x lý ngôn ng t nhiên.

2.2.

V

c chú ý g

Nhi u nghiên c

-domain classification

c th c hi

Chaovalit

so sánh gi a hai lo

ng c hai lo

v phim nh. K t qu cho th

t

phân lo i các nh n xét
a trên gi i thu t h c máy cho k t qu

n có th i gian hu n luy n dài và yêu c u t p d li u hu n luy n

ph

l n.

H u h t các nghiên c

c th c hi n trên t p d li u là các nh n xét v phim nh

và các s n ph m thu t

n lo

dung dài và ch t p trung vào m t lo

ng có n i

ng, s n ph m c th . Tuy nhiên, trên

các trang m ng xã h i, các nh
nhi

i


c vi t ng n g n, không tuân theo m t chu n nào và có

th

c

ng thu c nhi u mi n d li u khác nhau. V y v i các nh n

xét lo

phân lo i nào s cho k t qu t

tr l i câu h i này, Paltoglou et al. [11]
pháp phân lo i v i t p d li u

kh o sát hi u qu c a hai
i tho i, ph n h i c

i dùng trên

các trang m ng xã h i. K t qu th c nghi m cho th
d a trên
là v

ng tình c m c a t v ng

ng h p này, các
t hi u qu

c bi t


n có n i dung ng n, ch g m m t ho

b phân l p d a trên gi i thu t h c máy cho k t qu v
Nguyên nhân d

chính xác r t th p.

n k t qu trên là do trong các mi n d li u khác nhau, c m xúc

c th hi n c a m t s t

,t

tích c c khi nói v th i gian s d ng c
gian th c thi c a m t c

long
mô t v th i

nh thì l i mang ý tiêu c c.

5


a, có nh ng t ch xu t hi n
delicious
i hi
l


m t s mi n d li u nh

nh, ví d

t

th hi n c m xúc tích c c khi
c s d ng trong các nh n xét v

y m t b phân

c hu n luy n trên t p d li u là các nh n xét v sách s khơng có tr ng s
ch cv t

delicious

dùng b phân l

phân lo i các

nh n xét v
Hình 2.1 trình bày các k t qu phân lo
các b phân l

c do Blitzer et al. [1] khi s d ng

c hu n luy n trên m t mi n d li

phân lo i cho các d li u


thu c mi n khác. D li u là các câu nh n xét v s n ph m thu c các mi n khác
appliances.
chính xác mà b phân l
cùng mi n hu n luy n, các c t baseline

c khi phân lo i các d li u
c khi dùng phân lo i

d li u thu c các mi n khác. Các c t SCL, SCL-

c khi áp

d ng bi n pháp domain adaptation (thích ng mi

nâng cao hi u qu phân lo i

d li u thu c các mi n khác.

Hình 2.1: K t qu s d ng domain adaptation gi a các mi n d li u, [1]

6


K t qu cho th y các b phân l

c xây d

c máy ch

cho k t qu phân lo i t t trên mi n d li


c hu n luy n (trên 80%), khi

áp d ng sang t p d li u thu c các mi n khác thì k t qu
r t th p (ch

chính xác

t 70.8% khi phân lo i d li u mi n electronics b ng b hu n luy n

thu c mi n books). Ngoài ra, cịn có s phân nhóm gi a các mi n d li u, d li u
thu c các mi n kitchen appliances và electronics khá gi ng nhau nên cùng thu c
m

t qu

cv i

ng h p K->E và E-

u

chính xác cao.
Tóm l i, các b phân l

c xây d

phân lo i t t trên mi n d li

c máy ch cho k t qu

c hu n luy n, khi áp d ng sang t p d li u

thu c các mi n khác thì k t qu
qu thì t p hu n luy

chính xác r t th p.

nâng cao hi u

i ph i ch a d li u t nhi u mi n khác nhau. Tuy

nhiên, vi c thu th p và g n nhãn các d li u c n thi t cho t p hu n luy n là m t
công vi c r t t n th i gian, cơng s c và chi phí. D

t

ng gi i quy t m i

cross-domain classification, xây d ng m t b phân l p có kh
i các t p d

li u thu c nhi u mi

adaptation là m t trong s

2.3.

ng ti p c n chính.

Domain Adaptation


Nhu c u c n thi t c a domain adaptation phát sinh trong nhi u bài toán phân lo i
th c t , khi có s khơng phù h p v phân b d li u gi a mi n ki m tra và mi n
hu n luy n. M c tiêu c a domain adaptation là xây d ng m t b phân l p v ng
ch c (robust) b ng cách làm gi m s khác bi t gi a các mi n d li u.

ta s

xem xét m t s cơng trình nghiên c u tiêu bi u v
phân lo

c

n theo c m xúc.

Blitzer et al. [1] áp d ng gi i thu t structural correspondence learning (SCL) v i các
c c th

:

a. T t p d li
c gán nhãn

c gán nhãn t mi n d li u g c và các d li
c hai mi n d li u g c và d li

tính m u ch t (pivot features) xu t hi

7


ng xuyên

n ra m t s
c hai mi n d li u.

c


b. D

c tính m u ch t này xây d ng m t projection matrix có kh
tn

c tính mi n d li

c tính (feature

space) c a mi n d li u g c.
c. S d

c tính này, b phân l p hu n luy

c k t qu t t

c có th

t

c hai mi n d li u.


K t qu phân lo i c a gi i thu t SCL ph thu c nhi u vào cách ch n các pivot
m m r ng c a gi i thu
c phân lo

c áp d ng vào

n theo c m xúc. Trong nghiên c u này, các pivot features

c ch n theo các cách sau:
D a trên t n s xu t hi n c a t (cách ch n theo gi i thu t SCL). Các t xu t
hi

ng xuyên

D a trên t n s

c hai mi n d li u s

xu t hi n c a t

c ch n làm pivot features.
ng thơng tin

(mutual

information) c a nó v i các nhãn g c. Các t xu t hi
hai mi n d li

ng xuyên


c

c là các ng c viên, t

cao nh t v i các nhãn g c s

c ch n làm pivot features (ký hi u cách

ch n này là SCL-MI).
, Pan et al. [8]

t gi i pháp t ng quát cho v

domain

adaptation s d ng gi i thu t spectral feature alignment (SFA), g
a. Ch n l c các t

c l p mi n (domain-indepenent) và các t ph thu c mi n

(domainlà t

c:

hai t p d li u g c và t p d li
ng tình c

mi n là t

.T


c l p mi n

trên nhi u mi n d li u, t ph thu c

ng tình c

i tùy theo ng c nh. Các t

cl p

mi n gi vai trò là các pivot features.
b. Xây d ng m

th

i m i quan h gi

nh d a vào m t s
c. D a vào các t

c xác

n s xu t hi n cùng nhau.

c l p mi n, s d ng gi i thu

liên k t các t ph

thu c mi n t hai mi n khác nhau thành các c m th ng nh t. Các c m này có

th

rút ng n s khác bi t gi a các t ph thu c mi n gi a hai

8


mi n d li

n nâng cao hi u qu vi c hu n luy n b phân

l p trên mi n d li
Vi c l a ch

c l p mi

c ti n hành theo m t s

D a trên t n s xu t hi n c a t trong c hai mi n d li u (SFAFQ).
D

gi a t v i nhãn c a mi n d li u g c (SFAMI).

D

gi a t v i mi n d li u (SFADI). T
cao là t ph thu c mi

C


c l i là t

ng

c l p mi n.

u ch s d ng d li u t m t mi n d li u g
xây d ng b phân l p phân lo i cho d li

c

c gán nhãn thu c

m t mi n khác.
V i

ng d li u t nhi u mi n khác nhau có th h tr l

b phân l
b t

t o nên m t

n, Bollegala et al. [2] s d ng k thu t feature expansion

n các t

t o

ng c m xúc:


T các t p d li

c gán nhãn ho c

li u g c và t p d li

c các mi n d

c gán nhãn thu c mi n d li

n các

lexicon elements là các unigrams và bigrams.
liên quan (relatedness) gi a các lexicon elements và nhóm các
lexicon elements có liên quan v
(thesaurus). B t

t o thành m t b

n này s ch a thông tin v

t

n

liên quan gi a các

lexicon elements trong các mi n d li u d a trên ng c nh mà nó xu t hi n.
B t


m r

c tính khi ti n hành

hu n luy n b phân l p s d ng gi i thu t h i quy logistic L1 regularization.
d ng t t c
t o ra b t

n d a vào s

c tính trong q trình t o b t
ng l n các t p d li

cao hi u qu phân lo i trên mi n d li
phân l
b phân l

K t qu thí nghi

c hu n luy n b i d li u thu c nhi u mi n cho k t qu t
c hu n luy n b i m i mi n d li u riêng l .

9

n và có th
nâng
yb
i



Li và Zong [4]
khác nhau

k t h p t p d li u t nhi u mi n

xây d ng b phân l

n: Feature-level fusion và Classifier-

level fusion.
Feature-level fusion: k t h
t

c tính t các mi n khác nhau thành m t

c tính th ng nh t

hu n luy n m t b phân l p.

Classifier-level fusion: v i m i mi n d li u xây d ng m t b phân riêng
bi t

Hình 2.2

t h p các b phân l p này

t o ra m t b phân l p

n.


ng ti p c n Feature-level fusion và Classifier-level fusion, [4]

Th c nghi m cho th y

ng ti p c n classifier-level fusion cho k t qu t

v i feature-level fusion và các b phân l
ng ti p c n Classifier-level fusion, ta có th d
d li u mà gán tr ng s

so

n riêng bi t c a m i mi n. V i
liên quan gi a các mi n

phân l p thu c các mi n có d li

v i d li u thu c mi n c n phân lo i.
Tóm l i, các nghiên c
v

cross-

cm

gi i quy t

ó là domain adaptation, d a trên vi c chuy n


i cách bi u di n d li u c a mi n d li u g c và mi n d li
gi m s khác bi t gi a các mi n d li

m làm
iv i

10


Vi c

c tính

ng c

li u g c và mi n d li

gi a mi n d

làm các pivot features.

D a trên m i quan h gi a các pivot features và
mi n d li u

c tính khác c a các

làm gi m s khác nhau v phân b d li u c a các mi n.

Hi u qu c a vi c phân l p ph thu c nhi u vào vi c l a các pivot features.
tính


c

c ch n ph i là các t khóa có vai trị quan tr ng trong vi c phân lo

b n,

a các mi n d li u, nên chúng ph i là các t
ng c m xúc

c l p mi n.

Trong nghiên c u c a Blitzer et al. [1] và Pan et al. [8], các pivot features

c

ch n có ph n ph thu c vào kinh nghi m (heuristically).
n d a trên t n s xu t hi
thích h p v i bài tốn phân lo
ph n l n là t khơng ma

ng xuyên c a t không

n theo c m xúc. Các t
ng c m xúc.

nd
li u g

gi a t v i nhãn c a mi n d

c các t

b

c ch n

ng c

m

c l p mi n.
n d

gi a t v i mi n d li u,

không ph i t t c các t
thu c mi

u có th

c m t cách rõ ràng là ph

c l p mi n.

2.4.
G

, cross-domain classification là v

n ib


b n theo c m xúc. Nhìn chung các nghiên c

c phân lo
c m t gi i pháp t ng quát,

t qu phân l p ph thu c khá nhi u vào vi c
nh các t

c l p mi n làm các pivot feature.

N i dung nghiên c u c

tài là tìm hi u và hi n th c m t b phân l p có th

phân lo i các ph n h i thu c nhi u mi n d li u khác nhau, s d ng k thu t nh n
d ng các t khoá phân lo

c l p mi n (domain-independent keywords) d a trên

ch s DeltaTFIDF.
11


Thu th p và gán nhãn các ph n h i v nh ng ch
li u khác nhau (gi s
nh t khóa
T

thu c nhi u mi n d

p d li u hu n luy n.

c l p mi n và t khóa ph thu c mi n t t p hu n luy n.

c l p mi n là t

ng tình c

mi n d li u. T khóa ph thu c mi n là t

t c các
ng tình c

i

theo ng c nh.
D a vào m i quan h gi a các t
(ví d

c l p mi n v i các t

a trên t n s xu t hi n cùng nhau)

ng tình c
Bi

n

nh các t mang xu
thu c t p hu n luy n.


n thành các feature vector,

ti n hành hu n luy n b

phân l p.
Áp d ng b phân l p h
m t ch

,m

ti n hành phân lo i cho các ph n h i v
ng m i (E)

12

c gán nhãn.


:
lý thuy t c a m t s k thu
quá trình th c hi

3.1.

c s d ng trong

tài.

Support Vector Machine (SVM)


SVM là b phân l p d a trên lý thuy t h c th ng kê, do Vladimir Vapnik
ng
li u là

n c a SVM là tìm ki m m t hyperland (siêu ph

.

phân chia d

m trong không gian nhi u chi u vào các l p phân ho ch khác nhau.

m m u ch

m b o sao cho margin (l ), kho ng cách t

n các

phân ho ch là l n nh t.
Ví d v i bài tốn phân lo i hai l p: c
m trong không gian, m
m
thu c vào m t l p v i ký hi
ng là
ho c .
phân l
m
trên, ta có th dùng nhi
ng th ng L1,

u có th phân lo i t t các m thành hai l p riêng bi t.

, [7] trang 112.

Hình

Tuy nhiên v
phân l
c s là cách phân l p t
Ví d
ng th ng w.x - b = 0,
m
thành hai l p phân ho ch riêng bi t v i kho ng cách t
ng th
mg n
nh t là l n nh t.

13


Hình 3.2

, [7] trang 113.

Gi i thu t tìm hyperland t
i Vladimir Vapnik
1963 là m t b phân l p tuy
Isabelle
Guyon và Vapnik
ngh m

t o ra các b phân l p phi tuy n
b ng cách s d
bi
i các d li
u vào (khơng kh tách
r i tuy n tính) sang m t khơng gian có s chi u l n
, mà
li u này
tr nên có th tách r i tuy n tính.
Có b n hàm kernel thơng d ng là: Linear kernel, Polynomial kernel, Radial basis
function (RBF) kernel và Sigmoid kernel
ngh s d ng cho h u h
ng h p b i vì:
Linear kernel khơng gi i quy
r i tuy n tính.
V i m t s thơng s nh

ng h p các d li u là không kh tách

nh, sigmoid và RBF x lý gi ng nhau.

Polynomial kernel có s siêu tham s (hyperparameters) nhi
c l a ch n mô hình (model selection)
Tuy nhiên, trong
ng h p s
m (feature) là r t l n, ta không c n
chuy
i d li u sang khơng gian có s chi u nhi
c dùng linear kernel
t t và ta ch c n tìm giá tr t

C nên th i gian x lý nhanh
.
Gi i thu t SVM là m t trong nh ng cách xây d ng b phân l p v
chính xác
c phân lo
n, c phân lo i theo ch d và phân lo i theo
c
u này
c ch ng minh qua m t s cơng trình c a Pang et al. [10],
Paltoglou và Thelwall [12], ...
14


áp d ng SVM vào bài toán phân lo
d ng các vector nhi u chi
i chi u c
t
chi u c a vector là r t l n, vi
và t n nhi u th i gian tính tốn các tr ng s .
Vì v

c bi u di
i
ng v i m t t
u

u qu s d ng SVM, ta c n tìm cách rút ng n s chi u c a không
u này có th th c hi n b ng cách áp d ng các bi n pháp ti n x lý
n.


3.2.

Ti n x

n

t hi u qu cao trong quá trình phân tích t ng , ta c n ti


c ti n x

n nh m làm gi m s t

li u trong bi u di

cd

b n.
ng bao g m các

Xóa b t

c sau:

a (Stop-word removal):

V i ngơn ng t nhiên, ngồi ph n n
khơng mang nhi

ng có các t


m t phân lo i n i dung. Ví d trong ti ng Anh có

nhi u t ch

ph c v cho vi c bi u di n c u trúc ch không bi

dung c

a

the

m t s tr ng t và tính t

in

but

ng t ph bi n có d

c bi

stop-word s khơng

tn i

to

be


c xem t stop-word. Vi c lo i b các
n công vi c phân lo i

c bi t, trong bài toán phân lo

n.

m xúc, ta ch c n t p trung xét các t

ng tình c m. Theo Taboada et al. [13], các t này là tính t , tr ng t ,
danh t
tagging

ng t . Vì v y, ta có th d a vào vi
lo i b các t

u t lo i (Part-Of-Speech

ng c m xúc ra kh

n.

Rút g n d ng t (Stemming ho c Lemmatization):
a, các t ti ng Anh khi s d ng

nh ng hoàn c nh khác nhau thì có th

c vi t b ng nhi u


ng t
, thì hi n t i,

was

were

d ng b

c vi t khác nhau
Ví d

t ngu n t m t t g c là be

d ng g c c a nó s làm gi m s t c n phân tích mà v n khơng
dung

n.
15

are

thì
is

c thu g n các t v
nn i


X lý c m t ph

Ngoài ra, v

nh
c phân lo

n theo c m xúc, các c m t ph
ng,

Vì v y, vi
h p t ph

nh trong

n k t qu phân lo i c

nh các c m t ph

tv

c

n.

c quan tâm.

ra m
nh các c m t ph
nh và các t li n k v i nó, d a vào m t s m

nh là k t


<Verb> - <Negative Particle> - <Verb>:
<Verb> - <Negative Particle> - <Adverb> - <Adjective>: be not happy, be
not very impressed, be not as good
K t qu cho th

3.3.

chính xác c a b phân l

Bi

n

ng mơ hình trên.

Vector Space Model

có th xây d ng b phân l p s d ng SVM, các
x

c và bi u di n

n c n phân lo i ph

d ng toán h c mà máy tính có th hi

u qu

c


c.

bi u di n các tài li u là s d ng Vector Space Model

(Mơ hình khơng gian Vector). M i câu nh n xét s

c bi

i thành m t vector

s nhi u chi u

< label> là m t giá tr

ng v i l p phân lo i, ví d

ng

h p c a chúng ta < label> = 1 (positive) và < label> = -1 (negative)
< index> :< value> là m t c p giá tr
< index> là giá tr s th t
nh m

ch

ng cho m i t trong câu, v i
nt

< value> là giá tr nh m xác


quan tr ng c a t

i c a câu.

TFIDF (Term Frequency - Inverse Document Frequency):
ng, giá tr <value>
quan tr ng c a m t t t

iv

ng dùng là tr ng s TFIDF, th hi n s
n d trong m t t

tfidf (t , d , D) tf (t , d ) idf (t , D)
16

n D.
(1)

c


TF (Term Frequency):
G i f (t , d ) là s l n xu t hi n c a t t

n d, tf (t, d ) có th

c tính


b ng m t s
tf (t , d )

Raw frequency

tf (t , d )

Boolean frequency

f (t , d )

(2.1)

1, if f (t , d ) 0
0, otherwise

tf (t , d ) log( f (t , d ) 1)

Logarithmically scaled frequency

tf (t , d ) 0.5

Augmented frequency

(2.2)

(2.3)

0.5 f (t , d )
max f ( w, d ) : w d


(2.4)

B ng 3.1: M t s cơng th c tính TF
Theo Pang et al. [10], vi c s d ng Boolean frequency s cho k t qu phân lo i v i
t qu t t v
phân lo i ch
qu

c

i v i phân lo i câu bình lu n k t

cl

chính xác khơng cao.

IDF (Inverse Document Frequency):
V i D là t ng s

n, Dt

d

D:t

idf (t , D) log

Giá tr IDF c a m t t cho bi t t


d là s

D
Dt

n có ch a t t:

(3)

t hi

n

hay khơng.
M t t có giá tr IDF càng th
trong t p
N
t

càng xu t hi

ng xuyên

n.

c l i giá tr IDF c a t

l n thì t

n.


17

m xu t hi n trong


3.4.

DeltaTFIDF

Tr ng s TFIDF cho k t qu khá t t v i phân lo
tuy nhiên v i phân lo

n truy n th ng theo ch

b n theo c

nh các t

,
ng

tình c m, ta có th s d ng m t cách tính tr ng s khác t
DeltaTFIDF do Martineau và Finin [5]

ng chính là s d ng ch s idf

vào vi c phân lo i các câu bình lu n. T p d li u hu n luy n s

c chia làm hai:


t p tích c c P và t p tiêu c c N ; tính giá tr c c b idf (t , P ) và idf (t , N)

y

hi u c a hai giá tr này.
(t , d ) tf (t , d ) *(idf (t , P ) idf (t , N ))
P

tf (t , d ) * log

Pt
P
Pt

tf (t , d ) *log

V

log

N

(4)

Nt

Nt
N


u DeltaTFIDF c a m t t có giá tr l
thì t

hi

ít xu t hi

ng xuyên

tiêu c

ng

n thu c t p tích c c và xu t

n thu c t p tiêu c

này mang xu h

c l i, n u DeltaTFIDF c a m t t có giá tr nh
thì t

xu t hi

xu t hi n

ng xuyên

ng âm


n thu c t p tích c c và ít

n thu c t p tiêu c

Các giá tr

ng

ng tiêu c c.

ng âm trên s

u ch nh sao

cho thích h p v i t ng t p d li u c th .
M t t có t n s xu t hi n g n

c t p tích c c và t p tiêu c c s có giá

tr DeltaTFIDF g n b ng 0

này khơng mang xu

quan tr ng cho vi c phân lo
có giá tr tuy

ng c m xúc, khơng

n. Tóm l i, các t


ng c m xúc s

i c a DeltaTFIDF l n, bi u di n cho s quan tr ng c a chúng

trong quá trình phân lo i.
Tuy nhiên, v i công th

n Martineau và Finin

ng h p m t t ch xu t hi n
l i trong vi c tính tốn IDF.

t p tích c c ho c t p tiêu c c,

gi i quy t v

t s công th c m i
18

d

n

này, Paltoglou và Thelwall [12]


×