Tải bản đầy đủ (.pdf) (78 trang)

Xây dựng hệ thống tư vấn trên các trang facebook fanpage

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.76 MB, 78 trang )

--------------------

TRÊN CÁC TRANG FACEBOOK FANPAGE

Chuyên ngành :
60.48.01

11

2013


-HCM

...........................................................................

...........................................................................

HCM ngày 25 tháng 12

Tr
2013

ng

i h c Bách Khoa, HQG Tp.

Thành ph n H i ng nh giá lu n v n th c s g m:
(Ghi
c a H i ng ch m b o v lu n v n th c
s)


1. ..............................................................
2. ..............................................................
3. ..............................................................
4. ..............................................................
5. ..............................................................
Xác nh n c a Ch t ch H i ng
chuyên ngành sau khi lu n v n ã

h giá LV và
c s a ch a (n u có).
KHOA

ii




NAM

-

-

KHOA

..................... MSHV: 11070441 .................
04/06/1979 ...............................

KHÁNH HÒA .........


.......................

: 60.48.01 ...................

Chuyên ngành:
I.

FANPAGE ......................................................................................................................
II.

P
...........................................................................

.............................................................................................................................................
III.

: 21/01/2013 ................................................................

IV.

: 22/11/2013..................................................

V.

:

........................................

.............................................................................................................................................


Tp. HCM, ng

iii

20....


iv


m

v


ABSTRACT
In recent years, social network has changed completely the connection
method among netizens and become an essential part of the daily lives of
billions of people around the world. The continuous growth of social network
has made the process of finding useful information become difficult, and it also
motivates the research of data mining on social network environment more
powerful. One of the research directions in this field is data mining on social
networks to advise users with useful, quick and accurate data.
Within the scope of this thesis, we researched on classic methods in data
mining, assessment methods, user classification in the social network. After
that, we proposed a method of combining between fanpage content
for advising people to suitable fanpages.

vi



.

vii


.................................................................................................................... iv
..................................................................................................... v
ABSTRACT ....................................................................................................................... vi
............................................................................................................. vii
....................................................................................................................... viii
......................................................................................................... x
........................................................................................................... xi
............................................................................................... 12
1.1
.................................................................................................... 12
1.2
.............................................................................. 13
1.3
.................................................................................................... 14
................................................................................. 16
2.1
.............................................................. 16
2.2
................................................................................. 17
2.2.1
................................................................................... 17
2.2.2

....................................................................................... 18


2.3
2.3.1

................................................................................... 19
............................................................................................. 19

2.3.2

-means ............................................................................................ 19

2.4
2.5
3.1
3.1.1

.............................. 25
....................................................................................... 25
........................................................... 27
........................................................................................... 27
Vector space model ............................................................................................ 27

3.1.2

..................................................................... 28

3.1.3

..................................................................................... 28


3.2
3.2.1

............................................................................................ 29
........................................ 30

3.2.2

..................................................................................... 31

3.3
3.4

............................................................................................. 32
Social Lens ............................................................................................................. 33

4.1
4.2
4.3
4.3.1

....................................................................................................... 35
...................................................................................................... 35
............................................................................. 36
.................................................................................. 37
................................................................................................ 37

4.3.2

.................................................................................................. 40

viii


4.4
4.4.1

...................................................................................... 40
.............................................................. 40

4.4.2

..................................................................... 41

4.5
4.5.1

...................................................................................................... 42
.............................................................. 42

4.5.2

.............................................. 42

4.6
4.7
5.1
5.1.1

.............................. 43
..................................................................................... 43

.................................................... 44
.................................................................................................... 44
............................................................. 44

a.

............................................................................ 44

b.

...................................................................................................... 51

c.

............................................................................................... 54

5.1.2 Ph

............................................................................. 54

a.

........................................................................... 55

b.

............................................................................................... 55
:

1.


...................................................................... 56
........................................................................................ 56
........................................................................... 58
................................................................................................. 59
7:
................................................................................................ 65
.................................................................................................................. 65
..................................................................................................... 66
................................................................................................ 68
........................................................................................................................ 69
...................................................................................................... 69

2.

................................................................... 72

3.

................................ 75

4.

.............................................................................. 76

6.1
6.2
6.3
7.1
7.2


ix


D
.......................................................................................... 39
-strength ........................................................................................... 39

x


D
-means ..................................................................................... 20
.............................................................................. 29
................................................................... 34
................................ 34
..................................................................... 40
.................................................. 41
......... 42
....................................................................................... 44
.................................. 45
............................................................ 45
.............................. 46
..................................................................... 47
..................................................... 47
........................................................................ 48
............................................................ 48
............................................................. 49
.............................................................................. 49
............................................................ 50

................................................................. 50
................................................................... 51
.......................................................................................... 59
.......................................................................................... 60
.......................................................................................... 61
.......................................................................................... 62
.......................................................................................... 63

xi


1 : T ng quan

1.1 Lý do ch

tài

Trong nh

ng xã h

i m i hoàn toàn cách

ng liên k t v i nhau và tr thành m t ph n trong cu c s ng hàng
ngày c a hàng t
Hi n nay, th

i trên th gi i.
gi


ng m ng xã h i khác nhau, v i

MySpace và Facebook n i ti ng nh t trong th

ng B c M và Tây Âu;

Orkut và Hi5 t i Nam M ; Friendster t
D

o qu c Thái Bình

ng xã h i khác g

theo vùng mi n

i Anh Qu c, CyWorld t i Hàn Qu c, Mixi t i Nh t B n và t i Vi t
Nam xu t hi n r t nhi u các m ng xã h
c ngo t m i cho h th ng
m ng xã h i tr c tuy n v i nhi
g

t tr i. Facebook nhanh chóng

t b c, s

m ng xã h

thành

u th gi i hi


n cu i tháng 11/2011, s

ng

m 55.1% t ng s thành viên các
m ng xã h i (ngu n ).
S phát tri n không ng ng c a m ng xã h
d li

y các nghiên c u khai thác

ng này ngày càng m nh m .
ng bao g m s k t h p c a các d

li

ng nh t. Khai phá d li

ng g i là khai

phá d li u web ngoài vi c c n khai thác n

n, các nghiên c u còn

khai thác các m i quan h gi a chúng và cách th
chúng. Khai phá d li
c nghiên c

i s d ng


n m nh m bao g m r t nhi u
nhân t o, truy xu t thông tin, th ng kê và tiên
truy xu t thông tin d a trên n i dung, truy xu t thơng

tin s d ng, tính h ng trang web d

ng

c nh trong khai phá web. Khai phá web v n còn là
12


1 : T ng quan
m

ng m và liên t

c phát tri n. Tuy v y, ta có th hi u khai

c trích ra các thành ph
có ích cùng các thơng tin ti

các tài nguyên ho c các ho

ng liên

quan t i world-wide-web.
v c: khai phá n i dung web, khai phá c u trúc web và khai phá s d ng web.
c thù riêng, m ng xã h i mang

n cho vi c khai phá d li u nhi
n mv

i và thách th c m i. Ngoài yêu c u

v lý thuy t khai phá d li u, phân c m tài li u, phân tích các
li u truy n th ng, khai phá d li u

trên m ng xã h i còn yêu c u x lý tài li

c vi t m t cách khơng chính

th ng (pha tr n nhi u ngôn ng , vi t t t, vi t sai chính t

c bi u

di n b ng cách ph i h p nhi u ki u d li
clip, siêu liên k

nh nh

li u

ng m ng xã h
các c

, hình nh,

ra nhi u ng d ng m


p

ng chung s thích, qu

tìm hi u m

ng d li u m i, nhi u ti

ph c v c

n ng d ng

ng, chúng tôi ti n hành nghiên c

khai th c nghi m h th

hát tri n và tri n

n các trang facebook

fanpage phù h p d a trên nhu c u v n i dung và s

1.2 M c tiêu và gi i h n c

tài

ng truy c

tài


c thù c a m ng xã h i, vi c khai phá liên k t web và khai phá s
d

ng d ng không có quy n truy c p sâu vào
d li u c

c a mình

ng khơng thi t l p trang cá nhân

tr ng thái cơng khai hồn tồn (public).

Vì v y, m c tiêu c a nghiên c u này là
ng ti p c n cho vi c khai thác d li

lý thuy t và
ng m ng xã h i, t p

trung vào khai thác n i dung web và k t h p m t s thông tin liên k t web thu
thu th

c, cùng v

i dùng lên h th

13

cung c p



1 : T ng quan
k t qu tìm ki
v

i dùng. Qua

ng và th nghi m h th

n các trang facebook fanpage phù h p.
Trong ph

thu th

tài này, chúng tôi t p trung nghiên c u và x lý d li u
c trên ngôn ng ti ng anh (các ngôn ng khác s

c lo i b

trong quá trình x lý d li u).

1.3 C u trúc lu
V im

t ra là kh o sát, nghiên c u và tri n khai th c

nghi m h th

i dùng

h p d a trên nhu c u v n i dung và s

c chia thành 7

n các trang facebook fanpage phù
ng truy c p. N i dung lu

ic

.Q
tài.

.

Trong c

, chúng tôi
.
. Chúng tôi

14


1 : T ng quan

.

5.
6:
,

7:


g ng r t nhi
do kinh nghi

lu

u ki n nghiên c

t k t qu t t nh t. Tuy nhiên,
i gian ng n nên nh ng sai

u không th tránh kh i. Chúng tôi xin chân thành c
ti p thu t t c nh ng ý ki

a q th y cơ và b

c hồn thi

15

tr ng
lu


2 :

2.1

lýthuy t


c c a quá trình phát hi n tri th c
V

n, quá trình phát hi n tri th

T p h p d li

c quy v

c chính:

u tiên trong quá trình khai phá d li

c khai thác t các ngu n d li
ngu n ng d

d li u, kho d li u, các

.

n này d li
chu

c l a ch

phân chia theo m t s tiêu

cv m

c r t quan tr ng trong quá trình khai phá d li u. D li u thu

ng t n t i các ph n t khơng có tính logic, ch a các giá tr vơ
t o ra tri th c (ví d v n t

p là 320km/gi ).

c này s ti n hành x lý nh ng d ng d li u không ch t ch nói trên.
Nh ng d li u lo

.B iv

là m t quá trình r t quan tr ng vì d li u này n
gây nên nh ng sai l ch k t qu

cx

c thì s

c sau.

Chu
n chuy

i d li u, d li u

c t ch c l i và s

c chuy n

i v d ng phù h p, s n sàng cho vi c khai phá tri th c.


c quan tr ng, quy
d li u.

c này,

toán khác nhau s

nh s khác bi t gi a các h th ng khai phá
c thù c a ng d ng khai phá d li u, các thu t
ph c v cho vi c rút trích tri th c.

16


2 :

n này các m u d li
Không ph i t t c các m u d li

lýthuy t

c rút ra b i thu t toán khai phá d li u.
u

i u c u

khi nó cịn b sai l ch. Vì v y, c n ph i có các tiêu chu
ra các tri th c c n thi t. Ví d

n cung c p m


h u ích c a các m u tri th c
cách tr c quan hóa

rút trích

c

ánh giá s

tri th c s

c bi u di n m t

i s d ng.

2.2 Các k thu t khai phá d li u
2.2.1 Khai phá d li u d
Khai phá d li u là quá trình rút ra các lu t, các d
hi n th i. Nó d a vào các thơng tin có s n
giá tr khơng bi t hay các giá tr

a trên d li u
d li

d

m các k thu t phân lo i

(classification), h i quy (regression).

o

Phân lo i:
P

q trình gán

.
:

.
Mơ hình
.P

.

:

Phân lo i có th coi là m t hàm ánh x m t m c d li u vào m t trong các
l

c.
17


2 :
o

lýthuy t


H i quy:
N u phân lo

d

d

tr r i r c c a thu c tính l p thì h i

các giá tr liên t c. H i quy là m t hàm ánh x m t

m c d li u vào m t bi n d báo giá tr th c.

2.2.2 Khai phá d li u mô t
Các k thu t này có nhi m v mơ t v các tính ch t ho
chung c a d li u trong

c tính

d li u hi n có. Bao g m các k thu t phân c m,

phân tích lu t k t h p.
o

Phân c m:
Phân c m là quá trình phân lo
cho cá

ng vào các c m khác nhau sao


ng trong cùng m t c m thì

thu c khác c m s

ng

ng. Phân c m d li u là m t ví d c a

c khơng giám sát. Không gi
c m d li

i d li u, phân

i ph

c các m u d li u hu n luy n.

, k t qu các c
Phân c m d li

c bi

c.

c s d ng trong các ng d ng v phân tích th

ng,

khách hàng, nh n d ng m u, phân lo i
cịn có th


ng

cs d

cs

n

m d li u

c ti n x lý cho các thu t toán khai phá

d li u khác.
o

Lu t k t h p:
P

lu t k t h

các giá tr d li u trong
li u là t p lu t k t h

phát hi n và tìm ra các m i liên h gi a
d li u. K t qu

u ra c a gi i thu t khai phá d

c. Khai phá lu t k t h


c:

18

c th c hi n qua 2


2 :

2.3

lýthuy t

Các thu t toán x lý d li u

2.3.1 Ti n x

n

Ti n x
li

u tiên trong quá trình rút trích tri th c t d

b

t s c quan tr ng trong q trình rút trích

tri th c ti p theo. Ti n x


n giúp gi

quá trình x lý, phân nhóm và tìm ki

c d li

c

n.

-words
Stop-

-

-

-

các

2.3.2 Thu t tốn k-means
Phân c m là k thu t r t quan tr ng trong khai phá d li u, nó thu c l p
c khơng giám sát trong Machine Learning. Có nhi
k thu

nh

b n ch t ta có th hi u phân c m là

ng vào các c

trong cùng m t c

ng
ng khác c

t nhau.
19


2 :
M

lýthuy t

a phân c m là tìm ra b n ch t bên trong c a các c m d li u.

Các thu t toán phân c

u sinh ra các c m. Tuy nhiên khơng có tiêu chí nào

c xem là t t nh
ph thu c vào m

u qu c a thu t toán phân c

u này

c a vi c phân c m.

-Means

K-Means là thu t toán quan tr ng và ph bi n b c nh t trong k thu t phân
c

ng chính c a thu t tốn k-

i

m (k là s c

c và k là s nguyên
ng cách gi

nhóm là nh nh t.
Thu t tốn k-

c mơ t

sau:

Hình 1

-means

Ví d minh h a:

20

n tâm



2 :

c1

2

21

lýthuy t


2 :

d(C, c1) =

(4 1)2 (3 1)2

= 13

d(C, c2) =

(4 2)2 (3 1)2

=8

d(C, c1) > d(C, c2
d(D, c1) =


(5 1)2 (4 1)2

= 25

d(D, c2) =

(5 2)2 (4 1)2

= 18

d(D,c1) > d(D, c2)

1
2

(x,y) =

-1:

)

c2

d(A, c1 ) = 0 <

d(A, c2 ) = 9.89

d(B, c1 ) = 1 <

d(B, c2 ) = 5.56


d(C, c1 ) = 13

>

d(C, c2 ) = 0.22

d(D, c1 ) = 25

>

d(D, c2 ) = 3.56

-2:

22

lýthuy t


2 :
c1 = (3/2, 1) và c2 = (9/2, 7/2)

-3:
d(A, c1 ) = 0.25

<

d(A, c2 ) = 18.5


=>

d(B, c1 ) = 0.25

<

d(B, c2 ) = 12.5

=>

d(C, c1 ) = 10.25

<

d(C, c2 ) = 0.5

=>

d(D, c1 ) = 21.25

>

d(D, c2 ) = 0.5

=>

t toán:
m:
23


C

lýthuy t


2 :

lýthuy t

ph c t p: O(K.N.l) v i l: s l n l p.
Có kh

r ng, có th d dàng s

i v i nh ng d li u

m i.
B

m h i t sau m t s

c l p h u h n.

Ln có K c m d li u.
Ln có ít nh t m

m d li u trong m t c m d li u.

Các c m không phân c p và không b ch ng chéo d li u lên
nhau.

M i thành viên c a m t c m là g n v i chính c

t

c 1 c m nào khác.
m:
Khơng có kh

ác c m khơng l i ho c các c m có

hình d ng ph c t p.
nh các tr ng tâm c

u

o Ch n ng u nhiên các trung tâm c m lúc kh i t o.
h i t c a thu t toán ph thu c vào vi c kh i t o các

o

vector trung tâm c m.
ch

cs

qua nhi u l n th

ng c m t
cs


u, mà ph i
ng c m t

R t nh y c m v i nhi u và các ph n t ngo i lai trong d li u.
Không ph i lúc nào m
ch phù h p v

thu c v m t c m,

ng biên gi a các c m rõ.

ng K,l << N nên thu t toán k-means khá hi u qu
s d li u l n. V

iv

d li u là hàng tri u facebook fanpage, vi c áp d ng

thu t toán k-means s giúp làm gi m khơng gian bài tốn cho nh
lý ti p theo.

24

cx


2 :

lýthuy t


2.4 Nh ng thách th c c a vi c khai phá d li u trên m ng xã h i
o

c thay

o

o

o

o

p

2.5

ng ti p c n c

tài

Cùng v i s phát tri n c a các trang cá nhân trên m ng xã h i facebook,
các fanpage g

n r t nhanh và d n thay th các di

thu n túy. Bên c nh vi c cung c
i

i dùng nh ng thơng tin h u ích và


k t b n v i nh

i cùng s thích, s

tri n quá nhanh l
phù h p.

ng fanpage phát

i dùng trong vi c l a ch n fanpage

i dùng g

p trong m

g i ý b i facebook. Nh n th

cs

ng fanpage l

c

i dùng chúng tôi

nghiên c u xây d ng h th ng g i ý facebook fanpage theo tiêu chí c a
i dùng v

ng ti p c n m i bao g m thu th p, chu n hóa d li u, phân


c m d li u, k t h p thông tin th
th

m hi n t i. Nh

nh n ra ch

c a t ng fanpage t i

, h th ng có th g i ý

i dùng nh ng

fanpage phù h p nh t.

25


×