Tải bản đầy đủ (.pdf) (81 trang)

Trích rút thông tin tự động dựa trên học máy cho tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.51 MB, 81 trang )

- 2010B.
-

trong
!

Trang 1


Trang 2


1
2
3
6
7
8
Ư

1.

11

1.1

.................................................................................................... 11

1.2

Ki n trúc c a h th ng trích rút thông tin................................................................ 15



1.2.1

Trích rút th c th - Named Entity Recognition (NER) ..................................... 16

1.2.2

Gi i quy

1.2.3

Xây d ng m u ph n t - Template Element Construction (TE)........................ 18

1.2.4

Xây d ng m u quan h .................................................................................... 19

1.2.5

u k ch b n ....................................................................................... 19

ng tham chi u ............................................................................. 17

1.3

Bài toán trích rút th c th ....................................................................................... 20

1.4

....................................................................... 23


1.4.1

Trích rút thông tin t

n .......................................................................... 23

1.4.2

..................................................................................... 23

1.4.3

H tr h th ng tr l i câu hỏi t

1.4.4

C i thi n k t qu c a h th ng tìm ki m .......................................................... 24

Ư
2.
Ư
TRÍCH RÚT THÔNG TIN

ng ............................................................ 24

25

2.1


(hand-written regular expressions) .................................... 25

2.2

idden Markov Model - HMM) ..................................... 26

2.3

Mô hình Markov c

2.4

T ng k

Ư
3.1

3. MÔ

i hóa Entropy (MEMM) .................................................... 28

.................................................................................................... 32

Ư

33

ng ng

u ki n - CRFs ................................... 33


Trang 3


3.2

............................................................................... 35

3.2.1

.................................................................................. 35

3.2.2

........................................................ 35

3.2.3

....................................................................... 36

3.3

................................................................... 38

3.4

............................................................. 39

3.5


........................................................... 41

3.6

ch nhãn................................................... 43

3.7

.................................................................................................... 44

Ư

4.

45

4.1
4.2

............................................. 45
Ứng d

t ........................................... 50

4.2.1

d ng CRF .......................................... 50

4.2.2


....................................................................................... 50

4.2.3

....................................................................................... 54

4.3

d

n: ....................... 55

4.3.1

ng: ............................................................................................... 56

4.3.2

ng câu .......................................................................................... 56

4.3.3

ng câu ............................................................ 57

4.3.4

ng câu .............................. 57

4.4


................................................................................................... 60

Ư

5.

Ư
61

5.1
5.2

t ................................................... 61
Thi t k

............................................................... 61

5.2.1

Bi

lu ng d li u các m c ........................................................................ 61

5.2.2

Bi

phân c p ch

5.2.3


Các bi

............................................................................ 63

lu ng th hi n ch

Trang 4

th ng ............................................... 64


5.2.4
5.3

Thi t k

Xây d

d li u ...................................................................................... 67
........................................................................................... 68

5.3.1

L a ch n ngôn ng và công c l p trình .......................................................... 68

5.3.2

Các l


5.4

.................................................................... 69

Thi t k giao di n và s d

5.5

............................................................ 72
............................................................................. 75

5.5.1

................................................................................... 75

5.5.2

................................................... 76

5.5.3

...................................................................................... 76

78
.......................................................................................................... 78
.......................................................................................................... 79

80

Trang 5



1-1: Ki n trúc c a h th ng trích rút thông tin ...............................................................16
1-2: Ki n trúc c a h th ng trích rút th c th ................................................................20
1-3: H th ng tìm ki m .................................................................................................24
...................................................................27
.........................................................29
2-3: V
5-1: Bi
5-2: Bi
-

sai l ch nhãn ..............................................................................................30
.................................................................................34
..........................................................................................36
n .............................................................42
ch nhãn ...................43
........................................................................................47
.........................................................................................48
...........................................................................49
...............................................................50
......................................................51
..............................................................................................52
.........................53
..............................................................................................55
lu ng d li u m c khung c nh ..................................................................62
lu ng d li u m
nh .............................................................................62
..................................................................................63
.......................................................64

.................................................................66
.....................................................67
............................................................................................................69
............................................................................................70
............................................................................................71
.....................................................................................................71

-

...................................................................................................72
........................................................................................72
............................................................................73
..................................................................74

-

..........................................................74

Trang 6


-

.....................................15

-

.......................................................17

-


............................................................................18

-

...........................................................................19

-

....................................................................................19

-

................................................................................22

-

..............................31

4-1.

..........53

-

affection, jealous and gossip) .......................................58

-

affection, jealous and gossip) ..................................59


-

...................................................................................68

-

....................................................75

-

..................................................76

-

..............................................................................................77

Trang 7


(2-1) .....................................................................................................................27
(2-2) .....................................................................................................................27
(2-3) .....................................................................................................................29
(2-4) .....................................................................................................................29
(2-5) .....................................................................................................................30
(2-6) .....................................................................................................................30
(2-7) .....................................................................................................................31
(3-1) .....................................................................................................................34
(3-2) .....................................................................................................................34
(3-3) .....................................................................................................................35

(3-4) .....................................................................................................................35
(3-5) .....................................................................................................................35
(3-6) .....................................................................................................................36
(3-7) .....................................................................................................................36
(3-8) .....................................................................................................................36
(3-9) .....................................................................................................................37
(3-10) ...................................................................................................................37
(3-11) ...................................................................................................................38
(3-12) ...................................................................................................................38
(3-13) ...................................................................................................................38
(3-14) ...................................................................................................................38
(3-15) ...................................................................................................................39
(3-16) ...................................................................................................................39
(3-17) ...................................................................................................................39
(3-18) ...................................................................................................................40
(3-19) ...................................................................................................................40
(3-20) ...................................................................................................................41
(3-21) ...................................................................................................................41
(3-22) ...................................................................................................................41
(3-23) ...................................................................................................................41
(3-24) ...................................................................................................................42
(4-1) .....................................................................................................................58
(4-2) .....................................................................................................................58
(5-1) .....................................................................................................................76
(5-2) .....................................................................................................................76
(5-3) .....................................................................................................................76

Trang 8



I
I



I f

–I )



trong bài toán trích rút

ò


ò




– CRF), mô hình


)

(Maximum Entropy Markov Model- MEMM)…
1



Trang 9


2

3


4

5

.

Trang 10


Ư
1.1

1.
c
c quan tr ng trong khai phá d li

h th ng

n,

c hi n vi c trích rút các thông tin t các d li u phi


c u trúc ho c bán c u trúc chuy n thành d li u có c u trúc. Nói cách khác, m t h
th

c v các th c

th và m i quan h gi a các th c th t m
n nh ng thông tin này vào m

i d ng ngôn ng t nhiên
n ghi d li u có c u trúc ho c m t d ng

m

um
)

nh các th c th
)

trích ch n thông tin t

nh quan h gi a các th c th

nh và theo dõi các s ki n và các k ch b n (Event and
)

)

n


ng tham chi u (Co-reference

c s d ng trong trích ch n thông tin g m có: phân

n, phân l p, k t h p và phân c m [1].
)
ng

For years, Microsoft CorporationCEOBill Gates
railed against the economic philosophy of opensource software with Orwellian fervor, denouncing
its communal licensing as a "cancer" that stifled
technological innovation.
Today, Microsoft claims to "love" the open-source
concept, by which software code is made public to
encourage improvement and development by
outside programmers. Gates himself says Microsoft
will gladly disclose its crown jewels--the coveted
code behind the Windows operating system--to
select customers.
"We can be open source. We love the concept of
shared source," said Bill Veghte, a MicrosoftVP.
"That's a super-important shift for us in terms of
e a ess.“
Richard Stallman, founder of the Free Software
Foundation,
e e sa

Trang 11

Microsoft Corporation

CEO
Bill Gates
Microsoft
Gates
Microsoft
Bill Veghte
Microsoft
VP
Richard Stallman
founder
Free Software Foundation


For years, Microsoft CorporationCEOBill Gates
railed against the economic philosophy of opensource software with Orwellian fervor, denouncing
its communal licensing as a "cancer" that stifled
technological innovation.
Today, Microsoft claims to "love" the open-source
concept, by which software code is made public to
encourage improvement and development by
outside programmers. Gates himself says Microsoft
will gladly disclose its crown jewels--the coveted
code behind the Windows operating system--to
select customers.
"We can be open source. We love the concept of
shared source," said Bill Veghte, a MicrosoftVP.
"That's a super-important shift for us in terms of
e a ess.“
Richard Stallman, founder of the Free Software
Foundation,

e e sa


Trang 12

Microsoft Corporation
CEO
Bill Gates
Microsoft
Gates
Microsoft
Bill Veghte
Microsoft
VP
Richard Stallman
founder
Free Software Foundation


ng d ng trích ch n thông tin trên Internet, h tr
th ng tr l i t

ng d ng web ng

ng, h th ng h tr tìm ki m chính xác.... Các ng d ng

th c t

, th i gian
…T


t
tin cò

c ng d ng vào vi

c tìm ki m và trích

ch n ra các thông tin c

a ch , email, s

n tho i r i

d li u hay tham gia vào h th ng qu n lý thông tin cá nhân. G
c bi

c chú tr

cyh

báo nghiên c u và ng d ng c

u bài
c nh n d ng các th c

th trong ngành y ví d
t thông tin [5][7][18]

công




Trang 13




)
)

-

Random Field - CRFs)

trích rútthông

tin.

s
HMM

ch nó có th gi i quy

c v

CRFs

ph thu c gi a các t . Ngoài ra,
ch có th gi


cv

sai l ch

nhãn. CRFs

ờng Nguyễn Xiể

m2. Giá

5.5 tỷ. Sổ ỏ chính chủ. Liên h : 090.324.7686 (Mai)
V ib

t trên ta ch c

a ch , di n tích,

n tho i liên h . Do v y không nh t thi t ph i hi
a bài toán trích ch n th

c các thông tin


a ch , di

-

n, m c


m t kh i d li u

ờng Nguyễn_Xiể

-

-

46 <B-DT> m2 <I-DT>. Giá 5.5 <B-GB> tỷ <I-GB>. Sổ ỏ chính
chủ. Liên_h : <B-LH> 090.324.7686 <I-LH> (Mai)<I-LH>

Trang 14


V

c các nhãn cho các t t

:

a
-LN là t b

LN

u lo i nhà, I-LN là t

ti p theo c a lo i nhà.
-DC là t b


DC

và I-DC là các t ti p theo c

a ch

a ch

-DT là t b

DT

uc

u c a di n tích và I-DT

t ti p theo c a di n tích
B-GB là t b

GB

u c a giá bán và I-GB là

các t ti p theo c a giá bán
-LH là t b

LH

nh và I-LH là các t ti p theo c a


uc as

ng, s c

n tho i liên l c

UL
1-1.

ò
)


trong CSDL.
l
trong

1.2 Kiến trúc của h thống trích rút thông tin
Quá trình trích rút thông tin g

b

nh ng thông tin riêng lẻ t nh ng t p ng li

Trang 15

u tiên h th ng trích rút
th ng



sẽ k t h

l p lu n này v

t o ra nh

l p lu n l

th m chí c các các l p lu n m i.
f

Theo MUC (Message Under

)

H th ng trích rút thông tin
u vào
c ti n x lý

Trích rút th c th

Gi i quy

ng tham chi u

Xây d ng m u ph n t

Xây d ng m u quan h

u k ch

b n
M u trích rút
1-1: Ki n trúc của h th ng trích rút thông tin

1.2.1

Trích rút thực thể - Named Entity Recognition (NER)

n trong m t h th ng trích rút thông
n ra các tên riêng (hay các th c th )

tin. M
giá kh

n d ng tên riêng c a m t h th ng, MUC m i ch khoanh vùng
t

s

ki u

th c

th

nh

ORGANIZATION, TIME. Tiêu chu

nh:


PERSON,

LOCATION,

t h th ng là: so sánh k t qu

Trang 16


nh n di n c a h th

i k t qu nh n di

c. C th nh ng ki u th c th

c MUC th c hi n b ng tay

c xem xét là:




chính xác c a các h th
t t nh

t cao, h th ng

chính xác lên t i 96%. Các danh từ riêng chi m kho ng 70% s



li u (corpus) c a MUC,
chi

chi m 25%,

i 5%. Trong các danh t riêng thì tên các tổ chức


chi m kho ng 45-50%, các

ời chi m kho ng

chi m t 12-32%, và

23-39%.
V i các ngôn ng khác nhau vi

nh tên th c th sẽ

chính xác

khác nhau:

96%
93.04 %
92.12 %
84.51 %
ủa


1-2.

1.2.2

s

Giải quyế đồng tham chiếu

ng tham chi u (Coreference Resolution – CO) là vi c nh n

Gi i quy
d

ng tham chi u gi a các th c th b ng cách k t h p nh ng thông tin mô

t n mr

n t i các th c th mà nó tham chi u. Thao tác này mang

tính ch t h tr cho các thao tác khác. Nó ít b
b

ng b

i dùng, lo

c.
Ví d : Mary said she would help me

“









t tham chi



u cù
n th c th

Trang 17

nm

ng là Mary.





1.2.3 Xây dựng mẫu phần tử - Template Element Construction (TE)

M i Template Element (TE) là m t l

c tính mô t m


ng c th thu c l

là vi c xây d ng các m u thông

tin mô t t i th c th NE.

c xây d ng d a trên NE và CO t

t khuôn m u thông tin chung cho các th c th . Th c ch t nó là s m
r ng c a bài toán NE.V

d li u.

Ví d :
Date-001:
Value:

04-august-2004

Organisation-001:
Type:

Government

Name:






Aliases:



” “

ff

Organisation-002:
Type:

Media-news

Name:



I



Person-001:
Name:

i



w




Location-001:
Type:

Country

Name:



Aliases:




” “



Location-002:
Type:

Country

Name:




Aliases:



f
” “



Location-003:
Type:

City

Name:





1-3.

Trang 18









1.2.4 Xây dựng mẫu quan h

Xây d ng m u quan h (Template Relation Construction – TR) là vi c tìm và
trích rút ra quan h gi a các th c th

a m t th c th

thu c tính c a nó ph thu c vào bài toán c th và b n ch t c
tích, nên quan h gi

thu c v

Relation-001:
Type:
Location:
Entity:
Relation-002:
Type:
Location:
Entity:
Relation-002:
Type:
Employer:
Employee:

c c th .

Located-in
Location-001

Organisation-001
Located-in
Location-003
Person-001
Works-for
Organisation-002
Person-001
a

1-4.

1.2.5

c phân

ưa ra mẫu kịch bản

u k ch b n (Scenario Template production –ST) là vi
nguyên m

nh d

u ra c a h th ng IE. Chúng ràng bu c các th c th TE

v i nhau trong s ki n hay m i quan h

u ch nh các k t qu TE và TR cho phù

h p v i các k ch b n s vi c c th


a IE.

Ví d :
Succession-Event-001:
Date:
Post:
Person-In:
Person-Out:
Organisation:
1-5.

Date-001


Person-003
Person-010
Organisation-001
a a

Trang 19


y n u ta ph i x lý nhi

nv

c khó hay v i nhi u

n TR (tìm quan h gi a các th c th )


k ch b n ph c t

u

ch nh k t qu TE và TR cho phù h p v i k ch b n) là r t khó.

1.3 Bài toán trích rút thực thể
Trích rút th c th là bài toán con c a bài toán trích rút thông tin th c hi n tìm
ki m v trí và phân lo i các
t ch

a ch , s

i, tên



Ki n trúc của h th ng trích rút th c thể
Vi c trích rút và nh n d ng các th c th

ng

c sau:

H th ng trích rút th c thể
u vào

Tách câu

Tách t


Gán nhãn t
lo i
Phân c m

Dò tìm tên th c th

M u trích rút

1-2: Ki n trúc của h th ng trích rút th c thể

Trang 20


Tách câu
)

Tách câu (Sentence splitter ho
b n thành các câu riêng bi
“ ” “?” “!”

c hi

ng sẽ d a vào s xu t hi n c a các kí t sau

c coi là d u hi u k

u này không ph i lúc

xu t hi n c a “ ”


trong t vi t t t, trong m

ng

n tho …

d n URL, trong m t s
Đ u vào : m

n.

Đ u ra : danh sách các câu.
Tách từ
Tách t (tokenizer) là m
"

thành các token. Ví d chu

li

u vào và tách nó

"

nh kho ng

tr ng là phân cách gi a các token. Thì m t tokenizer sẽ tách chu
Đ u vào


n.

Đ u ra : danh sách các t .
Gán nhãn từ loại
Gán nhãn t lo i (Part of speech Tagger – O )
trong câu. M i t sẽ

c gán m t nhãn v t lo i b ng cách s d ng t

ẵn.



a.

)

b.

)

c. Adjective (Adj) :
)

d.
)

e.

)


f.

)

g.
)

h.
i.
Đ u vào

j

c s d ng sau khi tách t

)
n, t

n nhãn

Trang 21

n nhãn


Đ u ra : danh sách các t

c gán nhãn


Ví d v POSTag:
Ta có câu sau : John Smith will eat the beans
Sau khi POSTag : John/N Smith/N will/V eat/V the/N beans/N
Phân cụm
)

Phân c
O

Chunking ch th c hi
c m t theo ch

c hi



n câu.

n câu thành nhóm các

pháp. Ở

d ng m t t

dành cho c m t . Ví d t p nhãn c a Penn Treebank
ADJP

Adjective Phrase

ADVP


Adverb Phrase

CONJP

Conjunction Phrase conjunction

INTJ

Interjection

LST

List marker

NP

Noun Phrase

PP

Prepositional Phrase

PRT

Particle

SBAR

Clause introduced by a subordinating


UCP

Unlike Coordinated Phrase

VP

Verb Phrase
ủa e

1-6.

Đ u vào
Đ u ra

c gãn nhãn t lo i, t

ee a

n nhãn

nc

c gán nhãn.

Ví d v
Ta có câu sau : John Smith will eat the beans
Sau khi POSTag : John/N Smith/N will/V eat/V the/N beans/N
Sau khi chunking : [NP John/N Smith/N] [VP will/V eat/V] [NP the/N
beans/N]


Trang 22


Dò tìm tên thực thể
Dò tìm tên th c th (Named Entity detection) là quá trình dò tìm và trích rút
u k t qu . Ở

các th c th

u, h th ng nh n

các th c th nh vào tên riêng c a chúng xu t hi
xây d ng. Tuy nhiên, vi c nh n ra th c th

tri th

n d a vào tên riêng có th sai,

vì các th c th khác nhau có th có cùng tên. Ví d , Sài Gòn v a là tên c a m t
thành ph , v a là tên c a m t

ng ti p c n c

i v i bài

p th c th

d ng các


lu t, s d ng ng c nh, s d ng th t lo …
Đ u vào

n, các nhãn

Đ u ra

u các nhãn

Ví d

i h c Bách

Khoa Hà N i </org>

1.4

cứ

d

của r c r

1.4.1

Trích rút thông tin từ vă bản



ba

dùng bu c ph

c hi

b ng. Công vi

i

n và ghi chú t t c các thông tin trên trong m t
cs

t nhi u th i gian khi ph i x lý trên

nh ng t p d li u l n. H th ng trích rút m i quan h gi a các th c th sẽ t

ng

c nh
1.4.2

r

eb

a

ont

rút


trích

rút m i quan h gi a các

Trang 23


1.4.3

H tr h thống trả lời câu hỏi tự động

ò

ng

bi t tên c a m

i và

H th ng trích rút m i quan h gi a các th c th
trong h th ng hỏ

ng. H th ng hỏ

a ch , ch c v
vi …
1.4.4

.
Cải thi n kết quả của h thống tìm kiếm




?

Ø
Ø





ẵ )

(

(

)

1-3: H th ng tìm ki m

H th ng tìm ki m thông tin nh
có ch a các t

u vào là các t khóa và tr v t p tài li u

ng k t qu tr v c a các máy tìm ki m (m t lo i h
)


th ng tìm ki

ng là r t l n có khi lên t i hàng nghìn trang web.

k t qu
Ph



ng
ng

,m

i dùng mu

t qu tìm ki m l i có c

Hà N i do h th ng tìm theo hai t



mV

ng

ng Ph





ẵ ”

c i thi n k t qu chúng ta tích h p thêm h th ng trích rút m i quan h vào h
th ng tìm ki
thông tin v
tìm ki

lo i bỏ
ng Ph

t qu không mong mu
ng

Hà N i sẽ

t qu tìm ki

Trang 24

ng h p này,
c hi n th trên k t qu


Ư

2.

Ư


Trong m t s

ng h

n, vi c trích rút có th

c th c hi n m t

cách dễ dàng b ng cách s d ng các bi u th c chính quy. V i nh ng ngu
nh d ng theo m t quy t

ó th gi i quy t v

n
m t cách

chính xác. Ví d , n u mu n trích rút nh ng tên sách cùng tên tác gi cu n sách t
trang web Amazon.com, ta có th th y r ng nh ng m c này xu t hi n theo m
d ng nh

nh

m, ch a màu xanh, là hyperlink, tên tác gi

c theo sau b i t khóa "by" và là hyperlinked)

n thu th p

w


thông tin t

trích rút thông tin c n
ph i d a vào chính b n thân ngôn ng - các t ng , th t c a các t , các ng , hay
ng pháp -

th pv

Có nhi

nh d ng n u có m

pc

gi i quy t bài toán

ẽ gi i thi u m t s
v

m c a chúng t

CRFs l

2.1

c s d ng

ư

ế c


ng ti p c

it

y cùng
a trên

xây d ng h th ng

ủc

(hand-written regular expressions)
w

Yorkkhi tham gia

MUC-6 [1]

 Title Capitalized_Word => Title Person Name
w

o
o Sai



Trang 25

f

)


×