Tải bản đầy đủ (.ppt) (22 trang)

slike thuyết trình báo cáo đề tài xây dựng bộ tách từ tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (725.71 KB, 22 trang )

Giáo viên hướng dẫn : PGS.Lê Thanh Hương
Nhóm 27 : TrầnQuangHưng - 20071489
Nguyễn Nam Thanh - 20072552
Đỗ Quang Trường - 20063382
Võ Hải Nam - 20073735
I. Đ t v n đặ ấ ề
II. Cách ti p c n gi i quy t v n đế ậ ả ế ấ ề
III. Cài đ tặ
IV. Th nghi m và đánh giá h th ngử ệ ệ ố

Tách t là bư c x lý quan tr ng đ i v i các ừ ớ ử ọ ố ớ
h th ng XLNNTN,đ c bi t là đ i v i các ệ ố ặ ệ ố ớ
ngôn ng đơn l p, ví d : âm ti t Trung Qu c, ữ ậ ụ ế ố
âm ti t Nh t, âm ti t Thái, và ti ng Vi t.ế ậ ế ế ệ

M c đích: xác đ nh ranh gi i c a các t trong ụ ị ớ ủ ừ
câu.

Bài toán tách t có 3 hư ng ti p c n chính :ừ ớ ế ậ
· Ti p c n d a vào t đi n c đ nh.ế ậ ự ừ ể ố ị
· Ti p c n d a vào th ng kê.ế ậ ự ố
· Ti p c n d a trên c hai phương pháp trên.ế ậ ự ả

Các phương pháp đư c s d ng trong bài toán tách t :ợ ử ụ ừ
· So kh p t dài nh t (Longest Matching)ớ ừ ấ
· So kh p c c đ i (Maximum Matching)ớ ự ạ
· Mô hình Markov n (Hidden Markov Models- HMM)ẩ
· H c d a trên s c i bi n (Transformation-based Learning – TBL)ọ ự ự ả ế
· Chuy n đ i tr ng thái tr ng s h u h n (Weighted Finite State ể ổ ạ ọ ố ữ ạ
Transducer – WFST)
· Đ h n lo n c c đ i (Maximum Entropy – ME)ộ ỗ ạ ự ạ


· Máy h c s d ng vectơ h tr (Support Vector Machines)ọ ử ụ ỗ ợ
Ngoài ra còn có th k t h p nh ng phương pháp trên.ể ế ợ ữ

Hư ng ti p c n t đi nớ ế ậ ừ ể

Phương pháp so kh p c c đ i(maximum ớ ự ạ
matching)

Duy t m t c m t ho c câu t trái sang ph i ệ ộ ụ ừ ặ ừ ả
và ch n t có nhi u âm ti t nh t có m t ọ ừ ề ế ấ ặ
trong t đi n, r i c th ti p t c cho t k ừ ể ồ ứ ể ế ụ ừ ế
ti p cho đ n h t câu.ế ế ế

Gi s có m t chu i ký t C1, C2, , Cn. Ta ả ử ộ ỗ ự
b t đ u t đ u chu i. Đ u tiên ki m tra xem ắ ầ ừ ầ ỗ ầ ể
C1, có ph i là t hay không, sau đó ki m tra ả ừ ể
xem C1C2 có ph i là t hay không. Ti p t c ả ừ ế ụ
tìm cho đ n khi tìm đư c t dài nh t. T có ế ợ ừ ấ ừ
v h p lý nh t s là t dài nh t. Ch n t đó, ẻ ợ ấ ẽ ừ ấ ọ ừ
sau đó tìm ti p như trên cho nh ng t còn l i ế ữ ừ ạ
cho đ n khi xác đ nh đư c toàn b chu i t .ế ị ợ ộ ỗ ừ

D ng ph c t p: Quy t c c a d ng này là phân đo n có v ạ ứ ạ ắ ủ ạ ạ ẻ
h p lý nh t là đo n ba t v i chi u dài t i đa. Thu t toán ợ ấ ạ ừ ớ ề ố ậ
b t đ u như d ng đơn gi n. N u phát hi n ra nh ng cách ắ ầ ạ ả ế ệ ữ
tách t gây nh p nh ng (ví d , C1 là t và C1C2 cũng là t ), ừ ậ ằ ụ ừ ừ
ta xem các ch k ti p đ tìm t t c các đo n ba t có th ữ ế ế ể ấ ả ạ ừ ể
có b t đ u v i C1 ho c C1C2. Ví d ta đư c nh ng đo n ắ ầ ớ ặ ụ ợ ữ ạ
sau:
C1C2 C3 C4

C1C2 C3 C4 C5
C1C2 C3 C4 C5 C6

Chu i dài nh t s là chu i th ba. V y t đ u tiên c a chu i ỗ ấ ẽ ỗ ứ ậ ừ ầ ủ ỗ
th ba (C1C2) s đư c ch n.ứ ẽ ợ ọ

V i cách này, ta d dàng tách đư c chính xác các ớ ễ ợ
ng /câu như “ h p tác xã ||mua bán”, “thành l p || ữ ợ ậ
nư c || Vi t Nam || dân ch || c ng hòa”ớ ệ ủ ộ

Cách tách t đơn gi n, nhanh, ch c n d a vào t ừ ả ỉ ầ ự ừ
đi nể

Trong ti ng Hoa, cách này đ t đư c đ chính xác ế ạ ợ ộ
98,41%

Đ chính xác c a phương pháp ph thu c ộ ủ ụ ộ
hoàn toàn vào tính đ và tính chính xác c a ủ ủ
t đi nừ ể

Phương pháp này s tách t sai trong các ẽ ừ
trư ng h p “ h c sinh || h c sinh|| h c”, “m t ờ ợ ọ ọ ọ ộ
|| ông || quan tài || gi i”, “trư c || bàn là || ỏ ớ
m t || ly || nư c”…ộ ớ

Xây d ng t đi n.ự ừ ể

Tìm t trong t đi n : xác đ nh t t c các t ừ ừ ể ị ấ ả ừ
có trong câu


Li t kê t t c các câu có th .ệ ấ ả ể

Phân gi i nh p nh ng : s d ng phương ả ậ ằ ử ụ
pháp so kh p c c đ i đưa ra câu có s t ớ ự ạ ố ừ
nh nh t.ỏ ấ

D li u : d li u t đi n theo chu n XMLữ ệ ữ ệ ừ ể ẩ

Ngôn ng : C#ữ

<Dictionary>

<LexicalEntry>

<HeadWord>a</HeadWord>

<Morphology>

<WordType>symbol</WordType>

</Morphology>

<Syntactic>

<Collocation>

<forward>_</forward>

<backward>_</backward>


</Collocation>

<Category>N</Category>

<Subcategory>N</Subcategory>

<VerbPattern>_</VerbPattern>

</Syntactic>

<Semantic>

<LogicalConstraint>

<CategoryMeaning>_</CategoryMeaning>

<Synonym>_</Synonym>

<Antonym>_</Antonym>

</LogicalConstraint>

<SemanticConstraint>

<semanticSub>_</semanticSub>

<semanticDob>_</semanticDob>

</SemanticConstraint>


<Definition>con ch th nh t c a b ng ch cái ch qu c ng </Definition> ữ ứ ấ ủ ả ữ ữ ố ữ

<Example>_</Example>

</Semantic>

</LexicalEntry>



</Dictionary>

Tách câu thành các t .ừ

Tìm ki m các t trong t đi n v i đ dài t i ế ừ ừ ể ớ ộ ố
đa là 5.

Lưu t , v trí b t đ u, v trí k t thúc, danh ừ ị ắ ầ ị ế
sách t lo i.ừ ạ

Li t kê t t c các câu có th t danh sách các ệ ấ ả ể ừ
t đã tìm trong t đi n.ừ ừ ể

L a ch n câu có s t v ng ng n nh t.ự ọ ố ừ ự ắ ấ

Th nghi mử ệ

Đánh giá

Đ xu tề ấ


K t qu v i m t s câu :ế ả ớ ộ ố

-N u nhà máy ngh thì ta đi vế ỉ ề
Danh sách các t :ừ
[0,1:n u(C)]ế
[1,2:nhà(N)]
[1,3:nhà máy(N)]
[2,3:máy(V,A,N)]
[3,4:ngh (V)]ỉ
[4,5:thì(I,C,N)]
[5,6:ta(A,N,P)]
[6,7:đi(R,I,V)]
[7,8:v (C,V)]ề
Các cách tách t :ừ
n u|nhà|máy|ngh |thì|ta|đi|vế ỉ ề
n u|nhà máy|ngh |thì|ta|đi|v => L a ch nế ỉ ề ự ọ

Ông già đi nhanh quá
Danh sách các t :ừ
[0,1:ông(N,L)]
[0,2:ông già(N)]
[1,2:già(N,A)]
[2,3:đi(R,I,V)]
[3,4:nhanh(A)]
[4,5:quá(V,R)]
Các cách tách t :ừ
ông|già|đi|nhanh|quá
ông già|đi|nhanh|quá => L a ch nự ọ


K t qu thu đư c c a chương trình là khá ế ả ợ ủ
chính xác, song v n chưa th x lý h t các ẫ ể ử ế
trư ng h p nh p nh ng khi các t có câu có ờ ợ ậ ằ ừ
cùng s t v ng.ố ừ ự

Đ chính xác c a h th ng ph thu c nhi u ộ ủ ệ ố ụ ộ ề
vào phong phú c a t đi n.ủ ừ ể

Không x lý đư c các t h p t c đ nh, ví d ử ợ ổ ợ ừ ố ị ụ
: “ông ch ng bà chu c”…ẳ ộ

V v n đ x lý nh p nh ng, có th áp d ng ề ấ ề ử ậ ằ ể ụ
thêm m t s phương pháp như x lý cú ộ ố ử
pháp, xác su t th ng kê đ x lý các trư ng ấ ố ể ử ờ
h p nh p nh ng.ợ ậ ằ

Đ i v i các v n đ các t h p t c đ nh, có ố ớ ấ ề ổ ợ ừ ố ị
th đưa ra t t c các t ghép có trong ph n ể ấ ả ừ ầ
đ u c a xâu vào.ầ ủ

Slide bài gi ng môn x lý ngôn ng t nhiên ( ả ử ữ ự
cô Lê Thanh Hương ).


( Trang web c a Lê H ng Phương).ủ ồ

:8080/demo/?page=res
ources
: m t s tài nguyên cho x lý văn b n ti ng ộ ố ử ả ế
Vi t.ệ


Và m t s tài li u khác t internet. ộ ố ệ ừ

×