Giáo viên hướng dẫn : PGS.Lê Thanh Hương
Nhóm 27 : TrầnQuangHưng - 20071489
Nguyễn Nam Thanh - 20072552
Đỗ Quang Trường - 20063382
Võ Hải Nam - 20073735
I. Đ t v n đặ ấ ề
II. Cách ti p c n gi i quy t v n đế ậ ả ế ấ ề
III. Cài đ tặ
IV. Th nghi m và đánh giá h th ngử ệ ệ ố
Tách t là bư c x lý quan tr ng đ i v i các ừ ớ ử ọ ố ớ
h th ng XLNNTN,đ c bi t là đ i v i các ệ ố ặ ệ ố ớ
ngôn ng đơn l p, ví d : âm ti t Trung Qu c, ữ ậ ụ ế ố
âm ti t Nh t, âm ti t Thái, và ti ng Vi t.ế ậ ế ế ệ
M c đích: xác đ nh ranh gi i c a các t trong ụ ị ớ ủ ừ
câu.
Bài toán tách t có 3 hư ng ti p c n chính :ừ ớ ế ậ
· Ti p c n d a vào t đi n c đ nh.ế ậ ự ừ ể ố ị
· Ti p c n d a vào th ng kê.ế ậ ự ố
· Ti p c n d a trên c hai phương pháp trên.ế ậ ự ả
Các phương pháp đư c s d ng trong bài toán tách t :ợ ử ụ ừ
· So kh p t dài nh t (Longest Matching)ớ ừ ấ
· So kh p c c đ i (Maximum Matching)ớ ự ạ
· Mô hình Markov n (Hidden Markov Models- HMM)ẩ
· H c d a trên s c i bi n (Transformation-based Learning – TBL)ọ ự ự ả ế
· Chuy n đ i tr ng thái tr ng s h u h n (Weighted Finite State ể ổ ạ ọ ố ữ ạ
Transducer – WFST)
· Đ h n lo n c c đ i (Maximum Entropy – ME)ộ ỗ ạ ự ạ
· Máy h c s d ng vectơ h tr (Support Vector Machines)ọ ử ụ ỗ ợ
Ngoài ra còn có th k t h p nh ng phương pháp trên.ể ế ợ ữ
Hư ng ti p c n t đi nớ ế ậ ừ ể
Phương pháp so kh p c c đ i(maximum ớ ự ạ
matching)
Duy t m t c m t ho c câu t trái sang ph i ệ ộ ụ ừ ặ ừ ả
và ch n t có nhi u âm ti t nh t có m t ọ ừ ề ế ấ ặ
trong t đi n, r i c th ti p t c cho t k ừ ể ồ ứ ể ế ụ ừ ế
ti p cho đ n h t câu.ế ế ế
Gi s có m t chu i ký t C1, C2, , Cn. Ta ả ử ộ ỗ ự
b t đ u t đ u chu i. Đ u tiên ki m tra xem ắ ầ ừ ầ ỗ ầ ể
C1, có ph i là t hay không, sau đó ki m tra ả ừ ể
xem C1C2 có ph i là t hay không. Ti p t c ả ừ ế ụ
tìm cho đ n khi tìm đư c t dài nh t. T có ế ợ ừ ấ ừ
v h p lý nh t s là t dài nh t. Ch n t đó, ẻ ợ ấ ẽ ừ ấ ọ ừ
sau đó tìm ti p như trên cho nh ng t còn l i ế ữ ừ ạ
cho đ n khi xác đ nh đư c toàn b chu i t .ế ị ợ ộ ỗ ừ
D ng ph c t p: Quy t c c a d ng này là phân đo n có v ạ ứ ạ ắ ủ ạ ạ ẻ
h p lý nh t là đo n ba t v i chi u dài t i đa. Thu t toán ợ ấ ạ ừ ớ ề ố ậ
b t đ u như d ng đơn gi n. N u phát hi n ra nh ng cách ắ ầ ạ ả ế ệ ữ
tách t gây nh p nh ng (ví d , C1 là t và C1C2 cũng là t ), ừ ậ ằ ụ ừ ừ
ta xem các ch k ti p đ tìm t t c các đo n ba t có th ữ ế ế ể ấ ả ạ ừ ể
có b t đ u v i C1 ho c C1C2. Ví d ta đư c nh ng đo n ắ ầ ớ ặ ụ ợ ữ ạ
sau:
C1C2 C3 C4
C1C2 C3 C4 C5
C1C2 C3 C4 C5 C6
Chu i dài nh t s là chu i th ba. V y t đ u tiên c a chu i ỗ ấ ẽ ỗ ứ ậ ừ ầ ủ ỗ
th ba (C1C2) s đư c ch n.ứ ẽ ợ ọ
V i cách này, ta d dàng tách đư c chính xác các ớ ễ ợ
ng /câu như “ h p tác xã ||mua bán”, “thành l p || ữ ợ ậ
nư c || Vi t Nam || dân ch || c ng hòa”ớ ệ ủ ộ
Cách tách t đơn gi n, nhanh, ch c n d a vào t ừ ả ỉ ầ ự ừ
đi nể
Trong ti ng Hoa, cách này đ t đư c đ chính xác ế ạ ợ ộ
98,41%
Đ chính xác c a phương pháp ph thu c ộ ủ ụ ộ
hoàn toàn vào tính đ và tính chính xác c a ủ ủ
t đi nừ ể
Phương pháp này s tách t sai trong các ẽ ừ
trư ng h p “ h c sinh || h c sinh|| h c”, “m t ờ ợ ọ ọ ọ ộ
|| ông || quan tài || gi i”, “trư c || bàn là || ỏ ớ
m t || ly || nư c”…ộ ớ
Xây d ng t đi n.ự ừ ể
Tìm t trong t đi n : xác đ nh t t c các t ừ ừ ể ị ấ ả ừ
có trong câu
Li t kê t t c các câu có th .ệ ấ ả ể
Phân gi i nh p nh ng : s d ng phương ả ậ ằ ử ụ
pháp so kh p c c đ i đưa ra câu có s t ớ ự ạ ố ừ
nh nh t.ỏ ấ
D li u : d li u t đi n theo chu n XMLữ ệ ữ ệ ừ ể ẩ
Ngôn ng : C#ữ
<Dictionary>
<LexicalEntry>
<HeadWord>a</HeadWord>
<Morphology>
<WordType>symbol</WordType>
</Morphology>
<Syntactic>
<Collocation>
<forward>_</forward>
<backward>_</backward>
</Collocation>
<Category>N</Category>
<Subcategory>N</Subcategory>
<VerbPattern>_</VerbPattern>
</Syntactic>
<Semantic>
<LogicalConstraint>
<CategoryMeaning>_</CategoryMeaning>
<Synonym>_</Synonym>
<Antonym>_</Antonym>
</LogicalConstraint>
<SemanticConstraint>
<semanticSub>_</semanticSub>
<semanticDob>_</semanticDob>
</SemanticConstraint>
<Definition>con ch th nh t c a b ng ch cái ch qu c ng </Definition> ữ ứ ấ ủ ả ữ ữ ố ữ
<Example>_</Example>
</Semantic>
</LexicalEntry>
…
</Dictionary>
Tách câu thành các t .ừ
Tìm ki m các t trong t đi n v i đ dài t i ế ừ ừ ể ớ ộ ố
đa là 5.
Lưu t , v trí b t đ u, v trí k t thúc, danh ừ ị ắ ầ ị ế
sách t lo i.ừ ạ
Li t kê t t c các câu có th t danh sách các ệ ấ ả ể ừ
t đã tìm trong t đi n.ừ ừ ể
L a ch n câu có s t v ng ng n nh t.ự ọ ố ừ ự ắ ấ
Th nghi mử ệ
Đánh giá
Đ xu tề ấ
K t qu v i m t s câu :ế ả ớ ộ ố
-N u nhà máy ngh thì ta đi vế ỉ ề
Danh sách các t :ừ
[0,1:n u(C)]ế
[1,2:nhà(N)]
[1,3:nhà máy(N)]
[2,3:máy(V,A,N)]
[3,4:ngh (V)]ỉ
[4,5:thì(I,C,N)]
[5,6:ta(A,N,P)]
[6,7:đi(R,I,V)]
[7,8:v (C,V)]ề
Các cách tách t :ừ
n u|nhà|máy|ngh |thì|ta|đi|vế ỉ ề
n u|nhà máy|ngh |thì|ta|đi|v => L a ch nế ỉ ề ự ọ
Ông già đi nhanh quá
Danh sách các t :ừ
[0,1:ông(N,L)]
[0,2:ông già(N)]
[1,2:già(N,A)]
[2,3:đi(R,I,V)]
[3,4:nhanh(A)]
[4,5:quá(V,R)]
Các cách tách t :ừ
ông|già|đi|nhanh|quá
ông già|đi|nhanh|quá => L a ch nự ọ
K t qu thu đư c c a chương trình là khá ế ả ợ ủ
chính xác, song v n chưa th x lý h t các ẫ ể ử ế
trư ng h p nh p nh ng khi các t có câu có ờ ợ ậ ằ ừ
cùng s t v ng.ố ừ ự
Đ chính xác c a h th ng ph thu c nhi u ộ ủ ệ ố ụ ộ ề
vào phong phú c a t đi n.ủ ừ ể
Không x lý đư c các t h p t c đ nh, ví d ử ợ ổ ợ ừ ố ị ụ
: “ông ch ng bà chu c”…ẳ ộ
V v n đ x lý nh p nh ng, có th áp d ng ề ấ ề ử ậ ằ ể ụ
thêm m t s phương pháp như x lý cú ộ ố ử
pháp, xác su t th ng kê đ x lý các trư ng ấ ố ể ử ờ
h p nh p nh ng.ợ ậ ằ
Đ i v i các v n đ các t h p t c đ nh, có ố ớ ấ ề ổ ợ ừ ố ị
th đưa ra t t c các t ghép có trong ph n ể ấ ả ừ ầ
đ u c a xâu vào.ầ ủ
Slide bài gi ng môn x lý ngôn ng t nhiên ( ả ử ữ ự
cô Lê Thanh Hương ).
( Trang web c a Lê H ng Phương).ủ ồ
:8080/demo/?page=res
ources
: m t s tài nguyên cho x lý văn b n ti ng ộ ố ử ả ế
Vi t.ệ
Và m t s tài li u khác t internet. ộ ố ệ ừ