Information Extraction for Vietnamese
Real-Estate Advertisements
by
Pham Vi Lien
Faculty of Information Technology
University of Engineering and Technology
Vietnam National University, Hanoi
Supervised by
Dr. Pham Bao Son
A thesis submitted in fulfillment of the requirements for the degree of
Master of Information Technology
June, 2012
Contents
ORIGINALITY STATEMENT
i
Abstract
ii
Acknowledgements
iii
List of Figures
vi
List of Tables
vii
1 Introduction
1.1 Problem and Idea . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Scope of the thesis . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Thesis’ structure . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1
4
4
2 Related Work
2.1 Approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Rule-based approach . . . . . . . . . . . . . . . . . . . . .
2.1.2 Machine-learning approach . . . . . . . . . . . . . . . . . .
2.1.3 Hybrid approach . . . . . . . . . . . . . . . . . . . . . . .
2.2 GATE framework . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 General Architecture of GATE . . . . . . . . . . . . . . . .
2.2.3 An example: ANNIE - A Nearly-New Information Extraction System . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.4 Working with GATE . . . . . . . . . . . . . . . . . . . . .
2.2.5 Gazetteers . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.6 JAPE . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
5
6
6
7
8
8
8
9
.
.
.
.
11
11
12
13
3 Our Vietnamese Real-Estate Information Extraction system
3.1 Template Definition . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Corpus Development . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Criterion of data collection . . . . . . . . . . . . . . . . .
3.2.2 Data collection . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
14
14
16
16
17
iv
.
.
.
.
Table of Contents
3.3
3.4
v
3.2.3 Data normalization . . . . . . . . . . . . . . . . . . . . . .
3.2.4 Corpus Annotation . . . . . . . . . . . . . . . . . . . . . .
System Development . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Tokenizer . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Gazetteer . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.3 JAPE Transducer . . . . . . . . . . . . . . . . . . . . . . .
3.3.3.1 Remove incorrect Lookup annotations . . . . . .
3.3.3.2 Recognizing <TypeEstate> entities . . . . . . . .
3.3.3.3 Recognizing <CategoryEstate> entities . . . . .
3.3.3.4 Recognizing <Zone> entities . . . . . . . . . . .
3.3.3.5 Recognizing <Area>, <Price> and <Telephone>
entities . . . . . . . . . . . . . . . . . . . . . . .
3.3.3.6 Recognizing <Fullname> entities . . . . . . . . .
3.3.3.7 Recognizing <Address> entities . . . . . . . . . .
3.3.3.8 Recognizing <Email> entities . . . . . . . . . . .
Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 Experiments and Error
4.1 Evaluation metrics .
4.2 Experimental result .
4.3 Errors Analysis . . .
.
.
.
.
.
.
.
.
.
.
18
21
23
24
26
27
29
30
30
31
.
.
.
.
.
32
32
33
33
34
Analysis
35
. . . . . . . . . . . . . . . . . . . . . . . . . . 35
. . . . . . . . . . . . . . . . . . . . . . . . . . 36
. . . . . . . . . . . . . . . . . . . . . . . . . . 40
5 Conclusion and Future Works
42
5.1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2 Future Works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
A A typical code
44
B Relevant Publications
46
Bibliography
47
Chương 1: Giới thiệu
1.1 Vấn đề và Ý tưởng:
Với sự ra đời và phát triển của Internet, ngày càng nhiều dữ liệu
được gởi lên Internet và chúng ta đang "ngập lụt" bởi chúng. Mặc
dù, các cơng cụ tìm kiếm như Google1, Bing2, Yahoo3,... đã được
tạo ra để giúp con người tìm kiếm thơng tin, nhưng chúng vẫn
chưa thật sự đáp ứng được mong đợi của người dùng. Vì vậy, các
nhà nghiên cứu đã nhìn vào các lĩnh vực như khai thác thơng tin,
tóm tắt văn bản, để khắc phục vấn đề quá tải thông tin và cung cấp
những thông tin hữu ích cho người sử dụng.
Rút trích thơng tin là một trong những nhiệm vụ quan trọng
của xử lý ngôn ngữ tự nhiên. Ý tưởng chính của các hệ thống rút
trích thơng tin đó là rút trích các mẩu thơng tin từ các văn bản có
cấu trúc hoặc bán cấu trúc để điền vào một mẫu có cấu trúc đã
được định nghĩa sẵn gọi là template. Rút trích thơng tin đang dần
xuất hiện trong nhiều lĩnh vực như chính trị, xã hội, tài chính, bất
động sản,... của nhiều ngơn ngữ khác nhau như Anh, Pháp, Trung
Quốc,… Tuy nhiên, đối với Tiếng Việt của chúng ta thì nó vẫn là
một vấn đề tương đối khá mới mẻ, đặc biệt là lĩnh vực quảng cáo
nhà đất trực tuyến.
Figure 1: Dữ liệu đầu vào và kết quả đầu ra của hệ thống chúng tôi.
1
2
3
-1-
Trong Luận văn này, chúng tôi đề xuất một phương pháp tiếp
cận dựa trên hệ luật để xây dựng một hệ thống rút trích thơng tin
quảng cáo nhà đất trực tuyến của Tiếng Việt. Đồng thời, chúng tôi
cũng xây dựng một tập ngữ liệu gán nhãn cho nhiệm vụ này.
1.2 Phạm vi nghiên cứu
Với sự phát triển của Internet, quảng cáo trực tuyến là thực tế và
ngày càng phổ biến.Nó là một giải pháp quảng cáo hiệu quả cho
các cá nhân quảng cáo, cơ quan và người xem. Như vậy, các nguồn
dữ liệu từ các quảng cáo là cực kỳ lớn và đa dạng. Luận án của
chúng tôi tập trung vào xử lý văn bản trực tuyến miễn phí quảng
cáo Việt Nam trong lĩnh vực bất động sản.
1.3 Cấu trúc của luận văn:
Luận văn của chúng tôi được tổ chức thành 5 chương như sau:
-
Chương 1: Chúng tôi giới thiệu về vấn đề và ý tưởng để xây
dựng một hệ thống rút trích thơng tin từ các quảng cáo trực
tuyến về nhà đất trong Tiếng Việt.
-
Chương 2: Chúng tơi trình bày tổng quan về các nghiên cứu
liên quan của rút trích thơng tin nói chung và lĩnh vực nhà đất
nói riêng.
-
Chương 3: Chúng tôi mô tả chi tiết làm thế nào để xây dựng hệ
thống rút trích thơng tin từ các quảng cáo trực tuyến về nhà đất
trong Tiếng Việt.
-
Chương 4: Chúng tơi trình bày các kết quả thực nghiệm của
chúng tơi và phân tích một số ngun nhân gây ra lỗi.
-
Chương 5: Chúng tôi tổng kết những điểm đạt được của hệ
thống và thảo luận hướng phát triển hệ thống trong tương lai.
-2-
Chương 2: Các nghiên cứu liên quan
2.1 Cách tiếp cận:
Các nghiên cứu về rút trích thơng tin có thể được phân thành 3
hướng tiếp cận như sau:
Hướng tiếp cận dựa trên hệ luật [2], [3].
Hướng tiếp cận học máy [4], [5].
Hướng tiếp cận lai [6], [7].
Sử dụng hệ luật là một trong những phương pháp truyền thống
khi xây dựng các hệ thống rút trích thơng tin. Những hệ thống này
thường dựa trên các đặc trưng như cú pháp của thông tin (ví dụ: từ
loại của từ), ngữ cảnh của thơng tin [8], hình thái của thơng tin (ví
dụ: chữ hoa, chữ thường, số,...) hoặc sử dụng Gazetteer [8]. Đến
nay, có nhiều nghiên cứu đã sử dụng phương pháp này [9], [10]
hoặc [11] và đạt được hiệu suất khá cao bao gồm các nhiệm vụ cho
tiếng Việt [2], [3].
Có nhiều cơng trình sử dụng phương pháp học máy như
Hidden Markov Model [12], Maximum Entropy [4], Support
Vector Machine [13], [5] để tận dụng lợi thế của tập ngữ liệu đã
được gán nhãn. Về vấn đề rút tích thơng tin, có những nghiên cứu
thu được hiệu quả khá cao [14] nằm trong khoảng 81% theo thước
đo F-measure. Những phương pháp này cũng đã thành công khi áp
dụng cho Tiếng Việt [15] với F-measure khoảng 83%.
Phương pháp lai là sực kết hợp của hai phương pháp trên, để
tận dụng lợi thế của từng phương pháp và mang lại hiệu suất cao.
Hệ thống của Srihari [7] và Fang [6] đã cho kết quả rất tốt Tiếng
Trung. Nhưng cho đến nay, chưa có nhiều nghiên cứu cho Tiếng
Việt của chúng ta.
Có một số cơng trình về rút trích thơng tin từ các quảng cáo
nhà đất cho Tiếng Anh [16], [17], nhưng những cơng trình này sử
dụng cách tiếp cận wrapper induction trên các tài liệu html. Điều
này khác rất nhiều từ công việc của chúng tôi khi chúng tôi tập
-3-
trung vào văn bản phi cấu trúc, tức là văn bản khơng có thẻ html
như là những manh mối để nhận dạng các thực thể.
2.2 GATE framework:
GATE là một kiến trúc, một nền tảng và một môi trường phát triển
giao diện cho các ngơn ngữ kỹ thuật. Nó được tạo ra và phát triển
bởi một nhóm các nhà phát triển dẫn đầu bởi giáo sư Cunningham
tại đại học Sheffield từ năm 1995. Hiện nay, nó được sử dụng rộng
rãi trên thế giới bởi cộng đồng các nhà nghiên cứu thuộc nhiều lĩnh
vực của xử lý ngôn ngữ, đặc biệt là rút trích thơng tin. Nó được sử
dụng cho nhiều dự án rút trích thơng tin của nhiều ngơn ngữ và
miền vấn đề. Một ví dụ điển hình của hệ thống rút trích thơng tin là
ANNIE (A Nearly-New Information Extraction System). Nó được
đóng gói như một plugin trong GATE.
GATE là một bộ cơng cụ Java và nó cũng là một phần mềm
nguồn mở dưới giấy phép GNU. Người dùng nhận sự hỗ trợ miền
phí từ cộng đồng người dùng và các nhà phát triển qua website
chính thức của GATE.
Chúng tơi sử dụng GATE để giải quyết bài tốn của chúng tơi.
-4-
Chapter 3: Information Extraction for Vietnamese
Real-Estate Advertisements
3.1 Định nghĩa Template
Qua quá trình quan sát các dữ liệu thu thập được, chúng tôi quyết
định chọn template cho hệ thống của chúng tơi như thể hiện trong
hình 2. Template này bao qt hầu hết các thông tin mà những
người đăng tin mô tả cũng như những gì người xem cần tìm kiếm
trong một quảng cáo nhà đất.
+
+
+
+
+
+
Loại tin (TypeEstate)
Loại nhà (CategoryEstate)
Diện tích (Area)
Giá tiền (Price)
Khu vực (Zone)
Liên hệ (Contact)
o Tên liên hệ (Fullname)
o Điện thoại (Telephone)
o Thư điện tử (Email)
o Địa chỉ (Address)
Hình 2: Template của hệ thống
3.2 Phát triển Copus:
3.2.1 Điều kiện chọn lọc dữ liệu:
Những bản tin được chọn lọc cho hệ thống của chúng tôi phải đảm
bảo các điều kiện sau:
Một tập tin dữ liệu chỉ có duy nhất 1 bản tin quảng cáo nhà
đất. Nếu trong một tập tin có nhiều hơn một bản tin quảng
cáo, chúng tơi sẽ phải chia thành nhiều tập tin khác nhau.
Nói cách khác, mỗi tập tin dữ liệu đầu vào sẽ có duy nhất
một template tại đầu ra.
Các bản tin là phi cấu trúc. Do trọng tâm công việc của
chúng tôi là xử lý các văn bản phi cấu trúc, chúng tôi loại
-5-
bỏ tất cả các thẻ html và chỉ giữ lại các văn bản của quảng
cáo thu thập được.
3.2.2 Chọn lọc dữ liệu:
Để phát triển và kiểm thử hệ thống, chúng tôi xây dựng một bộ
ngữ liệu bằng cách thu thập dữ liệu từ các trang web có uy tín cung
cấp các quảng cáo về nhà đất trực tuyến và miễn phí như
.aspx,... Đây là những trang web thu hút
một số lượng lớn những người đăng tin cũng như người xem tin.
3.2.3 Data normalization
Chúng tơi thực hiện chuẩn hóa dữ liệu một phần là tự động để loại
bỏ một số nhập nhằng, một phần là có sự hỗ trợ của con người
trong quá trình gán nhãn. Quá trình chuẩn hóa dữ liệu hoặc bước
tiền xử lý phải đảm bảo rằng nội dung của các quảng cáo vẫn còn
nguyên vẹn. Q trình chuẩn hóa của chúng tơi bao gồm các bước
như sau:
Thứ nhất, chúng tôi thêm dấu chấm câu vào sau các câu.
Thứ hai, chúng tôi trộn nhiều đoạn thành 1 đoạn suy nhất,
bởi vì các bản tin này thường khơng q dài.
Thứ ba, chúng tơi chuẩn hóa các dấu câu; loại bỏ khoảng
trống thừa, viết hoa cho các từ sau dấu chấm câu.
Thứ tư, chúng tơi chuẩn hóa số điện thoại, giá tiền, diện
tích, tên người,… thành các định dạng phổ biến.
Cuối cùng, chúng tôi thay thế một vài từ viết tắt bởi các từ
đầy đủ của chúng.
Trong các bước ở trên, bước thứ 4 là khó nhất. Bước này đóng
góp rất quan trọng để cải thiện tỉ lệ nhận dạng cho hệ thống của
chúng tôi.
3.2.4 Gán nhãn tập ngữ liệu:
Sau khi các tài liệu đã được tự động chuẩn hóa, chúng sẽ được tự
gán nhãn bằng tay theo template đã được định nghĩa ở phần trước.
-6-
Chúng tôi sử dụng công cụ Callisto để hỗ trợ cho quá trình gán
nhãn cho dữ liệu. Callisto là một công cụ được phát triển để phụ
vục công việc gán nhãn cho dữ liệu văn bản. Quá trình gán nhãn
cho bộ ngữ liệu của chúng tôi được thực hiện song song với quá
trình tạo ra quy tắc của hệ thống. Điều này giảm tải cho quá trình
gán nhãn và cũng có thể cung cấp cái nhìn sâu sắc để cải thiện các
quy tắc tốt hơn.
3.3 Hệ thống Vietnamese Real-Estate:
3.3.1 Tokenizer
Một sự khác biệt điển hình giữa tiếng Việt và tiếng Anh là tách từ
khi tiếng Việt là một ngôn ngữ đơn âm. Một từ trong tiếng Việt có
thể chứa một hoặc nhiều token. Chất lượng của hệ thống phụ thuộc
vào bước này. Chúng tơi kế thừa từ cơng trình nghiên cứu [18] về
tách từ và gán nhãn từ loại, và chúng tơi đóng gói chúng thành một
plugin của Gate trong hệ thống của chúng tôi. Thành phần
Tokenizer sẽ tạo ra hai nhãn là "Word" và "Split".
Mỗi nhãn "Word" gồm có những đặc trưng như sau:
o
POS là từ loại của từ. Ví dụ: Np, Nn,...
o
string: là một chuỗi của từ. Ví dụ: "căn hộ", "Mỹ
Đình",...
o
upper: nếu ký tự đầu tiên của từ là viết hoa thì upper
có giá trị là "true", ngược lại nó là "false".
o
Ngồi ra, cũng có một số đặc trưng khác như: kind,
nation,... để giúp cho quá trình viết luật ở bước sau.
Nhãn "Split" được tạo ra để bắt giữ các dấu câu như: ".",
";", ",", etc.
3.3.2 Gazetteer
Gazetteer bao gồm các từ điển khác nhau được tạo ra trong quá
trình phát triển hệ thống. Gazetteer nắm bắt miền tri thức về nhà
đất. Chúng cung cấp các thông tin cần thiết cho các luật nhận dạng
thực thể ở các giai đoạn sau này. Mỗi từ điển đại diện cho một
-7-
nhóm từ có ý nghĩa tương đồng. Đối với hệ thống của chúng tôi,
chúng tôi sử dụng các loại gazetteers sau đây:
Gazetteers có chứa tiềm năng của tên thực thể như là: tên
người, tên địa điểm (khu vực/địa chỉ) hoặc tên loại nhà.
Gazetteers có chứa các cụm từ được sử dụng trong ngữ
cảnh để viết luật như là: tiền tố hoặc các động từ mà có
khả năng theo một tên người.
Gazetteer có chứa tiềm năng của các thực thể nhập nhằng.
Vì hệ thống của chúng tơi làm việc trên văn bản phi cấu trúc
mà khơng có bất kỳ manh mối như thẻ html, Gazetteer đóng góp
đáng kể vào hiệu quả tổng thể của hệ thống. Đầu ra của thành phần
Gazetteer là các nhãn Lookup bao gồm các từ có ngữ nghĩa rõ
ràng.
3.3.3 JAPE Transducer
JAPE Transducer là là tầng của ngữ pháp JAPE hoặc các luật. Ngữ
pháp JAPE cho phép một mẫu biểu thức chính quy cụ thể bao bọc
các nhãn phù hợp. Vì vậy, kết quả thành phần trước bao gồm tách
từ, gán nhãn từ loại và từ điể n có thể được sử dụng để tạo ra các
khác khác theo. Một ngữ pháp JAPE có định dạng sau:
LHS (left-hand-side) –> RHS (right-hand-side)
Mệnh đề tài (LHS) là một biểu thức chính quy trên các nhãn.
Mệnh đề phải (RHS) là hành động được thực thi khi mệnh đề trái
phù hợp.
JAPE Transduce của chúng tôi tổ chức các luật như sau:
Loại bỏ các nhãn Lookup khơng đúng và có thể gây ra
nhập nhằng.
Nhận dạng thực thể TypeEstate.
Nhận dạng thực thể CategoryEstate dựa trên thực thể
TypeEstate. Nếu một bản tin quảng cáo có nhiều hơn một
thực CategoryEstate, chúng tôi sẽ sử dụng vị trí tương
-8-
quan để giữa CategoryEstate và TypeEstate thực thể xác
định nên loại bỏ thực thể nào và giữ lại thực thể nào.
Nhận dạng thực thể Zone.
Nhận dạng thực thể Area có thể sử dụng thêm thực thể
TypeEstate và CategoryEstate để nhận dạng. Nếu một bản
tin không xuất hiện manh mối nào để nhận dạng thực thể
Area, chúng tôi sử dụng TypeEstate và CategoryEstate để
xác định có hay khơng tồn tại thực thể này. Ví dụ: Tơi cần
bán 2000 m2 đất ruộng tại Hà Đông. (I need to sell 2000
m2 farmland in Ha Dong.)
Nhận dạng thực thể Price và loại bỏ các thực thể Price dư
thừa.
Nhận dạng thực thể Telephone và loại bỏ các thực thể
Telephone dư thừa.
Nhận dạng thực thể Fullname dựa trên thực thể Telephone.
Nhận dạng thực thể Address sử dụng thực thể Zone.
Nhận dạng thực thể Email.
Kết hợp các thực thể Telephone, Address, Email và
Fullname thành thực thể mới là Contact.
Loại bỏ các thực thể Zone dư thừa.
Chúng tôi loại bỏ tất cả các nhãn Lookup là một phần của các
nhãn Word. Ví dụ từ "Liên" (Liên) là một tên người nó được sử
dụng để nhận dạng cho thực thể Fullname, nhưng từ này cũng có
thể là một phần của một từ khác với ý nghĩa hoàn toàn khác nhau.
Ví dụ từ "Liên hệ" được gán nhãn là Word và nói cũng là một một
manh mối tiềm năng để nhận dạng các nhãn Contact, do đó từ
"Liên" khơng nên là một nhãn Lookup riêng biệt.
Thực thể Zone là một trong số các thực thể đặc biệt khó khăn
nhận dạng do thực tế là các token mô tả cho thực thể Zone không
được viết hoa. Hơn nữa, thực thể này thường khá dài. Lấy một ví
dụ Zone là "My dinh - tu liem - Hà Nội" thì rất khó khăn để nhận
-9-
dạng một cách chính xác nói, bởi chúng là một tên địa danh nhưng
lại không được viết hoa:
"Tôi cần mua căn hộ tại Mỹ đình – từ liêm – Hà Nội."
"I need to buy an apartment in My dinh - tu liem - Ha Noi."
3.4 Kết luận:
Trong chương này, chúng tơi trình bày khá chi tiết về hệ thống
Vietnamese Real-Estate của chúng tôi. Tại mục mở đầu của
chương, chúng tôi giới thiệu về template của hệ thống chúng tôi. Ở
mục kế tiếp chúng tơi mơ tả q trình phát triển của tập ngữ liệu.
Trong mục cuối cùng, chúng tơi trình bày 3 thành phần chính của
hệ thống rút trích thơng tin Vietnamese Real-Estate đó là
Tokenizer, Gazetteer và JAPE Transducer. JAPE Transducer là
một thành phần rất quan trọng của hệ thống. Nó bao gồm các luật
hoặc ngữ pháp JAPE để nhận dạng thực thể.
-10-
Chapter 4: Thực nghiệm và phân tích lỗi
Trong các thực nghiệm của chúng tôi, chúng tôi sử dụng tập ngữ
liệu gồm có 260 bản tin và chúng đã được gán nhãn theo template
đã được định nghĩa ở phần trên. Tập ngữ liệu này phân chia thành
hai tập Traning và Test, mỗi tập gồm có tương ứng 180 và 80 bản
tin. Hệ thống của chúng tôi được xây dựng bằng cách sử dụng các
bản tin trong tập Training và sẽ kiểm tra hệ thống bằng cách sử
dụng các bản tin từ tập Test.
4.1 Thước đo đánh giá
Trong các thực nghiệm, chúng tôi các độ đo Precision, Recall và Fmeasure để đánh giá hệ thống của chúng tôi. Các độ đo này được
định nghĩa như sau:
Precision (P) = (c / a) x 100%
Recall (R) = (c / b) x 100%
F-measure (F) = 2 x (P x R)/ (P + R) x 100%
Trong đó:
a: Tổng số các thực thể được nhận dạng bởi hệ.
b: Tổng số các thực thể được gán nhãn bằng tay.
c: Tổng số các thực thể được nhận dạng đúng.
Đánh giá hiệu suất của hệ thống của chúng tôi được thực hiện
dựa trên các hai tiêu tiêu sau:
Tiêu chí chặt (strict): một thực thể được nhận dạng đúng
khi trùng khớp hồn tồn (về vị trí), và cùng kiểu với thực
thể trong tập dữ liệu chuẩn.
Tiêu chí lỏng (lenient): một thực thể được nhận dạng đúng
khi nó có phần chung và cùng kiểu với thực thể trong tập
dữ liệu chuẩn
4.2 Kết quả thực nghiệm
Bảng 1 và Bảng 2 cho thấy hiệu suất của hệ thống trên tập dữ liệu
Training sử dụng các tiêu chuẩn lỏng và chặt, trong khi Bảng 3 và
-11-
Bảng 4 cho thấy hiệu suất của hệ thống trên tập dữ liệu Test sử
dụng các tiêu chuẩn lỏng và chặt.
(1) - No. of entities annotated manually
(2) - No. of entities recognized correctly
(3) - No. of entities recognized by system
Type
(4) - Precision
(5) - Recall
(6) - F-measure
(1)
(2)
(3)
(4)
(5)
(6)
TypeEstate
180
180
180 100% 100% 100%
CategoryEstate
180
176
180 98% 98% 98%
Zone
165
152
160 95% 92% 94%
Area
151
134
134 100% 89% 94%
Price
147
146
146 100% 99% 100%
Contact
463
460
465 99% 99% 99%
All
1286 1248 1265 99% 97% 98%
Bảng 1: Hiệu suất trên tập dữ liệu Training sử dụng tiêu chí lỏng
(1) - No. of entities annotated manually
(2) - No. of entities recognized correctly
(3) - No. of entities recognized by system
Type
(4) - Precision
(5) - Recall
(6) - F-measure
(1)
(2)
(3)
(4)
(5)
(6)
180
180
180 100% 100% 100%
TypeEstate
180
176
180 98% 98% 98%
CategoryEstate
165
112
160 70% 68% 69%
Zone
151
132
134 99% 87% 93%
Area
147
146
146 100% 99% 100%
Price
463
457
465 98% 99% 98%
Contact
1286
1203
1265
95% 94% 94%
All
Bảng 2: Hiệu suất trên tập dữ liệu Training sử dụng tiêu chí chặt
-12-
(1) - No. of entities annotated manually
(2) - No. of entities recognized correctly
(3) - No. of entities recognized by system
Type
(4) - Precision
(5) - Recall
(6) - F-measure
(1)
(2)
(3)
(4)
(5)
TypeEstate
80
79
80 99% 99%
CategoryEstate
80
76
80 95% 95%
Zone
72
62
69 90% 86%
Area
61
51
51 100% 84%
Price
58
55
55 100% 95%
Contact
173
172
173 99% 99%
All
524
495
508 97% 94%
(6)
99%
95%
88%
91%
97%
99%
96%
Bảng 3: Hiệu suất trên tập dữ liệu Test sử dụng tiêu chí lỏng
(1) - No. of entities annotated manually
(2) - No. of entities recognized correctly
(3) - No. of entities recognized by system
Type
(4) - Precision
(5) - Recall
(6) - F-measure
(1)
(2)
(3)
(4)
(5)
TypeEstate
80
78
80 98% 98%
CategoryEstate
80
68
80 85% 85%
Zone
72
43
69 62% 60%
Area
61
51
51 100% 84%
Price
58
55
55 100% 95%
Contact
173
172
173 99% 99%
All
524
467
508 92% 89%
(6)
98%
85%
61%
91%
97%
99%
91%
Bảng 4: Hiệu suất trên tập dữ liệu Test sử dụng tiêu chí chặt
F-measures tổng thể của hệ thống trên tập dữ liệu sử dụng tiêu chí
lỏng và chặt lần lượt là 96% và 91%. Tuy nhiên, chúng ta có thể dễ
-13-
dàng nhìn thấy rằng sự chênh lệch về hiệu suất giữa các thực thể.
Hiệu suất trên thực thể Zone là thấp nhất, phản ánh thực tế là các
thực thể Zone khá nhập nhằng và khó nhận dạng. Điều này một
phần là do thực tế các thực thể Zone trong tiếng Việt thường khá
dài và trình bày theo nhiều định dạng khác nhau. Điều này cũng
giải thích lý do tại sao hiệu suất cho các thực thể Zone được cải
thiện đáng kể khi sử dụng với tiêu chuẩn lỏng so với các tiêu chuẩn
chặt.
4.3 Phân tích lỗi
Một số nguyên nhân chính gây ra lỗi cho hệ thống của chúng tôi
như sau:
Phong các viết khác nhau.
Một số thực thể đặc biệt là thực thể Zone thì khá dài và khong
được viết hoa cho các từ.
Lấy 2 ví dụ sau đây:
"Tơi cần mua căn hộ tại Mỹ đình – từ liêm – Hà Nội."
"I need to buy an apartment in My Dinh - Tu Liem – Ha Noi."
"Liên hệ: anh minh - 0987214931."
"Contact: anh Minh - 0987214931."
Tên địa điểm (cụm từ "Mỹ đình – từ liêm – Hà Nội") trong ví
dụ đầu tiên và tên người (cụm từ "anh minh") trong ví dụ thứ 2
không viết viết hoa các ký tự đầu tiên của từ. Do đó hệ thống của
chúng tơi sẽ rất khó để nhận dạng đúng.
-14-
Chapter 5: Kết luận và Hướng phát triển
Chúng tôi xây dựng một hệ thống cho rút trích thơng tin từ các
quảng cáo nhà đất trong Tiếng Việt. Cách tiếp cận của chúng tôi là
khá hợp lý cho các nguồn lực ngôn ngữ, đặc biệt là cho các nhiệm
vụ mà không có dữ liệu gán nhãn. Hệ thống của chúng tơi đạt được
F-measure là 91% khi sử dụng tiêu chí chặt.
Trong tương lai chúng tôi sẽ cần cái thiện hiệu quả của hệ
thống cho thực thể Zone. Chúng tôi cũng sẽ thử sử dụng phương
pháp học máy trên tập dữ liệu đã được gán nhãn của chúng tơi và
tìm giải pháp có thể kết hợp cả phương pháp học máy và hệ luật.
-15-
Công bố liên quan
[1]. Lien Vi Pham and Son Bao Pham. Information Extraction for
Vietnamese Real-Estate. In Proceedings of the fourth
International Conference on Knowledge and Systems
Engineering (KSE), 2012. (Accepted)
Tài liệu tham khảo
[1]. J. Cowie and Y. Wilks, “Information extraction,” 2000.
[2]. D. B. Nguyen, S. H. Hoang, S. B. Pham, and T. P. Nguyen,
“Named entity recognition for vietnamese,” in Proceedings of
the Second international conference on Intelligent information
and database systems: Part II, ser. ACIIDS’10. Berlin,
Heidelberg: Springer-Verlag, 2010, pp. 205–214. [Online].
Available:
/>id=1894808.1894834
[3]. T.-V. T. Nguyen and T. H. Cao, “Vn-kim ie: automatic
extraction of vietnamese named-entities on the web,” New
Gen. Comput., vol. 25, no. 3, pp. 277–292, jan 2007.
[Online]. Available: />[4]. A. Borthwick, J. Sterling, E. Agichtein, and R. Grishman,
“Exploiting dictionaries in named entity extraction:
combining semi-markov extraction processes and data
integration methods,” in Proceedings of the tenth ACM
SIGKDD international conference on Knowledge discovery
and data mining, ser. KDD ’04. New York, NY, USA: ACM,
2004,
pp.
89–98.
[Online].
Available:
1014052.1014065
[5]. A. Mansouri, L. S. Affendey, and A. Mamat, “Named entity
recognition using a new fuzzy support vector machine,”
International Journal of Computer Science and Network
Security, IJCSNS, vol. 8, no. 2, pp. 320– 325, February 2008.
-16-
[6]. X. Fang and H. Sheng, “A hybrid approach for chinese named
entity recognition,” in Proceedings of the 5th International
Conference on Discovery Science, ser. DS ’02. London, UK,
UK: Springer-Verlag, 2002, pp. 297–301. [Online].
Available: id=647859.736133
[7]. R. Srihari, C. Niu, and W. Li, “A hybrid approach for named
entity and sub-type tagging,” in Proceedings of the sixth
conference on Applied natural language processing, ser.
ANLC ’00. Stroudsburg, PA, USA: Association for
Computational Linguistics, 2000, pp. 247–254. [Online].
Available: />[8]. I. Budi and S. Bressan, “Association rules mining for name
entity recognition,” in Proceedings of the Fourth International
Conference on Web Information Systems Engineering, ser.
WISE ’03. Washington, DC, USA: IEEE Computer Society,
2003,
pp.
325–.
[Online].
Available:
/>[9]. D. Maynard, V. Tablan, C. Ursu, H. Cunningham, and Y.
Wilks, “Named entity recognition from diverse text types,” in
In Recent Advances in Natural Language Processing 2001
Conference, Tzigov Chark, 2001.
[10]. K. Pastra, D. Maynard, O. Hamza, H. Cunningham, and Y.
Wilks, “How feasible is the reuse of grammars for named
entity recognition,” in In Proceedings of the 3rd Conference
on Language Resources and Evaluation (LREC), Canary
Islands, 2002.
[11]. D. Maynard, K. Bontcheva, and H. Cunningham, “Towards a
semantic extraction of named entities,” in In Recent Advances
in Natural Lan-guage Processing, 2003.
[12]. D. M. Bikel, S. Miller, R. Schwartz, and R. Weischedel,
“Nymble: a high-performance learning name-finder,” in
Proceedings of the fifth conference on Applied natural
language processing, ser. ANLC ’97. Stroudsburg, PA, USA:
Association for Computational Linguistics, 1997, pp. 194–
-17-
201.
[Online].
974557.974586
Available:
/>
[13]. Y.-C. Wu, T.-K. Fan, Y.-S. Lee, and S.-J. Yen, “Extracting
named entities using support vector machines,” in
Proceedings of the 2006 international conference on
Knowledge Discovery in Life Science Literature, ser.
KDLL’06. Berlin, Heidelberg: Springer-Verlag, 2006, pp. 91–
103.
[Online].
Available:
/>[14]. T. Nguyen, O. Tran, H. Phan, and T. Ha, “Named entity
recognition in vietnamese free-text and web documents using
conditional random fields,” Proceedings of the Eighth
Conference on Some Selection Prob-lems of Information
Technology and Telecommunication, Hai Phong, Viet Nam,
2005.
[15]. P. T. X. Thao, T. Q. Tri, A. Kawazoe, D. Dinh, and N.
Collier, “Construction of vietnamese corpora for named entity
recognition,” in Large Scale Semantic Access to Content
(Text, Image, Video, and Sound), ser. RIAO ’07. Paris,
France, France: LE CENTRE DE HAUTES ETUDES
INTERNATIONALES
D’INFORMATIQUE
DOCUMENTAIRE, 2007, pp. 719–724. [Online]. Available:
http: //dl.acm.org/citation.cfm?id=1931390.1931459
[16]. T. W. Hong and K. L. Clark, “Using grammatical inference to
automate information extraction from the web,” in
Proceedings of the 5th European Conference on Principles of
Data Mining and Knowledge Discovery, ser. PKDD ’01.
London, UK, UK: Springer-Verlag, 2001, pp. 216–227.
[Online].
Available:
/>645805.669995
[17]. H. Seo, J. Yang, and J. Choi, “Building intelligent systems for
mining in-formation extraction rules from web pages by using
domain knowledge,” in in Proc. IEEE Int. Symp. Industrial
Electronics, Pusan, Korea, 2001, pp. 322–327.
-18-
[18]. D. D. Pham, G. B. Tran, and S. B. Pham, “A hybrid approach
to vietnamese word segmentation using part of speech tags,”
in Proceedings of the 2009 International Conference on
Knowledge and Systems Engineering, ser. KSE ’09.
Washington, DC, USA: IEEE Computer Society, 2009, pp.
154–161.
[Online].
Available:
/>
-19-
VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
PHAM VI LIEN
INFORMATION EXTRACTION FOR VIETNAMESE
REAL-ESTATE ADVERTISEMENTS
Sector : Information Technology
Major : Computer Science
Code : 60.48.01
THESIS ABSTRACT OF COMPUTER SCIENCE MAJOR
Hanoi – 2012
-20-
Chapter 1: Introduction
1.1 Problem and Idea
With the advent of the Internet, more and more data is available
and we are currently "flooded" with the data on the Internet.
Although, the search engines such as Google4, Bing5, Yahoo6, etc.
have been created to help people to find information, but they still
haven’t met the expectations of the users. Therefore, the
researchers have looked into areas such as information extraction,
text summarization, etc. to overcome the information overload
problem and to deliver useful information to users.
Information Extraction is one of the important tasks in natural
language processing. The main idea of an information extraction
system is to extract snippets of information from unstructured or
semi-structured documents to fill in a structured form which is
called a template. Information Extraction has gradually appeared in
many fields such as politics, social, financial, real estate, etc. with
many different languages such as English, French, Chinese, etc.
However, for the Vietnamese language of us it is still a relatively
new problem, especially for online real estate advertisements.
Figure 3: The input data and output result of our system
4
6
5
-21-
In our thesis, we propose a rule-based approach for building an
Information Extraction system for Vietnamese online real estate
advertisements. At the same time, we also build an annotated
corpus for the same task.
1.2 Scope of the thesis:
With the development of the Internet, online advertising is
practical and increasingly popular. It is an effective advertising
solution for advertising individuals, agencies and viewers. Thus,
the data source from the advertisements is extremely large and
diverse. Our thesis focuses on processing the free online
Vietnamese text advertisement in the real-estate domain.
1.3 Thesis' structure
Our thesis is organized into five chapters as follows:
Chapter 1: We introduce the problem and idea to build a
system to extract information for online real-estate
advertisements in Vietnamese.
Chapter 2: We present an overview of related research for
information ex-traction methods in general and real-estate
domain in particular.
Chapter 3: We describe in details of how to build our
Vietnamese Real-Estate Information Extraction system.
Chapter 4: We present the results of our experiments and the
analysis of some failures.
Chapter 5: We conclude with discussion about future
development for the system.
-22-