Tải bản đầy đủ (.pdf) (90 trang)

Dịch câu truy vấn tiếng anh sang đồ thị ý niệm cách tiếp cận ít phụ thuộc vào cú pháp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.55 MB, 90 trang )

Đại Học Quốc Gia TP. Hồ Chí Minh
TRƯỜNG ĐẠI HỌC BÁCH KHOA
---------o0o----------

CAO DUY TRƯỜNG

DỊCH CÂU TRUY VẤN TIẾNG ANH SANG ĐỒ THỊ Ý NIỆM:
CÁCH TIẾP CẬN ÍT PHỤ THUỘC VÀO CÚ PHÁP
Chuyên ngành: Khoa học máy tính

LUẬN VĂN THẠC SĨ

TP. Hồ Chí Minh, tháng 07 – 2008


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học : PGS.TS. CAO HOÀNG TRỤ

Cán bộ chấm nhận xét 1 : PGS.TS. PHAN THỊ TƯƠI

Cán bộ chấm nhận xét 2 : PGS.TS. ĐINH ĐIỀN

Luận văn thạc sĩ được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN
THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 03 tháng 09 năm 2008


LỜI CAM ĐOAN


Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các cơng trình khác như đã ghi rõ
trong luận văn, các cơng việc trình bày trong luận văn này là do chính chúng tơi thực hiện
và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường
này hoặc trường khác.
Ngày 30 tháng 6 năm 2008

Cao Duy Trường


LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn đến gia đình, những người ln sát cánh, động viên, và tạo
mọi điều kiện tốt nhất để tơi có thể học tập và hoàn tất được luận văn tốt nghiệp này.
Xin chân thành cảm ơn thầy PGS.TS. Cao Hoàng Trụ, đã nhiệt tình hướng dẫn tơi
hồn thành tốt luận văn này.
Xin chân thành biết ơn sự tận tình dạy dỗ và sự giúp đỡ của tất cả quý thầy cô tại
trường Đại học Bách khoa, đặc biệt là các thầy cô trong khoa Khoa học và Kỹ thuật Máy
tính.


TĨM TẮT
Các hệ thống tìm kiếm theo từ khố hiện nay như Google rất hữu ích, nhưng chưa
chính xác và chưa đầy đủ, do các từ khoá chưa biểu diễn được hết ngữ nghĩa của các tài
liệu và truy vấn. Tìm kiếm theo ngữ nghĩa nói chung, và thực thể có tên nói riêng, sẽ cho
phép các dịch vụ tìm kiếm thơng minh hơn. Trong khi có nhiều ngơn ngữ hình thức để
biểu diễn truy vấn với ngữ nghĩa chính xác, ngôn ngữ tự nhiên vẫn là phương tiện mà
người sử dụng mong muốn nhất. Luận văn này đưa ra một phương pháp dịch câu truy vấn
tự nhiên sang đồ thị ý niệm, phương pháp này có thể chấp nhận các câu truy vấn yếu cú
pháp và sử dụng cơ sở tri thức trên Ontology sẵn có. Phương pháp được thử nghiệm trên
tập dữ liệu mẫu TREC 2002 và TREC 2007.



ABSTRACT
Current keyword-based systems like Google are very helpful, yet neither sound nor
complete, because keywords are not adequate to represent the semantics of documents
and queries. Searching based on semantics in general, and named entities in particular,
would enable more intelligent searching services. While there are various formalisms to
represent queries with precise semantics, natural language is still the most desirable
means to users. This thesis proposes a query translation method that is robust to illformed questions and exploits knowledge of an ontology for semantic search. It uses
conceptual graphs as the target language for the translation. As a logical interlingua with
smooth mapping to and from natural language, conceptual graphs simplify translation
rules and can be easily converted to other formal query languages. Experiment results of
the method on the TREC 2002 and TREC 2007 data sets are also presented and discussed.


MỤC LỤC
DANH MỤC HÌNH ............................................................................................. iii
DANH MỤC BẢNG ............................................................................................ iv
CHƯƠNG 1 GIỚI THIỆU .................................................................................. 5
1.1 Tổng quan ................................................................................................. 5
1.2 Mục tiêu và phạm vi .................................................................................. 7
CHƯƠNG 2 CÁC NGHIÊN CỨU VÀ HỆ THỐNG LIÊN QUAN ..................... 8
2.1 Các hệ thống hỏi-đáp ................................................................................ 8
2.2 Ontology ................................................................................................. 11
2.3 Chú thích ngữ nghĩa ................................................................................ 14
2.4 Rút trích quan hệ ..................................................................................... 19
2.5 Sơ lược về đồ thị ý niệm ......................................................................... 20
2.6 Các phương pháp xây dựng đồ thị ý niệm ............................................... 21
CHƯƠNG 3 PHƯƠNG PHÁP ĐỀ NGHỊ ......................................................... 23
3.1 Tổng quan ............................................................................................... 23
3.2 Nhận diện thực thể có tên ........................................................................ 27

3.3 Nhận diện các thực thể không tên ............................................................ 27
3.4 Nhận diện từ quan hệ .............................................................................. 28
3.5 Xác định lớp của thực thể........................................................................ 28
3.6 Gom thực thể .......................................................................................... 29
3.7 Xác định quan hệ ẩn ................................................................................ 30


3.8 Xác định quan hệ .................................................................................... 30
3.9 Xóa bỏ các quan hệ không phù hợp ......................................................... 34
3.10 Xây dựng đồ thị ý niệm ........................................................................... 35
CHƯƠNG 4 HIỆN THỰC HỆ THỐNG ........................................................... 37
4.1 Các khối chính trong hệ thống ................................................................. 37
4.2 Tập luật ................................................................................................... 41
CHƯƠNG 5 KẾT LUẬN .................................................................................. 47
5.1 Kết quả đề tài .......................................................................................... 47
5.2 Kết luận và hướng phát triển ................................................................... 51
TÀI LIỆU THAM KHẢO ................................................................................... 53
PHỤ LỤC A : TẬP CÂU MẪU TREC 2002 ....................................................... 58
PHỤ LỤC B : TẬP CÂU MẪU TREC 2007 ....................................................... 63
PHỤ LỤC C : CÁC ĐỒ THỊ Ý NIỆM SINH RA ĐÚNG TỪ TREC 2002 KHI
CHƯA LÀM GIÀU ONTOLOGY ...................................................................... 68
PHỤ LỤC D : MỘT SỐ ĐỒ THỊ Ý NIỆM SINH RA ĐÚNG TỪ TREC 2002
SAU KHI LÀM GIÀU ONTOLOGY .................................................................. 74
PHỤ LỤC E : CÁC ĐỒ THỊ Ý NIỆM SINH RA ĐÚNG TỪ TREC 2007 KHI
CHƯA LÀM GIÀU ONTOLOGY ...................................................................... 78
PHỤ LỤC F : MỘT SỐ ĐỒ THỊ Ý NIỆM SINH RA ĐÚNG TỪ TREC 2007
SAU KHI LÀM GIÀU ONTOLOGY .................................................................. 82


DANH MỤC HÌNH

Hình 2.1 Q trình xử lý trong ANNIE ................................................................... 15
Hình 2.2 GATE chú thích ngữ nghĩa dựa trên ontology ........................................... 17
Hình 2.3 Nhập nhằng khi nhận dạng thực thể có tên trong KIM. ............................. 18
Hình 2.4 Loại bỏ nhập nhằng khi nhận diện thực thể bằng GATE. .......................... 18
Hình 2.5 Ví dụ về đồ thị ý niệm............................................................................... 21
Hình 3.1 Các bước xây dựng đồ thị ý niệm .............................................................. 26
Hình 3.2 Xác định loại quan hệ giữa hai thực thể ei và ej ......................................... 34
Hình 3.3 Đồ thị ý niệm được xây dựng .................................................................... 36
Hình 4.1 Khối nhận diện thực thể và từ quan hệ ...................................................... 37
Hình 4.2 Khối hiệu chỉnh thực thể và từ quan hệ ..................................................... 37
Hình 4.3 Khối xác định quan hệ ngữ nghĩa .............................................................. 38
Hình 4.4 Khối hiệu chỉnh quan hệ ngữ nghĩa ........................................................... 38
Hình 4.5 Khối xây dựng đồ thị ý niệm ..................................................................... 38
Hình 4.6 Cấu trúc tập phần tử TransformRules và rule ........................................... 41
Hình 4.7 Cấu trúc của phần tử điều kiện luật ........................................................... 43
Hình 4.8 Ví dụ về phần tử premise .......................................................................... 43
Hình 4.9 Cấu trúc của phần tử hành động ................................................................ 44
Hình 4.10 Ví dụ một luật hồn chỉnh ....................................................................... 44
Hình 4.11 Cấu trúc từ điển quan hệ ......................................................................... 45
Hình 4.12 Ví dụ một số phần tử trong từ điển .......................................................... 46


DANH MỤC BẢNG
Bảng 4.1 Giao diện lớp GetEntityandRelationWord ................................................ 39
Bảng 4.2 Giao diện lớp ProcessingEntityandRelationWord ..................................... 39
Bảng 4.3 Giao diện lớp MakeQueryTriple ............................................................... 40
Bảng 4.4 Giao diện lớp FindSemanticRelation ........................................................ 40
Bảng 4.5 Giao diện lớp ProcessingSemanticRelation ............................................... 40
Bảng 4.6 Giao diện lớp QueryOutput ...................................................................... 41
Bảng 4.7 Bảng thuộc tính phần tử premise .............................................................. 42

Bảng 4.8 Mơ tả các thuộc tính của phần tử entry ..................................................... 46
Bảng 5.1 Kết quả thực nghiệm trên tập TREC 2002 khi chưa bổ sung Ontoloy. ...... 48
Bảng 5.2 Kết quả thực nghiệm trên tập TREC 2002 sau khi bổ sung Ontology. ....... 49
Bảng 5.3 Kết quả thực nghiệm trên tập TREC 2007 khi chưa bổ sung Ontoloy. ...... 49
Bảng 5.4 Kết quả thực nghiệm trên tập TREC 2007 sau khi bổ sung Ontology. ....... 50


5

CHƯƠNG 1
GIỚI THIỆU
1.1 Tổng quan
Web ngữ nghĩa là sự mở rộng của web hiện nay mà ở đó thơng tin được định nghĩa
trước một cách đầy đủ ý nghĩa, giúp cho việc giao tiếp giữa người và máy tốt hơn [2]. Tổ
chức W3C đã định nghĩa các kỹ thuật và chuẩn, cho phép dữ liệu trên web được định
nghĩa và liên kết với nhau theo cách mà nó có thể được sử dụng để khai phá, tự động hóa,
tích hợp và tái sử dụng thông qua những ứng dụng một cách có hiệu quả hơn. Web sẽ có
đầy đủ sức mạnh khi nó trở thành một mơi trường mà ở đó dữ liệu được chia sẻ và được
xử lý bằng những công cụ tự động giống như con người [3].
Để đạt được mục tiêu trên có nhiều nhóm đã nghiên cứu các hình thức biểu diễn tri
thức (Knowledge Representation – KR) khác nhau; biểu diễn hướng đối tượng (ObjectOriented – OO), logic mô tả (Description Logic – DL) và đồ thị ý niệm (Conceptual
Graph – CG) là những hình thức biểu diễn đó. Trong đó DL rất được ủng hộ cho việc
định nghĩa các ngôn ngữ Ontology như Ontology Web Language (OWL) [14] [30], và
DL cũng đã được W3C đề nghị vào năm 2004 cho việc biểu diễn Ontology. Tuy nhiên
cũng có nhiều nghiên cứu dùng CG cho việc biểu diễn tri thức từ rất sớm. Một số nhóm
nghiên cứu đề nghị trực tiếp dùng CG cho việc biểu diễn Ontology và chú thích nội dung
của web ngữ nghĩa như là WebKB [21], một số nhóm khác thì dựa vào sự tương đồng
giữa CG và RDF (ngôn ngữ được đề nghị bởi W3C cho việc mô tả tài nguyên web) để
xây dựng một hệ thống chuyển đổi từ RDF sang CG và xây dựng một bộ máy tìm kiếm
ngữ nghĩa dựa trên sự tương đồng đó [11].

Có nhiều nghiên cứu hướng tới việc xây dựng một hệ thống truy vấn dựa trên nền
tảng của web ngữ nghĩa. Các nghiên cứu [23] và [6] đã xây dựng một hệ thống truy vấn
mà ở đó người sử dụng sẽ lựa chọn từ những mẫu câu truy vấn đã được chuẩn bị sẵn trong


6

hệ thống để thực hiện truy vấn. Ở một nghiên cứu khác [4] tác giả đã đưa ra một công cụ
truy vấn dựa trên đồ thị gọi là Semantic Crystal, người sử dụng trực tiếp thao tác trên đồ
thị để thực hiện truy vấn. Các nghiên cứu [5] và [7] cho phép người dùng nhập một câu
truy vấn đầy đủ, một đoạn của câu hay từ khóa bằng ngơn ngữ tự nhiên để thực hiện truy
vấn.
Khi nghiên cứu tính khả dụng của các hình thức biểu diễn truy vấn này với nhau, tác
giả [4] đã chỉ ra rằng, tốt nhất là hình thức truy vấn bằng câu đầy đủ, sau đó đến từ khóa,
tiếp đến là hình thức các mẫu câu truy vấn được xây dựng sẵn, và cuối cùng là hình thức
đồ thị. Đề tài này hướng tới một hệ thống truy vấn theo dạng câu tự nhiên đầy đủ, hoặc là
một đoạn câu có ý nghĩa. Câu truy vấn bằng ngôn ngữ tự nhiên sẽ được tự động chuyển
sang đồ thị ý niệm, và sau đó đồ thị ý niệm được chuyển sang một câu truy vấn ngữ nghĩa
như SeRQL để thực hiện truy vấn trên Ontology.
Đồ thị ý niệm là một hệ thống logic dựa trên đồ thị tồn tại của Charles Sanders Peirce
và mạng ngữ nghĩa của trí tuệ nhân tạo. Chúng biểu diễn ngữ nghĩa theo một hình thức
logic chính xác mà con người có thể đọc được và dễ xử lý tính tốn trên đó. Bằng việc
ánh xạ trực tiếp thành ngơn ngữ, đồ thị ý niệm là một ngôn ngữ trung gian cho việc
chuyển đổi từ hình thức biểu diễn hướng máy tính (Computer-Oriented) thành ngôn ngữ
tự nhiên và ngược lại [34]. Với những đặc điểm đó, đồ thị ý niệm được dùng trong nhiều
ứng dụng như là một hình thức biểu diễn tri thức.
Việc chuyển đổi câu truy vấn bằng ngôn ngữ tự nhiên sang đồ thị ý niệm đã được
trình bày trong [38]. Tuy nhiên phương pháp này dựa vào việc phân tích cú pháp của câu
truy vấn để sinh đồ thị ý niệm. Do đó đối với các câu truy vấn khơng đúng với cú pháp
quy định thì sẽ khơng sinh được đồ thị ý niệm. Mặt khác phương pháp này cũng khó

chuyển đổi khi ta muốn áp dụng cho ngôn ngữ khác. Phương pháp trên cũng không dịch
được các câu truy vấn đầy đủ sang đồ thì ý niệm, như các câu bắt đầu bằng các từ để hỏi:
who, what, where,... Mục tiêu của đề tài này là giải quyết những hạn chế trên, đề tài đưa


7

ra một phương pháp chuyển đổi sang đồ thì ý niệm đối với các câu truy vấn mà không
dựa vào việc phân tích cú pháp câu.

1.2 Mục tiêu và phạm vi
Mục tiêu của đề tài là dịch các câu truy vấn tiếng Anh sang đồ thì ý niệm. Các câu
truy vấn được sử dụng trong hệ thống là các câu hỏi về các thực thể có tên, hoặc hỏi về
thuộc tính của một thực thể có tên nào đó. Các câu truy vấn được chia làm hai loại:
• Các câu truy vấn đơn giản, không bắt đầu bằng từ để hỏi, ví dụ như: “Name a
novel written by John Steinbeck.”, “Tell me what city the Kentucky Horse
Park is near?”…
• Các câu truy vấn bắt đầu bằng từ để hỏi WHAT, WHO, WHERE ví dụ như:
“What is the capital of Burkina Faso?”, “Who was Charles Lindbergh's
wife?”,…
Đề tài sử dụng công cụ GATE để nhận biết các thức thể có tên dựa trên Ontology.
Trong phạm vi giới hạn của đề tài, quá trình nhận biết trên được giả sử là hồn tồn chính
xác.


8

CHƯƠNG 2
CÁC NGHIÊN CỨU VÀ HỆ THỐNG LIÊN QUAN
2.1 Các hệ thống hỏi-đáp

Để dịch một câu truy vấn bằng ngôn ngữ tự nhiên sang đồ thị ý niệm, đầu tiên cần
phải nhận biết được các thành phần quan trọng trong câu truy vấn. Các hệ thống hỏi-đáp
đã đưa ra các phương pháp khác nhau để nhận biết các thành phần này [29] .
Hỏi-đáp (question answering - QA) là một kiểu truy hồi thông tin. Cho sẵn một tập
các văn bản (có thể từ Word Wide Web), hệ thống có khả năng đưa ra các câu trả lời cho
các câu hỏi bằng ngôn ngữ tự nhiên. Các nghiên cứu về QA hướng tới việc giải quyết cho
nhiều loại câu hỏi khác nhau, bao gồm các câu hỏi về: sự kiện, danh sách, định nghĩa, câu
hỏi HOW, WHY, giả thuyết. Có nhiều loại tập văn bản được dùng, từ các tập văn bản cục
bộ đến các tập văn bản có tính tồn cầu như Word Wide Web. Các hệ thống QA được
chia làm hai loại:
• Miền đóng (closed-domain): các hệ thống QA này chỉ áp dụng cho một
lĩnh vực đặt biệt, như: y học hay tự động hóa.
• Miền mở (open-domain): hệ thống làm việc với các câu hỏi về mọi vấn
đề, nó dựa trên một ontoly tổng quát và một cơ sở trí thức tồn cầu. Hay
nói cách khác hệ thống sử dụng rất nhiều dữ liệu có sẵn để đưa ra câu trả
lời.
Các hệ thống QA nói chung, bao gồm một khối phân loại câu hỏi (question
classtifier), để xác định kiểu của câu hỏi và kiểu của câu trả lời. Sau khi câu hỏi được
phân tích, hệ thống thường sử dụng một số kỹ thuật để loại bỏ nhiễu. Sau đó một khối
truy hồi văn bản được sử dụng các cơ chế tìm kiếm để xác định các tập văn bản, các đoạn
văn có thể chứa câu trả lời. Tiếp theo, một bộ lọc được sử dụng để lọc ra các câu cùng


9

kiểu với câu trả lời mong muốn. Cuối cùng, khối trả lời sẽ xếp hạng các câu trả lời để xác
định câu trả lời nào đúng nhất với câu hỏi.
Có hai phương pháp chính được áp dụng cho các hệ thống QA:
• Cạn: phương pháp này sử dụng các kỹ thuật dựa từ khóa để xác định
đoạn văn bản có thể chứa câu trả lời trong tập văn bản được truy hồi, và

sau đó bộ lọc dựa trên kiểu của câu hỏi để đưa ra các câu trả lời có thể
có. Cuối cùng, các câu trả lời đó được xếp hạng theo đặc điểm cú pháp,
như thứ tự hoặc vị trí các từ tương tự như câu truy vấn để đưa tra câu trả
lời chính xác.
• Sâu: đối với các câu hỏi càng phức tạp thì việc xử lý ngữ nghĩa cũng như
ngữ cảnh của cây truy vấn phải được thực hiện để đưa ra câu trả lời
chính xác. Các kỹ thuật này có thể bao gồm: nhận dạng thực thể có tên,
phát hiện quan hệ, phân giải đồng tham chiếu, loại bỏ nhập nhằng, suy
diễn không gian và thời gian,…Những hệ thống này thường dựa vào các
cơ sở tri thức như WordNet [46] hay SUMO [36] để đáp ứng được khả
năng suy diễn bằng các định nghĩa và liên hệ ngữ nghĩa.
Đề tài này dịch các câu truy vấn sang đồ thị ý niệm và hướng tới việc xây dựng một
hệ thống QA miền mở với phương pháp phân tích sâu.
Trong các hệ thống QA việc dịch các câu truy vấn bằng ngơn ngữ tự nhiên sang một
hình thức mà máy có thể hiểu được là rất quan trọng.
Trong hệ thống [18], các câu truy vấn bằng ngôn ngữ tự nhiên được dịch thành một
câu SQL để truy vấn các thông tin trên ontology được lưu trữ bằng PostgreSQL. Cơ sở tri
thức của hệ thống được chia làm ba phần: (1) một ontology đặc tả các khái niệm và các
mối quan hệ trong miền ứng dụng cụ thể; (2) một bộ ngữ pháp mô tả cách mà các khái
niệm có thể được hiểu chỉnh bởi giới từ, trạng từ hay tính từ và (3) một cơ sở tri thức mô


10

tả cách tham số hóa từng đoạn SQL để xây dựng một câu SQL biểu diễn ngôn ngữ tự
nhiên.
Hệ thống [25] thì sử dụng một bộ phân tích cú pháp để nhận ra các thành phần có
quan hệ ngữ nghĩa với nhau trong câu. Hệ thống gồm có bốn thành phần chính: (1) thành
phần để tách các câu trong đoạn văn thành các câu riêng lẻ; (2) một bộ phân tích cú pháp,
kết quả của phân tích cú pháp là một cây cú pháp cho từng câu; (3) thành phần phân tích

cây cú pháp để xác định các phần tử quan trọng trong câu và tạo ra các bộ ba quan hệ ngữ
nghĩa giữa chúng và (4) thành phần rút trích câu trả lời.
Trong hệ thống Aqualog [26] câu truy vấn được dịch thành bộ ba truy vấn (querytriples), sau đó các bộ ba này được chuyển thành các bộ ba tương thích Ontology
(ontology-compatible) triples. Có hai lý do giải thích tại sao hệ thống sử dụng các bộ ba.
Thứ nhất, các bộ ba có thể biểu diễn được hầu hết các câu truy vấn. Thứ hai cơ sở trí thức
được biểu diễn bằng ngôn ngữ RDF, mà RDF hay OWL cũng mô tả các quan hệ nhị phân
bằng các bộ ba <subject, predicate, object>. Aqualog gồm có hai thành phần chính: (1)
thành phần ngơn ngữ (linguistic component) và (2) thành phần đo độ tương tự của quan
hệ (relation similarity service - RSS). Thành phần ngơn ngữ có nhiệm vụ ánh xạ câu truy
vấn tự nhiên thành bộ ba truy vấn. AquaLog sử dụng GATE để nhận ra các token, các
danh từ, động từ, các thuật ngữ, các từ quan hệ, các từ để hỏi cũng như mẫu hay kiểu của
câu truy vấn. Các khái niệm, quan hệ của bộ ba truy vấn sẽ được RSS so trùng với
ontology để tìm ra ngữ nghĩa của các khái niệm cũng như quan hệ, bộ ba truy vấn được
chuyển thành các bộ ba tương thích ontology. Ví dụ câu truy vấn “Who is the secretary in
KMi?” được dịch thành bộ ba truy vấn KMi>. RSS sẽ so trùng bộ ba này với KB và nhận ra KMi là một RESEARCHINSTITUTE được gọi là “knowledge-media-institute”, và SECRETARY là một lớp con
của PERSON. Cuối cùng RSS tạo ra một câu truy vấn đúng logic và tương thích với
ontology là <SECRETARY, WORKS-FOR, KMi >.


11

Các hệ thống trên đều dựa vào công cụ phân tích cú pháp câu truy vấn. Phương pháp
này phụ thuộc rất chặt vào cú pháp của câu truy vấn. Do đó khi áp dụng phương pháp này
để xây dựng đồ thị ý niệm cho câu truy vấn, bất kỳ lỗi sai cú pháp nào cũng có thể dẫn
đến khơng xây dựng được đồ thị ý niệm.
Tương tự các hệ thống trên, việc dịch một câu truy vấn bằng ngôn ngữ tự nhiên sang
đồ thị ý niệm, trước hết cần phải nhận dạng được các thành phần quan trọng trong câu, và
sau đó là tìm ra mối quan hệ giữa chúng. Đề tài đề nghị sử dụng cơng cụ chú thích ngữ
nghĩa dựa trên Ontology để nhận dạng các thành phần quan trọng trong câu truy vấn, là

các thực thể và từ quan hệ. Phần tiếp theo trình bày các Ontology và các cơng cụ chú
thích ngữ nghĩa hiện có.

2.2 Ontology
Trong lĩnh vực khoa học và kỹ thuật máy tính, ontology là một mơ hình dữ liệu biểu
diễn các khái niệm và mối quan hệ giữa các khái niệm đó. Ontology có thể được xem như
là ở mức ngữ nghĩa của biểu diễn dữ liệu trong khi các mơ hình dữ liệu truyền thống chỉ ở
mức luận lý hay vật lý. Một ví dụ, đối với database truyền thống chúng ta có thơng tin
“John là con trai của Mary”, thì chúng ta chỉ có thể trả lời được hai câu hỏi sau: “Ai là
con trai của Mary?” và “Con trai của Mary là ai?”. Đối với các hệ thống dựa trên
ontology, nó có thể trả lời được nhiều câu hỏi hơn, vì nó có khả năng hiểu rằng: “John là
con của Mary”, “Mary là một người phụ nữ”, “Mary là mẹ của John”, “Mary có quan hệ
họ hàng với John”,… Mặc dù những vấn đề này rất dễ thấy đối với con người, nhưng đối
với các cơ sở dữ liệu truyền thống thì đó là những thơng tin ẩn, bởi vì mơ hình thế giới bị
giới hạn bởi cấu trúc dữ liệu chuỗi và số. Trong phần này trình bày một số Ontology đã
được xây dựng sẵn.
(Euro)WordNet
Wordnet [46] được phát triển bởi Đại học Princeton. Các danh từ, động từ, tính từ,
trạng từ được tổ chức thành những tập hợp đồng nghĩa, mỗi tập được biểu diễn dưới một


12

khái niệm từ vựng. Những tập này được liên kết với nhau bằng các quan hệ khác nhau.
Wordnet (version 2.0) chứa khoảng 200.000 khái niệm. Wordnet có thể được dùng miễn
phí cho cả mục đích nghiên cứu và thương mại, và nó sử dụng ngơn ngữ RDF.
EuroWordNet [19] là một database tập từ đa ngôn ngữ được dùng cho một vài ngôn
ngữ ở Châu Âu. Tập từ vựng dựa trên tập đồng nghĩa của WordNet, và những ngôn ngữ
khác nhau được kết nối theo chỉ mục của WordNet. EuroWordNet đã được phát triển
hồn chỉnh vào tháng 6/1999. Đối với ngơn ngữ Hà Lan có khoảng 11.000 tập từ cho

44.000 từ được biên dịch.
WordNet cũng như EuroWordNet được xây dựng như là một tài nguyên từ vựng. Do
đó, mối quan hệ trong đó chỉ là mối quass?Q
What head coaches had teams in the March Madness
2006?
In what city was the operation performed?
What was the age of the recipient?
What was the name of the recipient?
On what date was the surgery performed?
Who supervised the transplant?


93.
94.

95.
96.
97.
98.
99.
100.
101.
102.
103.
104.
105.
106.
107.
108.
109.

110.
111.
112.
113.
114.
115.
116.
117.
118.
119.
120.
121.
122.
123.
124.
125.
126.
127.
128.
129.
130.
131.
132.
133.
134.
135.
136.
137.
138.
139.

140.

What was the cause of the recipient's facial problem?
What individuals with professional experience in
medicine or ethics commented unfavorably on the
procedure?O
What is the expansion of "AMT"?
On what IRS tax form is the AMT calculation done?O
In what year was the AMT added to the Tax Code?O
What is the AMT exemption amount for a single
taxpayer in 2006?O
What does President Bush want to do to the AMT?O
Which Congress persons want to change the AMT?
What is the abbreviated ship designation for the USS
Abraham Lincoln?
On what date was the USS Abraham Lincoln
commissioned?
Where is the USS Abraham Lincoln home ported?
On what date did President Bush visit the USS Abraham
Lincoln?O
Who is the commander of the USS Abraham Lincoln?
What types of aircraft can fly from the USS Abraham
Lincoln?
What is the 3-character airport code for Dulles?
What is the approved designation for Dulles?
In what state is Dulles located?
Who is the airport named after?Q
Which authority runs the airport?
Which airlines use Dulles?
Who was the creator of the Blondie?

Blondie is syndicated by what organization?
Name characters in the strip besides Blondie.
What is the last name of the character Blondie?Q
What is the name of Blondie's father-in-law?
In what country was Irving Berlin born?
How many songs did Irving Berlin compose?Q
What was Irving Berlin's first big hit?Q
List some of Irving Berlin's compositions.
When did Irving Berlin die?
How did Irving Berlin die?
In what year was Susan Butcher born?
How many times did Susan Butcher run the Iditarod
Race?Q
How many times did Susan Butcher win the Iditarod
Race?Q
List the years that Susan Butcher won the Iditarod Race.
Where does Susan Butcher live?
On what date was Susan Butcher diagnosed with acute
myelogenous leukemia?O
Who is the conductor of the Boston Pops?
List previous conductors of the Boston Pops.Q
What is the annual salary of the Boston Pops conductor?
Who is the manager of the Boston Pops?
What is the concert venue of the Boston Pops?
How many concerts did the Boston Pops hold there in
2005?Q
What corporation owns Cunard Cruise Lines?
In what city is this corporation based?
Who is Cunard's president and managing director?M
What is the name of the largest ship in Cunard Cruise

Lines?Q
How many passengers have traveled with Cunard Cruise
Lines?Q

141.
142.
143.
144.
145.
146.
147.
148.
149.
150.
151.
152.
153.
154.
155.
156.
157.
158.
159.
160.
161.
162.
163.
164.
165.
166.

167.
168.
169.
170.
171.
172.
173.
174.
175.
176.
177.
178.
179.
180.

List the ships in Cunard Cruise Lines.
Who won the 2004 World Series?
What team was defeated in the 2004 World Series?
How many years transpired between world
championships for the winning team?Q
Who drove in the deciding runs in the first game of the
2004 World Series?Q
List some of the stars in the 2004 World Series.
On what date did Jeopardy air for the first time?Q
Who was the first host of Jeopardy?Q
Who is the current host of Jeopardy?Q
What Jeopardy contestant is the biggest money-winner in
television game show history?Q
List some contestants on game show Jeopardy.
Who is the author of "Harry Potter and the Goblet of

Fire"?
What is the number for "Harry Potter and the Goblet of
Fire" in the series of Harry Potter books?
Into how many languages has "Harry Potter and the
Goblet of Fire" been translated?Q
What is the name of the Wizarding Game in "Harry
Potter and the Goblet of Fire"?
List names of characters in "Harry Potter and the Goblet
of Fire".
What was author Jasper Fforde's first book?Q
What year was his first book written?Q
What company published his first book?Q
How old was Jasper Fforde when he wrote his first
Thursday Next novel?Q
How many books did he write in the Thursday Next
series?Q
What books did Jasper Fforde write?
Who was the founder of the Guinness Brewery?
In what year was the Guinness Brewery founded?
Who was the Guinness Brewmaster in 2006?
How many pints of stout a day does Guinness sell in
Ireland?Q
What is the percent of alcohol by volume in Guinness
Stout?
What other Breweries make stout beers?Q
What were the names of bombing suspects in the London
terrorist attacks in 2005?
On what date were the first London terror bombing
attacks of 2005 carried out?Q
On what date was the second London terror bombing

attack?Q
How many bombers were killed in the London terror
bombing attacks?Q
How many people were killed in total in the attacks?Q
Who invented the Rubik's Cube?
Who founded the International Rubik's Cube
Competition in the United States?
What was the world record time set in the 2006
competition?
What was the previous world record time?Q
Who is considered to be the "fastest Rubik's Cube solver
on the planet"?O
Who have set world records in solving Rubik's Cubes?
How many new hybrid vehicles were sold in the United
States in 2004?Q


181. Which automaker was the first to introduce a hybrid
car?Q
182. In what year was the Prius concept car introduced?
183. What percentage of new car sales in the U.S. in 2004 was
for hybrid cars?O
184. Which automobile manufacturers are producing hybrid
vehicles?
185. What positions did Michael Brown hold before becoming
head of FEMA?Q
186. Who preceded Brown as head of FEMA?Q
187. When did Brown start working at FEMA?O
188. On what date did Brown resign as head of FEMA?O
189. Who was appointed as the acting head of FEMA when

Brown resigned?Q
190. Which government department was FEMA under at the
time of Hurricane Katrina?Q
191. What was Ella Fitzgerald's first hit record?Q
192. How old was Ella Fitzgerald when she made her first hit
record?Q
193. Who was Ella Fitzgerald's husband?
194. What singers made recordings with Ella Fitzgerald?
195. What was the name of Ella Fitzgerald's Christmas record
album?O
196. In 2005 Ella Fitzgerald was inducted into what hall of
fame?
197. What composers wrote songs that Ella Fitzgerald
recorded?
198. What does the abbreviation CSPI stand for?
199. What is the name of CSPI's newsletter?
200. Name officers of CSPI.
201. What is the CSPI web site?
202. According to CSPI, which artificial sweetener is the
safest?Q
203. What restaurant was praised by CSPI for putting
nutrition information for all the items on its menus?O
204. What restaurant chain was the subject of a complaint
made by CSPI to the Food and Drug Administration?O
205. What year was the Fulbright Program established?
206. What U.S. government entity sponsors the Fulbright
Program?
207. What UN organization hosts internships under the
Fulbright Program?O
208. In what countries can Fulbright scholars be found?

209. How many grants does the Fulbright Program award
each year?Q
210. How many times can a person get a Fulbright award?Q
211. What senator applied for and received a Fulbright but
turned it down?M
212. What newspaper first published the cartoons?Q
213. How many cartoons were there?Q
214. In what countries were protests staged?
215. What earlier publication about Mohammed created
protests and death threats?Q
216. What was the first U.S. newspaper to publish one of the
cartoons?Q
217. What museum planned to exhibit the cartoons?
218. In what city and state was Lyme disease first reported?Q
219. When was Lyme disease named?
220. What organism causes Lyme disease?
221. In what states is Lyme disease a problem?O
222. What medications are used to treat Lyme disease?

223. What insect repellent works against the ticks that carry
Lyme disease?
224. In what year were American Girl dolls first introduced?Q
225. Name the historical dolls.O
226. Which American Girl dolls have had TV movies made
about them?
227. How much does an American Girl doll cost?
228. How many American Girl dolls have been sold?Q
229. What is the name of the American Girl store in New
York?
230. What corporation owns the American Girl company?

231. What is the date of Kurt Weill's birth?
232. In what year did Kurt Weill die?
233. In what country was Kurt Weill born?
234. What musicals did Kurt Weill write?
235. Who was Kurt Weill's wife?
236. With whom did Kurt Weill collaborate?
237. For which Kurt Weill song did Bobby Darin receive a
Grammy award?O
238. Who founded the House of Chanel?
239. In what year was the company founded?
240. Who is the president of the House of Chanel?
241. Who took over the House of Chanel in 1983?O
242. What women have worn Chanel clothing to award
ceremonies?O
243. What museums have displayed Chanel clothing?
244. What Chanel creation is the top-selling fragrance in the
world?Q
245. Who is the chairman of BAT?
246. In what city are BAT's headquarters?
247. What brands of cigarettes does BAT manufacture?
248. How many people does BAT employ?Q
249. What companies has BAT owned?
250. What public health group did BAT help fund?
251. When were the Buffalo Soldiers organized?
252. What ethnicity were the Buffalo Soldiers?
253. What part of the Soldiers' anatomy reminded the Indians
of the buffalo?Q
254. Name members of the Buffalo Soldiers.
255. In what year were the Buffalo Soldier regiments merged
with the integrated army?O

256. In what year were the Buffalo Soldier regiments
disbanded?
257. In which state did the Buffalo Soldiers protect National
Parks?O
258. What does the acronym DARPA stand for?
259. In what city and state did the Challenge finals race take
place?Q
260. How many vehicles took part in the Challenge?Q
261. What makes of vehicles participated in the Challenge,
including semi-finals?O
262. What was the make of the winning vehicle?O
263. What was the name of the fuel the winner used?
264. At what government agency were the winning vehicles
on display?O
265. On what date was the presidential election held?
266. What was the percentage of turnout for the election?
267. How many candidates ran for president?Q
268. Who won the presidential election?
269. What percentage of the votes did the winner receive?
270. How much did a poster of the winning candidate cost?O


271. What international leaders sent or gave congratulations?
272. Which of the candidates was arrested for forgery?
273. In what city were the 2005 World Snooker
Championships held?
274. In what building was the 2005 World Snooker
Championships held?
275. In what month did the 2005 Snooker World
Championship start?

276. Name the participants in the 2005 World Snooker
Championships.
277. Who won the 2005 Snooker World Championship?
278. How many World Snooker tournaments are there
annually?Q
279. Name the World Snooker tournaments.
280. Who is the reigning superstar of snooker?O
281. What were the names of characters in the TMNT stories?
282. How many Ninja Turtles were there?Q
283. What food did they eat?
284. What television network carried TMNT?
285. In what year did the first TMNT movie come out?Q
286. Including the planned 2007 movie, how many TMNT
movies have there been?Q
287. What state-of-the-art technique is being used for the
newest TMNT movie?Q
288. In what do marsupials keep their young?
289. What non-extinct animals are marsupials?O
290. What is the largest meat-eating marsupial?Q
291. What marsupial is found outside of Australia?Q
292. What can be made from marsupial manure?
293. What cartoon character is based on a marsupial?
294. The extinct Tasmanian tiger is known by what other
name?O
295. What type of produce is a kumquat?
296. What is the genus of kumquat?
297. What color is a kumquat?
298. What is the diameter of a kumquat?
299. Outside the US, in what countries can kumquat trees be
found?Q

300. In which continent did Kumquat trees originate?
301. What holiday are kumquat trees associated with?
302. On what date was Ayn Rand born?
303. What year did Ayn Rand come to the United States?O
304. What school did Ayn Rand get her bachelor's degree
from?
305. What is the name of the philosophy that Ayn Rand
started?
306. What government officials have been influenced by this
philosophy?O
307. What were Ayn Rand's fictional publications (including
novels, novelettes, and plays)?
308. What was the name of Ayn Rand's husband?
309. What year did Ayn Rand die?
310. When was Alan Greenspan born?
311. What school did Ayn Rand get his bachelor's degree
from?
312. What federal organization was Mr. Greenspan chairman
of?
313. When (month and year) was he first nominated to this
position?Q
314. How long did he serve in this position?Q
315. Who has served longer in this position?Q

316. Who has been selected to be Mr. Greenspan's successor
as chairman?Q
317. How many chairmen of this organization have there been
since it was established in 1913?Q
318. What foreign countries did Mr. Greenspan visit while
chairman?Q

319. What country is Ahmadinejad president of?
320. In what town was Ahmadinejad born?
321. On what date was Ahmadinejad born?
322. Ahmadinejad holds a Ph.D. in what field?
323. What foreign countries has Ahmadinejad visited since his
election to the presidency?Q
324. What other positions has Ahmadinejad held in
government?Q
325. When was Rafik Hariri born?
326. To what religion did Rafik Hariri belong (including
sect)?
327. From what university did Rafik Hariri get a degree?
328. At what time in the day was Rafik Hariri assassinated?
329. How many others were killed at the same time?Q
330. What country did the UN investigator, Detlev Mehlis,
accuse of responsibility for Hariri's assassination?O
331. How long did Hariri serve as prime minister, total?Q
332. What country other than Lebanon did he hold
citizenship?Q
333. What countries offered condolences at his death?O
334. What does the acronym FISA stand for?
335. In what year was the FISA Court established?
336. In 1990, how many wiretap applications were
approved?Q
337. How long a term do FISA judges serve?Q
338. Under the original act, how many judges were to be on
the court?Q
339. Name the judges serving on this court in November
2005.O
340. On what date was the evacuation of the settlers

completed?
341. How many settlers were evacuated?Q
342. What is the average compensation paid for each
evacuated family?Q
343. How many soldiers or police officers were used to carry
out the evacuation?Q
344. Who contributed money to purchase the Gaza
greenhouses and supporting equipment?O
345. In the three months following the evacuation, how many
rockets were fired at Israel from Gaza?Q
346. What were the settlements that were evacuated?M
347. On what date did this earthquake strike?
348. What countries were affected by this earthquake?
349. What was the final death toll from this earthquake?
350. What was the strength of this earthquake?
351. Where was the epicenter (latitude and longitude)?M
352. What countries supplied aid?
353. On what date did Opportunity land on Mars?O
354. Who manages this mission?
355. What was the original plans for the mission length?Q
356. How many meters has Opportunity traveled on Mars?Q
357. What is the minimum power requirement per day for one
of these rovers to function?Q
358. What named landmarks were visited by one of these
rovers?Q


359.
360.
361.

362.
363.
364.
365.
366.
367.
368.
369.
370.
371.
372.
373.
374.
375.
376.
377.
378.
379.
380.
381.
382.
383.
384.
385.
386.
387.
388.
389.
390.
391.

392.
393.
394.
395.
396.
397.
398.
399.
400.
401.
402.
403.
404.

What is Jon Bon Jovi's profession?
When was Bon Jovi born?
Where was Bon Jovi born?
What are some Bon Jovi hits?
In what movie did Bon Jovi star?
In how many concerts has Bon Jovi performed?Q
In what US state was Barack Obama born?
On what date was Obama born?
What year was Obama elected to the US Senate?O
Whom did Obama defeat for the US Senate seat?O
What position did Obama hold before becoming US
senator?Q
In which US states has Barack Obama lived?
How big is Limbaugh's listening audience?Q
How many markets carry Limbaugh's radio show?Q
When was Limbaugh born?

How many times has Limbaugh been married?Q
What drugs did Limbaugh take for back pain?
What books has Limbaugh written?
Where is Exxon Mobile headquartered?
In what year did Exxon and Mobile merge?O
Who is the Exxon Mobile CEO?
In what countries has Exxon Mobile explored for oil?O
How much oil was spilled by the Exxon tanker Valdez?Q
What was the cost of the oil clean-up?O
On what date did the oil spill occur?
What type of music is performed by the Dixie Chicks?
What are the names of the Dixie Chicks?
The Dixie Chicks are from which state?
Which of the Dixie Chicks criticized President Bush?
List songs recorded by the Dixie Chicks.
What was the nickname given to the B-17 Bomber?
What company manufactured the B-17 bomber?
How many B-17's were built?Q
The B-17 bomber was used against which countries?
How many missions did the Memphis Belle fly?Q
How many engines does the Boeing 777 have?Q
What is the non-stop distance record established by the
Boeing 777?
How many versions of the Boeing 777 are there?Q
Where is the Boeing 777 built?
What countries have placed orders to buy the Boeing
777?
How many passengers will the Boeing 777 carry?Q
How many years did it take to build St. Peter's
Basilica?Q

How tall is St. Peter's Basilica?
What Pope started the building of the basilica?O
What Pope finished building St. Peter's?O
What architects were involved in building St. Peter's?

405. Who built the basilica that previously stood at the same
site as St. Peter's Basilica?Q
406. What is Australia's signature grape?
407. How much wine does Australia export to the U.S.?Q
408. Where does Australia rank in exports of wine?O
409. What winery produces Yellowtail?
410. Name some of Australia's female winemakers.O
411. In what country is Angkor Wat?
412. How many monuments are there in Angkor Wat?Q
413. How long did it take to build the temples?O
414. What temples are at Angkor Wat?
415. Which is the largest temple at Angkor Wat?Q
416. How many people visit Angkor Wat annually?Q
417. How old is Joseph Steffen?
418. What governor employed Steffen?
419. In what state was Steffen employed?
420. How many state jobs did Steffen hold?Q
421. Who has employed Steffen?
422. Who was the target of rumors spread by Steffen?O
423. What nationality is novelist Orhan Pamuk?
424. What is Pamuk's year of birth?
425. What is Pamuk's city of birth?
426. What awards has Pamuk won?
427. What are titles of Pamuk's works?
428. Into how many languages have Pamuk's works been

translated?Q
429. In what year was Habitat for Humanity founded?
430. Who was the founder of Habitat?
431. In what city and state are Habitat for Humanity
International headquarters?
432. Who is Habitat for Humanity's most famous volunteer?O
433. How many volunteers have contributed to building
houses for Habitat for Humanity?Q
434. In what countries has Habitat for Humanity provided
assistance abroad?
435. What is the full name for CAFTA?
436. How many countries are included in CAFTA?Q
437. When was CAFTA signed?
438. What was the deadline for implementation of CAFTA?
439. When did the U.S. Congress approve CAFTA?O
440. What members of the U.S. House of Representatives
opposed CAFTA?
441. In what year did Sir Edmund Hillary search for Yeti?O
442. In what U.S. states have sightings of Yeti been reported?
443. What was the height of Yeti reported as sighted in
Malaysia?
444. In what province and country were Yeti vocalizations
recorded?
445. What other names have been used for Yeti?
Ghi chú: O: O-Error; Q:Q-Error; M: M-Error


PHỤ LỤC C
CÁC ĐỒ THỊ Ý NIỆM SINH RA ĐÚNG TỪ TREC 2002
KHI CHƯA LÀM GIÀU ONTOLOGY





×