Tải bản đầy đủ (.pdf) (94 trang)

Truy hồi thông tin theo thực thể có tên và từ khóa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.39 MB, 94 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
---------------------------------------

LÊ CẢNH KHÁNH

TRUY HỒI THƠNG TIN THEO
THỰC THỂ CĨ TÊN VÀ TỪ KHĨA

Chun ngành: Khoa học máy tính

LUẬN VĂN THẠC SĨ

TP. Hồ Chí Minh, tháng 7 năm 2008


ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
----------------

CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM
Độc Lập - Tự Do - Hạnh Phúc
---oOo--Tp. HCM, ngày 03 tháng 09 năm 2008

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên:

LÊ CẢNH KHÁNH

Giới tính: Nam


Ngày, tháng, năm sinh:

14/02/1979

Nơi sinh: Khánh Hịa

Chun ngành:

Khoa Học Máy Tính

MSHV:

Khố (Năm trúng tuyển):

2006

00706134

1- TÊN ĐỀ TÀI: TRUY HỒI THƠNG TIN THEO THỰC THỂ CĨ TÊN VÀ TỪ KHÓA
2- NHIỆM VỤ LUẬN VĂN:
Phát triển hệ thống truy hồi tài liệu theo thực thể có tên và từ khóa, bao gồm:
- Phân tích và đánh giá mơ hình truy hồi thơng tin theo thực thể có tên hiện có.
- Truy hồi tài liệu theo thực thể có tên và từ khóa.
- Đề xuất phương pháp thực nghiệm và đánh giá hiệu suất truy hồi thông tin.

3- NGÀY GIAO NHIỆM VỤ: 20/01/2007
4- NGÀY HOÀN THÀNH NHIỆM VỤ: 03/09/2008. . . . . . . . . . . . . . . . . . . . .
5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS.TS CAO HOÀNG TRỤ
Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua.
CÁN BỘ HƯỚNG DẪN


CHỦ NHIỆM BỘ MÔN
QUẢN LÝ CHUYÊN NGÀNH


Lời cảm ơn

Tôi xin chân thành cảm ơn thầy PGS.TS Cao Hồng Trụ. Thầy đã tận tình hướng dẫn,
định hướng tôi từ cách đặt vấn đề, phương pháp nghiên cứu khoa học, đến những công
việc cụ thể trong luận án này.
Xin chân thành cảm ơn các bạn trong khoa Công Nghệ Thông Tin, các đồng nghiệp
trong công ty Tường Minh, những người đã giúp đỡ và tạo điều kiện cho tơi rất nhiều
trong q trình thực hiện luận án.
Con xin cảm ơn cha mẹ, cảm ơn chị và em trai, ln động viên, khuyến khích và giúp
đỡ con trong q trình học tập cũng như trong cuộc sống.

i


Tóm tắt

Nhu cầu thơng tin là một trong các nhu cầu cơ bản của người dùng. Tuy nhiên, với khối
lượng thông tin khổng lồ trên Internet, cần phải xây dựng được một mơ hình truy hồi
thơng tin đủ mạnh, có khả năng đặc tả được trọn vẹn truy vấn thông tin và khả năng truy
hồi được các tài liệu liên quan nhất. Truy hồi thơng tin theo từ khóa chỉ đơn thuần dựa
trên sự xuất hiện của các từ trong văn bản. Trong khi đó, ngơn ngữ tự nhiên ln chứa
đựng nhiều hàm ý. Sự mơ hồ và nhập nhằng về nghĩa không thể được xử lý tốt khi chỉ
được xác định thơng qua từ khóa. Một giải pháp cho vấn đề này là việc hiểu rõ ngữ nghĩa
của văn bản, mà một phần ngữ nghĩa văn bản lại được xác định bởi thực thể có tên và các
mối quan hệ giữa chúng. Vì vậy, một yêu cầu được đặt ra ở đây là kết hợp truy hồi thông

tin theo thực thể có tên và từ khóa nhằm nâng cao hiệu suất. Luận án này giới thiệu và
khảo sát một số mơ hình truy hồi thơng tin kết hợp các đặc tính về mặt ngữ nghĩa của
thực thể có tên và từ khóa theo nhiều hướng tiếp cận khác nhau. Các mơ hình này mở
rộng mơ hình khơng gian vectơ truyền thống, với việc khai thác các đặc trưng của thực
thể có tên, cụ thể là tên, lớp và danh hiệu. Đồng thời, với việc kết hợp với từ khóa, hiệu
suất truy hồi của các mơ hình khơng bị ảnh hưởng khi ontology và cơ sở tri thức chưa
hoàn thiện, hay khi truy vấn khơng chứa thực thể có tên. Kết quả thực nghiệm cho thấy
các mơ hình giới thiệu đều có hiệu suất tốt hơn mơ hình truy hồi theo từ khóa Lucene. Vì
vậy, những mơ hình này có thể xem là cơ sở cho các nghiên cứu tiếp sau để tiếp tục hoàn
thiện hệ thống và nâng cao hiệu suất truy hồi.

ii


Abstract

With an ever increasing number of documents available on the Web, the challenge for
keyword-based indexing and retrieval techniques, which solely relies on the presence of
keywords in the texts, is to provide users with concise and relevant information.
Especially the vagueness and ambiguity of natural languages are handled inadequately by
keyword-based search. A solution for these problems is to understand the semantics of the
texts, a basic part of which is determined by named entities and their relations. Hence, a
particular concern here is the integration of named entity-based search with traditional
keyword-based search technologies in order to improve retrieval performance. This thesis
introduces and explores various models that combine different ontological features with
keywords, and in different ways. The models are based on an adaptation of the traditional
Vector Space Model with an extension of named entity indexing, taking into account
three features of names entities, namely, names, classes and identifiers. The models also
achieve tolerance to knowledge base incompleteness by taking advantage of keywordbased retrieval features. Experiments show better performance of the proposed models as
compared to the keyword-based Lucene, and their advantages for both text retrieval and

representation of documents and queries. Thus the models provide grounds for further
research and enhancement of information retrieval performance.

iii


Mục lục

Lời cảm ơn...........................................................................................................................i
Tóm tắt................................................................................................................................ii
Abstract..............................................................................................................................iii
Danh mục hình ..................................................................................................................vi
Danh mục bảng biểu ........................................................................................................vii
Chương 1: Tổng quan........................................................................................................ 1
1.1

Phát biểu vấn đề .................................................................................................... 1

1.2

Các cơng trình liên quan ....................................................................................... 5

1.3

Cơ sở lý thuyết ...................................................................................................... 8

Chương 2: Truy hồi thông tin theo thực thể có tên và từ khóa ................................... 13
2.1

Truy hồi thơng tin theo thực thể có tên ............................................................... 13


2.1.1

Mơ hình truy hồi thơng tin theo thực thể có tên .......................................... 15

2.1.2

Mơ hình NEn ............................................................................................... 21

2.1.3

Mơ hình NEo ............................................................................................... 22

2.2

Truy hồi thơng tin theo thực thể có tên và từ khóa ............................................. 23

2.2.1

Mơ hình kết hợp NE VSM và KW VSM..................................................... 25

2.2.2

Mơ hình kết hợp NE và từ khóa trên một khơng gian vectơ chung............. 28

2.2.3

Kiến trúc của hệ thống truy hồi thông tin theo thực thể có tên và từ khóa.. 31

Chương 3: Thiết kế và hiện thực hệ thống .................................................................... 33

3.1

Phân tích, thiết kế hệ thống Semantic Lucene .................................................... 34

3.2

Hiện thực hệ thống Semantic Lucene ................................................................. 39

3.3

Ứng dụng minh họa............................................................................................. 44

Chương 4: Thực nghiệm và đánh giá............................................................................. 46
4.1

Phương pháp thực nghiệm và đánh giá ............................................................... 46

iv


4.2

Thực nghiệm và kết quả ...................................................................................... 53

4.2.1

Thực nghiệm ................................................................................................ 53

4.2.2


Kết quả thực nghiệm.................................................................................... 54

Chương 5: Tổng kết ......................................................................................................... 61
5.1

Đóng góp của cơng trình ..................................................................................... 62

5.2

Hướng phát triển ................................................................................................. 63

Phụ lục A: Giới thiệu KIM.............................................................................................. 65
Phụ lục B: Giới thiệu Lucene.......................................................................................... 69
Phụ lục C: Phân tích tập TIME...................................................................................... 74
Tài liệu tham khảo ........................................................................................................... 82

v


Danh mục hình

Hình 1.1 Ví dụ KIM Ontology và KB ............................................................................. 12
Hình 2.1 Kiến trúc của hệ thống truy hồi thơng tin theo NE và từ khóa ......................... 31
Hình 3.1 Đánh chỉ mục trong Semantic Lucene .............................................................. 37
Hình 3.2 Hệ thống cấu trúc chỉ mục trong Semantic Lucene .......................................... 40
Hình 3.3 Giao diện tìm kiếm ........................................................................................... 44
Hình 4.1 Độ truy hồi và độ chính xác đối với một truy vấn ............................................ 49
Hình 4.2 Đường cong P-R trung bình của một truy vấn.................................................. 51
Hình 4.3 Phương pháp thực nghiệm ................................................................................ 53
Hình 4.4 Đường P-R, F-R trung bình của Lucene, NEn và KW+NE................................ 1

Hình 4.5 Đường P-R trung bình của các truy vấn tiêu biểu của Lucene, KW+NE ......... 57
Hình A.1 Kiến trúc của KIM ........................................................................................... 65
Hình A.2 Một nhánh trong cấu trúc cây phân cấp các lớp của PROTON ....................... 66
Hình A.3 Q trình rút trích thơng tin trong KIM ........................................................... 67
Hình B.1 Một ứng dụng tiêu biểu sử dụng Lucene.......................................................... 69

vi


Danh mục bảng biểu

Bảng 3.1 Các trường dữ liệu trong Semantic Lucene...................................................... 39
Bảng 4.1 Các tập dữ liệu kiểm thử .................................................................................. 47
Bảng 4.2 Độ chính xác trung bình ở 11 điểm truy hồi chuẩn.......................................... 55
Bảng 4.3 Độ F trung bình ở 11 điểm truy hồi chuẩn....................................................... 55
Bảng 4.4 Thời gian đáp ứng khi thực nghiệm trên tập CNN........................................... 60
Bảng C.1 Các câu truy vấn trong tập TIME trên hai mô hình Lucene và KW+NE ........ 74

vii


Chương 1:

Tổng quan

[1-32]

1.1 Phát biểu vấn đề
Như chúng ta đã biết, Internet là nơi lưu trữ nguồn thông tin khổng lồ của nhân loại.
Nguồn thông tin này được chia sẻ, phát triển và mở rộng không ngừng cùng với sự phát

triển nhanh chóng của World Wide Wed (Web). Vấn đề đặt ra là làm thế nào để khai thác
và sử dụng nguồn tài nguyên thông tin này một cách hiệu quả nhất.
Thông tin trên Web hầu hết đều thể hiện dưới dạng ngôn ngữ tự nhiên, thông qua các
trang Web, và chỉ thích hợp cho con người đọc hiểu. Các hệ thống truy hồi thông tin được
phát triển và thành công nhất hiện nay là Google 1, Yahoo 2, v.v... Tuy nhiên, các mơ hình
này đều sử dụng từ khóa để xử lý và truy hồi tài liệu. Hiệu suất truy hồi của chúng có
những giới hạn nhất định vì ngữ nghĩa của tài liệu bị mất đi nhiều khi văn bản được biểu
diễn dưới dạng một tập các từ khóa. Tương tự, u cầu thơng tin từ phía người sử dụng
cũng được biểu diễn bởi các từ khóa, và rõ ràng là không thể thể hiện được trọn vẹn nhu
cầu thơng tin mong muốn. Do đó, khơng có gì lạ khi truy hồi thông tin trên các hệ thống
hiện nay đều luôn nhận được các tài liệu không liên quan tới thơng tin cần tìm.
Để khắc phục nhược điểm của mơ hình truy hồi thơng tin theo từ khóa, bắt đầu từ
khoảng cuối thập niên 90, cùng với sự ra đời và phát triển của Web ngữ nghĩa (Semantic
Web [3]), ontology và cơ sở tri thức (Knowledge Base – KB) bắt đầu được sử dụng rộng
rãi trong các nghiên cứu phát triển hệ thống truy hồi thơng tin có ngữ nghĩa.

1
2

www.google.com
www.yahoo.com

1


Ontology là một đặc tả cụ thể, rõ ràng của các khái niệm hóa ([13]). Một cách đơn
giản ontology là siêu kiến thức đặc tả cái tồn tại, còn cơ sở tri thức là kiến thức cụ thể ta
biết. Ý tưởng cơ bản của Web ngữ nghĩa là việc nhúng ngữ nghĩa vào trang Web thơ, để
máy tính có thể hiểu, xử lý và tìm kiếm theo ngữ nghĩa văn bản. Trong đó, ontology và cơ
sở tri thức được xem như là nền tảng tri thức cho quá trình này. Thực thể có tên (Named

Entity – NE) là một trong những đối tượng chính được đặc tả trong ontology, và là tri
thức của hệ thống lưu trữ thông tin.
Thực thể có tên là con người, tổ chức, nơi chốn, và các đối tượng khác được tham
khảo thông qua tên ([6]), được đề cập lần đầu tại Message Understanding Conference 6,
năm 1995 (MUC-6, 1995) 3, và được dùng rộng rãi trong các ứng dụng rút trích thơng tin
(Information Extraction – IE), trả lời câu hỏi (Question Answering – QA) hay xử lý ngôn
ngữ tự nhiên (Natural Language Processing – NLP) ([26]). Trong các ứng dụng này, nhận
diện thực thể có tên trong văn bản là một bộ phận quan trọng, và sự thật nó đã thu hút rất
nhiều nỗ lực nghiên cứu. Một số hệ thống nổi tiếng có thể kể đến là Semtag ([9]) sử dụng
các phương pháp thống kê, hay KIM ([21]) sử dụng các luật so trùng mẫu. Hiện nay, quá
trình nhận diện NE cũng đã đạt được các thành tựu nhất định, đặc biệt là trên tiếng Anh.
Thành tựu trong việc nhận diện NE tạo điều kiện và là cơ sở cho các nghiên cứu khai thác
ngữ nghĩa của thực thể có tên.
Một thực thể có tên được biểu diễn bởi bộ ba <tên, lớp, danh hiệu>. Trong đó, danh
hiệu xác định duy nhất một thực thể có tên. Các thực thể có tên khác nhau có thể có cùng
tên, hoặc cùng lớp. Thực thể có tên đóng một vai trị quan trọng về mặt ngữ nghĩa của tài
liệu. Thật vậy, ta hãy xét về quá trình đọc hiểu ngữ nghĩa của văn bản, nói một cách đại
khái, cấp độ đầu tiên là hiểu nghĩa từ, được xác định bằng âm tiết và ngữ nghĩa của từ.
Đây chính là cấp độ mà xử lý thơng tin theo từ khóa đạt được. Cấp độ cao hơn là nhận ra
các đối tượng được nói đến trong văn bản, được xác định bởi thực thể có tên và các mối
quan hệ của chúng. Ta hãy phân tích câu văn “Putin và kế hoạch cải tổ đảng lớn nhất
nước Nga”. Nếu xét ở cấp độ ngữ nghĩa của từ, Putin chỉ là một tên riêng, và Nga cũng
vậy. Tuy nhiên, nếu xét ở cấp độ đối tượng, khi các thực thể có tên Putin và Nga được

3

/>
2



xác định, ta có NE Nga nói đến nước Nga và NE Putin nói đến vị tổng thống Nga
Vladimir Putin. Rõ ràng, với việc xác định các NE, ngữ nghĩa văn bản được thể hiện rõ
nét và đầy đủ hơn. Vì vậy, có thể nói, trong một chừng mực nào đó, các NE và các mối
quan hệ của chúng tạo thành ngữ nghĩa chính của một tài liệu.
Tìm kiếm và khai thác thơng tin sẽ chính xác và hiệu quả hơn khi tài liệu được chú
thích thơng tin ngữ nghĩa cho các thực thể có tên xuất hiện trong nó. Đồng thời, q trình
truy hồi thơng tin cũng đạt kết quả tốt hơn khi khai thác NE trong quá trình tìm kiếm tài
liệu thỏa u cầu truy vấn. Một ví dụ đơn giản cho thấy việc sử dụng thực thể có tên sẽ
giúp q trình truy hồi đạt hiệu quả cao là truy vấn thông tin về “thành phố Sài Gịn”. Đối
với hệ thống truy hồi dựa trên từ khóa, kết quả trả về có thể có các thơng tin nhiễu như là
sơng Sài Gịn, bệnh viện Sài Gịn, ngân hàng Sài Gịn Cơng Thương, v.v… Trong khi đó,
nếu xét thực thể có tên thành phố Sài Gịn, các thơng tin nhiễu của các đối tượng khác sẽ
không được trả về, và ngồi ra hệ thống cịn có thể trả về các tài liệu về thành phố Hồ Chí
Minh, vì đây là một tên khác của thành phố Sài Gòn.
Khai thác ngữ nghĩa của văn bản thông qua thực thể có tên và các mối quan hệ giữa
chúng, hệ thống truy hồi thơng tin theo ngữ nghĩa có thể: (1) tăng độ chính xác (precision)
nhờ ngữ nghĩa xác định của các NE trong tài liệu; (2) tăng độ đầy đủ (recall) khi tận dụng
được các tên khác (alias), các mối quan hệ tổng quát hóa (superclass), chuyên biệt hóa
(subclass) của các NE; và (3) có thể mở rộng truy vấn tài liệu theo lớp của thực thể có tên.
Một ví dụ cho truy vấn theo lớp của thực thể có tên là tìm kiếm tài liệu chứa thơng tin về
các quốc gia trên thế giới. Đối với truy vấn này, tài liệu cần tìm khơng nhất thiết phải
chứa từ khóa quốc gia, mà chỉ cần có NE có lớp là Quốc gia, cụ thể đó là các nước trên
thế giới. Trong các nghiên cứu [17], [18], [10], [32], NE được khai thác nhằm tăng hiệu
suất truy hồi thông tin và đã đạt được các kết quả nhất định.
Tuy nhiên, nếu chỉ tập trung khai thác NE mà bỏ qua từ khóa, đặc biệt là các từ khóa
nói về những cái trừu tượng như là khái niệm, định nghĩa, các mối quan hệ, thuộc tính,
v.v… ngữ nghĩa của tài liệu hay truy vấn sẽ không được mô tả trọn vẹn. Ta xem xét đoạn
văn sau: “Kể từ sau người tiên phong Valentina Tereshkova lên vũ trụ vào năm 1963,

3



nhiều nữ phi hành gia khác lần lượt sánh vai các đồng nghiệp nam tiến vào không gian” 4.
Đoạn văn trên chứa một NE là Valentina Tereshkova, và tất nhiên với chỉ với một NE này
không thể thể hiện được nội dung của đoạn văn. Các từ khóa như là vũ trụ, nữ phi hành
gia, khơng gian đóng vai trị rất lớn đến ngữ nghĩa của đoạn văn.
Tương tự, nếu chỉ xem xét thực thể có tên trong câu truy vấn, ngữ nghĩa cũng khơng
thể hiện đầy đủ. Ví dụ, trong truy vấn tìm kiếm thơng tin về “động đất tại Peru”, nếu chỉ
xem xét về thực thể có tên, ta chỉ có được thơng tin tìm kiếm là nước Peru, và bỏ qua
thơng tin quan trọng của từ khóa động đất. Và vì vậy, những tài liệu trả về đầu tiên có thể
chỉ chứa thơng tin về nước Peru mà khơng hề có thơng tin gì về động đất ở nước này.
Hơn nữa, trong nhiều trường hợp cả truy vấn và tài liệu đang xét đều khơng có chứa thực
thể có tên. Chẳng hạn, truy vấn về “truy hồi thơng tin” hồn tồn khơng có một NE nào.
Đối với các truy vấn dạng này, rõ ràng chỉ sử dụng thực thể có tên là khơng hiệu quả.
Ngồi ra, truy hồi thơng tin theo ngữ nghĩa cần có một ontology và cơ sở tri thức tốt, đầy
đủ. Đây là một thách thức khơng nhỏ vì hiện nay ontology và cơ sở tri thức đều được xây
dựng chủ yếu bằng tay hoặc bán tự động.
Tóm lại, ngữ nghĩa của văn bản thể hiện trọn vẹn và đầy đủ khi xem xét cả từ khóa
và NE xuất hiện trong văn bản. Điều này cũng đúng cho các truy vấn từ phía người dùng.
Với nhận định trên, ta thấy một mơ hình truy hồi thông tin kết hợp việc khai thác ngữ
nghĩa của NE và từ khóa có thể cho hiệu suất truy hồi cao. Các nghiên cứu [5], [19], [29]
khai thác theo hướng tiếp cận này với việc kết hợp thông tin trong ontology và các từ
khóa đem lại các kết quả khả quan. Tuy nhiên, cho đến nay vẫn chưa có một mơ hình truy
hồi thơng tin nào khai thác trọn vẹn cả ba tính chất của NE là tên, lớp và danh hiệu, đồng
thời kết hợp với từ khóa trong việc tính tốn độ tương tự. Ngồi ra, các nghiên cứu hiện
nay cũng chỉ mới khai thác NE và từ khóa theo các mơ hình riêng rẽ. Cũng chưa có một
mơ hình nào đưa ra các đặc tả về mặt toán học một cách tổng quát cho tài liệu và truy vấn
với sự tham gia của cả hai yếu tố là NE với đầy đủ các đặc trưng của nó và từ khóa. Ta đã
biết, trong mơ hình khơng gian vectơ truyền thống, tài liệu và truy vấn được thể hiện
thơng qua các vectơ với chiều là các từ khóa xuất hiện trong văn bản tài liệu hay truy vấn.


4

/>
4


Một mơ hình tương tự như vậy, trong đó kết hợp ngữ nghĩa của NE và từ khóa là thật sự
cần thiết. Đây là một mục tiêu mà trong luận án này chúng tôi khảo sát đến.
Trong luận án này, chúng tôi giới thiệu và khảo sát một số mô hình truy hồi thơng tin
kết hợp các đặc tính về mặt ngữ nghĩa của NE và từ khóa theo nhiều hướng tiếp cận khác
nhau. Các mơ hình này cải tiến mơ hình khơng gian vectơ truyền thống, trong đó xét cả
NE và từ khóa vào q trình tính tốn độ tương tự ngữ nghĩa giữa tài liệu và truy vấn. Đối
với NE chúng tôi tiếp cận theo các thể hiện từng phần hoặc toàn bộ. Mỗi NE được đại
điện bởi bộ ba <tên, lớp, danh hiệu>. Bên cạnh các NE được xác định đầy đủ với ba đặc
trưng, một số NE chỉ xác định được tên hoặc lớp, hoặc tên và lớp. Với cách tiếp cận linh
hoạt này, chúng tôi nhận định rằng phương pháp sẽ thích ứng được với các trường hợp mà
ontology và cơ sở tri thức chưa hồn thiện. Ngồi ra, với việc phân tích NE theo lớp thực
thể, các mơ hình đề xuất sẽ đặc biệt hiệu quả cho các truy vấn theo lớp, chẳng hạn truy
vấn về các quốc gia trên thế giới, v.v…
Ngoài ra, trong các mơ hình khảo sát, như đã đề cập, chúng tơi cũng đưa ra một đặc
tả tốn học một cách tổng quát cho tài liệu và truy vấn trong đó xét cả NE với đầy đủ ba
đặc trưng và từ khóa. Trên cơ sở đó, phép tốn tính độ tương tự về mặt ngữ nghĩa giữa tài
liệu và truy vấn được xây dựng.

1.2 Các cơng trình liên quan
Các kỹ thuật truy hồi thông tin truyền thống dựa trên từ khóa khơng thể hiện được trọn
vẹn ngữ nghĩa của tài liệu, đơn giản vì chúng chỉ chuyển tài liệu thành một tập các từ
khóa, do đó chất lượng truy hồi thông tin của các hệ thống này chỉ đạt được những thành
tựu nhất định.

Để tăng cường hiệu suất truy hồi thông tin, nhiều nghiên cứu [10], [5], [19], [29],
[15], [8], [30], [11], [7], [20], [16] chú thích tài liệu với các thơng tin ngữ nghĩa, cụ thể
hơn đó là việc bổ sung thông tin ngữ nghĩa cho tài liệu hay truy vấn bằng cách xác định
các thực thể có tên được định nghĩa trong ontology và cơ sở tri thức. Quá trình truy hồi

5


thông tin với các thông tin về ngữ nghĩa sẽ cho kết quả truy hồi tốt hơn. Các nghiên cứu
liên quan trong lĩnh vực này có thể tạm chia thành bốn hướng chính như sau.
Thứ nhất là hướng tiếp cận thông qua việc mở rộng truy vấn dựa trên ontology.
Hướng tiếp cận này tập trung khai thác ontology nhằm mở rộng câu truy vấn. Trong đó,
một số hướng sử dụng UMLS (Unified Medical Language System) làm ontology ([15],
[8]), hoặc sử dụng WordNet 5 là một ontology về ngôn ngữ để mở rộng truy vấn ([30],
[11]). Một số hướng khác tự xây dựng ontology và khai thác ontology này trong quá trình
xác định truy vấn. Các nghiên cứu [19], [7]. [19] sử dụng ontology và cơ sở tri thức làm
rõ ngữ nghĩa cho câu truy vấn thông qua việc tương tác với người dùng. Trong cách tiếp
cận này, ontology chủ yếu đóng vai trị là một từ điển chứa các thơng tin liên quan đến
các từ trong câu truy vấn, việc mở rộng dựa trên các từ đồng nghĩa (synonyms), các mối
quan hệ tổng quát hóa hay chuyên biệt hóa, và hầu như không chú trọng đến ngữ cảnh của
văn bản.
Hướng tiếp cận thứ hai là khai thác mối quan hệ đồng xuất hiện để mở rộng vectơ tài
liệu trong mô hình khơng gian vectơ truyền thống ([10]). Để khám phá cỏc cỏc mi quan
h tim n, Gonỗalves et al. ([10]) thơng qua giải thuật tính độ mạnh quan hệ CORDER
([33]) xác định các thực thể có tên và từ khóa khơng xuất hiện trong tài liệu nhưng có mối
liên hệ với các thực thể có tên và từ khóa trong tài liệu, và sử dụng chúng trong việc mô tả
nội dung của tài liệu. Độ mạnh quan hệ được tính toán dựa trên việc đồng xuất hiện trong
tài liệu. Với việc mở rộng vectơ tài liệu, tác giả đã đạt được kết quả nhất định khi thực
nghiệm trên 20 câu truy vấn của tập CISI ([4]). Độ đo trung bình hài hồ F tăng 19.3% so
với 9.2% khi khơng mở rộng vectơ tài liệu. Đây là một kết quả tốt, tuy nhiên giá trị của

độ F thấp, có thể là do tập CISI chứa rất ít thực thể có tên. Tuy có những kết quả tốt, cơng
trình vẫn cịn hạn chế, cụ thể là chỉ quan tâm đến việc mở rộng vectơ tài liệu mà bỏ qua
vectơ truy vấn. Ngoài ra, thực thể có tên cũng chỉ được xem xét ở khía cạnh tên thực thể,
bỏ qua các đặc trưng khác của NE. Vì vậy, [10] khơng thể hỗ trợ các tìm kiếm theo lớp
thực thể, cặp tên-lớp hay danh hiệu.

5

/>
6


Thứ ba là hướng tiếp cận trong đó truy hồi thông tin dựa trên ontology và cơ sở tri
thức. Với hướng tiếp cận này, tài liệu được xem như một tập các thực thể hoặc là được
chú thích bởi các thực thể có trong KB ([17], [20], [16]). Hệ thống sử dụng ngôn ngữ truy
vấn ontology để truy hồi các thực thể từ KB, về mặt cơ bản các hệ thống này tập trung
vào việc truy vấn thực thể hơn là truy hồi các tài liệu.
Hướng tiếp cận thứ tư kết hợp giữa truy hồi thông tin dựa trên ontology và cơ sở tri
thức với mơ hình khơng gian vectơ ([19], [29], [5]). Hệ thống sử dụng ngôn ngữ truy vấn
ontology truy hồi thực thể có tên và sử dụng kết quả này tìm kiếm các tài liệu liên quan
dựa trên mơ hình khơng gian vectơ.
Nagypál ([19]) sử dụng ontology và KB làm rõ ngữ nghĩa cho câu truy vấn thông qua
việc tương tác với người dùng. Ontology được sử dụng để mở rộng mơ hình khơng gian
vectơ với các mức độ khác nhau, các kết quả trả về được kết hợp và sắp xếp lại theo mơ
hình mạng niềm tin (belief network model) để có được kết quả cuối cùng.
Tomassen et al. ([29]) tăng cường hiệu suất truy hồi bằng cách sử dụng ontology mở
rộng truy vấn thông qua vectơ đặc trưng (feature vector) nhằm hiểu rõ nhu cầu thông tin
của người dùng. Điểm nổi bật là việc kết nối các khái niệm trong ontology với một vectơ
đặc trưng để chuyển đổi các khái niệm này phù hợp với tập tài liệu và thuật ngữ trong
miền đang xét.

Castells et al. ([5]) sử dụng truy vấn dạng thức RDQL 6 truy hồi thực thể trong KB.
Các tài liệu được chú thích ngữ nghĩa và các thực thể được đánh trọng số theo phương
pháp TF-IDF ([2]). Thực thể có tên được xác định thông qua danh hiệu của chúng. Do
vậy, mỗi NE cần được xác định một cách chính xác. Những NE không xác định sẽ không
được xem xét trong trong phương pháp này. Với tập thực thể tìm thấy sau quá trình truy
hồi theo RDQL, và với tập tài liệu được chú thích ngữ nghĩa, hệ thống tìm ra các tài liệu
liên quan. Kết quả này được kết hợp với phương pháp truy hồi theo từ khóa để có được
tập kết quả cuối cùng trả về cho người dùng. Quá trình kết hợp giữa NE và từ khóa là
tuyến tính, với các trọng số bằng nhau và là 0.5 lần lượt cho độ tương tự theo NE và từ
khóa. Nhờ vào việc khai thác ontology và cơ sở tri thức, [5] đã tăng độ đầy đủ khi thực

6

RDQL - A Query Language for RDF, />
7


hiện truy vấn trên tập thực thể, và tăng độ chính xác khi sử dụng các truy vấn có cấu trúc
ngữ nghĩa theo dạng RDQL.
Trong các hướng tiếp cận, [5] tương đối gần với hướng tiếp cận của chúng tôi nhất.
Tuy nhiên, chúng tôi không thông qua việc truy hồi thực thể có tên để truy hồi tài liệu liên
quan vì phương pháp này phụ thuộc rất nhiều vào sự đầy đủ và hoàn thiện của ontology
và cơ sở tri thức. Ngồi ra, kết quả cuối cùng của q trình truy hồi là trả về các tài liệu
liên quan, việc chuyển đổi truy vấn từ phía người dùng thành truy vấn các thực thể trong
KB theo RDQL là một bước trung gian không cần thiết, và tất nhiên không được tự nhiên.
Phương pháp ràng buộc chất lượng của ontology và KB trong việc thể hiện cả tài liệu lẫn
truy vấn. Trong phương pháp này, nếu một NE khơng có trong KB của hệ thống thì sẽ
khơng thể tìm được các tài liệu chứa NE này; cho dù là thực tế tồn tại nhiều NE này trong
kho tài liệu. Ví dụ, với truy vấn tìm kiếm tài liệu về các cầu thủ bóng chày, vectơ tài liệu
được xác định thơng qua các cầu thủ bóng chày trong KB. Vì vậy, những tài liệu có chứa

các cầu thủ bóng chày nhưng khơng được định nghĩa trong KB sẽ không được trả về.
Trong trường hợp xây dựng được một ontology và KB tốt và đủ lớn thì phương pháp vẫn
gặp khó khăn vì tốc độ xử lý khơng tốt, ngun do là vì phải thực hiện một bước tìm kiếm
khơng cần thiết trên một tập thực thể lớn.
Với các khảo sát trên, chúng tôi nhận xét rằng các nghiên cứu hiện tại đã khơng khai
thác hết các đặc trưng của thực thể có tên, cụ thể là tên, lớp và danh hiệu. Vì vậy, các
nghiên cứu này khơng có tính linh hoạt cao, đặc biệt là khi cơ sở tri thức không đầy đủ, và
cũng không thể mở rộng ra cho các truy vấn tài liệu theo lớp của thực thể có tên.

1.3 Cơ sở lý thuyết
Vấn đề cơ bản của hệ thống truy hồi thông tin là việc xác định tài liệu nào liên quan đến
truy vấn thông tin và tài liệu nào không liên quan. Việc xác định này phụ thuộc vào giải
thuật tính tốn độ tương tự ngữ nghĩa. Các giả thiết khác nhau về sự liên quan giữa tài
liệu và truy vấn sẽ hình thành các mơ hình truy hồi thông tin khác nhau.

8


Dưới đây, chúng tơi sẽ trình bày mơ hình khơng gian vectơ (VSM) theo từ khóa. Đây
là mơ hình phổ biến và cơ bản trong truy hồi thơng tin. Nó được xem là nền tảng để phát
triển các mơ hình khác vì tính đơn giản, nhanh và kết quả trả về tốt hoặc khơng hề thua
kém các mơ hình khác ([2]). Phần tiếp theo sau đó, chúng tơi trình bày hệ thống quản lý
thông tin và tri thức KIM, được sử dụng trong q trình chú thích ngữ nghĩa cho tài liệu.

Mơ hình truy hồi thơng tin tổng qt
Mơ hình truy hồi thông tin tổng quát được R. Baeza-Yates và B. Ribeiro-Neto ([2]) định
nghĩa như sau.
Định nghĩa 1.1:

Một mơ hình truy hồi thông tin là một bộ tứ [ D , Q , F , R (qi , d j ) ],


trong đó:
(1)

D là tập hợp các thể hiện của tài liệu có trong bộ lưu trữ.

(2)

Q là tập hợp các thể hiện của nhu cầu thông tin của người sử dụng được gọi là các
truy vấn.

(3)

F là khung mô hình hóa các thể hiện của tài liệu, truy vấn và các mối quan hệ
giữa chúng.

(4)

R (qi , d j ) là hàm xếp hạng trả về kết quả là một số thực cho một truy vấn
qi ∈ Q và một tài liệu d j ∈ D .

Để xây dựng một mơ hình truy hồi thơng tin, ta cần phải mô tả tài liệu và truy vấn
thông qua các thể hiện của chúng dưới góc nhìn luận lý, một khung mơ hình hóa các thể
hiện này. Đồng thời mơ hình cung cấp khả năng xây dựng một hàm xếp hạng theo mức độ
liên quan giữa một tài liệu và một truy vấn.

Mơ hình khơng gian vectơ theo từ khóa
Thể hiện tài liệu trong mơ hình khơng gian vectơ theo từ khóa (KW VSM) là một tập các
từ khóa. Trong đó, từ khóa là từ, cụm từ mà nghĩa của chúng giúp cho việc xác định nội
dung chính của tài liệu.


9


Định nghĩa 1.2:

Gọi ki là từ khóa, d j là tài liệu, wi , j là trọng số được gán cho cặp

( ki , d j ), wi , j ≥ 0; wi ,q là trọng số được gán cho cặp [ ki , q ], wi ,q ≥ 0. Ta có vectơ truy
r
ur
vấn q = ( w1,q , …, wt ,q ) và vectơ tài liệu d j = ( w1, j , …, wt , j ), với t là tổng số từ khóa
trong bộ lưu trữ.
Độ tương tự ngữ nghĩa giữa tài liệu d j và truy vấn q được tính bằng cosin của góc tạo bởi
hai vectơ:
ur r
d j •q
sim ( d j , q ) = ur
r =
dj ×q

t

∑w

i, j

× wi ,q

i =1


t

∑w

2
i, j

×

i =1

t

(BT 1.1)

∑w

2
i ,q

i =1

Phương pháp tf.idf được dùng để xác định trọng số cho từ khóa của tài liệu ([25]). Trong
đó, tf (term frequency) là hàm theo tần số xuất hiện của từ khóa trong tài liệu. Nó đại diện
cho vai trị của từ khóa trong việc xác định nội dung ngữ nghĩa của tài liệu. idf (inverse
document frequency) là hàm theo tần số nghịch đảo của tần số xuất hiện của từ khóa
trong tất cả các tài liệu. Trọng số của từ khóa ki trong tài liệu d j được định nghĩa như
sau:


wi , j = tf i , j × idf i =

freqi , j
max l freql , j

× log

N
ni

(BT 1.2)

trong đó, N là tổng số tài liệu có trong hệ thống và ni là số tài liệu có chứa từ khóa ki ,
freqi , j là tần số xuất hiện của ki trong tài liệu d j .
Đối với trọng số cho từ khóa trong truy vấn, Salton và Buckley ([24]) đề nghị cách tính
như sau:
wi ,q = (0.5 +

0.5 freqi ,q
max l freql ,q

) × log

N
ni

(BT 1.3)

trong đó, freqi ,q là tần số xuất hiện của từ khóa ki trong truy vấn q .


10


Trong mơ hình khơng gian vectơ, với một truy vấn cho trước, q trình truy hồi bao
gồm hai bước chính là lọc tài liệu và xếp hạng tài liệu. Mục đích của bước lọc tài liệu là
giới hạn tập tài liệu cần xếp hạng bằng cách chọn những tài liệu thỏa mãn biểu thức
boolean trong câu truy vấn. Ví dụ, với truy vấn k1∨k2, D1 và D2 lần lượt là hai tập tài liệu
chứa k1 và k2, ta có D1∪D2 là tập tài liệu cần tìm. Tập tài liệu này được xếp hạng theo độ
tương tự với truy vấn theo các công thức trong định nghĩa 1.2 trước khi trả về cho người
dùng.
Tổng qt, mơ hình khơng gian vectơ có những ưu và nhược điểm sau:
Ưu điểm:


Mơ hình đơn giản, nhanh và hiệu suất truy hồi tốt. Đây là một ưu điểm nổi
trội của mơ hình.



Phương pháp tính trọng số cho từ khóa cải thiện hiệu suất truy hồi.



Chiến lược so trùng một phần cho phép truy hồi các tài liệu chỉ tương đối
liên quan đến truy vấn.



Phương pháp tính độ tương tự theo cosin cho phép xếp hạng tài liệu theo
các mức độ liên quan, tài liệu liên quan nhất được trả về trước tiên.


Nhược điểm:


Trong mơ hình vectơ, các từ khóa được xem là độc lập lẫn nhau. Trọng số
của từ khóa này khơng phụ thuộc vào trọng số của các từ khóa khác.

KIM - Hệ thống quản lý thông tin và tri thức
KIM (Knowledge & Information Management) 7 là hệ thống quản lý thông tin và tri thức
được phát triển bởi Ontotext Lab. Trong hệ thống KIM, ontology chứa các định nghĩa của
lớp thực thể, các thuộc tính và các mối quan hệ ([17]). Thực thể có tên và các mối quan

7

/>
11


hệ của chúng được lưu trữ trong cơ sở tri thức. Hình 1.1 minh họa một số thơng tin trong
KIM Ontology và KB.

Hình 1.1 Ví dụ KIM Ontology và KB [17]

KIM cung cấp các dịch vụ và cấu trúc cho truy hồi, đánh chỉ mục và chú thích ngữ
nghĩa. KIM thực hiện việc rút trích thơng tin dựa trên một ontology (KIMO) và một cơ sở
tri thức xây dựng sẵn. Bản chất của q trình rút trích thơng tin (Information Extraction IE) của KIM là tổ chức các thực thể vào trong KIMO. Thực thể trong KIM được xác định
bởi một URI duy nhất, được xem là danh hiệu của nó. KIM IE được phát triển dựa trên
nền mã nguồn mở GATE (General Architecture for Text Engineering) 8, trong đó trung
tâm là module nhận diện NE. Nhận diện NE trong KIM cũng đạt được thành tự nhất định,
với độ chính xác và độ đầy đủ trung bình lần lượt là 90% và 86% 9. Đối với truy hồi

thông tin, KIM cung cấp cơ chế đánh chỉ mục và truy hồi theo danh hiệu của thực thể có
tên, và được xây dựng trên nền mã nguồn mở Lucene 10.
Trong luận án này, chúng tơi sử dụng KIM trong q trình chú thích ngữ nghĩa văn
bản, nhằm xác định các thực thể có tên trong tài liệu và các đặc trưng của chúng.

8

/> />10

9

12


Chương 2:

Truy hồi thơng tin theo thực thể có tên và từ
khóa

Một mơ hình truy hồi thơng tin mạnh có khả năng đặc tả được trọn vẹn truy vấn thông tin
và khả năng truy hồi được chính xác, đầy đủ các thông tin liên quan. Tuy nhiên, tùy vào
nhu cầu thơng tin, người dùng thực hiện các hành vi tìm kiếm khác nhau. Do đó, xây
dựng một mơ hình truy hồi thông tin cần phải thiết lập các giả định về hành vi tìm kiếm
của người dùng.
Hành vi tìm kiếm của người dùng, một cách tổng quát, có thể chia làm hai loại là tìm
kiếm phổ quát (navigational search) và tìm kiếm chuyên sâu (research search) ([14]). Với
tìm kiếm phổ quát, người dùng tìm kiếm các tài liệu cần thiết bằng cách cung cấp những
cụm từ mà họ mong chờ có trong tài liệu. Ngược lại, với tìm kiếm chun sâu, người
dùng mong muốn thông tin của một đối tượng hay hiện tượng cụ thể, việc cung cấp từ
khóa hay cụm từ cho máy tìm kiếm là nhằm mục đích tìm được các tài liệu có chứa thơng

tin cần tìm. Trong luận án này, các mơ hình chúng tơi khảo sát và xây dựng nhấn mạnh
vào hướng tìm kiếm phổ qt. Đó là q trình tìm kiếm với mục tiêu tìm được càng nhiều
tài liệu liên quan càng tốt, trong đó cả độ chính xác và độ đầy đủ đều quan trọng như nhau
và đạt được giá trị càng cao càng tốt ([1]).

2.1 Truy hồi thông tin theo thực thể có tên
Một mơ hình truy hồi thơng tin theo thực thể có tên phụ thuộc khả năng chú thích ngữ
nghĩa văn bản. Đó là q trình nhận diện NE trong văn bản và kết nối NE này với các đặc
tả ngữ nghĩa của nó trong KB ([22]). Khả năng chú thích ngữ nghĩa văn bản là cơ sở cho

13


nhiều ứng dụng khác nhau, trong đó có truy hồi thơng tin theo thực thể có tên. Do vậy,
trước khi đi vào chi tiết q trình truy hồi thơng tin theo thực thể có tên, ta sẽ xem xét văn
bản tài liệu sau khi được chú thích ngữ nghĩa.

Tài liệu được chú thích ngữ nghĩa
Một NE có ba đặc trưng cơ bản là tên, lớp và danh hiệu. Tuy nhiên, trong q trình chú
thích ngữ nghĩa, khơng phải NE nào trong văn bản cũng được nhận diện, và cũng không
phải tất cả các NE được nhận diện đều có đầy đủ các đặc trưng của nó. Ngun do là vì
khơng thể có một KB đủ lớn chứa mọi thực thể có tên, cũng như chưa có một giải thuật
hồn hảo cho q trình nhận diện NE. Hơn nữa, ngơn ngữ tự nhiên luôn chứa đựng sự
nhập nhằng và đa nghĩa. Khi phân tích một tài liệu được chú thích ngữ nghĩa, ta cần phải
chú ý đến hạn chế này.
Ví dụ 2.1:

Xem xét các đoạn văn sau (nguồn VNExpress 11):

D1: “Trung Quốc bắt đầu tăng giá nhiên liệu thêm 18% hôm nay, nhằm hạn chế

lượng tiêu thụ năng lượng ở nước này”.
D2: “Theo ông Hồ Nghĩa Dũng, Bộ trưởng Giao thông, xe tự chế của thương binh,
người tàn tật sẽ được phép lưu hành đến hết năm 2008”.
D3: “Ấn Độ cấp thiết phải "tối ưu hóa các ứng dụng khơng gian cho mục đích qn
sự", tướng Deepak Kapoor phát biểu hơm đầu tuần”.
D4: “Nhà Trắng vừa ra tuyên bố cho biết, Tổng thống Mỹ George Bush hoan nghênh
cơ hội đàm thoại với Thủ tướng Việt Nam Nguyễn Tấn Dũng và sẽ đón tiếp ơng tại
Nhà Trắng vào ngày 24/6, để bàn thảo việc thúc đẩy hợp tác song phương”.
Trong tài liệu D1, Trung Quốc được nhận diện là một NE, và vì NE này có trong KB,
NE Trung Quốc được xác định đầy đủ với cả ba đặc trưng, được đại diện bởi bộ ba
(Trung Quốc/Quốc gia/Country_T.CH). Ngược lại, trong tài liệu D2, Hồ Nghĩa Dũng
cũng được nhận diện là một NE, nhưng vì khơng tồn tại trong KB, NE này khơng có danh

11



14


hiệu. Ta chỉ xác định được hai đặc trưng của NE Hồ Nghĩa Dũng là tên (Hồ Nghĩa Dũng)
và lớp (Con người). Tương tự, với tài liệu D3, NE Ấn Độ được xác định đầy đủ với bộ ba
(Ấn Độ, Quốc gia, Country_T.IN). Trong khi đó NE Deepak Kapoor chỉ xác định được
tên (Deepak Kapoor) và lớp (Con người). Trong tài liệu D4, Nhà Trắng là một NE đặc
biệt, nó có thể là một tổ chức chính trị (Nhà Trắng ở đầu đoạn văn) hoặc là một nơi chốn
(Nhà Trắng ở cuối đoạn văn). Như vậy, trong quá trình chú thích ngữ nghĩa tự động, NE
Nhà Trắng mặc dù đã được nhận diện, nhưng lớp của thực thể này có thể khơng xác định
được. Ngồi NE Nhà Trắng, trong tài liệu D4, hai NE khác cũng được nhận diện là
George Bush và Nguyễn Tấn Dũng, trong đó NE George Bush có trong KB với danh hiệu
là Person_T.80.

Tóm lại, vì sự hạn chế của cơ sở tri thức, của giải thuật nhận diện NE, hay vì sự nhập
nhằng về ngữ nghĩa của ngôn ngữ tự nhiên, v.v… một NE xuất hiện trong văn bản tài liệu
có thể được nhận diện như sau:


Tên NE được nhận diện, khơng xác định được lớp và danh hiệu.



Tên và lớp NE được nhận diện, khơng xác định được danh hiệu.



Tên, lớp và danh hiệu NE được nhận diện đầy đủ.

2.1.1 Mơ hình truy hồi thơng tin theo thực thể có tên
Trong mơ hình truy hồi thơng tin theo từ khóa, ngữ nghĩa văn bản được thể hiện thơng
qua một tập các từ khóa. Tuy nhiên, từ khóa khơng thể thể hiện trọn vẹn ngữ nghĩa của
các NE chứa trong văn bản hay truy vấn. Ta khảo sát ví dụ 2.2 dưới đây:
Ví dụ 2.2:

Xét các truy vấn sau:

Q1: Tìm các tài liệu về thành phố.
Q2: Tìm các tài liệu về thành phố Sài Gịn.
Q3: Tìm các tài liệu về tháp Hà Nội.
Q4: Tìm các tài liệu về trường đại học kỹ thuật Hà Nội.

15



Đối với truy vấn Q1, tài liệu cần tìm khơng nhất thiết phải chứa từ khóa thành phố,
mà chính xác hơn, chỉ cần có NE có lớp là Thành phố, cụ thể đó là các thành phố trên thế
giới. Đối với Q2, không chỉ những tài liệu đề cập đến thành phố Sài Gòn, mà các tài liệu
chứa các tên khác của thành phố Sài Gòn như là thành phố Hồ Chí Minh cũng là các kết
quả cần tìm. Trong truy vấn Q3, tài liệu chứa thông tin về thành phố Hà Nội, hay đại học
Hà Nội không phải là các tài liệu cần tìm mặc dù có chứa từ khóa Hà Nội. Đối với Q4, tài
liệu cần tìm là một NE cụ thể, đó là trường đại học kỹ thuật Hà Nội, không phải bất cứ
một trường đại học nào khác có tên tương tự. Qua các ví dụ trên, ta thấy, quá trình tìm
kiếm và so trùng theo từ khóa có thể cho các kết quả khơng mong muốn hoặc khơng tìm
ra các tài liệu liên quan.
Như vậy, một mơ hình truy hồi thơng tin theo thực thể có tên có thể mang lại hiệu
suất tốt. Tuy nhiên, như ta đã biết, một NE có thể được nhận diện một cách không đầy đủ
các đặc trưng tên, lớp và danh hiệu của nó. Vì vậy, mơ hình xây dựng, ngoài yêu cầu khai
thác các đặc trưng của NE, đòi hỏi phải phản ứng linh hoạt với hạn chế này.
Mơ hình truy hồi thơng tin theo thực thể có tên được [31] khảo sát đã đưa ra một
hướng tiếp cận uyển chuyển cho hạn chế trên. Dưới đây là các định nghĩa chính thức đặc
tả mơ hình truy hồi thơng tin theo thực thể có tên thơng qua các đặc trưng của NE.
Định nghĩa 2.1:

Cho một bộ ba ( N , C , I ) trong đó N , C và I lần lượt là các tập

của tên, lớp và danh hiệu của thực thể có tên trong bộ lưu trữ.
(1)

Tài liệu d là một tập con của ( N ∪{*})×( C ∪{*})×( I ∪{*}), trong đó ‘*’ đại

(2)

diện cho một tên, lớp hay danh hiệu chưa biết của một NE trong tài liệu d.

ur ur ur
ur
ur
ur ur ur
d được miêu tả bởi bộ bốn vectơ ( d N , d C , d NC , d I ) trong đó d N , d C , d NC , d I
lần lượt là các vectơ của tài liệu d trên N , C , N × C và I .

Mỗi một vectơ trong bốn vectơ được giới thiệu trên được xem như một vectơ trong mơ
hình khơng gian vectơ truyền thống, trong đó khơng gian từ khóa được thay bằng không
gian tên, lớp, tên-lớp và danh hiệu của NE.

16


×