Tải bản đầy đủ (.pdf) (14 trang)

Thuật toán so sánh biểu diễn đồ thì khái niệm tương ứng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (890.86 KB, 14 trang )

Mục lục
I. Giới thiệu 1
II. Các nghiên cứu liên quan 1
III. Định nghĩa các khái niệm 2
IV. Giải thuật biểu diễn 4
IV.1. Gán nhãn 4
IV.2. Phân ch cú pháp 5
IV.2.1. Phân ch cú pháp phần định danh và phần thuộc nh 5
IV.2.2. Phân ch phần thứ cấp (parsing secondary part) 6
IV.3. Kết hợp 7
V. Thuật toán so sánh 8
V.1. Xây dựng CG1 (cho sea) và CG2 (cho lake) 9
V.2. Xác định các phần giao (intersecons) I1, I2, … In của CG1 và CG2 11
V.3. Áp dụng công thức nh độ tương đồng cho I1, I2, … In 11
VI. Kết luận và hướng phát triển 13


1
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG

MÔN HỌC: BIỂU DIỄN TRI THỨC VÀ ỨNG DỤNG
I. Giới thiệu
Đồ thị khái niệm (Conceptual Graphs – CG) là một phương pháp biểu diễn kiến thức hình thức,
dựa trên những kiến thức ngôn ngữ học và hướng đối tượng. Đồ thị khái niệm cung cấp phương
tiện để thu thập và thể hiện kiến thức về thế giới thật.
Liên quan đến vấn đề biểu diễn kiến thức địa lý, các nghiên cứu và các phân tích về những định
nghĩa khái niệm địa lý (geographic concept definitions) đóng vai trò quan trọng trong nổ lực đạt
được kiến thức một cách có hệ thống về các khái niệm; đồng thời phục vụ cho việc so sánh
những phân loại địa lý nhằm xác định những tương đồng và không đồng nhất giữa chúng. Do đó,
việc khai thác các phương pháp hiệu quả cho việc biểu diễn các định nghĩa địa lý đóng vai trò


nền tảng cho các nghiên cứu về phân tích ngữ nghĩa địa lý, nhằm mục đích hệ thống hóa ý nghĩa
và trích xuất thông tin.
Mục đích của nghiên cứu là phát triển một giải thuật để biểu diễn tri thức địa lý sử dụng đồ thị
khái niệm. Sau đó dựa trên những phương pháp, các đặc tính, và cấu trúc của đồ thị khái niệm,
đưa ra một qui trình cho việc so sánh hai khái niệm địa lý để đo lường định lượng sự tương đồng
giữa chúng. Qui trình so sánh sẽ xem xét cấu trúc của những đồ thị khái niệm tương ứng và cho
ra kết quả là mức độ tương đồng ngữ nghĩa giữa hai khái niệm địa lý và từ đó xác định những
khái niệm nào là tương đồng với nhau hơn. Bằng việc giới thiệu một giải thuật bằng cách dùng
định nghĩa khái niệm địa lý là đầu vào và đưa ra biểu diễn đồ thì khái niệm tương ứng, bài
nghiên cứu đã phá bỏ những giới hạn và trở ngại trong việc trích xuất thông tin ngữ nghĩa của
khái niệm địa lý.
II. Các nghiên cứu liên quan
Những năm gần đây đã có những nghiên cứu về biểu diễn và trích xuất thông tin các khái niệm
địa lý. Phương pháp tiếp cận về biểu diễn tri thức địa lý bao gồm các phương pháp được dựa trên
phân tích các định nghĩa khái niệm địa lý và tìm kiếm các biểu diễn hiệu quả.
CG là phương pháp biểu diễn tri thức bằng biểu đồ trực quan, đầu tiên được giới thiệu dùng cho
việc biểu diễn ngôn ngữ tự nhiên. Theo lý thuyết về CG, một CG là một mạng các node khái
niệm (concept node) và các node quan hệ (relation node). Các concept node là những thực thể
(entities), thuộc tích (attribute), và sự kiện (events). Các relation node dùng để định ra các mối
liên hệ giữa các concept node.
2
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG

MÔN HỌC: BIỂU DIỄN TRI THỨC VÀ ỨNG DỤNG
CG được định nghĩa bởi một cú pháp trừu tượng độc lập với các ký hiệu, nhưng hình thức có thể
được thể hiện trong các ký hiệu đồ họa hoặc dựa trên ký tự. Bằng các ký hiệu đồ họa, concepts
node được thể hiện bởi các hình chữ nhật, và relation node là những hình tròn liên kết với các
concepts node bằng các mũi tên. Dạng tuyến tính (linear form) thì ngắn gọn hơn dạng đồ thị,
bằng cách sử dụng các ký hiệu “[” thay cho ô vuông, “{” thay cho vòng tròn.

Các nghiên cứu xây dựng phương pháp so sánh sự giống nhau giữa hai CG. Mục đích chính của
phương pháp tiếp cận được đề xuất là để xác định xem một đồ thị truy vấn là hoàn toàn chứa
trong một CG.
Mặc khác, trong nhiều ứng dụng dạng text, các phương pháp so sánh việc biểu diễn text được đề
xuất và áp dụng. Trong số đó, hệ số Jaccard, hệ số Cosine và hệ số Dice thường được sử dụng vì
tính phổ dụng và đơn giản.
Giải thuật so sánh sự tương đồng trong bài nghiên cứu dựa trên hệ số Dice:


 












Trong đó 

 là số dữ kiện (term) chung, tương đồng giữ D1, D2. 










là tổng số
các term tương ứng trong D
1
và D
2
.
Công thức trên được áp dụng với những thay đổi phù hợp với đặc điểm của CG dùng trong việc
định nghĩa các khái niệm địa lý.
III. Định nghĩa các khái niệm
Các định nghĩa khái niệm địa lý thường là một vài câu bao gồm 2 loại thông tin: chủng loại
(genus) và đặc tính (differentia). Genus là một định nghĩa khái quát hóa (hypernym), chứa thông
tin phân lớp của khái niệm, và thông tin đó thường xuyên được sử dụng để xây dựng phân loại
khái niệm. Với differentia, differentia xác định mức độ khác nhau của các khái niệm trong cùng
phân lớp. Nó là một tập các tính từ chỉ thuộc tính (như dài, ngắn, rộng) và cụm giới từ khác nhau
của cùng một genus. Nó cung cấp mục đích, vị trí, vẻ bề ngoài, và những khía cạnh khác nhau
thông qua một hoặc nhiều mệnh đề phụ, mỗi mệnh đề cung cấp một thông tin khác nhau.
Ví dụ, trong bảng sau là genus và differentia của định nghĩa “A canal is a long and narrow strip
of water made for boats and irrigation”.
3
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG

MÔN HỌC: BIỂU DIỄN TRI THỨC VÀ ỨNG DỤNG
Genus
Strip
Differentia

Long , narrow (attributive adjectives)
Of water (prepositional phrase)
Made for boats and irrigation (sub-clause)

Mỗi định nghĩa được xem xét có dạng bao gồm hai phần: phần chính (main part) và phần thứ cấp
(secondary part). Main part là mệnh đề bao gồm genus, các tính từ thuộc tính, và các cụm giới từ
mô tả cho genus. Secondary part chứa các mệnh đề phụ (sub-clause) mô tả thêm thông tin cho
khái niệm địa lý.
Phần chính bao gồm các thành phần định danh (determinant section) và phần thuộc tính
(attributes section). Determinant section cấu trúc tổng quát:
[{article}+{concept name}+{is}]
Attributes section là các mệnh đề mô tả của phần chính, bao gồm genus, tính từ chỉ thuộc tính và
cụm giới từ. Attributes section có cấu trúc tổng quát:
[{attributive adjective}*+{genus}+{prepositional phrase}*]
Dấu hoa thị trong công thức mô tả có một hoặc nhiều.
Main part (phần chính)
Phần định danh
(determinant section)
Phần thuộc tính
(Attributes section)
A Cannel is
A long and narrow strip of
water
Secondary part (phần thứ
cấp)
Made for boats and irrigation (sub-clause)

Phần thứ cấp gồm một hoặc nhiều mệnh đề cung cấp các thông tin khác nhau (như mục đích, vị
trí, …). Mỗi câu trong phần thứ cấp chứa một cụm từ dành riêng (reserved phrase) (ví dụ như là
used for, located at, made for …) để chỉ mối liên hệ ngữ nghĩa cộng với thông tin được cung cấp.

Trong ví dụ trên, phần thứ cấp bao gồm một câu “made for boats and irrigation” với cụm từ
“made for” dùng để mô tả mục đích sử dụng.
4
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG

MÔN HỌC: BIỂU DIỄN TRI THỨC VÀ ỨNG DỤNG
IV. Giải thuật biểu diễn
Phương pháp được đề xuất là chuyển đổi định nghĩa của khái niệm địa lý sang CG tương ứng
không mất thông tin. Giải thuật biểu diễn gồm 2 bước chính là dán nhãn (tagging) và phân tích
(parsing).
Bước đầu tiên (tagging) tuân thủ các qui định để đánh dấu tất cả các từ của định nghĩa khái niệm.
Bước thứ hai (parsing) áp dụng giải thuật để phân tích những định nghĩa được dánh dấu ở bước
một và tạo ra một CG tương ứng.
Bài nghiên cứu sử dụng phương pháp phân tích (parse) câu định nghĩa địa lý trước khi chuyển nó
thành CG và sau đó thực hiện một số thao tác ở cấp độ đồ thị. Có sự tách biệt trong việc đánh
dấu và phân tích phần thức cấp của định nghĩa khái niệm địa lý. Bằng cách này, sẽ có hai CG
được tạo ra tương ứng với phần chính và phần thứ cấp. Sau khi kết hợp lại, kết quả sẽ có là một
CG hoàn chỉnh cho một khái niệm địa lý.
IV.1. Gán nhãn
Mỗi định nghĩa được tạo bởi các thành phần (tokens). Ở bảng bên dưới tóm tắt các thành phần
của câu có liên quan đến các từ trong phần chính và phần thứ cấp của thông tin địa lý. Khác nhau
giữa ‘vb’ và ‘v’ là ‘vb’ luôn thuộc về phần định danh (determinant section) của phần chính và
một động từ đặc biệt dùng để giới thiệu định nghĩa của khái niệm địa lý
Article
Noun
Verb
“be”
Verb
Adjective

preposition
Conjuntion
Reserved
phrase
art
n
Vb
v
adj
prep
conj
rp

Phần định danh luôn bao gồm một mạo từ {article}, tên khái niệm {concept name} và động từ
{is}, ví dụ: “A Canal is”. Nó được dán nhãn sử dụng ‘art’, ‘n’, ‘vb’. Kết quả của quá trình
tagging của “A canal is” là:
{A (art) Canal (n)} {is (vb)}
Phần thuộc tính chứa genus, tính từ chỉ thuộc tính, và một hoặc nhiều cụm giới từ, được phân lớp
thành dạng tổng quát:
[{attributive adjective}*+{genus}+{prepositional phrase}*]
5
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG

MÔN HỌC: BIỂU DIỄN TRI THỨC VÀ ỨNG DỤNG
Nó được tagging bằng cách sử dụng ‘adj’ cho tính từ chỉ thuộc tính, ‘n’ cho genus, ‘prep’ và ‘n’
cho mệnh đề giới từ. “A long and narrow strip of water” được tagging thành:
{a (art) long (adj)} {and (conj)} {narrow (adj)} {strip (n)} {of (prep)} {water (n)}
Cuối cùng, phần thứ cấp gồm một hoặc nhiều câu cũng được tiến hành tagging. Reserved pharse
được dán nhãn ‘rp’ và các thành phần khác được dánh dấu với ‘n’, ‘adj’, ‘conj’ tương ứng.

Kết quả tagging của “A canal is a long and narrow strip of water made for boats and irrigation”
là:
{A Canal (n)} {is (vb)} {a long (adj)} {and (conj)} {narrow (adj)} {strip (n)} {of (prep)} {water
(n)} {made for (rp)} {boats (n)} {and (conj)} {irrigation (n)}
IV.2. Phân ch cú pháp
Quá trình phân tích cú pháp bao gồm 3 giai đoạn. Giai đoạn đầu tiên, phần định danh và phần
thuộc tính của phần chính sau quá trình tagging sẽ được xử lý trước để tạo ra CG tương ứng. Sau
đó, áp dụng các luật parsing cho tất cả các mệnh đề của phần thứ cấp đã tagging. Mỗi mệnh đề
tạo thành môt CG. Cuối cùng là kết hợp các CG được tạo thành một CG chung duy nhất thể hiện
định nghĩa khái niệm địa lý.
IV.2.1. Phân tích cú pháp phần định danh và phần thuộc tính
CG của phần định danh ({article (art) concept name (n)}{is (vb)}) luôn tuân theo dạnh chung
của hình 1 bên dưới. Khái niệm {genus} dùng để chỉ genus trong phần thuộc tính.



Hình 2 là CG cho phần định danh của mệnh đề “A Canal is a …strip…”



{concept name}:{Arcle}
agent
be
object
{genus}
Hình 1: CG cho phần định danh (determinant secon)
Canal: A
agent
is
object

strip
Hình 2: CG cho phần định danh của định nghĩa Canal
6
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG

MÔN HỌC: BIỂU DIỄN TRI THỨC VÀ ỨNG DỤNG
Phần tính từ chỉ thuộc tính (attributive adjective – được tag bằng ‘adj’) trong phần thuộc tính, ta
định nghĩa một loại khái niệm (concept type) cho từng cái, được kết nối với genus thông qua
relation node ‘atr’ (hình 3)



Với mỗi cụm giới từ được tag, ta định nghĩa một relation node loại ‘preposition’. Nói chung, một
cụm giới từ được tag bao gồm một giới từ (‘prep’), một hoặc nhiều tính từ chỉ thuộc tính (‘adj’)
và danh từ (‘n’).
{preposition}{attributive adjectives}*{noun}*
Tính từ chỉ thuộc tính nếu có thể hiện một đặc tính cho danh từ, ví dụ : ‘a strip of water’ hoặc ‘a
strip of cold water’. Hình 4 là dạng tổng quát của CG tương ứng với cụm giới từ:



Từ đó, với định nghĩa Canal ở trên phần chính được mô hình hóa như sau:





IV.2.2. Phân tích phần thứ cấp (parsing secondary part)
Mỗi câu trong phần thứ cấp sau khi thực hiện tagging bao gồm cụm dành riêng (reserved

phrase). Trong quá trình parsing, các reserved phrase được chuyển đổi thành node concept tương
ứng (ví dụ ‘made for’). Concept node này liên hệ với genus node thông qua khái niệm relation
agent
{concept name}:
{Arcle}
be
object
{genus}
atr
atr
{atr. adj.1}
{atr. adj.1}
Hình 3: CG tổng quát của cho aribuve adjecve
{prep}
{genus}
{noun}
atr
Aribuve adjecve
Hình 4: CG tổng quát cho các preposion pharse
agent
Canal:A
be
object
strip
atr
atr
long
narrow
of
water

Hình 5: CG của phần chính của khái niệm Canal
7
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG

MÔN HỌC: BIỂU DIỄN TRI THỨC VÀ ỨNG DỤNG
node loại agent và concept node, và với concept node tùy theo thành phần cấu trúc của câu thông
qua relation node loại ‘object’. Hình 6 biểu diễn một CG tổng quát của phần thứ cấp. Giả định
rằng dạng tổng quát của mỗi câu trong phần thứ cấp là:
{reserved phrase}({attributive adjectives}{information})*
Trong đó, ‘information’ được đại diện với các khái niệm ‘info 1’, ‘info 2’

Hình 7 là dạng CG cho phần thứ cấp của khái niệm Canal


IV.3. Kết hợp
Ở bước này, CG của phần chính và CG của thứ cấp được kết hợp với nhau để tạo ra một CG
thống nhất cho định nghĩa khái niệm địa lý. Việc kết hợp này đơn giản khi cả hai CG đều có
{genus}
agent
{reserved
phrase}
object
object
{info 1}
{info 2}
atr
atr
atr
atr

{atr. adj. 1}
{atr. adj. 2}
{atr. adj. 1}
{atr. adj. 2}
Hình 6: CG tổng quát cho secondary part
strip
agent
made for
object
object
boat
irrigation
Hình 7: CG cho phần thứ cấp của khái niệm Canal
8
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG

MÔN HỌC: BIỂU DIỄN TRI THỨC VÀ ỨNG DỤNG
‘genus’. Hình 8 bên dưới là một CG đầy đủ cho định nghĩa “A Canal is a long and narrow strip
of water made for boats and irrigation”.








V. Thuật toán so sánh
Dựa trên những giải thuật đề xuất cho việc trình diễn kiến thức địa lý sử dụng CG, bài nghiên

cứu trình bày một phương pháp so sánh ngữ nghĩa hai CG. Phương pháp này cần dữ kiện đầu
vào là hai CG của hai định nghĩa khái niệm địa lý, và theo các bước sau:
(1) Xây dựng các CG tương ứng với hai định nghĩa (CG1 và CG2)
(2) Xác định các phần giao (intersections) của CG1 và CG2 (gọi là các I1, I2, …., In)
(3) Áp dụng công thức cho từng phần giao có liên quan để đo mức độ tương đồng của hai
CG. Kết quả cho ra là một số thực có giá trị từ 0 đến 1 phản ánh mức độ tương đồng giữa
hai CG.
(4) Tổng hợp các giá trị đầu ra của bước 3 để tính giá trị tương đồng tổng hợp.
Trong phần tiếp theo, bài nghiên cứu trình bày cách áp dụng giải thuật so sánh trên ví dụ thực tế
là so sánh định nghĩa hai khái niệm Sea và Lake.
 Sea: “A large body of salt water partially enclosed by land”
 Lake: “A body of fresh water surrounded by land”
agent
Canal:A
be
object
strip
atr
atr
long
narrow
of
water
agent
made for
object
object
boat
irrigation
Hình 8: CG cho định nghĩa khái niệm Canal

9
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG

MÔN HỌC: BIỂU DIỄN TRI THỨC VÀ ỨNG DỤNG
V.1. Xây dựng CG1 (cho sea) và CG2 (cho lake)
Việc chuyển đổi các định nghĩa sea, lake từ khái niệm địa lý sang dạng CG tuân theo giải thuật
đã trình bày ở trên. Sau khi áp dụng hai bước tagging và parsing ta có được kết quả như hình bên
dưới (hình 9, hình 10).




Sea:A
Agent
be
object
body
atr
of
Agent
large
water
Enclosed by
atr
salt
object
atr
land
partial

Hình 9: CG cho định nghĩa Sea (CG1)
10
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG

MÔN HỌC: BIỂU DIỄN TRI THỨC VÀ ỨNG DỤNG


Trong bước này, tiến hành tìm các từ đồng nghĩa (synonyms) và khái quát (hypernyms) cho các
nhóm thuật ngữ (term) và khái niệm (concept). Bước này cần có sự tham khảo các tài liệu như từ
điển, sách bách khoa toàn thư, …, hoặc nhận định chủ quan để đánh giá.
Trong ví dụ trên, đối với “enclosed by” và “surrounded by” có thể xem là từ đồng nghĩa và nó
cùng chỉ một khái niệm (tra cứu từ WordNet và Merriam-Webster)
Sau khi đưa ra được mô hình CG cho hai định nghĩa, tiến hành phân tích, ta nhận thấy cả hai
CGs có chung genus hay hypernym là ‘body’. Điều này có nghĩa là 2 khái niệm này thuộc cùng
một lớp. Tuy nghiên, chúng có những đặc điểm (differentia) khác nhau, mô tả những khía cạnh
khác nhau của một khái niệm trong cùng một phân lớp. ‘Sea’ được đặc tả bởi tính chất ‘large’,
‘of water’ và ‘enclosed by land’. Trong khi đó ‘Lake’ được đặc tả bởi ‘of water’ và ‘surrounded
by land’. Tính từ ‘fresh’ bổ sung ngữ nghĩa cho ‘water’. Ở bảng sau là tổng hợp những điểm
khác nhau của các phần trong hai định nghĩa:

Definition: Sea
Definition: Lake
Genus
Body
Body
Main part
Large, of water
Of fresh water
Secondary part

Enclosed by land
Surrounded by land

Lake:A
agent
be
object

body
of
Agent
water
surrounded by

atr
fresh
object

land
Hình 10: CG cho định nghĩa khái niệm Lake (CG2)
11
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG

MÔN HỌC: BIỂU DIỄN TRI THỨC VÀ ỨNG DỤNG
V.2. Xác định các phần giao (intersecons) I1, I2, … In của CG1 và CG2
Sau khi so sánh CG1 và CG2, tiến hành xác định những phần giao (những điểm chung) giữa
chúng dựa trên cấu trúc, các concept node và các relation node. Các CG con này được đặt tên lần
lượt là I1, I2, … In. Mỗi phần giao bao gồm tất cả các concept node và relation node liên quan
xuất hiện trong cả CG1 và CG2. Khi một phần giao bao gồm một concept node đơn, thì sẽ không

có relation node đi cùng. Do đó, để so sánh các CG cho định nghĩa Sea và Lake, cần xây dựng
các giao I1, I2 như sau:



Một điều quan trọng là không xem xét phần giao của hình 13 vì đó là dạng chung tổng quát của
tất cả các CG đại diện cho định nghĩa khái niệm địa lý như đã trình bày ở trên:


V.3. Áp dụng công thức nh độ tương đồng cho I1, I2, … In
Để xem xét CG1 và CG2 giống nhau đến mức nào, dựa vào những phần giao giữa chúng, ta áp
dụng công thức xác định (deterministic formula) cho ra kết quả trong đoạn [0, 1]. Theo đó ‘0’ tức
là hoàn toàn khác nhau, và ‘1’ là hoàn toàn giống nhau. Hơn nữa, độ tương đồng giữa hai khái
niệm địa lý thể hiện bằng CG phụ thuộc vào các loại concept node và vị trí của chúng trong CG1
và CG2. Do đó, cần có một phương pháp đo lường đảm bảo cả hai tính chất trên. Giải thuật được
đề xuất dựa trên hệ số Dice (Dice coefficient) để đo lường mức độ tương đồng của CG1 và CG2,
trong đó có tính đến các loại concept node chung ở hai CGs. Ví dụ, hai CGs có cùng genus sẽ
body
of
water
Surrounded by
(enclosed by)
of
water
Hình 11: Mô hình I1 của CG1 và CG2
Hình 12: Mô hình I2 của CG1 và CG2
agent
be
{concept name}:{article}
Hình 13: Dạng intersecon thông dụng

12
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG

MÔN HỌC: BIỂU DIỄN TRI THỨC VÀ ỨNG DỤNG
được đánh giá là có mức độ tương đồng cao hơn hai CG chỉ cùng phần tính từ chỉ tính chất
(attributive adjectives).
Do đó, nếu CG1 và CG2 có là những CG đại diện cho định nghĩa của khái niệm địa lý, và “I” là
phần giao của chúng:
 C
CG1
and C
CG2
là số các concept nodes trong CG1 và CG2
 C
I-GENUS
= 1 khi “I” chứa phần chung genus của hai CG1 và CG2, hoặc “0” nếu ngược
lại.
 C
I-MAIN
là số lượng concept node của “I” mà cũng thuộc về phần chính của CG1 và CG2
 C
I-SEC
là số lượng concept node của “I” mà cũng thuộc về phần thứ cấp của CG1 và CG2
Khi đó, công thức tính độ tương đồng của CG1 và CG2 dựa trên tập giao “I” như sau:
S
C
= 2(W
GENUS
*C

I-GENUS
+ W
MAIN
*C
I-MAIN
+ W
SEC
*C
I-SEC
) (C
I-GENUS
+ C
I-MAIN
+ C
I-SEC
) /
(C
CG1
+C
CG2
)
Trong đó:
 W
GENUS
= 0.5, là trọng số của phần chung genus của CG1 và CG2 (nếu có).
 W
MAIN
= 0.3 / (tổng số các concept node của CG1 và CG2 thuộc về phần chính): là trọng
số của mỗi concept node thuộc về phần chính của CG1 và CG2
 W

SEC
= 0.2 / (tổng số các concept node của CG1 và CG2 thuộc về phần thứ cấp): là trọng
số của mỗi concept node thuộc về phần thứ cấp của CG1 và CG2
Với việc thiết lập trọng số cho các loại “I” tùy thuộc vào vị trí có chúng trong CG1 và CG2 sẽ
đảm bảo giá trị của S
C
không chỉ phụ thuộc vào số lượng concept node chung mà còn phụ thuộc
vào vị trí của chúng. Nó cho phép việc so sánh độ tương đồng chính xác hơn.
Việc chọn lựa giá trị trọng số phải đảm bảo trọng số của phần chung genus (nếu có) luôn lớn hơn
trọng số của những loại concept node chung khác; và trọng số các concept node thuộc phần
chính phải luôn lớn hơn concept node của phần thứ cấp. Trong trường hợp CG1 và CG2 là hoàn
toàn giống nhau, kết quả đo lường cho giá trị là “1”
Áp dụng công thức trên vào việc tính toán độ tương đồng của hai định nghĩa “Sea” và “Lake”
trên với hai phần chung I1 và I2:
13
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG

MÔN HỌC: BIỂU DIỄN TRI THỨC VÀ ỨNG DỤNG
S
C(I1)
= 2 (0.5 * 1 + (0.3/5)*1 + (0.2/5)*0) (1 + 1 + 0) / (7 + 5) = 0.186
S
C(I2)
= 2 (0.5 * 0 + (0.3/5)*0 + (0.2/5)*2) (0 + 0 + 2) / (7 + 5) = 0.026
Giá trị của mức độ tương đồng của 2 CG là tổng của các S
c(Ii)
.



 








Ứng với hai định nghĩa “Sea” và “Lake”, mức độ tương đồng tương ứng là 0.182 + 0.026 =
0.212. Từ kết quả này cho thấy hai khái niệm “Sea” và “Lake” tương đối tương đồng về ngữ
nghĩa.
VI. Kết luận và hướng phát triển
Nghiên cứu hiện tại tập trung vào việc thể hiện một định nghĩa khái niệm địa lý dựa trên CG và
sự phát triển của giải thuật so sánh. Sự phát triển trong các phương pháp và một qui trình tương
đối dễ áp dụng hơn trong việc chuyển đổi giữa cấu trúc một định nghĩa khái niệm địa lý sang CG
cho phép phá vỡ những giới hạn và trở ngại trong việc trích xuất thông tin của định nghĩa khái
niệm địa lý.
Hơn nữa, giải thuật so sánh dựa trên cấu cấu và nội dung của CG cho ra kết quả đo lường trong
khoảng [0, 1] cho phép thể hiện tường minh mức độ tương đồng giữa hai định nghĩa khái niệm
địa lý. Nghiên cứu hiện tại là bước đầu cho việc hình thành những phương pháp tìm kiếm và
định danh những khái niệm địa lý tương đồng, từ đó xây dựng một mạng lưới các thuật ngữ địa
lý. Bước tiếp theo sẽ là sự mở rộng, cải tiến giải thuật cho phép đo lường độ tương đồng không
chỉ là sự tương đồng của các concept node mà còn là của các relation node. Sau đó tiến tới đảm
bảo việc so sánh không chỉ dừng ở số lượng các node chung, mà còn là “chất lượng” và có tính
đến điểm khác nhau những giữa hai CG.


×