Tải bản đầy đủ (.pdf) (101 trang)

Xây dựng ONTOLOGY phục vụ lưu trữ và tìm kiếm trực tuyến các tài liệu của chi cục văn thư lưu trữ tĩnh quảng ngãi

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.88 MB, 101 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
---------------------------------------

CAO XUÂN HÀ

XÂY DỰNG ONTOLOGY
PHỤC VỤ LƯU TRỮ VÀ TÌM KIẾM
TRỰC TUYẾN CÁC TÀI LIỆU CỦA CHI CỤC
VĂN THƯ LƯU TRỮ TỈNH QUẢNG NGÃI

LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH

Đà Nẵng - Năm 2017


ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
---------------------------------------

CAO XUÂN HÀ

XÂY DỰNG ONTOLOGY
PHỤC VỤ LƯU TRỮ VÀ TÌM KIẾM
TRỰC TUYẾN CÁC TÀI LIỆU CỦA CHI CỤC
VĂN THƯ LƯU TRỮ TỈNH QUẢNG NGÃI

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60480101


LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. VÕ TRUNG HÙNG

Đà Nẵng - Năm 2017


LỜI CAM ĐOAN
Tôi xin cam đoan :
1. Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực
tiếp của PGS.TS. Võ Trung Hùng;
2. Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng và trung thực
tên tác giả, tên công trình, thời gian, địa điểm công bố;
3. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu
hoàn toàn trách nhiệm.
Tác giả

Cao Xuân Hà


i
MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................ 3
MỤC LỤC ....................................................................................................................i
TÓM TẮT LUẬN VĂN ............................................................................................ iii
DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................. iv
DANH MỤC CÁC HÌNH ............................................................................................ v
DANH MỤC CÁC BẢNG ......................................................................................... vi
MỞ ĐẦU ..................................................................................................................... 1

I. Lý do chọn đề tài ................................................................................................. 1
II. Mục tiêu nghiên cứu .......................................................................................... 2
III. Đối tượng và phạm vi nghiên cứu ..................................................................... 2
IV. Phương pháp nghiên cứu .................................................................................. 3
V. Ý nghĩa khoa học và thực tiễn của đề tài ............................................................ 4
VI. Bố cục của luận văn ......................................................................................... 4
Chương 1. TỔNG QUAN VỀ WEB NGỮ NGHĨA ..................................................... 5
1.1. Ontology ......................................................................................................... 5
1.1.1. Khái niệm Ontology ................................................................................ 5
1.1.2. Mục đích xây dựng Ontology .................................................................. 5
1.1.3. Yêu cầu khi sử dụng Ontology ................................................................ 6
1.1.4. Các thành phần Ontology ........................................................................ 7
1.1.5. Ngôn ngữ OWL ....................................................................................... 8
1.2. Khái niệm Web ngữ nghĩa ............................................................................... 9
1.2.1. World Wide Web và những hạn chế ........................................................ 9
1.2.2. Sự ra đời của Web ngữ nghĩa .................................................................. 9
1.2.3. Định nghĩa Web ngữ nghĩa .................................................................... 11
1.3. Kiến trúc Web ngữ nghĩa ............................................................................... 13
1.3.1. Giới thiệu .............................................................................................. 13
1.3.2. Vai trò các tầng trong kiến trúc Web ngữ nghĩa ..................................... 13
1.4. Xây dựng Web ngữ nghĩa .............................................................................. 15
1.4.1. XML và RDF trên Web ......................................................................... 15
1.4.2. Các ngôn ngữ biểu diễn Ontology cho Web có ngữ nghĩa...................... 15
1.4.3. Phát triển nâng cao Web ngữ nghĩa........................................................ 16
1.5. Các ngôn ngữ và công cụ xây dựng Web ngữ nghĩa ....................................... 16
1.5.1. XML (eXtensible Markup Language) .................................................... 16
1.5.2. RDF - Nền tảng của Web ngữ nghĩa ...................................................... 17
1.5.3. RDF Schema ......................................................................................... 25
1.5.4. Truy vấn dữ liệu trên Web ngữ nghĩa (SPARQL) .................................. 30
1.6. Nhận xét ........................................................................................................ 37



ii
Chương 2. GIẢI PHÁP ĐỀ XUẤT ............................................................................ 38
2.1. Quản lý văn bản và hồ sơ............................................................................... 38
2.1.1. Nhu cầu và hiện trạng tra cứu văn bản ................................................... 38
2.1.2. Tổng quan về hồ sơ ............................................................................... 39
2.1.3. Tổng quan về văn bản ........................................................................... 39
2.1.4. Số, ký hiệu của văn bản ......................................................................... 42
2.1.5. Tên loại văn bản .................................................................................... 42
2.1.6. Trích yếu nội dung ................................................................................ 43
2.2. Phân tích về bài toán Tìm kiếm văn bản tại Chi cục VTLT ............................ 44
2.2.1. Giới thiệu bài toán ................................................................................. 44
2.2.2. Tìm kiếm cơ bản và tìm kiếm nâng cao ................................................. 44
2.2.3. Giải pháp ............................................................................................... 48
2.2.4. Các chức năng cơ bản của ứng dụng ..................................................... 49
2.3. Quy trình xây dựng Web ngữ nghĩa ............................................................... 50
2.4. Các công cụ hỗ trợ ......................................................................................... 52
2.4.1. Công cụ xây dựng ứng dụng Protege ..................................................... 52
2.4.2. Bộ Visual Studio.Net............................................................................. 55
2.4.3. Thư viện phát triển ứng dụng ................................................................ 56
2.5. Nhận xét ........................................................................................................ 61
Chương 3. XÂY DỰNG HỆ THỐNG ....................................................................... 62
3.1. Mô hình kiến trúc tổng thể của hệ thống ........................................................ 62
3.2. Phát triển ứng dụng........................................................................................ 64
3.2.1. Qui trình phát triển ứng dụng ................................................................ 64
3.2.2. Môi trường phát triển ứng dụng............................................................. 65
3.2.3. Xây dựng Ontology ............................................................................... 65
3.2.4. Xây dựng giao diện ............................................................................... 70
3.3. Đánh giá kết quả của hệ thống ...................................................................... 73

KẾT LUẬN VÀ KIẾN NGHỊ.................................................................................... 75
DANH MỤC TÀI LIỆU THAM KHẢO.................................................................... 77
PHỤ LỤC .................................................................................................................. 80


iii
TÓM TẮT LUẬN VĂN
XÂY DỰNG ONTOLOGY PHỤC VỤ LƯU TRỮ VÀ TÌM KIẾM
TRỰC TUYẾN CÁC TÀI LIỆU CỦA CHI CỤC VĂN THƯ LƯU TRỮ
TỈNH QUẢNG NGÃI
Học viên: Cao Xuân Hà. Chuyên ngành: Khoa học máy tính.
Mã số: 60480101. Khóa: 33. Trường Đại học Bách khoa - ĐHĐN
Tóm tắt – Công nghệ thông tin (CNTT) đang được ứng dụng rộng rãi và đây là một trong
tiêu chí quan trọng để đánh giá hiệu quả hoạt động của một tổ chức. Cùng với ứng dụng
CNTT và Internet, dữ liệu số đang gia tăng một cách nhanh chóng. Nhu cầu tìm kiếm các
tài liệu số phù hợp với yêu cầu người dùng đã trở nên cấp thiết. Chi cục Văn thư Lưu trữ
tỉnh Quảng Ngãi (Chi cục) đã số hoá và lưu trữ một lượng tài liệu rất lớn và nhu cầu tìm
kiếm tài liệu hiện rất cao. Vì vậy, luận văn này nghiên cứu đề xuất các giải pháp để xây
dựng một hệ thống lưu trữ và tìm kiếm các tài liệu dựa trên Web ngữ nghĩa tại Chi cục.
Đóng góp chính của luận văn là đã xây dựng Ontology phục vụ lưu trữ và một hệ thống
Web để người dùng tìm kiếm trực tuyến các tài liệu lưu trữ tại Chi cục.
Từ khóa – Web ngữ nghĩa, tài liệu số, tìm kiếm, Ontology
EXPANDING
Abstract - Information technology (IT) is widely used and this is one of the important
criteria for evaluating the performance of an organization. Together with IT and the
Internet, digital data is growing rapidly. The need to find digital documents that match the
user requirements has become imperative. The Department of Record and Archives of
Quang Ngãi province (DRAQ) has digitized and archived a huge number of digital
documents and the demand for materials is very high. Therefore, this thesis studies
proposed solutions to build a system for storing and searching Semantic Web - based

documents at the DRAQ. The main contribution of the thesis is to have built Ontology for
storing and a Web system for users to search online archives at the DRAQ.
Key words - Semantic Web, Digital Document, Search Engine, Ontology


iv
DANH MỤC CÁC TỪ VIẾT TẮT

STT

Từ viết tắt

Ý nghĩa

1

CSDL

Cơ sở dữ liệu

2

WWW

World Wide Web

3

CNTT


Công nghệ thông tin

4

Chi cục VTLT

Chi cục Văn thư Lưu trữ tỉnh
Quảng Ngãi


v
DANH MỤC CÁC HÌNH
1. Hình 1.1. Sự cần thiết của Ontology trong quá trình chia sẻ tri thức ............ 6
2. Hình 1.2. So sánh giữa Web 1.0, Web 2.0 và Web 3.0. ................................ 10
3. Hình 1.3. Quá trình phát triển công nghệ Web trong tương lai ..................... 11
4. Hình 1.4. Sơ đồ phát triển tính thông minh của dữ liệu ................................ 12
5. Hình 1.5. Kiến trúc Web ngữ nghĩa qua các thời kỳ...................................... 15
6. Hình 1.6. Mối quan hệ giữa các thành phần trong Triple .............................. 21
7. Hình 2.1. Mẫu của một Quyết định ............................................................... 42
8. Hình 2.2. Mô tả suy luận ngang cấp trong Semantic Web ............................ 49
9. Hình 2.3. Mô tả suy luận ngược trong Semantic Web................................... 51
10. Hình 2.4. Mô hình quan hệ giữa các nút và các cạnh .................................. 58
11. Hình 3.1. Mô hình kiến trúc tổng thể của hệ thống ..................................... 62

12. Hình 3.2. Quy trình truy xuất dữ liệu .................................................. 64
13. Hình 3.3. Các thuộc tính dữ liệu của Data Properies .......................... 66
14. Hình 3.4. Giao diện chính của hệ thống .............................................. 71
15. Hình 3.5. Kết quả tìm kiếm theo “Trường THPT Võ Nguyên Giáp” . 72
16. Hình 3.6. Xem chi tiết văn bản ........................................................... 72



vi
DANH MỤC CÁC BẢNG
Bảng 2.1. Bảng chữ viết tắt tên loại văn bản và bản sao ................................... 44
Bảng 2.2. Các công cụ phát triển Ontology ....................................................... 53
Bảng 2.3. Các lớp chức năng của OwlDotNetApi............................................. 61
Bảng 2.4. Các lớp giao tiếp của OwlDotNetApi ............................................... 62
Bảng 3.1. Mối quan hệ của các lớp và mô tả thuộc tính .................................... 71
Bảng 3.2. Bảng đánh giá kết quả thử nghiệm hệ thống tìm kiếm văn bản ........ 75


1
MỞ ĐẦU
I. Lý do chọn đề tài
Ngày 03.01.1946, Chủ tịch Hồ Chí Minh đã ký Thông đạt số 01 về công tác công
văn, giấy tờ, trong đó nêu rõ: “Tài liệu lưu trữ có giá trị đặc biệt về phương diện kiến thiết
quốc gia”. Đây là văn bản đầu tiên của Nhà nước ta về công tác văn thư lưu trữ, đặt nền
móng cho ngành Lưu trữ Việt Nam hình thành và phát triển.
Đến thời kỳ bùng nổ cuộc cách mạng CNTT, làm tốt công tác lưu trữ sẽ giúp đẩy
mạnh cải cách thủ tục hành chính, giúp cho nhà nước và nhân dân tiết kiệm rất nhiều chi
phí cho việc đi lại, trao đổi, giao dịch, tìm kiếm,… Nhận thức trước được điều đó Bộ
Chính trị đã ban hành Nghị quyết số 36-NQ/TW ngày 01 tháng 7 năm 2014 về đẩy mạnh
ứng dụng, phát triển công nghệ thông tin đáp ứng yêu cầu phát triển bền vững và hội nhập
quốc tế và Nghị quyết 30c/NQ-CP ngày 08/11/2011 về Chương trình tổng thể cải cách
hành chính nhà nước giai đoạn 2011 – 2020. Trong đó đề cập rất nhiều đến Ứng dụng
CNTT - TT trong quy trình xử lý công việc của từng cơ quan hành chính nhà nước, giữa
các cơ quan hành chính nhà nước với nhau và trong giao dịch với tổ chức, cá nhân và
quan trọng nhất là ứng dụng công nghệ thông tin trong hoạt động dịch vụ hành chính
công, dịch vụ công của đơn vị sự nghiệp công.
Hầu hết các cơ quan, đơn vị hiện nay đang lưu trữ tài liệu dưới dạng thủ công bằng

văn bản giấy dẫn đến những hạn chế như: nhàu nát, hỏng, mờ, khó khăn trong việc tìm
kiếm tài liệu, mất nhiều thời gian và không gian lưu trữ. Trong khi đó nhu cầu đặt ra cho
việc tìm kiếm thông tin ngày càng cao. Một số văn bản được đăng tải trên các trang Web
chỉ dừng lại ở việc cung cấp thông tin chứ chưa cung cấp được những tri thức cần thiết
nên đã có những khó khăn nhất định trong việc tìm hiểu, tra cứu.
Như John Naisbitt đã nói: "Chúng ta đang chìm ngập trong thông tin nhưng lại
khát khao tri thức" [11]. Đúng vậy, World Wide Web (WWW) chứa một lượng thông tin
khổng lồ, người sử dụng Web có thể dễ dàng truy cập những thông tin bằng địa chỉ hoặc
theo các liên kết để tìm ra các tài nguyên liên quan khác. Như vậy câu hỏi đặt ra là làm thế
nào để chúng ta có được một kết quả tìm kiếm nhanh nhất và chính xác nhất tới ngữ nghĩa
vấn đề chúng ta mong muốn.
Web 2.0 đã đạt được những thành tựu đáng kể, nhưng nhu cầu của người dùng
không dừng lại ở việc cải thiện tốc độ mà còn phải cải thiện chất lượng xử lý. Web 3.0


2
hay Web ngữ nghĩa ra đời nhằm đáp ứng những yêu cầu về chất lượng đó. Thế mạnh của
Web Ngữ nghĩa là xử lý và tìm kiếm thông tin, cho phép chúng ta xây dựng những CSDL
phục vụ tìm kiếm chính xác. Tim Berners - Lee đã định nghĩa: “Web ngữ nghĩa là sự mở
rộng của Web hiện tại mà trong đó thông tin được định nghĩa rõ ràng sao cho con người
và máy tính có thể làm việc với nhau một cách hiệu quả hơn” [1].
Web ngữ nghĩa sẽ là một sự ra đời tất yếu của quá trình nghiên cứu với ý tưởng
không ngừng phát triển để phù hợp với yêu cầu thực tế của con người. Đây là một xu
hướng mới còn đang được nghiên cứu và tiếp tục phát triển. Nghiên cứu ứng dụng Web
ngữ nghĩa để xây dựng hệ thống tra cứu văn bản hành chính là một việc làm thiết thực,
đáp ứng nhu cầu tìm kiếm chính xác và hỗ trợ rất nhiều cho ngành văn thư lưu trữ mà còn
góp phần rất lớn vào thời kỳ phát triển mới của đất nước.
Xuất phát từ thực tế nêu trên cùng với sự hướng dẫn tận tình của thầy Võ Trung
Hùng, tôi quyết định chọn đề tài: “XÂY DỰNG ONTOLOGY PHỤC VỤ LƯU TRỮ
VÀ TÌM KIẾM TRỰC TUYẾN CÁC TÀI LIỆU CỦA CHI CỤC VĂN THƯ LƯU

TRỮ TỈNH QUẢNG NGÃI” làm luận văn tốt nghiệp.
II. Mục tiêu nghiên cứu
a. Mục tiêu nghiên cứu
Xây dựng một hệ thống phục vụ tra cứu thông tin các văn bản hành chính của Chi
cục Văn thư Lưu trữ tỉnh Quảng Ngãi. Hệ thống mới dựa trên công nghệ Web ngữ nghĩa
nhằm hỗ trợ việc tra cứu, cung cấp những tri thức cần thiết góp phần thực hiện tốt công
tác văn thư, lưu trữ ở tỉnh Quảng Ngãi.
b. Nhiệm vụ của đề tài
- Tìm hiểu cơ sở lý thuyết về Web ngữ nghĩa;
- Tìm hiểu công cụ và phương thức xây dựng ứng dụng;
- Thu thập dữ liệu, khảo sát nhu cầu, hiện trạng tra cứu các văn bản của Chi cục
Văn thư Lưu trữ tỉnh Quảng Ngãi;
- Phân tích, thiết kế hệ thống;
- Xây dựng chương trình, cài đặt, kiểm thử và đánh giá.
III. Đối tượng và phạm vi nghiên cứu
a. Đối tượng nghiên cứu
- Văn bản hành chính của Chi cục Văn thư Lưu trữ tỉnh Quảng Ngãi, nhu cầu và


3
hiện trạng tra cứu.
- Các vấn đề liên quan đến Web ngữ nghĩa.
- Qui trình xây dựng Web ngữ nghĩa.
- Công cụ, ngôn ngữ và công nghệ liên quan đến Web ngữ nghĩa (Protege, RDF,
SPARQL,…).
- Các thư viện phát triển ứng dụng Web ngữ nghĩa (OwlDotNetApi, SemWeb).
- Một số ứng dụng có sẵn của Web ngữ nghĩa.
- Phân tích xử lý dữ liệu đã trích lọc trên các trang Web hiện nay (Giả thuyết dữ
liệu đã được trích lọc).
b. Phạm vi nghiên cứu

Hằng năm, Chi cục Văn thư Lưu trữ tỉnh Quảng Ngãi chỉnh lý và số hóa các tài
liệu tích đống hơn 10 đơn vị, hơn 500.000 văn bản hành chính các loại. Văn bản hành
chính chứa rất nhiều thông tin, trong đề tài này tôi chỉ giới hạn phạm vi tìm kiếm theo: tên
loại, số ký hiệu văn bản, ngày ban hành, nội dung trích yếu, tác giả, tên tệp tin PDF của
văn bản, mối quan hệ ngữ nghĩa giữa các văn bản.
IV. Phương pháp nghiên cứu
a. Giả thiết nghiên cứu
Web ngữ nghĩa sẽ giúp xây dựng hệ thống tra cứu tài liệu của Chi cục Văn thư
Lưu trữ tỉnh Quảng Ngãi nhằm hỗ trợ việc tra cứu, đáp ứng nhu cầu tìm kiếm chính xác
và cung cấp những thông tin cần thiết về tài liệu. Hệ thống tra cứu sẽ góp phần vào công
tác tìm kiếm, khai thác và sử dụng tài liệu tốt hơn so với Web thường.
b. Phương pháp nghiên cứu
- Phương pháp nghiên cứu tài liệu: Tìm hiểu, nghiên cứu tài liệu, công cụ, công
nghệ liên quan đến Web ngữ nghĩa. Thu thập, tổng hợp thông tin về văn bản của Chi cục
Văn thư Lưu trữ tỉnh Quảng Ngãi.
- Phương pháp khảo sát: Tìm hiểu về công tác lưu trữ, quản lý các văn bản của Chi
cục Văn thư Lưu trữ tỉnh Quảng Ngãi. Tìm hiểu hệ thống tra cứu tại Chi cục Văn thư Lưu
trữ tỉnh Quảng Ngãi hiện có.
- Phương pháp thực nghiệm: So sánh những ưu, nhược điểm của các phương pháp,
công cụ xây dựng ứng dụng từ đó đề xuất lựa chọn phương pháp, công cụ thích hợp để
phân tích hệ thống, tiến hành xây dựng ứng dụng.


4
V. Ý nghĩa khoa học và thực tiễn của đề tài
a. Ý nghĩa khoa học: Tiếp cận công nghệ mới về xử lý thông tin của Web ngữ
nghĩa. Phát triển ứng dụng để góp phần phổ biến và từng bước thâm nhập sâu hơn về công
nghệ này.
b. Ý nghĩa thực tiễn: Ứng dụng những thành quả của công nghệ thông tin vào
lĩnh vực văn thư – lưu trữ, góp phần phục vụ tốt việc tìm hiểu nghiên cứu, sử dụng và khai

thác tài liệu của Chi cục Văn thư Lưu trữ tỉnh Quảng Ngãi. Hỗ trợ công tác văn thư, lưu
trữ và tìm kiếm văn bản một cách nhanh nhất. Triển khai ứng dụng ở Chi cục Văn thư
Lưu trữ tỉnh Quảng Ngãi.
VI. Bố cục của luận văn
Chương 1. TỔNG QUAN VỀ WEB NGỮ NGHĨA
Chương này giới thiệu các khái niệm tổng quan về Web ngữ nghĩa, các ngôn ngữ
và công cụ xây dựng Web ngữ nghĩa tính đến thời điểm hiện nay. Nội dung chính tập
trung trình bày về kiến trúc Web ngữ nghĩa, ứng dụng và triển vọng của Web ngữ nghĩa
trong tương lai. Những nội dung ở chương này là cơ sở để đề xuất giải pháp và triển khai
thực nghiệm ở các chương sau.
Chương 2. GIẢI PHÁP ĐỀ XUẤT
Chương này sẽ giới thiệu các khái niệm chung về văn bản, hồ sơ và đặc biệt là giới
thiệu kết quả khảo sát, phân tích hiện trạng và nhu cầu tra cứu thông tin tại Chi cục Văn
thư Lưu trữ tỉnh Quảng Ngãi. Nội dung chính tập trung trên việc phân tích thiết kế hệ
thống. Đề xuất những giải pháp, mô hình hoạt động, công cụ, các thư viện phần mềm
được lựa chọn để xây dựng ứng dụng Web ngữ nghĩa tại Chi cục Văn thư Lưu trữ tỉnh
Quảng Ngãi.
Chương 3. XÂY DỰNG HỆ THỐNG
Chương này trình bày kết quả xây dựng Ontology phục vụ lưu trữ và tìm kiếm trực
tuyến các tài liệu của Chi cục Văn thư Lưu trữ tỉnh Quảng Ngãi. Kết quả xây dựng và thử
nghiệm trang Web ngữ nghĩa hỗ trợ việc tra cứu. Chương này cũng trình bày một số đánh
giá về ứng dụng thử nghiệm và đề xuất hướng phát triển trong thời gian đến.


5
Chương 1. TỔNG QUAN VỀ WEB NGỮ NGHĨA
Trong chương này giới thiệu các khái niệm tổng quan về Web ngữ nghĩa, các
ngôn ngữ và công cụ xây dựng Web ngữ nghĩa. Tìm hiểu kiến trúc Web ngữ nghĩa, ứng
dụng và triển vọng của Web ngữ nghĩa trong tương lai.
1.1. Ontology

1.1.1. Khái niệm Ontology
Trong khoa học máy tính, một Ontology là một mô hình dữ liệu biểu diễn một lĩnh
vực nào đó và được sử dụng để suy luận về các đối tượng trong lĩnh vực đó và mối quan
hệ giữa chúng.
Hiện nay Otology được ứng dụng trong nhiều lĩnh vực khác nhau, một số định
nghĩa được đưa ra như:
- Theo A. Maedche, B Motik và L. Stojanovic (2003): “Ontology là một mô hình
khái niệm có thể chia sẻ và thực thi trên máy trong một phạm vi nhất định” [2]
- Theo Tom Gruber (2008): “Ontology là một tập hợp các đại diện nguyên bản với
mô hình của một miền kiến thức hoặc lập luận” [3]
- Theo như Natalya F. Noy và Deborah L. McGuinness (2011): “Ontology là một
mô tả hình thức rõ ràng của các khái niệm trong phạm vi cụ thể, các thuộc tính của khái
niệm mô tả đặc tính và tính chất của khái niệm, các ràng buộc của thuộc tính” [4]
1.1.2. Mục đích xây dựng Ontology
Ontology được xây dựng nhằm các mục đích sau:
- Chia sẻ những kiến thức chung, các khái niệm, cấu trúc thông tin giữa con người
hoặc giữa các hệ thống phần mềm sẽ được chia sẻ để sử dụng vào nhiều mục đích khác
nhau. Đây là một trong những mục tiêu phổ biến trong việc phát triển Ontology, không
những trong lĩnh vực Semantic Web mà còn trong nhiều ngành, lĩnh vực khác.
- Tái sử dụng tri thức về một miền lĩnh vực đã được xây dựng từ trước. Vấn đề ở
đây là tên các khái niệm được định nghĩa trong các Ontology này có thể giống nhau trong
khi chúng được dùng để mô tả một sự vật hoàn toàn khác nhau. Tuy nhiên cũng có thể có
trường hợp ngược lại, khi tên các khái niệm khác nhau nhưng cùng mô tả một sự vật.
Ngoài ra, làm thế nào để bổ sung các quan hệ, thuộc tính có sẵn vào một hệ thống mới
càng làm cho vấn đề trở nên phức tạp.
- Làm rõ ràng các giả định thuộc lĩnh vực chuyên ngành: Việc sử dụng một


6
Ontology ở bên dưới thay vì dùng ngôn ngữ lập trình sẽ giúp dễ dàng thay đổi những giả

định thuộc lĩnh vực chuyên ngành, khi kiến thức về lĩnh vực này thay đổi.
- Tri thức độc lập với ngôn ngữ: Giải pháp mà Ontology mang lại là cho phép tên
các khái niệm và quan hệ trong Ontology chuẩn thường được xây dựng bằng tiếng Anh.
Điều này có thể sẽ phá vỡ phần nào rào cản về mặt ngôn ngữ khi mà kết quả tìm kiếm sẽ
không bó gọn trong từ khóa và ngôn ngữ mà nó sử dụng. Ngoài ra, Ontology có thể sẽ trở
thành hướng đi mới cho một lĩnh vực đã quen thuộc là dịch tài liệu tự động. Có thể nói
như vậy, bởi ngữ nghĩa các từ vựng trong văn bản sẽ được dịch chính xác hơn khi được
ánh xạ vào đúng ngữ cảnh của nó.
- Tri thức trở nên nhất quán và tường minh: Các khái niệm khác nhau trong một
hay nhiều lĩnh vực cụ thể có thể cùng tên và gây nhập nhằng về ngữ nghĩa, tuy nhiên khi
được đưa vào một hệ thống Ontology thì tên mỗi khái niệm là duy nhất. Một giải pháp
cho vấn đề này là Ontology sẽ sử dụng các tham khảo URI làm định danh thật sự cho khái
niệm trong khi vẫn sử dụng các nhãn gợi nhớ bên trên để thuận tiện cho người dùng.

Hình 1.1. Sự cần thiết của Ontology trong quá trình chia sẻ tri thức
Trong hình trên ta thấy các ứng dụng khác nhau, muốn trao đổi thông tin với nhau
thì cần phải có một tri thức chung, vì vậy các ứng dụng này đều sử dụng một Ontology
để có thể chia sẻ tri thức cho nhau.
1.1.3. Yêu cầu khi sử dụng Ontology
Ngôn ngữ Ontology cho phép người sử dụng viết rõ ràng các khái niệm hình thức
của mô hình miền và phải đảm bảo những yêu cầu cơ bản sau:


7
- Cấu trúc rõ ràng: Đây là điều kiện cần cho máy có thể xử lý thông tin.
- Ngữ nghĩa hình thức miêu tả ý nghĩa tri thức một cách chính xác: Ý nghĩa của
ngữ nghĩa hình thức tồn tại trong một thời gian dài trong miền toán logic. Việc sử dụng
ngữ nghĩa hình thức cho phép con người suy diễn tri thức. Với tri thức trong Ontology
chúng ta có thể suy diễn về:
+ Thành viên của lớp: Nếu x là một thể hiện của lớp C và C là lớp con của lớp D

thì chúng ta có x là thể hiện của lớp D
+ Các lớp tương đương: Nếu lớp A tương đương với lớp B và lớp B tương đương
với lớp C, thì lớp A cũng tương đương với lớp C.
+ Tính nhất quán: Giả sử chúng ta khai báo x là thể hiện của lớp A và A là lớp con
của B∩C, A là lớp con của lớp D, Lớp B và lớp D không có quan hệ với nhau (disjoint).
Thì chúng ta không nhất quán bởi vì A nên là rỗng nhưng lại có thể hiện là x. Đây là một
dấu hiệu của một lỗi trong Ontology.
+ Phân loại: Nếu chúng ta khai báo các cặp thuộc tính giá trị đã biết là điều kiện đủ
cho thành viên trong một lớp A, thì nếu một cá thể x thỏa mãn các điều kiện, chúng ta có
thể kết luận x phải là một thể hiện của A.
+ Ngữ nghĩa là điều kiện tiên quyết cho việc hỗ trợ suy diễn: Hỗ trợ suy diễn rất
quan trọng bởi vì nó cho phép kiểm tra tính nhất quán của Ontology và tri thức, kiểm tra
các quan hệ thừa giữa các lớp, tự động phân loại các thể hiện trong lớp.
Ngữ nghĩa hình thức và hỗ trợ suy diễn thường được cung cấp bởi việc ánh xạ một
ngôn ngữ Ontology đến hình thức logic và sử dụng suy diễn tự động bởi các hình thức
luôn tồn tại. OWL được ánh xạ logic miêu tả và sử dụng các suy diễn đang tồn tại như
FaCT và RACER. Các logic mô tả là tập con của logic vị từ nhằm hỗ trợ suy diễn hiệu
quả.
1.1.4. Các thành phần Ontology
Ontology được sử dụng như là một biểu mẫu trình bày tri thức về thế giới hay
một phần của nó. Ontology thường miêu tả: cá thể (Individuals), lớp (Classes), thuộc
tính (Propertises) và quan hệ (Relation).
Bộ từ vựng Ontology được xây dựng trên cơ sở tầng RDF và RDFS, cung cấp
khả năng biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên Web và có khả năng hỗ trợ lập
luận.


8
- Cá thể (Individuals): Thể hiện các cá thể là các thành phần cơ bản, nền tảng của
một Ontology. Các cá thể trong một Ontology có thể bao gồm các đối tượng cụ thể như

con người, động vật, đồ vật… cũng như các cá thể trừu tượng như các thành viên hay các
từ. Một Ontology có thể không cần bất kỳ một cá thể nào, nhưng một trong những lý do
chính của một Ontology là để cung cấp một ngữ nghĩa của việc phân lớp các cá thể, mặc
dù các cá thể này không thực sự là một phần của Ontology.
- Lớp (Classes) là những nhóm, bộ hoặc tập hợp các đối tượng. Một lớp có thể
gộp nhiều lớp hoặc được gộp vào lớp khác. Một lớp gộp vào lớp khác được gọi là lớp con
của lớp gộp. Điều quan trọng của quan hệ xếp gộp là tính kế thừa.
- Thuộc tính (Properties): Các đối tượng trong Ontology có thể được mô tả thông
qua việc khai báo các thuộc tính của chúng. Mỗi một thuộc tính đều có tên và giá trị của
thuộc tính đó. Các thuộc tính được sử dụng để lưu trữ các thông tin mà đối tượng có thể
có. Ví dụ đối với một cá nhân có thể có các thuộc tính: họ_tên, ngày_sinh, quê_quán,
số_cmnd,… Giá trị của một thuộc tính có thể có các kiểu dữ liệu phức tạp.
- Quan hệ (Relation): Một trong những ứng dụng quan trọng của việc sử dụng các
thuộc tính là để mô tả mối liên hệ giữa các đối tượng trong Ontology. Một mối quan hệ là
một thuộc tính có giá trị là một đối tượng nào đó trong Ontology. Một kiểu quan hệ quan
trọng là kiểu quan hệ xếp gộp (subsumption). Kiểu quan hệ này mô tả các đối tượng nào
là các thành viên của các lớp nào của các đối tượng..
1.1.5. Ngôn ngữ OWL
OWL (The Web Ontology Language) là một ngôn ngữ gần như XML dùng để
mô tả các hệ cơ sở tri thức. OWL là một ngôn ngữ đánh dấu dùng để xuất bản và chia sẻ
dữ liệu trên Internet thông qua những mô hình dữ liệu gọi là “Ontology”. Ontology mô tả
một lĩnh vực (Domain) và diễn tả những đối tượng trong lĩnh vực đó cùng những mối
quan hệ giữa các đối tượng này. OWL là phần mở rộng về từ vựng của RDF và được kế
thừa từ ngôn ngữ DAML+OIL Web Ontology (Dự án được hỗ trợ bởi W3C). OWL biểu
diễn ý nghĩa của các thuật ngữ trong các từ vựng và mối liên hệ giữa các thuật ngữ này
để đảm bảo phù hợp với quá trình xử lý bởi các phần mềm.
OWL được xem như là một kỹ thuật trọng yếu để cài đặt cho Web ngữ nghĩa
trong tương lai. OWL được thiết kế đặc biệt để cung cấp một cách thức thông dụng trong
việc xử lý nội dung thông tin của Web. Ngôn ngữ này được kỳ vọng rằng sẽ cho phép các



9
hệ thống máy tính có thể đọc được thay thế cho con người. Vì OWL được viết bởi XML,
các thông tin OWL có thể dễ dàng trao đổi giữa các kiểu hệ thống máy tính khác nhau, sử
dụng các hệ điều hành và các ngôn ngữ ứng dụng khác nhau. Mục đích chính của OWL
là cung cấp các chuẩn để chia sẻ cũng như tái sử dụng dữ liệu trên Web. OWL được phát
triển vì nó có nhiều tiện lợi để biểu diễn ý nghĩa và ngữ nghĩa hơn so với XML, RDF và
RDFS. Ngoài ra, OWL ra đời sau các ngôn ngữ này, nó có khả năng biểu diễn các nội
dung mà máy có thể biểu diễn được trên Web.
Hiện nay có ba loại OWL: OWL Lite, OWL DL (Description Logic), và OWL
Full.
1.2. Khái niệm Web ngữ nghĩa
1.2.1. World Wide Web và những hạn chế
Hệ thống mạng Internet đã trở nên rộng khắp, là nguồn kiến thức vô tận mang lại
nhiều lợi ích. Cùng với sự phát triển đó là việc một loạt các tiêu chuẩn được thiết lập rộng
rãi và đảm bảo được các thành phần ở các mức độ khác nhau. Tuy nhiên, tài nguyên thông
tin trên Web ngày càng nhiều và đa dạng, điều này làm nảy sinh vấn đề là làm thế nào để
tìm kiếm chính xác tài nguyên mình mong muốn. Với công nghệ Web hiện nay, các công
cụ tìm kiếm như Google, Yahoo, Bing,… chỉ giúp chúng ta tìm được những tài liệu có
chứa từ khóa. Dữ liệu trong các file HTML có thể hữu ích ở ngữ cảnh này nhưng vô nghĩa
đối với ngữ cảnh khác.
Chính vì vậy Semantic Web, thế hệ Web 3.0 ra đời, bao gồm các dịch vụ dựa trên
nền tảng máy tính có thể hiểu được nội dung thông tin trên Web, thông tin được tìm kiếm
một cách nhanh chóng và chính xác hơn, khả năng suy luận thông minh, dữ liệu liên kết
động, khắc phục những hạn chế Web hiện tại và đáp ứng tốt nhu cầu ứng dụng của con
người.
1.2.2. Sự ra đời của Web ngữ nghĩa
World Wide Web (WWW) chứa một lượng thông tin khổng lồ, người sử dụng
Web có thể dễ dàng truy cập những thông tin bằng địa chỉ hoặc theo các liên kết để tìm ra
các tài nguyên liên quan khác. Tuy nhiên, các trang Web hiện nay hầu hết được sử dụng

bởi con người, máy tính chỉ có nhiệm vụ gửi nhận dữ liệu và thể hiện thông tin dưới dạng
mà chỉ có con người mới đọc hiểu được. Người sử dụng phải làm nhiệm vụ tìm kiếm, suy
luận, tổng hợp và trích rút thông tin mình cần. Điều đó đã đặt ra thách thức là làm sao để


10
khai thác thông tin trên Web hiệu quả hay nói cách khác là làm thế nào để máy tính có thể
xử lý tự động được chúng. Muốn vậy thì Web phải có khả năng mô tả thông tin theo cách
mà máy tính có thể hiểu được. Để chúng ta dễ dàng có được một kết quả tìm kiếm chính
xác, nhanh chóng và hiểu dần tới ngữ nghĩa vấn đề chúng ta mong muốn [9].

Hình 1.2. So sánh giữa Web 1.0, Web 2.0 và Web 3.0
Sự kế thừa và phát triển các thế hệ Web trong quá trình phát triển công nghệ Web
là một điều tất yếu. Từ thế hệ Web đầu tiên là những trang HTML thủ công đến Web hiện
tại – Web 2.0 đã dùng các liên kết URI, ngôn ngữ HTLM, XML và đã đạt được những
thành tựu đáng kể trong việc tìm kiếm. Tuy nhiên, ở thế hệ Web này thông tin được biểu
diễn dưới dạng văn bản thô, chỉ có con người mới đọc và hiểu được thì việc tìm kiếm
trong một lượng lớn thông tin ngày càng ít hiệu quả hơn. Hơn nữa nhu cầu của người
dùng không dừng lại ở đó mà còn đòi hỏi thông tin trên Web phải được định nghĩa rõ ràng
sao cho con người và máy tính có thể làm việc với nhau một cách có hiệu quả hơn. Web
3.0 - Web ngữ nghĩa ra đời nhằm đáp ứng những yêu cầu về xử lý và tìm kiếm thông tin,
cho phép chúng ta xây dựng những CSDL phục vụ tìm kiếm chính xác.


11

Hình 1.3. Quá trình phát triển công nghệ Web trong tương lai
Hình 1.3 minh họa rõ hơn khả năng đáp ứng nhu cầu tìm kiếm ngày càng cao với
lượng thông tin khổng lồ của Web ngữ nghĩa trong tương lai. Đảm bảo mục tiêu của Web
ngữ nghĩa là phát triển các chuẩn chung và công nghệ cho phép máy tính có thể hiểu được

nhiều hơn thông tin trên Web, sao cho chúng có thể hỗ trợ tốt hơn việc khám phá thông
tin, tích hợp dữ liệu và tự động hóa các công việc.
1.2.3. Định nghĩa Web ngữ nghĩa
Semantic Web hay còn được gọi là Web ngữ nghĩa hay Web 3.0, là sự mở rộng nối
tiếp của các Web thế hệ trước, được đưa ra bởi Tim Berners-Lee vào khoảng năm 1998
[12]. Web ngữ nghĩa là một cỗ máy tìm kiếm, có khả năng hỗ trợ người dùng tìm kiếm
các thông tin một cách thông minh, chính xác và nhanh chóng hơn. Lợi ích của Web ngữ
nghĩa là máy tính có thể hiểu được nội dung thông tin trên Web, thông tin được tìm kiếm
một cách chính xác và nhanh chóng hơn, dữ liệu liên kết động và hỗ trợ sự tự động hóa
cho các dịch vụ.


12

Hình 1.4. Sơ đồ phát triển tính thông minh của dữ liệu
Hình 1.4 chỉ ra sự phát triển liên tục của tính thông minh dữ liệu có bốn bậc quan
trọng. Bốn bậc này biểu diễn từ dữ liệu có tính thông minh thấp nhất đến dữ liệu đã có
thông tin đủ ngữ nghĩa để máy thực hiện suy luận về nó.
- Bậc 1: Văn bản và cơ sở dữ liệu (bậc này là tiền XML): Bậc đầu tiên, hầu hết dữ
liệu ở bậc này được sở hữu độc quyền cho một ứng dụng. Do vậy tính thông minh là nằm
trong ứng dụng đó chứ không phải là trong dữ liệu.
- Bậc 2: Tài liệu XML với miền đơn: Ở bậc này, dữ liệu đạt được là ứng dụng độc
lập với miền riêng. Bây giờ, dữ liệu đủ thông minh để có thể di chuyển giữa các ứng dụng
trong một miền đơn. Ví dụ: Các chuẩn XML trong chăm sóc sức khoẻ, bất động sản…
- Bậc 3: Các phân loại và tài liệu với các bộ từ vựng hỗn hợp: Trong bậc này, dữ
liệu có thể được soạn từ đa miền và được phân lớp chính xác theo một nguyên tắc phân
loại có thứ bậc. Thực tế, sự phân lớp đó có thể được sử dụng để khám phá dữ liệu. Các
quan hệ đơn giản giữ các lớp có thể được sử dụng để quan hệ và do vậy, ta có dữ liệu kết
hợp. Như vậy, dữ liệu bây giờ thông minh đủ để khám phá dễ dàng và được kết hợp một
cách hợp lý với dữ liệu khác.

- Bậc 4: Các Ontology và các luật lập luận: Trong mức này, dữ liệu mới có thể
được suy ra từ những dữ liệu đã có theo các luật logic. Thực chất, dữ liệu bây giờ thông
minh đủ để được mô tả với các quan hệ cụ thể và các dạng hình thức phức tạp. Một ví dụ


13
về sự phức tạp của dữ liệu là việc chuyển tự động tài liệu trong một miền này sang một tài
liệu tương đương trong một miền khác. Ở mức này, ta có thể soạn một định nghĩa mới
trên Web ngữ nghĩa, máy có thể xử lý các tài liệu Web có dữ liệu thông minh. Hơn nữa, ta
có thể định nghĩa dữ liệu thông minh vì dữ liệu nó độc lập với ứng dụng, có thể soạn,
phân lớp và lấy một phần của các hệ thông tin lớn hơn.
Như vậy, việc xây dựng Web ngữ nghĩa chủ yếu tập trung xây dựng hệ thống Web
có dữ liệu thông minh. Dữ liệu thông minh ở đây không có nghĩa là gắn liền với trí tuệ
nhân tạo, không phải là cho máy học hiểu các từ ngữ của con người hay máy xử lý được
ngôn ngữ tự nhiên. Mà là giúp máy tính tổ chức lựa chọn dữ liệu biểu diễn trong ngôn
ngữ được cấu trúc để máy có thể hiểu.
1.3. Kiến trúc Web ngữ nghĩa
1.3.1. Giới thiệu
Tim Berners Lee đã đưa ra mô hình kiến trúc Web ngữ nghĩa đầu tiên trong một
phiên họp toàn thể vào ngày 28 tháng 2 năm 2001 [5], một mô hình kiến trúc gồm 7 tầng.
Trong đó, các tầng trên kế thừa các tầng thấp hơn với cơ sở là các chuẩn để mô tả siêu dữ
liệu và để đảm bảo độ an toàn và giá trị thông tin trở nên tốt nhất. Mô hình kiến trúc đang
được thay đổi và hoàn thiện theo thời gian.

2001

2007

Hình 1.5. Kiến trúc Web ngữ nghĩa qua các thời kỳ
1.3.2. Vai trò các tầng trong kiến trúc Web ngữ nghĩa

a. Tầng URI và IRI
URI: Là một chuỗi định danh Web như các chuỗi bắt đầu bằng http hay ftp URL:
Bảo đảm việc sử dụng tập các kí tự quốc tế và cung cấp phương tiện nhằm định danh các


14
đối tượng trong Semantic Web.
IRI được định nghĩ bởi Internet Engineering Task Force (IETF) vào năm 2005 như
một tiêu chuẩn Internet mới để mở rộng cho lược đồ Uniform Resource Identifier (URI).
Tiêu chuẩn mới đã được công bố trong RFC 3987.
b. Tầng XML
XML: Là một mở rộng của ngôn ngữ đánh dấu cho các cấu trúc tài liệu bất kỳ, dựa
theo chuẩn SGML do tổ chức ISO chuẩn hóa năm 1986. Một XML bao gồm một tập các
thẻ đóng và thẻ mở được lồng vào nhau, ở đó mỗi một cặp thẻ có một cặp các thuộc tính
và giá trị. XML sẽ tiếp tục đóng một vai trò quan trọng trong sự phát triển của Semantic
Web.

c. Tầng RDF và RDFS
RDF: Là công cụ để mô tả thông tin về các tài nguyên cho Semantic Web một
cách linh động. Nó có thể được sử dụng để biểu diễn các thông tin như văn hóa, đời sống,
xã hội,...
RDFS: Là một ngôn ngữ Ontology cơ bản mô tả đối tượng như thuộc tính, các lớp.
Nó phát triển và mở rộng từ RSF, bổ sung thêm các tập từ vựng để hỗ trợ cho việc xây
dựng Ontology.
d. Tầng Ontology
Ontology: Là cấu trúc dữ liệu biểu diễn ngữ nghĩa nâng cao. Được phát triển trên
cở sở hạ tầng RDF và RDFS, một Ontology định nghĩa một bộ từ vựng mang tính phổ
biến và cho phép các nhà phát triển chia sẻ thông tin trong một hay nhiều lĩnh vực.
e. Tầng Logic
Việc biểu diễn các tài nguyên dưới dạng các bộ từ vựng Ontology có mục đích để

máy có thể lập luận được mà cơ sở lập luận chủ yếu dựa vào logic. Chính vì vậy mà các
Ontology được ánh xạ sang logic, cụ thể là logic mô tả để có thể hỗ trợ lập luận
f. Tầng Proof
Tầng này sử dụng các luật của lớp trên (lớp Logic) để kiểm tra tính đúng đắn của
một suy diễn nào đó.
g. Tầng Trust
Tầng này sử dụng các ký hiệu số và các loại tri thức khác. Đây cũng là mức cao
nhất và là khái niệm cốt yếu để đảm bảo tính tin cậy của các ứng dụng trên Web ngữ


15
nghĩa.
h. Tầng User Interface & Application
Đây là tầng cuối cùng của kiến trúc Semantic Web. Là tầng giao diện giao tiếp
với người sử dụng, nhận yêu cầu từ người dùng và đưa đến các tầng khác cũng như hiển
thị kết quả trả lại người dùng.
1.4. Xây dựng Web ngữ nghĩa
Để xây dựng hệ thống Web ngữ nghĩa thay thế cho World Wide Web hiện tại, các
nhà nghiên cứu đang nỗ lực và tập trung nghiên cứu với ba hướng chính sau:
- Chuẩn hoá các ngôn ngữ biểu diễn dữ liệu (XML) và siêu dữ liệu (RDF) trên
Web.
- Chuẩn hoá các ngôn ngữ biểu diễn Ontology cho Web có ngữ nghĩa.
- Phát triển nâng cao Web ngữ nghĩa (Semantic Web Advanced Development SWAD).
1.4.1. XML và RDF trên Web
Như chúng ta đã biết, World Wide Web đã rất thành công bởi ngôn ngữ XML.
XML đã làm cho công nghệ Web phát triển mạnh mẽ như hiện nay. Web ngữ nghĩa được
phát triển trên nền Web hiện tại và trên nền XML. Web ngữ nghĩa được bổ sung các chú
thích ngữ nghĩa cho các tài nguyên Web và W3C đã giới thiệu RDF là chuẩn cú pháp để
tạo, thay đổi và sử dụng chú thích trong Web ngữ nghĩa. Do vậy việc xây dựng ngôn ngữ
chuẩn cho XML và RDF là thiết yếu để biểu diễn dữ liệu cho Web ngữ nghĩa. Trong quá

trình này, đã có một số cú pháp được đưa ra để biểu diễn RDF như: Notation 3 (hay N3),
XML/RDF hay đồ thị các mệnh đề của RDF như đã trình bày ở trên. Các cú pháp này hỗ
trợ biểu diễn dữ liệu cho máy có thể hiểu được.
1.4.2. Các ngôn ngữ biểu diễn Ontology cho Web có ngữ nghĩa
Ontology đóng vai trò then chốt trong việc cung cấp tài nguyên có thể truy nhập
để xử lý tự động bằng cách cung cấp bộ từ vựng cho việc đánh dấu ngữ nghĩa. Để biểu
diễn Ontology cho phát triển Web có ngữ nghĩa cần thiết đưa ra một ngôn ngữ chuẩn
cho sự biểu diễn mềm dẻo, linh hoạt và đa dạng của tài nguyên Web.
Trong quá trình chuẩn hoá ngôn ngữ biểu diễn Ontology, một số ngôn ngữ được
đề xuất với các khả năng biểu diễn tăng dần như: RDFS, DAML+OIL, OWL,… và tiếp tục
được mở rộng trong tương lai. Các ngôn ngữ này có khả năng biểu diễn tăng dần nhưng


16
tương ứng là khả năng quyết định giảm dần (Độ phức tạp tăng dần). Các ngôn ngữ biểu
diễn Ontology được xây dựng phải cân bằng được khả năng biểu diễn và độ phức tạp
tính toán. Các ngôn ngữ này được xây dựng trên nền các chuẩn XML, RDF và thường sử
dụng cơ sở logic là logic mô tả để biểu diễn ngữ nghĩa và hỗ trợ lập luận.
1.4.3. Phát triển nâng cao Web ngữ nghĩa
Việc chuẩn hoá các ngôn ngữ biểu diễn dữ liệu XML, siêu dữ liệu RDF hay ngôn
ngữ biểu diễn Ontology là các công việc nền tảng tạo ra chuẩn chung cơ sở để phát triển
hệ thống và các ứng dụng trên Web ngữ nghĩa. Việc đưa các chuẩn đó thành các thể hiện,
các sản phẩm của hệ thống Web ngữ nghĩa là công việc của SWAD (Semantic Web
Advanced Development). SWAD thực hiện nghiên cứu và đưa ra các thể hiện của Web
ngữ nghĩa trên công nghệ cơ sở và nó cũng bổ sung, hoàn thiện các công nghệ cơ sở này.
Nó chỉ ra các công nghệ Web ngữ nghĩa được sử dụng như thế nào? Mục tiêu cụ thể của
SWAD là sử dụng các công nghệ, kỹ thuật và các công cụ hiện có của Web ngữ nghĩa
để tạo ra các chương trình vượt xa hơn tầm hiện có, cung cấp các công cụ và các chuẩn
mới cho Web ngữ nghĩa.
Để phát triển SWAD hiện tại đã có một số dự án của các tổ chức thực hiện

nghiên cứu và phát triển như: SWAD-Europe, SWAD-DAML, SWAD-Simile, SWADOxygen.
1.5. Các ngôn ngữ và công cụ xây dựng Web ngữ nghĩa
Ngôn ngữ biểu diễn dữ liệu và tri thức là một khía cạnh quan trọng của Web ngữ
nghĩa. Có nhiều ngôn ngữ cho Web ngữ nghĩa, hầu hết những ngôn ngữ này dựa trên
XML hay sử dụng XML làm cú pháp. Một số ngôn ngữ sử dụng RDF và RDFschema.
1.5.1. XML (eXtensible Markup Language)
- XML là một đặc tả cho các tài liệu (Document) mà máy tính đọc được.
- Đánh dấu (Markup) có nghĩa là các chuỗi ký tự nào đó trong tài liệu có chứa
thông tin chỉ ra vai trò nội dung của tài liệu. Markup mô tả sơ đồ (Layout) dữ liệu của tài
liệu (Document) và cấu trúc logic. Markup làm thông tin tự mô tả tùy vào cảm nhận.
+ Markup được mô tả dưới dạng các từ trong dấu ngoặc nhọn hay còn gọi là tag.
Ví dụ: <name> hay

Về khía cạnh này, XML giống như HTML, nhưng tính
mở rộng của ngôn ngữ chỉ ra sự khác biệt quan trọng và cũng là đặc điểm chính của
XML. XML thực sự là một siêu ngôn ngữ mô tả dữ liệu (Metalanguage), là một cơ cấu


×