Ứng dụng công nghệ Semantic Web để xây dựng hệ thống tra cứu thông tin bài thuốc YHCT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.68 MB, 26 trang )

Trang 1<div class="page_container" data-page="1">

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG

UNG DUNG CONG NGHE SEMANTIC WEB DE XAY DUNG

HE THONG TRA CUU THONG TIN BAI THUOC Y HOC CO TRUYEN

Chuyén nganh: KHOA HOC MAY TINH

Mã số: 60.48.01.01

TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT

HÀ NỘI - 2015

</div>Trang 2<div class="page_container" data-page="2">

Luận văn được hồn thành tại:

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG

Người hướng dẫn khoa học: PGS.TS Lê Hữu Lập

Phản biện 1: TS. Phan Xuân Hiếu

Phản biện 2: TS. Hoàng Lê Minh

Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ tại Học viện

Công nghệ Bưu chính Viễn thơng

Vào lúc: ... giờ....ngày tháng năm 2015.

Có thé tìm hiểu luận văn tại:

- Thư viện của Học viện Cơng nghệ Bưu chính Viễn thơng.

</div>Trang 3<div class="page_container" data-page="3">

MỞ ĐẦU

1. Tính cấp thiết của đề tài:

Hiện nay trong ngành Y đặc biệt là chuyên ngành Y học cô truyền, với thông

tin bệnh va bai thuốc YHCT 1a vơ cùng lớn, việc sau chan đốn là đưa ra các bài

thuốc tốt, đạt hiệu quả điều trị cao cho bệnh nhân là một van dé hết sức quan trọng.

Muốn vậy, họ phải tìm hiểu kỹ thơng tin bệnh nhân, tìm hiểu các bài thuốc cơ

phương, các bai thuốc kinh nghiệm để ra đơn thuốc cho bệnh nhân, việc tìm kiếm

thông tin bài thuốc cho điều trị gặp phải rất nhiều khó khăn một vấn đề được đặt ra

làm sao tìm kiếm được thơng tin bài thuốc một cach dé dàng nhanh chóng và chính xác ngay cả khi các bác sĩ quên tên bài thuốc. Hiện nay cũng có một số hệ thơng

cũng hỗ trợ tra cứu và tìm kiếm xong kết quả trả về chưa được chính xác thơng tin

chưa có tính chọn lọc. Vì vậy việc xây dựng một cơng cụ hỗ trợ tìm kiếm mức cao hơn dé trợ giúp các bác sĩ YHCT có thể tham khảo, sử dụng góp phan nâng cao chất

lượng khám và điều trị là điều cần thiết. Qua việc tìm hiểu về công nghệ Semantic

Web tôi chọn dé tai: “Ứng dụng công nghệ Semantic Web để xây dựng hệ thống tra cứu thông tin bài thuốc YHCT”

z RK À .^A r

2. Tông quan về vân đề nghiên cứu:

Hiện tại trong nước và trên thé giới đã có rất nhiều nhà nghiên cứu khoa học, nhiều công ty đã và đang nghiên cứu, phát triển các ứng dụng dựa trên nền tảng công nghệ Semantic Web trên nhiều lĩnh vực. Tuy nhiên với lĩnh vực Y học cơ

truyền thì chưa có một đề tài ứng dụng công nghệ Semantic web. Ở Việt Nam nền

YHCT phát triển rất mạnh mẽ, với hàng nghìn bài thuốc cơ phương, bai thuốc gia

truyền được truyền từ nhiều đời, YHCT có vai trị và tiềm năng to lớn trong sự

nghiệp chăm sóc và bảo vệ sức khoẻ nhân dân trong suốt hàng ngàn năm đấu tranh

dựng nước và giữ nước. Trong nhiều năm qua Đảng và Nhà nước đã có các Nghị

quyết, Chi thị chỉ đạo ngành y tế phối hợp với các ngành, các té chức xã hội nghiên cứu kế thừa, bảo tồn và phát triển YHCT, kết hợp YHCT với YHHĐ nhằm xây

dựng nền Y Dược học Việt Nam hiện đại, khoa học, dân tộc và đại chúng. Tổ chức kế thừa được nhiều bài thuốc hay, cây thuốc quý của các lương y trên mọi miền đất

nước đã sưu tầm và lưu lại hàng ngàn cây thuốc, bài thuốc kinh nghiệm của đồng

</div>Trang 4<div class="page_container" data-page="4">

bào các dân tộc ít người; tổ chức nghiên cứu ứng dụng và nghiên cứu kết hợp, từng bước phát huy được tiềm năng của YHCT.

3. Mục đích nghiên cứu:

Nghiên cứu cơng nghệ Semantic Web, tìm hiểu hướng phát triển một ứng dụng sử dụng công nghệ Semantic Web. Từ đó phát triển ứng dụng tra cứu thông tin bài thuốc YHCT.

4. Đối tượng và phạm vi nghiên cứu:

- Đối tượng nghiên cứu: Semantic Web, phương pháp xây dựng và lưu trữ dữ liệu trong Semantic Web, các công cụ dé xây dựng Semantic Web, các ngơn ngữ

lập trình, các gói thư viện mở rộng, cấu trúc thông tin của bệnh học và bài thuốc

- Phạm vi nghiên cứu:

+ Xây dựng bộ từ vựng Ontology về bệnh học và bài thuốc YHCT.

+ Xây dựng ứng dụng dé tra cứu thông tin bệnh và bài thuốc YHCT

trên cơ sở bộ từ vựng đã tạo.

+ Đề tài sử dung nguồn csdl bài thuốc và bệnh sẵn có.

5. Phương pháp nghiên cứu:

- Phương pháp nghiên cứu lý thuyết:

+ Nghiên cứu tài liệu, công cụ và công nghệ liên quan.

+ Tổng hợp các tài liệu, dữ liệu. - Phương pháp khảo sát

+ Tìm hiểu hệ thống tra cứu thơng tin bệnh và bài thuốc y học cô truyền tại bệnh viện YHCT hoặc trên mạng.

+ Khảo sát thông tin từ chuyên gia YHCT, người nghiên cứu khoahọc, sinh viên trường YHCT.

- Phương pháp nghiên cứu thực nghiệm

+ Phân tích hệ thống và xây dựng ứng dụng.

</div>Trang 5<div class="page_container" data-page="5">

NỘI DUNG

Chương 1: SEMANTIC WEB

Trong chương này, tơi trình bày những kết quả nghiên cứu tổng quan về

Semantic Web, các vấn dé liên quan đến Semantic Web, Giới thiệu một số cơng cụ

pho biến.

1.1. Khái niệm Semantic Web

1.1.1. Sự tiến hóa web

Thế hệ Web 1.0 ra đời năm 1997 bởi chính cha đẻ của World Wide Web

(WWW) là Tim Berners-Lee.-Lee định nghĩa Web 1.0 là cấu trúc thơng tin chỉ có thé dé đọc.

Web 2.0 chính thức được định nghĩa bởi Dale Dougherty trong một cuộc hội

thảo tô chức năm 2004. Theo đó, 2.0 là thế hệ Web mới mà người sử dụng vừa có thé đọc các thơng tin hay nội dung, vừa có thé viết hay bổ sung vào đó dé tạo nên những thơng tin hay nội dung mới.

Giữa lúc Web giao tiếp xã hội 2.0 đang thời kỳ thịnh hành thì những dấu

hiệu của một thế hệ Web mới đã bắt đầu xuất hiện. Web semantic đã được

Berners-Lee đưa ra từ trước. Nhưng dựa trên những dấu hiệu xuất hiện thực tế này, năm 2006 John Marshoff của tờ New York Times đề nghị gọi đó là thế hệ Web 3.0 hay

Semantic Web.

1.1.2. Khai niệm Semantic Web

Nam 2001, Tim Berners-Lee về Semantic Web : “Semantic Web là một sự

mở rộng của Web hiện tại mà ở đó, thơng tin được định nghĩa tốt hơn, giúp máy tính và con người có thể làm việc hợp tác với nhau”.

Với sự nhìn nhận mới về đữ liệu, chúng ta có một cách nói khác về Semantic Web: Semantic Web là một Web với dữ liệu thông minh mà máy tính có thê xử lý.

W3C cũng dua ra một định nghĩa về Semantic Web: “Semantic Web là một sự nhìn nhận, đó là ý tưởng về việc dữ liệu trên Web được định nghĩa và sử dụng theo cách mà nó có thể được sử dụng bởi máy tính khơng chỉ với mục đích hiển thị

</div>Trang 6<div class="page_container" data-page="6">

mả cịn nhằm mục đích tự động phân tích, sử dụng lại dữ liệu qua các ứng dụng

1.1.3. Những điểm vượt trội của Semantic Web

1.1.3.1. Máy tính có thé hiểu được thơng tin trên Web

1.1.3.2. Thơng tin được tìm kiếm nhanh chóng và chính xác hơn 1.1.3.3. Phân tán và liên kết dữ liệu

1.1.3.4. Hỗ trợ công cụ tự động hóa

1.1.3.5. Hỗ trợ các dịch vụ web (web services) 1.2. Kiến trúc Semantic Web

Hiện nay, đã có rất nhiều sơ đồ kiến trúc về Semantic Web khác nhau được

cơng bó. Theo bài thuyết trình của Tim Berners-Lee tại hội thảo AAAI vào tháng 7

năm 2006 thì kiến trúc của Semantic Web được mô tả như sau:

</div>Trang 7<div class="page_container" data-page="7">

1.2.1. Lớp URI (Uniform Resource Identifier)

URI là bộ định danh các tài nguyên trên Web. Nó là một chuỗi ngăn gon các

kí tự được dùng để định danh một tên hay một tài nguyên.

1.2.3. Lớp XML (Extensible Markup Language)

XML là một ngơn ngữ đánh dau, nó được phân loại như một ngơn ngữ mở

rộng vì nó cho phép người dùng định nghĩa các phần tử của riêng họ. Mục đích

chính của XML là dé có thé dé dàng chia sẻ dữ liệu có cau trúc cho các hệ thống

thơng tin khác nhau, đặc biệt là qua Internet.

1.2.4. Lớp RDF (Resource Description Framework)

RDF được đưa ra bởi W3C, nó được thiết kế như một mơ hình siêu dữ liệu

nhưng lại được sử dụng như một phương thức mơ hình hóa thơng tin qua các địnhdạng cú pháp khác nhau.

Mơ hình siêu dữ liệu của RDF dựa trên ý tưởng của các câu phát biểu về các

tài nguyên trong biéu diễn chủ ngữ (subject) — vị từ (predicate) — đối tượng (object).

1.2.5. Lớp RDF-S (RDF Schema)

RDF Schema được dùng dé định nghĩa các tài nguyên và các thuộc tính, mối

quan hệ giữa các tải nguyên, giữa các thuộc tính và giữa tải nguyên với thuộc tính.

1.2.6. Lớp SPARQL (SPARQL Protocol and RDF Query Language)

Cũng giống như cơ sở dữ liệu được lưu trữ trong các hệ quan trị cơ sở dit liệu, dit liệu Web được lưu trữ dưới dạng các tài liệu RDF cũng cần phải được truy van một cách nhanh chóng và chính xác. Nhóm RDF Data Access Working Group đã đưa ra ngôn ngữ SPARQL dùng dé truy van cho các tài liệu RDF.

1.2.7. Lớp OWL (Web Ontology Language)

OWL được thiết kế dé sử dung trong các ứng dụng cần xử lý nội dung thơng

tin thay vì chỉ đơn thuần hiển thị thông tin. OWL được sử dụng để biểu diễn ngữ

nghĩa của các khái niệm trong các bộ từ vựng đồng thời cũng mô tả mối quan hệ giữa các khái niệm đó. Việc mơ tả các khái niệm va mối liên hệ giữa chúng được

gọi là ontology.

</div>Trang 8<div class="page_container" data-page="8">

Một Ontology định nghĩa một bộ từ vựng mang tính phổ biến và thơng

thường. Nó bao gồm các định nghĩa về các khái niệm căn bản trong một lĩnh vực và các mối liên hệ giữa chúng.

1.2.8. Lớp RIF (Rule Interchange Format)

Hiện nay có rất nhiều các ngôn ngữ dựa trên luật va các máy suy diễn khác nhau. Một vấn đề đặt ra là làm sao có thể có được định dạng có khả năng trao đổi giữa các loại luật được tạo từ các máy suy diễn đó. Vì vậy, W3C đã dé xuất ra RIF

nhằm phát triển một định dạng cho việc trao đổi các luật trong các hệ thong dựa trên

luật của Semantic Web.

1.2.9. Lớp Unifying Logic

Lớp logic cho phép đưa ra các luật và nhờ đó có thể suy diễn ra các thơng tin mới dựa vào những thơng tin đã có. Hiện lớp logic vẫn đang được phát triển và

chưa có mơ tả hồn chỉnh.

1.2.10. Lớp Proof

Lớp Proof trong kiến trúc của Semantic Web có vai trị kiểm chứng dựa trên

các luật được thêm vào. Sau đó các luật sẽ được thực thi dựa trên các thơng tin có

1.2.11. Lớp Trust

Ở phía trên cùng của kiến trac Semantic Web là lớp Trust có vai trị đánh giá dé sau đó quyết định có nên hay khơng nên tin tưởng và chấp nhận những chứng cớ

được đưa ra ở lớp Proof.

Các lớp Logic, Proof và Trust hiện nay vẫn đang trong giai đoạn nghiên cứu

và mới chỉ có những ứng dụng đơn giản.

1.3. Công cụ và công nghệ liên quan

1.3.1. Ngôn ngữ đánh dẫu mở rộng XML

XML ra đời vào tháng 2/1998, là ngơn ngữ có kiến trúc gần giống với

HTML, XML nhanh chóng trở thành một chuẩn phơ biến trong việc chuyên đổi

thông tin qua các trang web sử dụng giao thức HTTP. XML đưa ra một định dạng

</div>Trang 9<div class="page_container" data-page="9">

chuẩn cho cấu trúc của dữ liệu hoặc thông tin thông qua tự định nghĩa định dạng của tài liệu. Bằng cách này, đữ liệu được lưu trữ bằng XML sẽ độc lập với xử lý.

XML là sự lựa chọn hang đầu vì nó dé hiểu, dé đọc, va dễ thực hiện.

1.3.2. DTDs và XML Schema

DTDs và XML Schemas mơ tả tên của các element, thuộc tính và việc sửdụng các element & thuộc tính trong document, dù cả hai không đặc tả ý nghĩa cua

tai liệu.

1.3.3. DAML + OIL (DARPA Agent Markup Language + OntologyInference Layer)

DAML+OIL là ngôn ngữ đánh dau ngữ nghĩa cho tài nguyên Web, được xây

dựng dựa trên các chuẩn của W3C như RDF, RDF Schema, và mở rộng những ngôn

ngữ này với các mô hình ngun thủy phong phú hơn.

1.3.4. Ontology và ngơn ngữ web OWL1.3.4.1. Khái nệm Ontology

Ontology là một thuật ngữ có nguồn gốc từ Triết học, là tập từ vựng dé mơ hình hóa thế giới bên ngồi, nó đưa ra các khái niệm cơ bản và định nghĩa quan hệ

giữa các khái niệm đó trong một miền lĩnh vực. Đồng thời ontology còn cung cấp

các ràng buộc, là các giả định cơ sở về ý nghĩa mong muốn của bộ từ vựng. Ontology được xây dựng nhằm các mục đích sau:

— Chia sẻ hiểu biết chung về cấu trúc thông tin giữa con người và phần mềm

— Tái sử dung tri thức về một miền lĩnh vực đã được xây dựng từ trước.

1.3.4.2. Yêu cầu khi xây dựng Ontology

Ngôn ngữ Ontology cho phép người sử dụng viết rõ ràng, các khái niệm hình thức của mơ hình miền. Ontology cần phải tuần thủ các yêu cầu:

— Cấu trúc rõ ràng: đây là điều kiện cần cho máy có thé xử lý thơng tin.

— Ngữ nghĩa hình thức miêu tả ý nghĩa tri thức một cách chính xác

</div>Trang 10<div class="page_container" data-page="10">

— Ngữ nghĩa là điều kiện tiên quyết cho việc hỗ trợ suy diễn.

1.3.4.3. Các thành phần của Ontology

Ontology được sử dụng như là một biểu mẫu trình bay tri thức về thế giới

hay một phần của nó. Ontology thường miêu tả :

1.3.5.5. Phương pháp xây dựng Ontology

Quy trình phát triển Ontology là một quy trình gồm nhiều bước, tuy nhiên vẫn chưa có một phương pháp chuẩn hóa nao dé phát triển các ontology. Quy trình phát triển gồm 7 bước do Stanford Center for Biomedical Informatics Research đưa ra (đây là nhóm phát triển phần mềm Protégé đề trình diễn và soạn thảo Ontology):

— Bước 1 - Xác định lĩnh vực và phạm vi của Ontology

— Bước 2 - Xem xét việc sử dụng lại các Ontology có sẵn

— Bước 3 - Liệt kê các thuật ngữ quan trọng

— Bước 4 - Xác định các lớp và phân cấp của các lớp

— Bước 5 - Xác định các thuộc tính

— Bước 6 - Xác định ràng buộc của các thuộc tính — Bước 7 - Tạo các thé hiện / thực thé

1.3.5. .SPAROQL — Ngôn ngữ truy vấn cho RDF

SPARQL được W3C phát triển trở thành ngôn ngữ chuẩn dé truy van dữ liệu RDF với việc cung cấp nhiều chức năng cho các lập trình viên và người dùng cuối

cách để viết và thực thi một câu truy vấn.

</div>Trang 11<div class="page_container" data-page="11">

Một đồ thị RDF là một tập những bộ ba mà mỗi bộ ba lại chứa đựng chủ

ngữ, vị ngữ đối tượng. Điều này đã được giới thiệu trong phần trước. Những bộ ba có thể xuất phát từ nhiều tài nguyên khác nhau. SPARQL là một ngôn ngữ dé lấy

thông tin từ nhiều đồ thị. Nó cung cấp những tính năng sau:

— Trích thơng tin ở dang URI, nút rỗng, Plain Literal hay Typed Literal.

— Trích ra những đồ thi RDF con.

— Xây dựng những đồ thi RDF mới dựa vào thông tin trong những đồ thị được

truy vấn.

1.3.6. Công cu Jena xây dung Ontology

Trong xây dựng các ứng dụng dựa trên công nghệ Semantic web, dé có thé

thực hiện các thao tác như đọc/xuất, hay thực hiện các truy vấn trên một tài liệu có mơ tả ngữ nghĩa dang RDF ta có thé sử dụng các công cụ như Jena hoặc Sesame.

Jena () là một công cụ mã nguồn mở hàng đầu dé triển khai Web ngữ nghĩa cho các lập trình viên Java, được phát triển bởi HP Labs

Semantic Web Research ( Jena là một Java

Framework dùng để xây dựng các ứng dụng Web ngữ nghĩa. Jena cung cấp môi

trường lập trình cho RDF, RDES, OWL và SPARQL

1.4. Kết luận chương

Như vậy trong chương đầu tiên, luận văn đã trình bày được những nét tổng

quan nhất về Semantic Web bao gồm: khái niệm Semantic Web, đặc điểm của

Semantic Web, kiến trúc của Semantic Web, một số ngôn ngữ sử dụng trong Semantic Web và thành phan quan trong của Semantic Web là Ontology . Bên cạnh đó, luận văn cũng chỉ ra một số ứng dụng cơ bản trên nền tảng của Semantic Web

dé có cái nhìn tổng quan nhằm đánh giá bài toán phủ hợp nhất cho luận văn.

</div>Trang 12<div class="page_container" data-page="12">

Chương 2: LỰA CHỌN GIẢI PHÁP XÂY DỰNG HỆ THÓNG TRA CỨU THONG TIN BÀI THUOC YHCT

Trong chương này tơi trình bay tổng quan y hoc cơ trun, hiện trạng và

nhu câu tra cứu thông tin bài thuốc, giới thiệu một số hệ thong tra cứu bài thuốc YHCT hiện nay, từ đó đưa ra các yêu câu bài tốn ứng dụng, phân tích và chọn giải pháp cũng như cơng nghệ để thực hiện bài tốn.

2.1.Tổng quan Y học cỗ truyền 2.1.1. Y học cỗ truyền là gì?

2.1.2. Y học cỗ truyền ra đời và phát triển như thế nào? 2.1.3. Đặc điểm của Y học cỗ truyền

2.1.4. Nội dung của y học cỗ truyền 2.2. Nhu cầu việc tra cứu bài thuốc

Trong suốt quá trình khám chữa bệnh ngồi cơng việc chân đốn thì việc ra

đơn thuốc YHCT cho bệnh nhân điều trị là một việc cực kỳ quan trọng và phức tạp

đối với các bác sĩ YHCT. Công việc này quyết định đến kết quả điều trị bệnh cho

bệnh nhân vì thế khi lựa chọn một bài thuốc YHCT các Y Bác sĩ cần phải nắm rất rõ về kiến thức YHCT vận dụng những kinh nghiệm của mình đề ra đơn thuốc. Trên

thực tế với số lượng các bài thuốc cô phương và bài thuốc kinh nghiệm rat lớn các

bác sĩ chỉ có thé nhớ được một số bài thuốc hay sử dụng, điều này dẫn đến việc áp

dụng linh hoạt các bài thuốc trong khám, điều trị bệnh là điều khó khăn. Để khắc phục điều đó một số bác sĩ cũng tham khảo trong sách hoặc trên Internet. Tuy nhiên nó cũng bộc lộ nhiều hạn chế như tìm kiếm trong sách thì mất thời gian, thơng tin bài thuốc thì chỉ có các bài thuốc cơ bản, thơng tin tìm kiếm trên mạng khơng đảm bảo tính chính xác và đúng đắn của bài thuốc thông tin không đáng tin cậy. Việc xác định được một bài thuốc YHCT cần dựa vào một trong những điều kiện sau: Tên bai thuốc, công dụng bài thuốc, vị thuốc chủ dược, tên bệnh, nhóm chứng trạm

chính.

</div>Trang 13<div class="page_container" data-page="13">

Ngồi ra với người khơng có kiến thức về Y học cổ truyền cũng có nhu cầu tra cứu hướng dẫn sử dụng các bài thuốc, tra cứu các bài thuốc chữa các bệnh phổ biến.

Do đó nhu cầu xây dựng một hệ thống tra cứu bài thuốc với những yêu cầu:

tốc độ tra cứu nhanh, dé dàng sử dụng, thơng tin chính xác, trung thực, mang tính

khoa học, có khả năng cập nhật và mở rộng.

2.3. Hiện trạng các hệ thống tra cứu

Hiện nay có hai cách thức việc tra cứu các bài thuốc y học cô truyền:

— Sử dụng các cuốn sách dé tra cứu.

— Sử dụng kênh tra cứu trên mạng. Đặc điểm của cách tra cứu này là thời

gian tra cứu nhanh, lượng dữ liệu lớn, dễ dàng bổ sung cập nhật. Cách thức tra cứu

là dựa vào từ khóa hoặc danh mục bảng chữ cái. Tuy nhiên với cách tra cứu này địi hỏi người dùng phải có kiến thức nhất định về y học cô truyền, phải nhớ các thông

tin tối thiểu như tên bài thuốc, vị thuốc. Các dif liệu giữa bài thuốc, vị thuốc, chuẩn

trị, công dụng... khơng có sự liên kết với nhau.

Giải pháp khắc phục nhược điểm của hai cách thức trên là sử dụng tìm kiếm dựa trên Semantic Web.

2.4. Bài tốn tìm kiếm dựa trên Semantic Web 2.4.1. Quá trình phát triển hệ thong tra cứu 2.4.2. Vai trò hệ thống tra cứu

2.4.3. Đặc điểm hệ thơng tìm kiếm hiện tại

Đa số các máy tìm kiếm dựa trên Web truyền thống đều tìm kiếm dựa trên việc đối chiếu từ khóa. Người dùng có thể tìm kiếm được những văn bản hoặc trang

Web có nội dung chứa các từ khóa mình đưa ra.

</div>