Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.68 MB, 26 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<small>Chuyén nganh: KHOA HOC MAY TINH</small>
<small>Mã số: 60.48.01.01</small>
<small>HÀ NỘI - 2015</small>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">Luận văn được hồn thành tại:
<small>Phản biện 2: TS. Hoàng Lê Minh</small>
<small>Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ tại Học viện</small>
<small>Vào lúc: ... giờ....ngày tháng năm 2015.</small>
1. Tính cấp thiết của đề tài:
Hiện nay trong ngành Y đặc biệt là chuyên ngành Y học cô truyền, với thông
tin bệnh va bai thuốc YHCT 1a vơ cùng lớn, việc sau chan đốn là đưa ra các bài
thuốc tốt, đạt hiệu quả điều trị cao cho bệnh nhân là một van dé hết sức quan trọng.
Muốn vậy, họ phải tìm hiểu kỹ thơng tin bệnh nhân, tìm hiểu các bài thuốc cơ
phương, các bai thuốc kinh nghiệm để ra đơn thuốc cho bệnh nhân, việc tìm kiếm
thông tin bài thuốc cho điều trị gặp phải rất nhiều khó khăn một vấn đề được đặt ra
làm sao tìm kiếm được thơng tin bài thuốc một cach dé dàng nhanh chóng và chính xác ngay cả khi các bác sĩ quên tên bài thuốc. Hiện nay cũng có một số hệ thơng
cũng hỗ trợ tra cứu và tìm kiếm xong kết quả trả về chưa được chính xác thơng tin
chưa có tính chọn lọc. Vì vậy việc xây dựng một cơng cụ hỗ trợ tìm kiếm mức cao hơn dé trợ giúp các bác sĩ YHCT có thể tham khảo, sử dụng góp phan nâng cao chất
lượng khám và điều trị là điều cần thiết. Qua việc tìm hiểu về công nghệ Semantic
Web tôi chọn dé tai: “Ứng dụng công nghệ Semantic Web để xây dựng hệ thống tra cứu thông tin bài thuốc YHCT”
<small>z RK À .^A r</small>
<small>2. Tông quan về vân đề nghiên cứu:</small>
Hiện tại trong nước và trên thé giới đã có rất nhiều nhà nghiên cứu khoa học, nhiều công ty đã và đang nghiên cứu, phát triển các ứng dụng dựa trên nền tảng công nghệ Semantic Web trên nhiều lĩnh vực. Tuy nhiên với lĩnh vực Y học cơ
truyền thì chưa có một đề tài ứng dụng công nghệ Semantic web. Ở Việt Nam nền
YHCT phát triển rất mạnh mẽ, với hàng nghìn bài thuốc cơ phương, bai thuốc gia
nghiệp chăm sóc và bảo vệ sức khoẻ nhân dân trong suốt hàng ngàn năm đấu tranh
dựng nước và giữ nước. Trong nhiều năm qua Đảng và Nhà nước đã có các Nghị
quyết, Chi thị chỉ đạo ngành y tế phối hợp với các ngành, các té chức xã hội nghiên cứu kế thừa, bảo tồn và phát triển YHCT, kết hợp YHCT với YHHĐ nhằm xây
dựng nền Y Dược học Việt Nam hiện đại, khoa học, dân tộc và đại chúng. Tổ chức kế thừa được nhiều bài thuốc hay, cây thuốc quý của các lương y trên mọi miền đất
nước đã sưu tầm và lưu lại hàng ngàn cây thuốc, bài thuốc kinh nghiệm của đồng
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">bào các dân tộc ít người; tổ chức nghiên cứu ứng dụng và nghiên cứu kết hợp, từng bước phát huy được tiềm năng của YHCT.
<small>3. Mục đích nghiên cứu:</small>
Nghiên cứu cơng nghệ Semantic Web, tìm hiểu hướng phát triển một ứng dụng sử dụng công nghệ Semantic Web. Từ đó phát triển ứng dụng tra cứu thông tin bài thuốc YHCT.
- Đối tượng nghiên cứu: Semantic Web, phương pháp xây dựng và lưu trữ dữ liệu trong Semantic Web, các công cụ dé xây dựng Semantic Web, các ngơn ngữ
lập trình, các gói thư viện mở rộng, cấu trúc thông tin của bệnh học và bài thuốc
<small>- Phạm vi nghiên cứu:</small>
+ Xây dựng bộ từ vựng Ontology về bệnh học và bài thuốc YHCT.
+ Xây dựng ứng dụng dé tra cứu thông tin bệnh và bài thuốc YHCT
<small>trên cơ sở bộ từ vựng đã tạo.</small>
+ Đề tài sử dung nguồn csdl bài thuốc và bệnh sẵn có.
<small>5. Phương pháp nghiên cứu:</small>
- Phương pháp nghiên cứu lý thuyết:
<small>+ Nghiên cứu tài liệu, công cụ và công nghệ liên quan.</small>
+ Tổng hợp các tài liệu, dữ liệu. <small>- Phương pháp khảo sát</small>
+ Tìm hiểu hệ thống tra cứu thơng tin bệnh và bài thuốc y học cô truyền tại bệnh viện YHCT hoặc trên mạng.
<small>+ Khảo sát thông tin từ chuyên gia YHCT, người nghiên cứu khoahọc, sinh viên trường YHCT.</small>
<small>- Phương pháp nghiên cứu thực nghiệm</small>
<small>+ Phân tích hệ thống và xây dựng ứng dụng.</small>
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><small>Chương 1: SEMANTIC WEB</small>
Trong chương này, tơi trình bày những kết quả nghiên cứu tổng quan về
Semantic Web, các vấn dé liên quan đến Semantic Web, Giới thiệu một số cơng cụ
pho biến.
<small>1.1. Khái niệm Semantic Web</small>
Thế hệ Web 1.0 ra đời năm 1997 bởi chính cha đẻ của World Wide Web
(WWW) là Tim Berners-Lee.-Lee định nghĩa Web 1.0 là cấu trúc thơng tin chỉ có thé dé đọc.
<small>Web 2.0 chính thức được định nghĩa bởi Dale Dougherty trong một cuộc hội</small>
thảo tô chức năm 2004. Theo đó, 2.0 là thế hệ Web mới mà người sử dụng vừa có thé đọc các thơng tin hay nội dung, vừa có thé viết hay bổ sung vào đó dé tạo nên <small>những thơng tin hay nội dung mới.</small>
Giữa lúc Web giao tiếp xã hội 2.0 đang thời kỳ thịnh hành thì những dấu
hiệu của một thế hệ Web mới đã bắt đầu xuất hiện. Web semantic đã được
Berners-Lee đưa ra từ trước. Nhưng dựa trên những dấu hiệu xuất hiện thực tế này, năm 2006 John Marshoff của tờ New York Times đề nghị gọi đó là thế hệ Web 3.0 hay
<small>Semantic Web.</small>
<small>1.1.2. Khai niệm Semantic Web</small>
Nam 2001, Tim Berners-Lee về Semantic Web : “Semantic Web là một sự
mở rộng của Web hiện tại mà ở đó, thơng tin được định nghĩa tốt hơn, giúp máy tính và con người có thể làm việc hợp tác với nhau”.
Với sự nhìn nhận mới về đữ liệu, chúng ta có một cách nói khác về Semantic Web: Semantic Web là một Web với dữ liệu thông minh mà máy tính có thê xử lý.
W3C cũng dua ra một định nghĩa về Semantic Web: “Semantic Web là một sự nhìn nhận, đó là ý tưởng về việc dữ liệu trên Web được định nghĩa và sử dụng theo cách mà nó có thể được sử dụng bởi máy tính khơng chỉ với mục đích hiển thị
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">mả cịn nhằm mục đích tự động phân tích, sử dụng lại dữ liệu qua các ứng dụng
Hiện nay, đã có rất nhiều sơ đồ kiến trúc về Semantic Web khác nhau được
cơng bó. Theo bài thuyết trình của Tim Berners-Lee tại hội thảo AAAI vào tháng 7
năm 2006 thì kiến trúc của Semantic Web được mô tả như sau:
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7"><small>1.2.1. Lớp URI (Uniform Resource Identifier)</small>
URI là bộ định danh các tài nguyên trên Web. Nó là một chuỗi ngăn gon các
kí tự được dùng để định danh một tên hay một tài nguyên.
<small>1.2.3. Lớp XML (Extensible Markup Language)</small>
XML là một ngơn ngữ đánh dau, nó được phân loại như một ngơn ngữ mở
rộng vì nó cho phép người dùng định nghĩa các phần tử của riêng họ. Mục đích
chính của XML là dé có thé dé dàng chia sẻ dữ liệu có cau trúc cho các hệ thống
<small>thơng tin khác nhau, đặc biệt là qua Internet.</small>
<small>1.2.4. Lớp RDF (Resource Description Framework)</small>
RDF được đưa ra bởi W3C, nó được thiết kế như một mơ hình siêu dữ liệu
<small>nhưng lại được sử dụng như một phương thức mơ hình hóa thơng tin qua các địnhdạng cú pháp khác nhau.</small>
Mơ hình siêu dữ liệu của RDF dựa trên ý tưởng của các câu phát biểu về các
tài nguyên trong biéu diễn chủ ngữ (subject) — vị từ (predicate) — đối tượng (object).
<small>1.2.5. Lớp RDF-S (RDF Schema)</small>
RDF Schema được dùng dé định nghĩa các tài nguyên và các thuộc tính, mối
<small>quan hệ giữa các tải nguyên, giữa các thuộc tính và giữa tải nguyên với thuộc tính.</small>
<small>1.2.6. Lớp SPARQL (SPARQL Protocol and RDF Query Language)</small>
Cũng giống như cơ sở dữ liệu được lưu trữ trong các hệ quan trị cơ sở dit liệu, dit liệu Web được lưu trữ dưới dạng các tài liệu RDF cũng cần phải được truy van một cách nhanh chóng và chính xác. Nhóm RDF Data Access Working Group đã đưa ra ngôn ngữ SPARQL dùng dé truy van cho các tài liệu RDF.
<small>1.2.7. Lớp OWL (Web Ontology Language)</small>
OWL được thiết kế dé sử dung trong các ứng dụng cần xử lý nội dung thơng
tin thay vì chỉ đơn thuần hiển thị thông tin. OWL được sử dụng để biểu diễn ngữ
nghĩa của các khái niệm trong các bộ từ vựng đồng thời cũng mô tả mối quan hệ giữa các khái niệm đó. Việc mơ tả các khái niệm va mối liên hệ giữa chúng được
<small>gọi là ontology.</small>
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">Một Ontology định nghĩa một bộ từ vựng mang tính phổ biến và thơng
thường. Nó bao gồm các định nghĩa về các khái niệm căn bản trong một lĩnh vực và các mối liên hệ giữa chúng.
<small>1.2.8. Lớp RIF (Rule Interchange Format)</small>
Hiện nay có rất nhiều các ngôn ngữ dựa trên luật va các máy suy diễn khác nhau. Một vấn đề đặt ra là làm sao có thể có được định dạng có khả năng trao đổi giữa các loại luật được tạo từ các máy suy diễn đó. Vì vậy, W3C đã dé xuất ra RIF
nhằm phát triển một định dạng cho việc trao đổi các luật trong các hệ thong dựa trên
<small>luật của Semantic Web.</small>
<small>1.2.9. Lớp Unifying Logic</small>
Lớp logic cho phép đưa ra các luật và nhờ đó có thể suy diễn ra các thơng tin mới dựa vào những thơng tin đã có. Hiện lớp logic vẫn đang được phát triển và
<small>chưa có mơ tả hồn chỉnh.</small>
<small>1.2.10. Lớp Proof</small>
Lớp Proof trong kiến trúc của Semantic Web có vai trị kiểm chứng dựa trên
<small>các luật được thêm vào. Sau đó các luật sẽ được thực thi dựa trên các thơng tin có</small>
<small>1.2.11. Lớp Trust</small>
Ở phía trên cùng của kiến trac Semantic Web là lớp Trust có vai trị đánh giá dé sau đó quyết định có nên hay khơng nên tin tưởng và chấp nhận những chứng cớ
<small>được đưa ra ở lớp Proof.</small>
<small>Các lớp Logic, Proof và Trust hiện nay vẫn đang trong giai đoạn nghiên cứu</small>
<small>và mới chỉ có những ứng dụng đơn giản.</small>
<small>1.3. Công cụ và công nghệ liên quan</small>
XML ra đời vào tháng 2/1998, là ngơn ngữ có kiến trúc gần giống với
HTML, XML nhanh chóng trở thành một chuẩn phơ biến trong việc chuyên đổi
<small>thông tin qua các trang web sử dụng giao thức HTTP. XML đưa ra một định dạng</small>
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">chuẩn cho cấu trúc của dữ liệu hoặc thông tin thông qua tự định nghĩa định dạng của tài liệu. Bằng cách này, đữ liệu được lưu trữ bằng XML sẽ độc lập với xử lý.
XML là sự lựa chọn hang đầu vì nó dé hiểu, dé đọc, va dễ thực hiện.
<small>1.3.2. DTDs và XML Schema</small>
<small>DTDs và XML Schemas mơ tả tên của các element, thuộc tính và việc sửdụng các element & thuộc tính trong document, dù cả hai không đặc tả ý nghĩa cua</small>
<small>tai liệu.</small>
<small>1.3.3. DAML + OIL (DARPA Agent Markup Language + OntologyInference Layer)</small>
DAML+OIL là ngôn ngữ đánh dau ngữ nghĩa cho tài nguyên Web, được xây
dựng dựa trên các chuẩn của W3C như RDF, RDF Schema, và mở rộng những ngôn
<small>ngữ này với các mô hình ngun thủy phong phú hơn.</small>
<small>1.3.4. Ontology và ngơn ngữ web OWL1.3.4.1. Khái nệm Ontology</small>
Ontology là một thuật ngữ có nguồn gốc từ Triết học, là tập từ vựng dé mơ hình hóa thế giới bên ngồi, nó đưa ra các khái niệm cơ bản và định nghĩa quan hệ
giữa các khái niệm đó trong một miền lĩnh vực. Đồng thời ontology còn cung cấp
các ràng buộc, là các giả định cơ sở về ý nghĩa mong muốn của bộ từ vựng. Ontology được xây dựng nhằm các mục đích sau:
— Chia sẻ hiểu biết chung về cấu trúc thông tin giữa con người và phần mềm
— Tái sử dung tri thức về một miền lĩnh vực đã được xây dựng từ trước.
Ngôn ngữ Ontology cho phép người sử dụng viết rõ ràng, các khái niệm hình thức của mơ hình miền. Ontology cần phải tuần thủ các yêu cầu:
— Cấu trúc rõ ràng: đây là điều kiện cần cho máy có thé xử lý thơng tin.
<small>— Ngữ nghĩa hình thức miêu tả ý nghĩa tri thức một cách chính xác</small>
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">— Ngữ nghĩa là điều kiện tiên quyết cho việc hỗ trợ suy diễn.
Ontology được sử dụng như là một biểu mẫu trình bay tri thức về thế giới
hay một phần của nó. Ontology thường miêu tả :
<small>1.3.5.5. Phương pháp xây dựng Ontology</small>
Quy trình phát triển Ontology là một quy trình gồm nhiều bước, tuy nhiên vẫn chưa có một phương pháp chuẩn hóa nao dé phát triển các ontology. Quy trình phát triển gồm 7 bước do Stanford Center for Biomedical Informatics Research đưa ra (đây là nhóm phát triển phần mềm Protégé đề trình diễn và soạn thảo Ontology):
<small>— Bước 1 - Xác định lĩnh vực và phạm vi của Ontology</small>
— Bước 2 - Xem xét việc sử dụng lại các Ontology có sẵn
<small>— Bước 3 - Liệt kê các thuật ngữ quan trọng</small>
— Bước 4 - Xác định các lớp và phân cấp của các lớp
<small>— Bước 5 - Xác định các thuộc tính</small>
<small>— Bước 6 - Xác định ràng buộc của các thuộc tính</small> — Bước 7 - Tạo các thé hiện / thực thé
SPARQL được W3C phát triển trở thành ngôn ngữ chuẩn dé truy van dữ liệu RDF với việc cung cấp nhiều chức năng cho các lập trình viên và người dùng cuối
cách để viết và thực thi một câu truy vấn.
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">Một đồ thị RDF là một tập những bộ ba mà mỗi bộ ba lại chứa đựng chủ
ngữ, vị ngữ đối tượng. Điều này đã được giới thiệu trong phần trước. Những bộ ba có thể xuất phát từ nhiều tài nguyên khác nhau. SPARQL là một ngôn ngữ dé lấy
thông tin từ nhiều đồ thị. Nó cung cấp những tính năng sau:
<small>— Trích thơng tin ở dang URI, nút rỗng, Plain Literal hay Typed Literal.</small>
— Trích ra những đồ thi RDF con.
— Xây dựng những đồ thi RDF mới dựa vào thông tin trong những đồ thị được
truy vấn.
<small>1.3.6. Công cu Jena xây dung Ontology</small>
Trong xây dựng các ứng dụng dựa trên công nghệ Semantic web, dé có thé
thực hiện các thao tác như đọc/xuất, hay thực hiện các truy vấn trên một tài liệu có mơ tả ngữ nghĩa dang RDF ta có thé sử dụng các công cụ như Jena hoặc Sesame.
Jena () là một công cụ mã nguồn mở hàng đầu dé triển khai Web ngữ nghĩa cho các lập trình viên Java, được phát triển bởi HP Labs
<small>Semantic Web Research ( Jena là một Java</small>
Framework dùng để xây dựng các ứng dụng Web ngữ nghĩa. Jena cung cấp môi
<small>trường lập trình cho RDF, RDES, OWL và SPARQL</small>
Như vậy trong chương đầu tiên, luận văn đã trình bày được những nét tổng
Semantic Web, kiến trúc của Semantic Web, một số ngôn ngữ sử dụng trong Semantic Web và thành phan quan trong của Semantic Web là Ontology . Bên cạnh đó, luận văn cũng chỉ ra một số ứng dụng cơ bản trên nền tảng của Semantic Web
dé có cái nhìn tổng quan nhằm đánh giá bài toán phủ hợp nhất cho luận văn.
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">Trong chương này tơi trình bay tổng quan y hoc cơ trun, hiện trạng và
nhu câu tra cứu thông tin bài thuốc, giới thiệu một số hệ thong tra cứu bài thuốc YHCT hiện nay, từ đó đưa ra các yêu câu bài tốn ứng dụng, phân tích và chọn giải pháp cũng như cơng nghệ để thực hiện bài tốn.
Trong suốt quá trình khám chữa bệnh ngồi cơng việc chân đốn thì việc ra
đơn thuốc YHCT cho bệnh nhân điều trị là một việc cực kỳ quan trọng và phức tạp
bệnh nhân vì thế khi lựa chọn một bài thuốc YHCT các Y Bác sĩ cần phải nắm rất rõ về kiến thức YHCT vận dụng những kinh nghiệm của mình đề ra đơn thuốc. Trên
thực tế với số lượng các bài thuốc cô phương và bài thuốc kinh nghiệm rat lớn các
bác sĩ chỉ có thé nhớ được một số bài thuốc hay sử dụng, điều này dẫn đến việc áp
dụng linh hoạt các bài thuốc trong khám, điều trị bệnh là điều khó khăn. Để khắc phục điều đó một số bác sĩ cũng tham khảo trong sách hoặc trên Internet. Tuy nhiên nó cũng bộc lộ nhiều hạn chế như tìm kiếm trong sách thì mất thời gian, thơng tin bài thuốc thì chỉ có các bài thuốc cơ bản, thơng tin tìm kiếm trên mạng khơng đảm bảo tính chính xác và đúng đắn của bài thuốc thông tin không đáng tin cậy. Việc xác định được một bài thuốc YHCT cần dựa vào một trong những điều kiện sau: Tên bai thuốc, công dụng bài thuốc, vị thuốc chủ dược, tên bệnh, nhóm chứng trạm
<small>chính.</small>
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">Ngồi ra với người khơng có kiến thức về Y học cổ truyền cũng có nhu cầu tra cứu hướng dẫn sử dụng các bài thuốc, tra cứu các bài thuốc chữa các bệnh phổ biến.
Do đó nhu cầu xây dựng một hệ thống tra cứu bài thuốc với những yêu cầu:
tốc độ tra cứu nhanh, dé dàng sử dụng, thơng tin chính xác, trung thực, mang tính
<small>khoa học, có khả năng cập nhật và mở rộng.</small>
Hiện nay có hai cách thức việc tra cứu các bài thuốc y học cô truyền:
— Sử dụng các cuốn sách dé tra cứu.
— Sử dụng kênh tra cứu trên mạng. Đặc điểm của cách tra cứu này là thời
gian tra cứu nhanh, lượng dữ liệu lớn, dễ dàng bổ sung cập nhật. Cách thức tra cứu
<small>là dựa vào từ khóa hoặc danh mục bảng chữ cái. Tuy nhiên với cách tra cứu này địi</small> hỏi người dùng phải có kiến thức nhất định về y học cô truyền, phải nhớ các thông
tin tối thiểu như tên bài thuốc, vị thuốc. Các dif liệu giữa bài thuốc, vị thuốc, chuẩn
trị, công dụng... khơng có sự liên kết với nhau.
Giải pháp khắc phục nhược điểm của hai cách thức trên là sử dụng tìm kiếm <small>dựa trên Semantic Web.</small>
Đa số các máy tìm kiếm dựa trên Web truyền thống đều tìm kiếm dựa trên việc đối chiếu từ khóa. Người dùng có thể tìm kiếm được những văn bản hoặc trang
<small>Web có nội dung chứa các từ khóa mình đưa ra.</small>
</div>