ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐAI HOC BÁCH KHOA
«
9
TRƯƠNG THỊ MỸ NGỌC
RÚT TRÍCH THUẬT NGỮ Y KHOA
TRONG VĂN BẢN LÂM SÀNG TIẾNG VIỆT
Chuyên ngành: Khoa Học Máy Tính
Mã sỗ: 60.48.01
LUẬN VĂN THẠC sĩ
TP. Hồ CHÍ MINH, tháng 6 năm 2018
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG - HCM
Cán bộ hướng dẫn khoa học 1: GS.TS. Cao Hoàng Trụ
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ hướng dẫn khoa học 2: TS. Võ Thị Ngọc Châu....
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 1: .....................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 2: .....................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn thạc sĩ được bảo vệ tại: Trường Đại Học Bách Khoa, ĐHQG TP. HCM ngày 17
tháng 6 năm 2018
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1.
2.
3.
4.
5..............................................................................................................................................
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi
luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập -Tự do -Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC sĩ
Họ và tên học viên: TRƯƠNG THỊ MỸ NGỌC....................... MSHV: 7140830...............
Ngày, tháng, năm sinh: 17/10/1988 .......................................... Nơi sinh: Tỉnh. Long An
Chuyên ngành: KHOA HỌC MÁY TÍNH................................. Mã số: 604801...................
I. TÊN ĐỀ TÀI:
RÚT TRÍCH THUẬT NGỮ Y KHOA TRONG VĂN BẢN LÂM SÀNG TIẾNG VIỆT
(Terminology extraction from Vietnamese clinical texts).
NHIỆM VỤ VÀ NỘI DUNG:
- Tìm hiểu các công trình liên quan bài toán rút trích thuật ngữ trong vãn bản lâm sàng.
- Tìm hiểu các công trình liên quan bài toán rút trích thuật ngữ trong vãn bản lâm sàng tiếng
Việt.
- Xây dựng phương pháp rút trích thuật ngữ trong vãn bảng lâm sàng tiếng Việt dựa trên quy
tắc ngữ pháp và các độ đo thống kê thuật ngữ.
- Thực hiện đánh giá phương pháp đề xuất của đề tài, so sánh với công trình liên quan bài
toán rút trích thuật ngữ trong vãn bản lâm sàng tiếng Việt.
- Báo cáo kết quả thực hiện đề tài và chuẩn bị luận vãn.
II. NGÀY GIAO NHIỆM VỤ:..................04/09/2017............................................
III. NGÀY HOÀN THÀNH NHIỆM VỤ:... 17/06/2018.........................................
IV. CÁN Bộ HƯỚNG DẪN: GS.TS. CAO HOÀNG TRỤ
TS. VÕ THỊ NGỌC CHÂU.
11
TP. HCM, ngày . . . . tháng . . . . năm 20...
CÁN Bộ HƯỚNG DẪN 1
(Họ tên và chữ ký)
CHỦ NHIỆM Bộ MÔN ĐÀO TẠO
(Họ tên và chữ ký)
GS.TS. CAO HOÀNG TRỤ
CÁN Bộ HƯỚNG DẪN 2
(Họ tên và chữ ký)
TS. VÕ THỊ NGỌC CHÂU
TRƯỞNG KHOA................
(Họ tên và chữ ký)
LỜI CẢM ƠN
Xin được gởi lời cảm ơn chân thành tới Thầy hướng dẫn của tôi là GS.TS Cao Hoàng
Trụ. Thầy đã hướng dẫn chúng tôi cách tiếp cận bài toán và cách giải bài toán trong khoa học.
Chúng tôi không chỉ được học hỏi ở Thầy về kiến thức, mà còn học được phong cách làm việc
của một nhà khoa học, một nhà giáo ưu tú.
Xin được gởi lời cảm ơn chân thành tới Cô hướng dẫn của tôi là TS. Võ Thị Ngọc Châu.
Cô đã tận tâm, nhiệt tình, trách nhiệm, đồng hành cùng tôi trong giai đoạn hiện thực lời giải
bài toán. Nếu không có sự hướng dẫn của Cô thì tôi không có cơ hội hoàn thành luận văn.
Xin được gởi lời cảm ơn anh Phan Trường Khoa (Postdoctoral researcher tại University
College London) đã giúp tôi có được những bài báo có bản quyền. Cảm ơn những người bạn
phòng AC Lab, HPC Lab. Cảm ơn hai bạn sinh viên Ngô Tấn Trung, Bùi Tuấn Đại, và các
anh chị, các bạn khóa K14, K15.
Cảm ơn quý Thầy, Cô trong khoa Khoa Học & Kỹ Thuật Máy Tính ĐH Bách Khoa
TpHCM.
Cảm ơn Giai Đĩnh luôn là chỗ dựa, nguồn động viên tinh thần giúp tôi hoàn thành luận
văn.
IV
TÓM TẮT
Một phương pháp mới trong việc rút trích thuật ngữ y khoa trong văn bản lâm sàng tiếng Việt.
Bài toán rút trích thuật ngữ y khoa trong văn bản lâm sàng, với dữ liệu y khoa có tính riêng tư
nên việc tiếp cận nguồn dữ liệu bị hạn chế. Chúng tôi đã dựa trên phương pháp khai thác thuật
ngữ y khoa đối với tiếng Ba Lan, tiếng Anh, v.v để áp dụng cho tiếng Việt, ngay cả ở những
tập dữ liệu đầu vào không lớn, nếu biết cách nhận diện thì những thuật ngữ quan trọng bị lồng
ghép bên trong những cấu trúc ngữ pháp, ngữ cảnh phức tạp cũng được tìm ra.
Chúng tôi dựa trên bảy luật của cấu trúc ngữ pháp cụm danh từ, cụm động từ, rút trích những
cụm từ dài nhất có thể. Bước tiếp theo, dựa vào độ liên kết của hai từ liên tiếp nhau (bi-gram)
chúng tôi tách cụm ở vị trí có độ liên kết thấp nhất và thỏa điều kiện ngữ pháp. Qua nhiều
công đoạn, chúng tôi rút trích được những thuật ngữ y khoa.
Phương pháp của chúng tôi được đánh giá và so sánh hiệu quả với công trình “Trích xuất
thuật ngữ y học trong bệnh án điện tử tiếng Việt”_công trĩnh đầu tiên dành cho tiếng Việt. Kết
quả đánh giá cho thấy phương pháp của chúng tôi có hiệu quả cao hơn dựa trên chỉ số Recall,
Precision và F-measure. Các thuật ngữ tìm thấy có thể giúp ích cho việc xây dựng hoặc bổ
sung thuật ngữ cho bộ từ điển y khoa, hỗ trợ tiền xử lý cho bài toán hệ hỗ trợ chẩn đoán bệnh,
quan hệ bệnh-thuốc, khai thác thông tin từ bệnh án v.v.
V
ABSTRACT
Terminology extraction from Vietnamese clinical texts. Clinical textss contain free text
describing the most important facts relating to patient's illnesses. These texts are written in
specific language containing medical terminology related to hospital treatment.
It would be helpful if term were possible to automatically extraction. An set of terms which
could be used for the purpose of information extraction.
We propose a new method for identifying nested terms based on a combination of two
aspects: grammatical correctness and normalised pointwise mutual information (NPMI)
counted for all bigrams in a given corpus.
In our solution we use NPMI to recognise the weakest points to suggest the best place for
division of a phrase into two parts. By creating, at most, two nested phrases in each step and
important terms can extract within complex constructions. Appropriate recognition of nested
terms can thus influence the content of the extracted candidate term list and its order.
VI
LỜI CAM KÉT
Tôi là Trương Thị Mỹ Ngọc học viên cao học khoa Khoa Học và Kỹ Thuật Máy Tính,
Đại học Bách Khoa TP.HCM, MSHV 7140830. Tôi xin cam đoan rằng luận văn "Rút trích
thuật ngữ y khoa trong văn bản lâm sàng tiếng Việt" là kết quả quá trình tìm hiểu và nghiên
cứu được tôi ghi chép lại với những cam kết sau:
-
Luận văn được thực hiện cho mục đích tim hiểu và nghiên cứu ở bậc cao học.
-
Các công trình, bài báo tham khảo để xây dựng nên luận văn này đều được trích dẫn,
tham khảo.
-
Tất cả các tài liệu được trích dẫn và có tính kế thừa từ các tạp chí và các công trình
nghiên cứu đã được công bố.
-
Những công cụ, phần mềm cho quá trình thực hiện luận văn đều là phần mềm mã
nguồn mở.
-
Hình ảnh và số liệu được trích dẫn nguồn tham khảo rõ ràng.
-
Kết quả nghiên cứu được trình bày trung thực dựa trên số liệu thực tế khi chạy
chương trĩnh.
TP.HCM, ngày 17 tháng 6 năm 2018.
Trương Thị Mỹ Ngọc.
MỤC LỤC
MỤC LỤC................................................................................................................................. viii
DANH MỤC HÌNH.................................................................................................................... X
DANH MỤC BẢNG................................................................................................................... xi
CHƯƠNG 1 TÔNG QUAN......................................................................................................... 1
1.1. Bối cảnh đề tài......................................................................................................................... 1
1.2. Mục tiêu của đề tài................................................................................................................ 3
1.3. Phạm vi của đề tài................................................................................................................. 4
1.4. Cấu trúc luận văn.................................................................................................................... 6
CHƯƠNG 2 CÁC CÔNG TRÌNH LIÊN QUAN...................................................................... 7
2.1. Các hướng tiếp cận bài toán.................................................................................................. 7
2.2. Phương pháp ngôn ngữ học.................................................................................................. 8
2.3. Phương pháp thống kê............................................................................................................ 9
2.4. Phương pháp học máy............................................................................................................. 9
2.5. Phương pháp sử dụng tri thức ngoài..................................................................................... 11
2.6. Phương pháp lai..................................................................................................................... 11
CHƯƠNG 3 KIẾN THỨC NỀN TẢNG...................................................................................13
3.1. Bệnh án điện tử (BAĐT)....................................................................................................... 13
3.2. Các định nghĩa cơ bản...........................................................................................................14
3.3. Ngữ pháp Tiếng Việt............................................................................................................. 16
CHƯƠNG 4 PHƯƠNG PHÁP ĐỀ XUẤT................................................................................ 21
4.1. Tổng quan bài toán................................................................................................................ 21
4.2. Ý tưởng hiện thực.................................................................................................................. 21
4.3. Thành phần ngôn ngữ học.....................................................................................................23
viii
4.4. Thành phần thống kê............................................................................................................. 24
CHƯƠNG 5 HIỆN THỰC QUY TRÌNH................................................................................26
5.1. Tiền xử lý............................................................................................................................... 26
5.2. Tách từ và gán nhãn từ loại................................................................................................... 28
5.3. Rút trích cụm từ tìm năng là thuật ngự y khoa dựa theo luật văn phạm............................30
5.4. Loại bỏ những cụm từ có chứa từ trong danh sách dừng (stoplist)...................................344
5.5. Sắp xếp và lấy k tỷ lệ danh sách thuật ngữ tiềm năng........................................................347
5.6. Rút trích thuật ngữ lồng nhau bằng phuơng pháp NPMI.....................................................37
5.7. Tính toán C-Value.................................................................................................................41
CHƯƠNG 6 ĐÁNH GIÁ HIỆU QUẢ..................................................................................... 47
6.1. Thuớc đo hiệu suất cơ bản trong trích xuất thuật ngữ..........................................................47
6.2. Xây dựng danh sách thuật ngữ tham khảo để đánh giá kết quả...........................................47
6.3. Thí nghiệm đánh giá.............................................................................................................. 49
CHƯƠNG 7 KẾT LUẬN........................................................................................................... 56
7.1. Kết quả đạt đuợc....................................................................................................................56
7.2. Huớng phát triển.................................................................................................................... 56
TÀI LIỆU THAM KHẢO.......................................................................................................... 58
IX
DANH MỤC HÌNH
•
Hình 1.1: Hai giai đoạn khai thác bệnh án điện tử (BAĐT).......................................................3
Hình 2.6: Mô hình hệ thống thường được sử dụng...................................................................12
Hình 3.1: Mối quan hệ giữa thuật ngữ, khái niệm và đối tượng...............................................14
Hình 5.1: Quy trình rút trích thuật ngữ y khoa trong văn bản lâm sàng tiếng Việt. 27
Hình 5.2.1: Sơ đồ ví dụ việc tách từ và gán nhãn của Vitk.......................................................29
Hình 5.3.1: Luật 1 ngữ pháp cụm danh từ.................................................................................31
Hình 5.3.2: Luật 2 ngữ pháp cụm danh từ.................................................................................32
Hình 5.3.3: Luật 3 ngữ pháp cụm danh từ.................................................................................32
Hình 5.3.4: Luật 4 ngữ pháp cụm danh từ.................................................................................32
Hình 5.3.5: Luật 2 ngữ pháp cụm danh từ.................................................................................33
Hình 5.3.6: Luật 3 ngữ pháp cụm động từ................................................................................33
Hình 5.3.7: Luật 4 ngữ pháp cụm động từ................................................................................33
Hình 5.6.2: Cụm từ được cắt dựa theo quy tắc
Hình 5.6.4: Cụm từ được cắt dựa theo chỉ
ngữ pháp....................................................39
số NPMI..........................................................41
Hình 5.7.3: So sánh log2 (x) và log2 (x+0.1)............................................................................43
Hình 6.3.2:Biểu đồ biểu diễn hiệu quả của quy trình bị ảnh hưởng bởi luật cụm từ.
.................................................................................................................................................. 50
Hình 6.3.6: Biểu đồ biểu diễn hiệu quả của hệ thống bị ảnh hưởng bởi hệ số k.....................52
Hình 6.3.8: Biểu đồ so sánh độ đo hiệu quả của hai công trình rút trích thuật ngữ y
khoa tiếng Việt...........................................................................................................................53
Hình 6.3.9: Quy trình của công trình [18] và công trình của chúng tôi..................................54
X
DANH MỤC BẢNG
•
Bảng 1.3: Mau văn bản lâm sàng..............................................................................................5
Bảng 2.4: Các đặc trưng sử dụng trong phương pháp học máy...............................................10
Bảng 3.3: Phân loại từ trong tiếng Việt....................................................................................19
Bảng 5.2.2: Bảng kí hiệu nhãn từ loại của công cụ Vitk..........................................................30
Bảng 5.4: Danh sách từ cần loại bỏ (stoplist)...........................................................................35
Bảng 5.5: Hiệu quả thay đổi theo tỷ lệ chọn thuật ngữ dài nhất trong danh sách.. 408 Bảng
5.6.3 Tần suất xuất hiện trong văn bản của mỗi từ; chỉ số NPMI ở từng vị trí
bigrams.......................................................................................................................................40
Bảng 5.7.4: Ví dụ về cách tính C-Value...................................................................................46
Bảng 6.2.1: Kết quả trích xuất thuật ngữ thủ công...................................................................48
Bảng 6.2.2: Một số cụm từ của danh sách thuật ngữ tham khảo.............................................49
Bảng 6.3.1: Hiệu quả của quy trình bị ảnh hưởng bởi luật văn phạm của cụm từ (cấu
trúc ngữ pháp)............................................................................................................................50
Bảng 6.3.3: Hiệu quả của công đoạn rút trích cụm từ dựa theo luật văn phạm so với
22 bộ lọc.................................................................................................................................
50
Bảng 6.3.4: Hiệu quả của hệ thống bị ảnh hưởng bởi danh sách stoplist.................................51
Bảng 6.3.5: Hiệu quả của hệ thống bị ảnh hưởng bởi hệ số k..................................................52
Bảng 6.3.7: So sánh hiệu quả của hệ thống...............................................................................53
Bảng 6.3.10: Bộ lọc của công trình [18]...................................................................................55
XI
CHƯƠNG 1
TỔNG QUAN
1.1. Bổi cảnh đè tài
Một hướng đi mới làm cho máy tính thông minh như một bác sĩ giàu kinh nghiệm: dựa vào
các triệu chứng thì chẩn đoán đúng bệnh; biết được bệnh thì kê những loại thuốc phù hợp để
chữa trị. Hỗ trợ chẩn đoán bệnh bằng máy tính là một bài toán truyền thống của tin - y học từ
nhiều chục năm qua. Các hệ chuyên gia với kỹ thuật suy diễn dựa vào tri thức của con người
trong y học được kỳ vọng rất nhiều nhưng đã không thành công, chủ yếu vì không biểu diễn
được tri thức y học phức tạp của con người dưới dạng máy có thể dùng được. Một hướng đi
mới là dùng các kỹ thuật học máy theo quy nạp với bệnh án điện tử (BAĐT), máy tính
hoàn toàn có thể hỗ trợ hiệu quả cho con người trong công việc phức tạp này.
Xưa nay, mọi hiểu biết về bệnh tật đều do các thầy thuốc phát hiện khi phân tích, đúc rút từ
những gì thấy được trong quá trình khám và chữa bệnh cho rất nhiều người. Các ghi chép lâm
sàng trong BAĐT chính là “những gì thấy được” của rất nhiều thầy thuốc trong lúc khám
chữa bệnh. Con người chỉ có thể xem từng bệnh án trên giấy, nhưng máy tính có thể cùng một
lúc “xem” rất nhiều (hàng ngàn hàng triệu) BAĐT để phân tích, so sánh chúng, để hiểu hơn về
bệnh tật, về chữa trị, về tác dụng của thuốc, về quản lý khám chữa bệnh, thuốc men,... tìm ra
những hiểu biết mới của y học. Làm cho máy tính “hiểu” được văn bản lâm sàng là bước
quyết định để tìm ra các tri thức y học mới.
1
Từ vài năm gần đây, BAĐT được nói nhiều ở các nước phát triển như con đường dẫn đến sự
thay đổi sâu sắc trong khám chữa bệnh và nghiên cứu y học. Năm 2009, sau khi trở thành
Tổng thống và trong kế hoạch hồi sinh nền kinh tế, Tổng thống Mỹ Barack Obama đã yêu cầu
nước Mỹ hiện đại hóa việc chăm sóc sức khỏe dựa vào việc chuẩn hóa và số hóa mọi bệnh án
trong bệnh viện, và chủ trương “Trong vòng 5 năm, mọi bệnh án của nước Mỹ phải được số
hóa”. Ở Nhật Bản, chính phủ cũng có chính sách ưu tiên kinh phí để xây dựng BAĐT. Tính
đến năm 2011, 51.5% trong số 822 bệnh viện cỡ lớn (hơn 400 giường bệnh) ở Nhật đã xây
dựng BAĐT; 27,3% bệnh viện cỡ vừa (200-399 giường bệnh) đã có BAĐT và 13,5% bệnh
viện cỡ nhỏ có BAĐT [17].
Tại Mỹ, I2B2-Trung tâm Quốc gia về Tính toán Y - Sinh hàng năm tổ chức các cuộc thi tìm
các phương pháp phân tích văn bản lâm sàng của BAĐT tiếng Anh. Một vài thách thức những
năm qua:
- Thách thức 2008: làm sao dùng BAĐT để phân loại các nhóm bệnh nhân béo phì và các
bệnh phát sinh do béo phì.
- Thách thức 2009: rút trích thông tin từ BAĐT về việc dùng thuốc, liều lượng, hiệu quả,
quản lý thuốc.
- Thách thức 2012: phát hiện từ BAĐT các sự kiện về bệnh và điều trị gắn với thời gian và
quan hệ phụ thuộc thời gian giữa chúng.
- Thách thức 2014: phát hiện, lọc bỏ các thông tin cá nhân từ BAĐT và các yếu tố rủi ro của
bệnh tim.
Câu chuyện BAĐT cũng đã bắt đầu ở nước ta với nỗ lực đặt những viên gạch đầu cho con
đường dài này. Từ năm 2013 bệnh viện đa khoa Vân Đồn của tỉnh Quảng Ninh là cơ quan y tế
đầu tiên ở nước ta có một Hệ thông tin bệnh viện hiện đại với các BAĐT hoàn chỉnh (có
thông tin quản lý, văn bản lâm sàng và các thông tin khám chữa bệnh khác); và từ năm 2014
có thêm bệnh viện phụ sản-nhi Đà Nang, bệnh viện đa khoa cấm Phả cấm Phả, bệnh viện sảnnhi Hưng Yên, bệnh viện y- dược cổ truyền tỉnh Quảng Ninh [17],
2
Khai thác BAĐT gầm 2 giai đoạn. Giai đoạn 1 nhằm xác định và xây dựng công nghệ nền để
khai thác BAĐT Tiếng Việt và ứng dụng thử nghiệm: chuẩn hóa, làm sạch dữ liệu, lọc thông
tin riêng tư. Điển hình là dự án KC.01/06-10 về xây dựng công cụ và tài nguyên cho xử lý
tiếng nốí và văn bản Tiếng Việt 2007-2010 trong đó có phân tích tự động Tiếng Việt,
chunking. Giai đoạn 2 nhằm sử dụng các công nghệ nền vào khai thác BAĐT để giải quyết
một số bài toán quan trọng trong nghiên cứu y học và chăm sóc sức khỏe ờ Việt Nam. Hình
1.1.
Hình 1.1: Hai giai đoạn khai thác bệnh án điện tử (BAĐT)[17].
1.2. Mục tiêu của đề tài
Văn bản lâm sàng (clinical text) do bác sĩ và y tá ghi chép hàng ngày về việc khám chữa và
tình trạng người bệnh. Chúng thường ngắn, mang tính trần thuật, thường không tuân theo các
quy ước ngữ pháp ngôn ngữ một cách chặt chẽ và đặc biệt hơn cả là chúng chứa rất nhiều
thuật ngữ y khoa, tải theo nhiều tri thức của ngành y. Chính phần nội dung này tạo ra giá trị và
ý nghĩa đặc biệt của ĐAĐT trong chăm sốc sức khỏe và nghiên cứu y khoa.
Do đó, mục tiêu của đề tàỉ là trích xuất các thuật ngữ từ các văn bản lâm sàng tiếng Việt. Đầu
vào của quá trình trích xuất này là các văn bản lâm sàng tiếng Việt. Đầu ra là một danh sách
các thuật ngữ y khoa được rút trích từ cảc văn bản lâm sàng đỗ. Những thuật ngữ liên quan tới
y khoa được xếp ở đầu danh sách, những cụm danh
3
từ không liên quan được xếp cuối danh sách. Các thuật ngữ mới được rút trích này dùng để bổ
sung, cập nhật thuật ngữ cho từ điển y khoa; đánh chỉ mục index; xây dựng ontology; khai
thác thông tin [26] [27], dùng làm đầu vào cho hệ hỗ trợ chẩn đoán bệnh, hệ phân tích quan hệ
bệnh-thuốc.
1.3.
Pham vi
của đề tài •
Rút trích thuật ngữ y khoa trong văn bản lâm sàng Tiếng Việt. Công việc này là một cộng
đoạn đầu của giai đoạn 2, thuộc một phần của khai thác thông tin từ BAĐT được thể hiện ở
Hình 1.1.
Văn bản lâm sàng chỉ là 1 phần trong 3 phần của bệnh án điện tử. BAĐT gồm:
- Dữ liệu cơ bản cho quản lý gồm :họ tên bệnh nhân, năm sinh, nghề nghiệp, quê quán, bảo
hiểm y tế, v.v
- Dữ liệu cận lâm sàng gồm: siêu âm, nội soi, x_quang, CT scan, MRI, v.v
- Dữ liệu lâm sàng (văn bản lâm sàng) của người bệnh trong một lần nằm viện gồm: phiếu
điều trị: ghi chép các chẩn đoán, nhận định và y lệnh hàng ngày của bác sĩ về bệnh nhân;
phiếu chăm sóc: ghi chép mô tả của y tế về tình trạng bệnh nhân khi chăm sóc hàng ngày; hồ
sơ xuất viện: tổng hợp các dữ liệu và thông tin cơ bản của bệnh nhân trong toàn bộ một lần
điều trị.
Văn bản lâm sàng chứa nhiều thông tin y khoa, thuật ngữ nhất nên chúng tôi quyết định
khai thác ở phần văn bản này. Công trình này chúng tôi quyết định chủ yếu phân tích và rút
trích cụm danh từ. Vì cụm danh từ là thành phần chính trong câu, mang được nhiều thông tin.
Theo đặc trưng của tiếng Việt trong thuật ngữ y khoa cũng có xuất hiện cụm động từ (Ví dụ:
hạ sốt, tràn dịch màn phổi,...) chúng tôi bổ sung thêm rút trích cụm động từ.
Chúng tôi kế thừa lại công đoạn tiền xử lý; tách từ và gán nhãn từ loại; xếp hạng thuật ngữ;
đánh giá của công trình liên quan [18].
4
ẻ
Ể
5
1.4. Cấu trúc luận văn
Chúng tôi xin được trình bày cấu tróc của luận văn để quý đọc giả tiện theo dõi.
Chương 1: Giới thiệu về bối cảnh ra đời, nhu cầu thực tiễn của bệnh án điện tử. Giai đoạn xây
dựng và khai thác BAĐT ở Việt Nam. Phạm vi và mục tiêu của đề tài.
Chương 2: Trình bày một vài công trình ở các nước phát triển họ đẵ thục hiện, các phương
pháp tiếp cận khác nhau cho bài toán rút trích thuật ngữ.
Chương 3: Nhắc lại một số khái niệm về ngôn ngữ, kiến thức cơ bản.
Chương 4: Trình bày phương pháp giải bài toán.
Chương 5: Trình bày từng công đoạn của quy trình, giải thuật và ví dụ.
Chương 6: Kết quả, đánh giả hiệu suất quy trình, so sánh với công trình tương đương, một số
hạn chế, hướng phát triển, cải tiến thêm cho quy trình.
6
CHƯƠNG 2 CÁC CÔNG TRÌNH
LIÊN QUAN
2.1. Các hướng tiếp cận bài toán
Trong lĩnh vực sinh học phân tử, tên protein, gen [2] thay đổi rất nhanh chóng. Trong lĩnh vực
ổn định hơn, như y học lâm sàng, tồn tại nhiều thuật ngữ địa phương mà chưa được liệt kê
trong bất kỳ từ điển nào. Vì thế việc khai thác thuật ngữ một cách tự động trong văn bản lâm
sàng là việc rất cần thiết hiện nay. Thế giới có công trình tiếng Anh [3], tiếng Thụy Điển [8],
tiếng Pháp [28] [6], tiếng Đức [4], tiếng Hà Lan [7], tiếng Tây Ban Nha [1], gần đây nhất là
công trình tiếng Ba Lan [10]. Ở Việt Nam có công trình đầu tiên về trích xuất thuật ngữ y học
trong BAĐT tiếng Việt [18] .
Rút trích thuật ngữ tự động (Automatic Term Extraction - ATE) là phương pháp sử dụng máy
tính để nhận dạng các chuỗi từ có tiềm năng là thuật ngữ trong đoạn văn bản. Việc trích xuất
thuật ngữ sử dụng máy tính có thể hiện thực hoàn toàn tự động, hoặc bán tự động kết hợp với
các chuyên gia để tăng độ chính xác trong kết quả hoặc trường hợp trích xuất thuật ngữ trong
các đoạn văn bản mang tính chất đặc biệt. Tự động trích xuất thuật ngữ đóng vai trò cực kỳ
quan trọng trong nhiều hệ thống như truy hồi thông tin, hệ thống vấn đáp, xây dựng và tự
động mở rộng các bộ từ điển hay bản thể học (Ontology) và mạng ngữ nghĩa từ (WordNet).
Từ khi phát triển tới nay, rất nhiều phương pháp tiếp cận được đề xuất cho vấn đề tự động
trích xuất thuật ngữ như: sử dụng kỹ thuật ngôn ngữ học [9], sử dụng kỹ thuật thống kê [23],
hoặc sử dụng kết hợp cả hai kỹ thuật. Đe tăng thêm độ chính xác của kết quả đầu ra, các tài
nguyên có sẵn bên ngoài khác (Ví dụ: từ điển chuyên ngành, tập văn bản chuyên ngành,...) có
thể được sử dụng để hỗ trợ cho quá trĩnh đánh giá thuật ngữ. Bên cạnh các kỹ thuật về ngôn
ngữ học và xác suất, người ta còn sử dụng học máy trong trích xuất thuật ngữ [18].
7
Bước đầu tiên của trích xuất thuật ngữ là trích xuất các thuật ngữ tiềm năng từ tập văn bản. Ở
bước này, kỹ thuật ngôn ngữ học thường được áp dụng. Bước tiếp theo là xếp hạng các thuật
ngữ tiềm năng dựa trên điểm số thống kê của chúng, điều này nhằm đưa các từ có tiềm năng
cao là thuật ngữ lên đầu của dãy kết quả.
Dựa trên tổng hợp của Kruthmmer and Nenadic 2004 [24], các hướng tiếp cận của bài toán
ATE được chia ra làm 4 loại chính là: ngôn ngữ học, giá trị thống kê, học máy và lai (kết hợp
các phương pháp với nhau). Ngoài ra, còn có phương pháp hỗ trợ là sử dụng tri thức ngoài.
2.2. Phương pháp ngôn ngữ học
Trong bài toán tự động trích xuất thuật ngữ, phương pháp ngôn ngữ học thường là bước đầu
tiên để trích xuất các thuật ngữ tiềm năng từ văn bản. Vì thuật ngữ chỉ xuất hiện trong một số
giới hạn cấu trúc ngữ pháp là danh từ, động từ hay tính từ. Việc sử dụng kỹ thuật ngôn ngữ
học để lọc bớt số chuỗi từ không phải là thuật ngữ tiềm năng, đây là bước quan trọng cải thiện
độ chính xác của tập đầu ra, cũng như kết quả cuối cùng của ATE.
Thông thường, việc trích xuất thuật ngữ tiềm năng từ văn bản khi sử dụng phương pháp ngôn
ngữ học sẽ theo các bước sau:
- Gán nhãn từ loại cho toàn bộ văn bản cần trích xuất, với những phân tích sâu hơn, văn bản
cũng có thể được đánh dấu bởi các thông tin cú pháp phức tạp hơn.
- Trích xuất các thuật ngữ tiềm năng bằng các bộ lộc như: ngữ nghĩa, từ vựng, hình thái. Việc
chọn lựa giữa các bộ lọc tùy thuộc vào đặc trưng của thuật ngữ ( thuật ngữ đơn từ, thuật ngữ
đa từ, hay thuật ngữ có tiền tố - hậu tố đặc biệt.
- Tùy thuộc vào đặc trưng của bài toán có thể loại bỏ bớt các thuật ngữ tiềm năng bằng danh
sách từ loại bỏ (list of stop-words).
Ví dụ: đã, dễ, này, kia, nọ, xong, thỉnh_thoảng, ...[18]
Dựa vào mục đích của việc trích xuất mà thuật ngữ tiềm năng có thể là kết quả cuối cùng của
hệ thống, hoặc được chuyển tiếp sang các bước ATE khác. Công trình LEXTER của
Bourigault vào năm 1992 trên tiếng Pháp [9] là một ví dụ của hệ thống ATE chỉ sử dụng thuần
kỹ thuật ngôn ngữ học. Nghiên cứu này dựa trên nhãn từ loại (PoS tagging) để lọc thuật ngữ
tiềm năng bằng bộ lộc ngữ nghĩa. Bên cạnh việc sử dụng đặc trưng từ loại để nhận dạng thuật
ngữ, một số ngôn ngữ có đặc tính
8
biến hình như tiếng Anh, tiếng LaTinh còn sử dụng đặc trưng là các tiếp đầu ngữ (prefix) và
tiếp vị ngữ (suffix) để nhận dạng thuật ngữ. Hoặc đối với các ngôn ngữ đon hình như tiếng
Trung Quốc, tiếng Nhật là sử dụng các đầu tố đặc biệt.
Tuy nhiên, việc sử dụng thuần phương pháp ngôn ngữ học, chỉ giúp phát hiện các từ có cấu
trúc về mặt ngôn ngữ tương tự với các thuật ngữ mà không xét tới độ liên quan của từ đó với
chuyên ngành của thuật ngữ cần trích xuất cũng như độ quan trọng của từ đó trong văn bản
đang xét. Điều này khiến cho việc chỉ sử dụng bộ lọc ngôn ngữ sẽ đem lại kết quả không cao.
Vì vậy, phương pháp ngôn ngữ học thường được kết hợp sử dụng với kỹ thuật thống kê, hoặc
học máy, sự kết hợp này được gọi là phương pháp lai.
2.3. Phương pháp thống kê
Đối với phương pháp này, các từ và cụm từ sẽ được hệ thống đánh giá theo một trong hai
thang đo chính: Termhood và Unihood. Thang đo Termhood thể hiện độ liên quan của từ, cụm
từ so với nội dung của văn bản đầu vào. Ngược lại, thang đo Unihood thể hiện độ liên kết giữa
các từ, cụm từ với nhau trong văn bản.
Trước khi sử dụng được phương pháp thống kê, hướng tiếp cận này cần xác định các từ, cụm
từ để đánh giá hay còn gọi là thuật ngữ tiềm năng. Có hai cách để xác định thuật ngữ tiềm
năng: dùng phương pháp n-gram hoặc dùng phương pháp ngôn ngữ học đã trĩnh bày ở trên.
Với phương pháp n-gram, hệ thống sẽ lấy ra tất cả các cụm từ có không nhiều hơn n từ. Ví dụ,
với 3-gram, hệ thống sẽ lấy tất cả các từ có 1, 2, và 3 tiếng trong toàn bộ văn bản. Do đó, khi
sử dụng n-gram, số lượng thuật ngữ tiềm năng là rất lớn khi n lớn.
Một số công trĩnh như [20] [3] sử dụng thang đo Termhood. Ngược lại, công trình như [25] sử
dụng thang đo Unihood hoặc sử dụng kết hợp cả hai thang đo Termhood và Unihood trong
cùng một hệ thống như [10].
2.4. Phương pháp học máy
Trong bài báo [26], tác giả Jody Foo sử dụng phương pháp học máy theo luật (Learning
Rules) cụ thể là sử dụng thuật toán Ripper. Một trong những lý do quan trọng mà tác giả dùng
học máy theo luật là vì kết quả của hệ thống cuối cùng có thể đọc hiểu được, chúng ở dạng
các quy luật, có thể biểu diễn trực tiếp (dùng luật nếu- thì: if-then rules) hoặc biểu diễn gián
tiếp ( dùng cây quyết định: Decision Tree).
9
ẳố
ỗ ii ẳ
ấá
ã
10
2.5. Phương pháp sử dụng tri thức ngoài
Một số công trình nghiên cứu và xây dựng hệ thống áp dụng phương pháp sử dụng tri thức
ngoài như [10] [27]. Nhưng đa số phương pháp này chỉ là phần giúp cải thiện độ chính xác
của hệ thống, là một thành phần trong phương pháp lai. Cách tiếp cận của phương pháp này
trong các bài nghiên cứu là sử dụng một trong ba loại tri thức ngoài: WordNet, văn bản
thường và từ điển chuyên ngành. Công trình trích xuất thuật ngữ sử dụng văn bản thường điển
hình như của tác giả Chung công bố năm 2003 [28]. Hai tác giả Fukushige and Noguchi thì sử
dụng cả 2 loại văn bản thường và từ điển chuyên ngành [29]. Loại tri thức ngoài WordNet ít
được sử dụng bởi vì mặt hạn chế về số lượng cũng như độ đầy đủ của chúng, do hiện tại, đa
số công trình WordNet đều được tổng hợp thủ công hoặc bán tự động.
2.6. Phương pháp lai
Đây là phương pháp kết hợp nhiều phương pháp tiếp cận khác như phương pháp ngôn ngữ
học, phương pháp thống kê, phương pháp sử dụng tri thức ngoài, phương pháp học máy. Ưu
điểm lớn nhất của phương pháp lai là việc tận dụng được ưu điểm của từng phương pháp
thành phần, đồng thời giảm các hạn chế khi sử dụng các phương pháp thành phần một cách
riêng lẻ [18].
Đa số các công trình liên quan lựa chọn kết hợp giữa ba phương pháp ngôn ngữ học, phương
pháp thống kê và phương pháp sử dụng tri thức ngoài và sử dụng mô hình hệ thống như sơ đồ
Hình 2.6. Với dữ liệu đầu vào, phương pháp ngôn ngữ học sẽ trích xuất ra các từ và cụm từ
được cho là thuật ngữ tiềm năng. Phương pháp thống kê sẽ sử dụng danh sách thuật ngữ tiềm
năng này để đánh giá thuật ngữ tiềm năng, sau đó kết hợp với phương pháp sử dụng tri thức
ngoài để sắp xếp danh sách thuật ngữ tiềm năng.
Với những ưu điểm vượt trội và độ linh hoạt trong sự kết hợp giữa các phương pháp khác
nhau, phương pháp lai được sử dụng nhiều trong các công trình như [10] [20] [30]. Trong
tiếng Việt chưa có công trình nghiên cứu nào cho bài toán trích xuất thuật ngữ y khoa, nên
phương pháp lai còn có thể giúp so sánh giữa các phương pháp thành phần với nhau, đánh giá
sự phù hợp của phương pháp đối với đặc trưng tiếng Việt.
11
Hình 2.6: Mô hình hệ thống thường được sử dụng.
12
CHƯƠNG 3
KIẾN THỨC NỀN TẢNG
3.1. Bệnh án điện tử (BAĐT)
Trong những năm gần đây, với sự phát triển của công nghệ thông tin, các bệnh viện đều đã có
hệ thống thông tin bệnh viện. Ngoài chức năng cơ bản là quản lý bệnh viện và nguời bệnh, các
hệ thống này còn có các chức năng quan trọng là quản lý các hồ sơ về bệnh phí, bảo hiểm,
viện phí, quản lý các dữ liệu cận lâm sàng (nhu kết quả xét nghiệm máu, nuớc tiểu, X
quang, ...) cuối cùng là xây dựng và quản lý BAĐT.
Bệnh án là những ghi chép về các thông tin cá nhân, thông tin kết quả cận lâm sàng, các chẩn
đoán lâm sàng và các kết quả theo dõi bệnh hàng ngày của bệnh nhân. Có thể nói bệnh án
chính là sự đúc kết kinh nghiệm cũng nhu các phuơng pháp điều trị của bác sĩ trong quá trình
chữa trị bệnh. Trong đó dữ liệu về chẩn đoán lâm sàng có ý nghĩa đặc biệt quan trọng trong
nghiên cứu y khoa. Dữ liệu chẩn đoán lâm sàng có thể chia làm 3 loại sau:
- Phiếu điều trị: là các chẩn đoán và phuơng pháp điều trị hằng ngày của bác sĩ.
- Phiếu chăm sóc: là thông tin đuợc y tá ghi lại trong quá trình chăm sóc bệnh nhân và thực
hiện y lệnh của bác sĩ.
- Hồ sơ xuất viện: là dữ liệu điều trị và thông tin cơ bản của bệnh nhân trong toàn bộ thời
gian điều trị.
Truớc đây các thông tin này đuợc ghi chép và lưu trữ dưới dạng giấy, dẫn tới nhiều bất tiện
trong lưu trữ quản lý và truy xuất thông tin. BAĐT là bệnh án được số hóa bằng hệ thống
thông tin bệnh viện. BAĐT được lưu trữ dưới dạng số hóa nhờ đó có một số ưu điểm sau:
- Lưu trữ thông tin chính xác, không bị thất lạc và trùng lặp.
13