Tải bản đầy đủ (.ppt) (23 trang)

MộT Số TÀI NGUYÊN CHO NHẬN DẠNG THỰC THể Y SINH pptx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (648.31 KB, 23 trang )

MộT Số TÀI NGUYÊN CHO NHậN
DạNG THựC THể Y SINH
TRẦN MAI VŨ
NỘI DUNG

Thực thể y sinh

Một số kho dữ liệu về y sinh

Một số công cụ nhận diện thực thể y sinh

Kế hoạch tiếp theo
Thực thể y sinh

Các thực thể y sinh phổ biến:

Protein, DNA, RNA, Cell line, Cell type,
Gene…

Disease (bệnh), Symptom (triệu chứng),
Virus, Atom…
=> Kiểu hình(Phenotype), Gene, Bệnh (Disease)
, Hóa chất (Chemical)
3
Thách thức
4

Thiếu quy ước đặc tên trong sinh học

Sự đa dạng trong thuật ngữ:


Dùng từ tiếng Anh: Vd: light, map, complement,…tên gene

Sử dụng số: Vd: 9-cis retinoic acid

Sử dụng các ký tự và mã: M(2)201

Sự lồng nhau giữa các tên:

Vd: “[leukaemic[T [cell line]] Kit225]”

Sự phối hợp: “B and T cells”

Sự đồng âm

Tính đa nghĩa

Nhiều biến thể của một tên:

Vd: “-150 CD28 response element (CD28RE)/AP-1 site” cũng
là “-150 CD28RE/AP-1 site”.
Phenotype Entity

Kiểu hình(Phenotype):

Đặc tính ấn định bởi di truyền có thể quan
sát được của một tế bào hoặc sinh vật [1]

Tổ hợp của các đặc điểm quan sát được hoặc
những đặc điểm của một sinh vật: như hình thái,
sự phát triển, đặc tính sinh hóa hoặc sinh lý, vật

hậu học (phenology), hành vi, và các sản
phẩm của hành vi (chẳng hạn như tổ của một
con chim).[2]

Ví dụ: 4-5 finger syndactyly
5
[1]. Strachan, T., Read, A.: Human Molecular Genetics, 3rd edn. Garland Science/Taylor & Francis Group (2003)
[2]. />Pubmed

PubMed Central (Trung tâm lưu trữ báo
điện tử về y sinh và khoa học đời sống của
Viện Y học quốc gia Mỹ)

PubMed cung cấp quyền truy cập miễn phí
tới CSDL Medline.
MEDLINE: là csdl thư mục hàng đầu của
thư viện y khoa quốc gia Hoa Kỳ, gồm:
- 4.800 nhan đề tạp chí về y khoa
- 19 triệu tham chiếu (references) lưu trữ
từ đầu thập niên 50’ đến nay.
6
Pubmed
MeSH

MeSH(Medical Subject Heading): Tiêu đề
y khoa là tập các từ vựng dùng để phân
loại các bài báo trong Medline. Các từ
vựng này được mô tả theo cấu trúc cây.

Ví dụ:


21,973 mô tả

Hàng nghìn tham chiếu chéo
UMLS

UMLS(Unified Medical Language
System): bao gồm các cụm khái niệm y
học cùng nghĩa(đồng nghĩa, biến thể của
từ, từ trong các ngôn ngữ, từ viết tắt)

Hơn 1.5 triệu từ tiếng Anh
nằm trong hơn 60 nhóm và
được tổ chức trong 775
nghìn khái niệm
MedTag

L. Smith và cộng sự. MedTag là CSDL kết
hợp của 3 bộ

MedPost: 6700 câu đã gắn nhãn từ loại
(POSTagger chính xác 97.4%)

GENETAG: 15000 câu đã gắn nhãn Gene và
Protein.

ABGene: 4000 câu đã gắn nhãn Gene và
Protein
GENIA


Junichi Tsujii (University of Tokyo)

Genia Corpus

44 nhãn thực thể

Genia Ontology

Genia Tools

GENIA Sentence Splitter: Tách câu (mô hình
ME)

GENIA Tagger: PosTag, NER, Shallow parsing
11
CALBC Corpora

CALBC (Collaborative Annotation of a
Large Biomedical Corpus)
Challenge task A: Named Entity Recognition
Challenge task B: Concept identification
CALBC Corpora

CALBC-SSC-III-Small:

174,999 Medline abstracts,
2,548,900 annotations

CALBC-SSC-III-Big:


714,283 Medline abstracts,
10,304,172 annotations
16 nhãn ngữ nghĩa và 133 nhãn
con tương ứng UMLS
Human Phenotype Ontology

Là ontology về các kiểu hình trên người,
phát triển dựa trên các thông tin từ kho
dữ liệu OMIM (Online Mendelian
Inheritance in Man)

Gần 10 nghìn từ về kiểu hình trên người

Gần 50 nghìn chú thích về sự di truyền
bệnh
Một số Corpora khác
ABNER

Tác giả Burr Settles

(Java)

Sử dụng mô hình CRF(Mallet) và 2 loại đặc trưng
chính:

Chính tả: viết hoa, chữ số,…

Ngữ nghĩa: Thêm đặc trưng lớp ngữ nghĩa của từ
Ví dụ:

B. Settles (2004). Biomedical Named Entity Recognition Using Conditional
Random Fields and Rich Feature Sets. In Proceedings of the International Joint
Workshop on Natural Language Processing in Biomedicine and its Applications (NLPBA),
Geneva, Switzerland, pages 104-107.
Banner

Tác giả Bob Leaman và Graciela Gonzalez

(Java)

Sử dụng mô hình CRF

Sử dụng thêm đặc trưng phân tích cú pháp ở mức sâu
Leaman, R. & Gonzalez G. (2008) BANNER: An executable survey
of advances in biomedical named entity recognition. Pacific
Symposium on Biocomputing 13:652-663(2008)
Banner
Các loại đặc trưng
20
S SVM sh Dạng tự sy Nhãn cú pháp
H HMM gn Chuỗi gene tr Luật
C CRF wv Biến thể của từ ab Viết tắt
M MEMM ln Độ dài từ ca Các thực thể
khác
lx Từ vựng gz Tra từ điển do Thông tin tài liệu
af Các thông tin liên quan (ngram) po Nhãn từ loại pa Dấu ngoặc
or Chính tả np Nhãn cụm danh từ pr Sử dụng các
nhãn đã dữ đoán
Một số phương pháp giải
quyết

21
Định hướng tiếp theo

Nhận dạng Phenotype, Gene, Bệnh
(Disease), Hóa chất (Chemical)

Vấn đề: Phenotype chưa có tập dữ liệu
huấn luyện, chỉ có HPO

Dự kiến:

Sử dụng CALBC làm tập huấn luyện

Dùng HPO nhận dạng các câu có chứa
Phenotype, sử dụng các câu tìm được làm
câu huấn luyện

Thử nghiệm trên một số đặc trưng đã khảo
sát
THANK YOU

×