MẲU 14/KHCN
(Ban hành kèm theo Quyết định sổ 3839 /QĐ-ĐHQGHN ngày 24 thángio năm 2014
của Giảm đốc Đại học Quốc gia Hà Nội)
ĐẠI HỌC QUỐC GIA HÀ NỘI
BÁO CÁO TỒNG KỂT
KÉT QUẢ T H ự C HIỆN ĐÈ TÀI KH&CN
CẤP ĐẠI HỌC QUỐC GIA
Tên đề tài: Phát triển các phương pháp tối ưu giải quyết các bài toán liên
quan đến chuỗi protein.
M ã số đê tài: QG.15.21
Chủ nhiệm đề tài: Đặng Thanh Hải
Hà N ội, 26/12/2017
PHÀN I. T H Ô N G TIN CHUNG
1.1. Tên đề tài: Phát triển các phương pháp tối ưu giải quyết các bài toán liên quan đến chuỗi
protein.
1.2. M ã số: QG. 15.21
1.3. Danh sách chủ trì, thành viên tham gia thực hiện đề tài
TT Chức danh, học vị, họ và tên
Đơn vị công tác
V ai trò thực hiện đề tài
1
TS. Đặng Thanh Hải
Bộ môn Khoa học và Kỹ thuật
Tính toán, Khoa Công Nghệ
Thông Tin, ĐH Công Nghệ,
ĐHQGHN
Chủ nhiệm đề tài,
Nghiên cứu các nội
dung Đề tài
2
TS. Đỗ Đức Đông
Viện Công Nghệ Thông Tin,
ĐHQGHN
Nghiên cứu các nội
dung Đe tài
3
TS. Đặng Cao Cường
Bộ môn Khoa học và Kỹ thuật
Tính toán, Khoa Công Nghệ
Thông Tin, ĐH Công Nghệ,
ĐHQGHN
Nghiên cứu các nội
dung Đe tài
4
ThS. Hoàng Thị Điệp
Bộ môn Khoa Học và Kỹ
Thuật Tính Toán, Khoa CNTT,
ĐH Công Nghệ
Nghiên cứu các nội
dung Đe tài
5
TS. Nguyễn Thị Hậu
Bộ môn Hệ Thống Thông Tin,
Khoa CNTT, ĐH Công Nghệ
Nghiên cứu các nội
dung cùa Đề tài
1.4. Đơn vị chủ trì: Khoa Công Nghệ Thông Tin, ĐH Công Nghệ, ĐHQGHN.
1.5. Thời gian thực hiện:
1.5.1. Theo hợp đồng:
1.5.2. Gia hạn (nếu có):
1.5.3. Thực hiện thực tế:
từ tháng 02 nàm 2015 dến tháng 02 năm 2017.
đến tháng 12 năm 2017.
từ tháng 02 năm 2015 đến tháng 12 năm 2017.
1.6. Những thay đổi so với thuyết minh ban đầu (nếu có):
(Ve mục tiêu, nội dung, phương pháp, kết quà nghiên cứu và tổ chức thực hiện; Nguyên nhân; Ý
kiến của Cơ quan quản lý)
1.7. Tổng kinh phí được phê duyệt của đề tài: 250 triệu đồng.
PHÀN II. TỎNG QUAN KẾT QUẢ NGHIÊN c ứ u
Viết theo cấu trúc một bài báo khoa học tổng quan từ 6-15 trang (báo cáo này sẽ được đăng trên
tạp chí khoa học ĐHQGHN sau khi đề tài được nghiệm thu), nội dung gồm các phần:
1. Đặt vấn đề
Protein là phân tử hữu cơ phức tạp, cả về mặt cấu trúc lẫn chức năng, được cấu thành từ sự kết nối
liên tiếp của các axit amin thuộc 20 loại khác nhau. Được biết đến như là máy chức năng trong tế
báo, protein thực hiện phần lớn các chức năng sinh lý được mã hoá trong hệ gen của tế bào, ví dụ
như vận chuyển oxy khắp cơ thể đa té bào, truyền tín hiệu từ giữa các tế bào với nhau, hoặc kích
hoạt hàng trăm phản ứng hoá học cần thiết cho sự sống trong các tế bào (Alberts, 2007).
Việc dự đoán chính xác chức năng sinh lý của protein là chìa khoá để chúng ta có thể hiểu được
sự sống ở mức độ phân tử và do đó có ảnh hường vô cùng to lớn vào lĩnh vực y-sinh và dược học.
Tu) nhiên việc xác định chức năng của protein bằng thí nghiệm thường rất khó và đăt dẫn đên việc
khôig thể phù họp cho một khối lượng khổng lồ các dữ liệu chuỗi đang được tạo ra từ công nghệ
giải trình tự thế hệ mới (Liolios et al., 2009). Nghiên cứu các phương pháp tính toán để dự đoán
chúc năng của protein do vậy trở thành một hướng nghiên cứu có tính then chôt và quan trọng của
sirứ học phân tử và tính toán. Điều này được thể hiện qua việc (1) có tới 98% chú thích trong cơ sở
dữ iệu GO (Gene Ontology) là kết quả dự đoán bằng mô hình tính toán trong khi chỉ có 0.6% là đã
đưcc kiểm định bằng thí nghiệm (du Plessis et al., 2011); (2) số lượng các chú thích chức năng
pro.ein được dự đoán bằng mô hình tính toán trong cơ sở dữ liệu uniprotKB/Swiss-Prot luôn luôn
tăng luỹ thừa theo đơn vị là 10 triệu chú thích trong khi số lượng chú thích đã được kiểm nghiệm
troig cơ sở đữ liệu uniprotKB/TrEmble thì chỉ tăng tuyến tính hầu như không đáng kể.
Dự đoán chính xác chức năng protein là bài toán rất khó và đầy thách thức vì chức năng của
prctein không những được quyết định bởi chuỗi axit amin của nó mà còn bởi sự tương tác với các
prctein nhất định khác và bởi hơn 200 loại biến đổi protein sau tổng họp xẩy ra rất thường xuyên
trcng tế bào.
Các biến đồi sau tổng họp xẩy ra thường xuyên trong tế bào (Khoury et al., 2011): các nhà
khDa học hoá sinh ước lượng rằng có khoảng 1/3 protein ở người bị photphoryl hoá (một loại biến
đổ. sau tổng hợp quan trọng và được nghiên cứu nhiều nhất) (Alberts, 2007). Những vị trí axit amin
bị biến đổi sau tổng họp có thể được xác định bởi các thí nghiệm hoá sinh. Theo thời gian, đến thời
đièm hiện tại đã có một số lượng nhất định các vị trí bị BST đã được xác định (Sugiyama et al.,
2C08; Boersema et a l, 2010). Tuy nhiên do các thí nghiệm này thường rất tốn thời gian, rất khó và
đắt đỏ nên số lượng các BST được phát hiện vẫn còn rất hạn chế. Nhiều biến đổi sau tổng họp đã
đcợc biết đến là những nguyên nhân chính gây ra một số lượng lớn các loại bệnh (Manning et al.,
2(02), trong đó có ung thư (Seeler et al., 2007), bệnh tâm thần mất trị (Alzheimer) (Hưen and Chen,
2(08) và bệnh Huntington (Steffan et al., 2004). Những hiện thực khó khăn và tầm quan trọng của
những biến đổi protein sau tổng hợp này đã tạo ra cơ hội và thách thức để cộng động nghiên cứu về
tin sinh học (sinh học tính toán) phát triển các mô hình tính toán có khả năng dự đoán chính xác các
vị trí axit amin bị biến đổi sau tổng hợp (Suo et al., 2014). Mặc dù đã có rất nhiều phương pháp tính
tcán tiên tiến được phát triển nhằm dự đoán photphoryl hoá protein (là một loại BST được các nhà
hoá sinh nghiên cứu nhiều nhất) và chúng đã tạo ra nhiều bước tiến trong việc dự đoán nhưng
mững phương pháp này vẫn còn nhiều hạn chế cần được khắc phục giải quyết (Suo et al., 2014).
Co đó các phương pháp dự đoán tiên tiến mới vẫn rất cần phải được nghiên cứu phát triển để có thể
di đoán chính xác hơn các vị trí photphoryl hoá protein. Nhu cầu này lại càng cấp thiết hơn cho các
loại biến đổi protein sau tổng hợp khác.
Một số đặc tính của mạng tương tác protein, ví dụ nhu các tương tác điểm làm thay đổi cấu trúc
(illosteric) và các hotspot tương tác, đã được ứng dụng vào trong các chiến lược thiết kế/chế tạo
thuốc (Arkin và Wells, 2004; Chen vcs., 2013). Sự liên quan của mạng tương tác protein như là các
cối tượng điều trị ban đầu phục vụ việc phát triển các liệu pháp điều trị mới là khá rõ ràng đối với
bệnh ung thư, với một số thí nghiệm y học lâm sàng trong lĩnh vực này. Sự thống nhất giữa những
cối tượng tiềm năng này được thể hiện trong việc hiện tại đã có rất nhiều thuốc trên thị trường để
đều trị một số lượng rất lớn các loại bệnh. Ví dụ như: Titrobifan, chất ức chế gluco-protein Ilb/IIIa,
cược sử dụng như là một loại thuốc tim mạch, và Maraviroc, chất ức chế tương tác CCR5-gpl20,
dược sử dụng như là một dạng thuốc chống HIV (Ivanov vcs., 2013).
Các protein hay các mạng tương tác protein cũng có thể có tương tác với các họp chất hoá
học/thuốc (Ivanov vcs., 2013; Arkin và Wells, 2004). Các hợp chất hoá học/thuốc cũng như các
orotein đều có tương tác (gây ra hoặc ức chết) các loại bệnh một cách vô cùng phức tạp. Đen nay,
/ốn hiểu biết cùa con người về quá trình tương tác này vẫn chi rất hạn ché, còn rất xa so với thực tế
iiễn ra (Duran-Frigola et al., 2015). Chức năng cùa các protein do đó có thể được hiểu rõ hơn khi
;húng ta có thể nắm bắt được các tuong tác giữa các hợp chất hoá học/thuốc và bệnh. Các tương tác
này thường được mô tả trong một khối lượng khổng lồ các bài báo khoa học về sinh - y - dược học,
íược công bố, được lưu trữ, đánh chỉ mục và quản lý bời hệ thong PubMed (MEDLINE). Tính đến
2
ngà/ 8 tháng 2 năm 2015, PubMed đã quản lý hơn 24.6 triệu bài báo khoa học kể từ 1966; khoảng
50(,000 bài báo mới được thêm vào mỗi năm. Trong số này 13.1 triệu bài báo có phần tóm tắt và
14.2 triệu có đường link đến toàn văn bài báo (trong đó 3.8 triệu bài báo được cung cấp miễn phí
chc bất kỳ người đọc nào). Năm 2011 Plake và Schroeder, thông qua nghiên cứu cùa mình, đã đi
đếr kết luận rằng khai phá văn bản sinh-y-dược là một công cụ thiết yếu và vô cùng quan trọng để
có -hể hỗ trợ, đẩy nhanh quá trình nắm bắt được các tương tác giữa các hợp chất hoá học/thuốc và
bệrh (Plake và Schroeder, 2011).
Mặc dù đã có nhiều phương pháp/mô hình tính toán dự đoán chức năng của protein được phát
trién tuy nhiên chúng vẫn cần các phương pháp tối ưu để chọn các giá trị tham số, các thuộc tính
đặ; trưng hay thậm chí tập dữ liệu học phù hợp để có thể dự đoán chính xác (Radivojac et al.,
2013). Quá việc khảo cứu đánh giá, so sánh các phương pháp dự đoán chức năng protein hiện có
Rtdivojac và cộng sự năm 2013 đã chi ra rằng bài toán dự đoán chức năng protein nhiều khả năng
vẫi sẽ là một lĩnh vực nghiên cứu chủ đạo hấp dẫn và phát triển mạnh; các mô hình tính toán tối ưu
hen cần phải được nghiên cứu phát triển.
2. M ụ c tiêu
Đi tài này do đó sẽ tập trung nghiên cứu các phương pháp tối ưu, các kỹ thuật khai phá dữ liệu và
hcc máy tiên tiến nhằm giải quyết các bài toán liên quan đến phân tích chuỗi protein.
3.Phưoìig pháp nghiên cứu
Ciúng tôi tiến hành khảo sát, nghiên cứu chi tiết các phương pháp/giải pháp tốt nhất hiện có liên
quan đến nội dung đề tài, qua đó đánh giá và so sánh điểm mạnh yếu cùa mỗi giải pháp. Các giả
thuyết sẽ được xây dựng và được kiểm nghiệm bằng chứng minh lý thuyết hoặc bằng thực nghiệm.
Cuối cùng chúng tôi sẽ lựa chọn, cải tiến một giải pháp đã có hoặc phát triển một giải pháp mới để
tiến hành triển khai nhằm hoàn thành nội dung đặt ra.
Các phương pháp liên quan đã được phát triển bởi các thành viên tham gia đề tài được kế thừa,
kết họp với việc nghiên cứu chi tiết và so sánh các phương pháp liên quan tốt nhất hiện có để từ đó
cj thể phát triển được giải pháp mới cho mục tiêu đề ra. Chúng tôi đã tiến hành tập trung nghiên
cứu kỹ các phương pháp khai phá dữ liệu, kỹ thuật học máy tiên tiến nhất, ví dụ như kỹ thuật tối ưu
hjá đàn kiển (Ant Colony Optimization - ACO), mô hình xác suất, và kỹ thuật học sâu (deep
learning) để có thể giải quyết các vấn đề liên quan đến chuỗi protein.
Ngoài ra, các thuộc tính hoá lý cùa axit amin, các phương pháp biểu diễn những thuộc tính này
-vào các bài toán liên quan đến chuỗi protein cũng đã được chúng tôi nghiên cứu. Các thông tin
(phần lớn là dự đoán bằng các mô hình tính toán, không chắc chắn và chưa được xác định bằng thực
rghiệm) về cấu trúc protein và tầm quan trọng của nó đối với các bài toán liên quan đến protein
cũng đã được nghiên cứu đê qua đó tích hợp những thông tin này vào các phương pháp giải quyêt
các bài toán liên quan.
Cuối cùng, chúng tôi cũng đã nghiên cứu khảo sát các nguồn dữ liệu, các tri thức liên quan đến
orotein (bao gồm cả về họp chất hoá học/thuốc và bệnh); qua đó có thể áp dụng các kỹ thuật khai
ohá dữ liệu tiên tiến (ví dạ như phuơng pháp Tập phổ biến/Luật kết hợp) để tích hợp chúng vào các
ohương pháp tối ưu giải các bài toán liên quan đến chuỗi protein.
4. Tổng kết kết quả nghiên cứu
Chúng tôi đã nghiên cứu và phát triển các mô hình dựa trên các phương pháp tối ưu, các kỹ thuật
khai phá dữ liệu và học máy tiên tiến nhằm giải quyết các vấn đề quan trọng có ảnh hường (trực
tiếp hoặc gián tiếp) đến quá trình phân tích chuỗi protein, bao gồm vấn đề về các tương tác giữa cạc
protein, các biến đổi protein sau tổng họp, tìm chuỗi nguồn tiến hoá và tương tác giữa các hợp chất
hoá học/thuốc và bệnh.
3
4.1. Mô hình liên quan đến tương tác giữa các protein
Chúng tôi đã xây dựng một Webserver có khả năng dự đoán tương tác giữa các cặp enzim xúc tác
(protein kinase) và cơ chất (substrate), ngoài ra còn đưa ra các vị trí cụ thể của tương tác này.
Webserver này được cung cấp miễn phí tại địa chỉ: . vn:8286/subin/web, cho
phép người dùng (những nhà nghiên cứu về hoá sinh học) có thể sừ dụng một cách dễ dàng để dự
đoán được một cặp enzim xúc tác-cơ chất (kinase-substrate) có tương tác với nhau hay không một
cách nhanh chóng? (nếu có thì ở những vị trí nào?). Webserver này được xây dựng dựa trên mô
hình đồ thị xác suất các trường ngẫu nhiên có điều kiện (Conditional Random Fields) kết họp với
thuật toán khai phá luật kết hợp nén (Vreeken vcs., 2011). Trong tất cả các loại tương tác dựa trên
biến đổi sau tổng họp giữa các protein đã được biết thì tương tác enzim xúc tác-cơ chất (kinasesubstrate) thuộc tốp 2 loại xẩy ra thường xuyên trong tế bào và được nghiên cứu nhiều nhất (Suo
vcs., 2014). Nhiều tương tác thuộc loại này đã được biết đến là những nguyên nhân
chính gây ra
một số lượng lớn các loại bệnh (Manning et al., 2002), trong đó có ung thư (Seeler
et al.,2007),
bệnh tâm thần mất trị (Alzheimer) (Huen and Chen, 2008) và bệnh Huntington (Steffan et al.,
2004).
Trước đây, các chức năng của protein có thể được xác định dựa trên mối quan hệ tiến hóa, với
tiêu chí thường được sử dụng là độ tương tự giữa các chuỗi protein (Remm vcs., 2001). Tuy nhiên,
cách tiếp cận này thường không đủ tốt để nhận dạng các chức năng cùa protein (Park vcs. 2011). Sự
phát triển của các kỹ thuật công nghệ sinh học trong hơn thập kỷ qua đã cho phép xây dựng được
các mạng tương tác protein cho nhiều loài sinh vật. Các mạng tương tác này cũng có thể được bổ
sung (hay thậm chí được tạo ra) từ rất nhiều mô hình tính toán tiên tiến (ví dụ như mô hình được
triển khai dưới dạng Webserver được đề cập ở trên). Việc phân tích, so sánh các dữ liệu mạng tương
tác này cung cấp nhiều thông tin hữu ích cho dự đoán các chức năng chưa biết hoặc kiểm định các
chức năng đã biết của các chuỗi protein (Dutkowski và Tiuryn, 2007; Memisevic và Przulj, 2012).
Bài toán này đã được chứng minh là NP-khó (Aladag và Erten, 2013).
Chúng tôi đã đề xuất một thuật toán mới có tên là FASTan để dóng hàng toàn cục mạng PPI
(Đỗ Đức Đông vcs. 2015). Thuật toán gồm hai pha: pha thứ nhất xây dựng dóng hàng ban đầu bằng
một thuật toán heuristic dựa trên sự tương quan giữa cấu trúc tô pô và sự tương đồng trình tự giữa
các nút, sau pha này FASTan thu được một dóng hàng toàn cục ban đầu; pha thứ hai đề xuất thủ tục
Rebuild (là điêm mạnh của thuật toán) nhằm giữ lại những phần dóng hàng tổt của pha thứ nhât
(loại bỏ những dóng hàng không tốt) và dựa vào đó để dựng lại toàn bộ dóng hàng. FASTan sau đó
được tiếp tục cải tiến bằng việc sử dụng phương pháp tối ưu đàn kiến (ACO), kết họp với thủ tục
rebuild của FASTan như một thủ tục tìm kiếm cục bộ (Đỗ Xuân Quyền vcs., 2016).
4.2. Mô hình liên quan đến biến đổi protein sau tổng hợp
Chúng tôi đã phát triển SKIPHOS, là một mô hình dự đoán vị trí photphoryl hoá (một trong những
loại biến đổi sau tổng hợp quan trọng vào loại bậc nhất đối với hoạt động của các tế bào) dựa trên
rừng ngẫu nhiên (random forests) sử dụng các thuộc tính được tính toán từ các đặc trưng hoá lý của
chuỗi protein và các biễu diễn liên tục của các axít amin dựa trên kỹ thuật học sâu. SKIPHOS, với
giao diện đơn giản, được cung cấp trực tuyến miễn phí tại Việc
xây dựng thành công các mô hình tính toán có khả năng dự đoán chính xác và hiệu quà các vị trí bị
photphoryl hoá đang trở thành một vấn đề có tính cấp thiết và đầy thách thức (theo Trost và
Kusalik, 2011).
4.3. Mô hình tìm chuỗi nguồn tiến hoá
Bài toán xây dựng lại chuỗi nguồn/gốc (gene hoặc protein) (tổ tiên) cho một quần thể nhất định là
một vấn đề quan trọng trong sinh học. Nó liên quan đến việc tìm ra một tập các chuỗi nguồn để từ
đó có thể kết hợp với nhau để tạo thành các chuỗi trình tự cho trước cùa các cá thể trong quần thể
nhất định. Việc xây dựng lại các chuỗi nguồn có thể được mô hình hoá thành vấn đề tối ưu hóa tổ
hợp, trong đó chúng ta phải tìm ra một tập các chuỗi trình tự (tổ tiên) để các cá thể cho trước trong
một quần thể nhất định có thể được tạo ra bằng một số lượng nhỏ nhất các biến đổi tái tổ hợp trên
4
nh j~.g trình tự tổ tiên đó. Bài toán này được đề xuất bởi Ukkonen và đã được chính mình là NP-khó
vói 'êu cầu số chuỗi nguồn >2 (Ukkonen, 2002).
Chúng tôi đã đề xuất ACOFSRP, một phương pháp xây dựng chuỗi nguồn dựa trên thuật toán
tối ƯU hóa kiến (ACO) cùng với một số cải tiến quan trọng (Anh Thị Vũ Ngọc vcs. 2018). Các cải
tién này bao gồm: chiến thuật để các kiến tìm kiếm lời giải đồng thời cùng nhau, tìm kiếm lân cận
và tm kiếm theo hai chiều ngược và xuôi.
4.4 Mô hình liên quan đến hoá chất/thuốc và bệnh
Trcng các mối quan hệ giữa các thực thể y-sinh thì các mối quan hệ giữa hợp chất hoá học/thuốc và
bệrh cũng như giữa bệnh và gen/protein đã và đang nhận được ngày càng nhiều sự quan tâm từ
cộrg đồng các nhà nghiên cứu khai phá dữ liệu văn bản y-sinh học. Một khảo sát về hành vi tìm
kiến trên PubMed cùa người dùng cho thấy rằng các tên bệnh, các hợp chất hoá học, thuốc và tên
ger/protein gây bệnh là ba trong số các từ khoá được tìm nhiều nhất trên thế giới (Dogan et al.,
2009). Ba thực thể này là đối tượng trung tâm cùa nhiều nội dung nghiên cửu quan trọng, ví dụ như
ché tạo thuốc, phát hiện các phản ứng phụ cùa thuốc v.v. Việc phát hiện ra các tương tác giữa thuốc
và bệnh là rất cần thiết cho việc hiểu rõ bản chất cùa bệnh, cũng như cho quá trình phát hiện các
chxc năng quan trọng của họp chất hoá học/thuốc và gene/protein (Yu et al. 2015).
Trong cuộc sống hàng ngày con người tiếp xúc với một số lượng lớn các hoá chất, bao gồm các
loã thuốc và các nguồn độc tố ở môi trường xung quanh. Các tác dụng chữa bệnh cũng như tác
ding phụ của những hoá chất này là hệ quà của quá trình tuơng tác vô cùng phức tạp ở mức phân tử
vói cơ thể người. Đen nay, vốn hiểu biết của con người về quá trình tương tác này vẫn chi rất hạn
chế, còn rất xa so với thực tế diễn ra (Duran-Frigola et al., 2015).
Bài toán trích xuất các mối quan hệ giữa hoá chấưthuốc và bệnh từ văn bản y-sinh hiện tại vẫn
là rất khó, đầy thách thức (Leaman et al., 2015), đang là chù để nghiên cứu nóng trên thế giới (Choi
et al., 2016). Nó bao gồm hai bước: (i) bước thứ nhất nhằm nhận dạng và chuẩn hoá các thực thể
hoá chất-thuốc và bệnh; (ii) bước thứ hai nhằm phát hiện và trích xuất các mối quan hệ tác dụng
pkụ của thuốc giữa các thực thể được nhuận dạng và chuẩn hoá từ bước thứ nhất.
Chúng tôi đã xây dựng thành công hệ thống ƯET-CAM có khả năng trích xuất tự động mối
qaan hậ hỡá chất - bệnh từ văn bàn y-sinh (Lê Hoàng Quỳnh vcs. 2015, 2016). UET-CAM sử dụng
kỹ thuật diễn giải đồng tham chiếu đa sàng multi-pass sieve coreference resolution (kết hợp với mô
hnh dự dựa trên SVM đoán các mối quan hệ xuất hiện trong một câu). Thông thường, pha nhận
dạng (NER) và pha chuẩn hoá (NEN) các thực thể thuốc/hoá chất, bệnh (NER) được xây dựng
thành hai công đoạn độc lập nhau trong một chu trình. Điều này dẫn đến các hạn chế rất lớn, cụ thể
li: lỗi ở pha NER sẽ được lan truyền đến pha NEN và không có phản hồi từ pha NEN tới NER (Liu
et al., 2011). Hiện tại UET-CAM khắc phục hạn chế này bằng mô hình giải mã gộp (joint-decoding)
cùa NEN và NER dù rằng giải pháp tốt hơn, nếu không muốn nói là tốt nhất, nên được giải quyết
bằng mô hình suy luật/học gộp (joint reference/learning).
5. Đánh giá về các kết quả đã đạt được và kết luận
Các mô hình, phương pháp chúng tôi đã đạt được đã được kiểm chửng bằng các thực nghiệm
òhuẩn mực và công phu. Chúng tôi cũng đã tiến hành so sánh các phương pháp, mô hình đề xuất
với các phương pháp, mô hình cùng loại tiên tiến trên thế giới đến thời điểm hiện tại. Các kết quả
:hực nghiệm so sánh đã chỉ ra tính hiệu quả của các mô hình, phương pháp mà chúng tôi đã xây
lựng.
Hiệu năng cùa Webserver dự đoán tương tác enzim xúc tác-cơ chất đã được so sánh với một
phương pháp tốt nhất hiện có, cùa nhóm Song vcs. (2017). Hệ thống của chúng tôi cung cấp dự
đoán cho 56 protein/nhóm protein kinase, trong khi của nhóm Song vcs. chỉ là 12. Hệ thống của
chúng tôi có khả năng dự đoán tốt hơn của Song vcs. cho cặp tương tác của nhóm protein kinase
PKA (AUC của chúng tôi là 96%, trong khi cùa Song vcs. là 93%). Với các protein kinase còn lại
hệ thống cùa chúng tôi hoạt động kém hơn. Tuy nhiên, điều này có thể giải thích được khi hệ thống
cùa chúng tôi chỉ hoạt động dựa vào thông tin chuỗi protein trong khi cùa Song vcs. lại tích hợp
thên vào hệ thống cùa họ rất nhiều thông tin bổ sung quan trọng, bao gồm thông tin về câu trúc
proein, Gene Ontology, Từ điển bách khoa toàn thư Tokyo về các chu trình gene và hệ gene
(K£GG), các tương tác protein-protein loại khác, các thông tin về vùng chức năng trên protein. Khi
chỉ dùng thông tin về chuỗi protein như hệ thống cùa chúng tôi, hệ thống của Song vcs. chi có thể
dự ioán tốt hơn của chúng tôi cho 2 kinase (trong số 12 kinase mà họ cung cấp), đó là GSK-3 và
nhem kinase MAPK, với những kinase còn lại hệ thống của chúng tôi dự đoán tốt hơn. Trong tương
lai gần chúng tôi sẽ nâng cấp hệ thống hiện tại bằng cách tích hợp thêm các thông tin như đã được
nhem Song vcs. (2017) thực hiện.
Mô hình dóng hàng toàn cục 2 mạng tương tác protein FASTan của chúng tôi đã được so sánh
vớ mô hình SPINAL, là mô hình tương tự tốt nhất đến thời điểm chúng tôi tiến hành nghiên cứu và
thục nghiệm (Aladag và Erten, 2013). Việc so sánh được tiến hành trên 4 tập dữ liệu chuẩn đã được
sử dụng bởi nhóm tác giả cùa SPINAL. Chúng là dữ liệu về mạng tương tác giữa các protein trong
4 oài: Saccharomyces cerevisiae, Drosophila melanogaster, Caenorhabditis elegans, and Homo
sapiens. Ket CỊuà thực nghiệm đã chỉ ra rằng FASTan hoạt động tốt hơn SPINAL theo cả hai tiêu chí
đáih giá chuẩn, được sử dụng rộng rãi (Chindelevitch vcs. 2013), đó là độ đo chỉ số dóng hàng
toín cục (GNAS) và độ đo tính chính xác của các cạnh được dóng (EC). Hơn nữa, FASTan còn có
khi năng dóng hàng nhanh hơn SPINAL. Phiên bản nâng cấp cùa FASTan bằng việc sử dụng
phxơng pháp tối ưu đàn kiến (ACO), kết họp với thủ tục rebuild của FASTan như một thủ tục tìm
kiém cục bộ, cũng đã được thực nghiệm trên 4 tập dữ liệu chuẩn này, và cho thấy tính ưu việt của
bải nâng cấp so với phiên bản FASTan cũ.
Mô hình SKIPHOS (Đặng Thanh Hải vcs. 2018, Bioinformatics, submitted) dự đoán vị trí bị
photphoryl hoá trên chuỗi protein cùa chúng tôi đã được so sánh công phu với 4 phương pháp cùng
loai tốt nhất gần đây nhất trên tập dữ liệu chuẩn, cũng như các tập dữ liệu mà các mô hình này đã sử
dụng thêm. Các phương pháp được so sánh bao gồm RFPhos (Ismail et al., 2016), PhosphoSVM
(Eou et al., 2014), PHOSFER (Trost and Kusalik, 2013, Bioinformatics) và iPhos-PseEn (Qiu et al.,
2(16, Oncotarget). Két quả thực nghiệm đã chỉ ra rằng SKIPHOS có khà năng dự đoán vị trí bị
photphoryl hoá trên chuỗi protein tốt hơn 4 phương pháp này.
Mô hình ACOFSRP xây dựng chuỗi nguồn dựa trên thuật toán tối ưu hóa kiến (ACO) cùng với
m3t số cải tiến quan trọng đã được tiến hành thực nghiệm và so sánh với một phương pháp tương tự
tốt nhất đến thời điểm ACOSRP nghiên cứu, đó là LN S-lc (Roli và Blum, 2012). Quá trình thực
nghiệm được tién hành trên 108 tập test kiểm tra được lấy từ 3 tập dữ liệu chuẩn đã được sử dụng
bơi các tác giả của LN S-lc. Ket quả thực nghiệm đã chỉ ra tính hiệu quả của ACOSRP khi nó có thể
xảy dựng lại chuỗi nguồn tốt hơn trong 45 tập test, tương đương trong 44 tập và chi kém hơn trong
1° tập khi so với LN S-lc.
Hệ thống UET-CAM đã tham gia cuộc thi BioCreative V và đã được hội đồng của BioCreative
V xếp hạng thứ 4 về khả năng trích xuất tự động mối quan hệ hoá chất/thuốc - bệnh trong tổng số
n nhóm nghiên cứu tham gia từ Australia, Châu Âu, Châu Á và Bắc Mỹ (Wei et al., 2015). Với kết
qià này hệ thống UET-CAM của chúng tôi đã được chọn đăng trong kỷ yếu của hội thảo
EioCreative V tại Sevilla, Tây Ban Nha (Lê Hoàng Quỳnh vcs., 2015) và đã được hội đồng
EioCreative V khuyến nghị tiếp tục nâng cấp hoàn thiện và sẽ được giới thiệu để được đăng ở tại
cú Database (2015 Impact Factor: 3.35; xếp hạng 5/57 tạp chí ISI về lĩnh vực Toán và Sinh học
Tính toán) (Lê Hoàng Quỳnh vcs., 2016).
Các mô hình, phương pháp chúng tôi đã đạt được đều nhằm giải quyết các vấn đề quan trọng
c5 liên quan trực tiếp đến vấn đề phân tích chuỗi protein. Tính hiệu quà hơn cùa các mô hình,
phương pháp đạt được khi so sánh với các phương pháp liên quan tốt nhất hiện có, nhất là khi
chúng được cung cấp dưới dạng các giao diện hệ thống phần mềm dễ dùng, sẽ nhiều khả năng có
tie đóng một vai trò nhất định trong việc giúp các nhà nghiên cứu hoá-sinh học đẩy nhanh quá trình
rghiên cứu liên quan của họ, quá đó thu được những hiểu biết hơn về chức năng của protein.
6
6. Tóm tắt kết quả (tiếng Việt và tiếng Anh)
Protein thực hiện tất cả các chức năng (được mã hoá trong hệ gen) trong tế bào. Việc dự đoán chính
xác chức năng của protein là chìa khoá để chúng ta có thể hiểu được sự sống ờ mức độ phân tử và
do đó có ảnh hường vô cùng to lớn vào lĩnh vực y-sinh và dược học. Chức năng của protein không
những được quyết định bởi chuỗi axit amin của nó mà còn bởi cấu trúc 2D, 3D, 4D của nó, sự
tương tác với các protein và các họp chất hoá học nhất định khác và bời hon 200 loại biến đổi
protein sau tồng hợp xẩy ra rất thường xuyên trong tế bào.
Chúng tôi đã nghiên cứu và phát triển thành công các mô hình dựa trên các phương pháp tối
ưu, các kỹ thuật khai phá dữ liệu và học máy tiên tiến nhằm giải quyết các vấn đề quan trọng có ảnh
hường trực tiếp đến quá trình phân tích chuỗi protein, bao gồm: 01 hệ thống W ebserver dự đoán
tương tác giữa enzim xúc tác (protein kinase) và cơ chat (substrate); hai phiên bản của một mô hình
dóng hàng toàn cục hai mạng tương tác giữa các protein; 01 hệ thống dự đoán photphoryl hoá (là
một trong những loại biến đổi protein sau tổng hợp quan trọng, thiết yếu và nhận được nhiều quan
tâm nghiên cứu nhât); 01 mô hình xây dựng lại chuỗi nguôn tiên hoá; và 01 mô hình trích xuât
tương tác giữa các họp chất hoá học/thuốc và bệnh từ văn bản y sinh.
Các mô hình, phương pháp chúng tôi đã đạt được đã được kiểm chứng bằng các thực nghiệm
chuẩn mực và công phu. Chúng tôi cũng đã tiến hành so sánh các phương pháp, mô hình đề xuất
với các phương pháp, mô hình cùng loại tiên tiến trên thế giới đến thời điểm hiện tại. Các kết quả
thực nghiệm so sánh đã chỉ ra tính hiệu quả của các mô hình, phương pháp mà chúng tôi đã xây
dựng khi so sánh với các mô hình liên quan tốt nhất hiện có. Bên cạnh đó, các mô hình, phương
pháp chúng tôi đã đạt được đều có khả năng mở rộng và nâng cấp hơn nữa trong tương lai.
Chúng tôi hy vọng rằng, qua việc cung các mô hình, phương pháp đạt được dưới dạng các giao
diện hệ thống phần mềm dễ dùng, sẽ nhiều khả năng có thể đóng một vai trò nhất định trong việc
giúp các nhà nghiên cứu hoá-sinh học đẩy nhanh quá trình nghiên cứu liên quan cùa họ, quá đó thu
được những hiểu biết hơn về chức năng cùa protein.
In English
Proteins perform all biological functions (encoded in the genome) in living cells. Accurately
predicting proteins’ functions is the key to understanding the life at the molecular level and thus
having a tremendous impact on biomedicine and pharmacy. Proteins’ funcitons are not only
determined by its primary amino acid sequence but also by its 2D, 3D, 4D structure, interaction
with certain proteins and chemical compounds, and by more than 200 types o f post-translation
protein medificaitons (PTMs), which occurs very often in living cells.
We have successfully studied and developed novel models based on optimal methods, data
mining techniques and advanced machine learning to address important issues that directly affect
the process of analyzing protein sequences. They include: 01 Webserver that predicts positionspecific kinase-substrate interactions; 02 versions o f a global alignment model for two protein
interaction networks; 01 phosphorylation prediction system (which is one o f the most important,
essential and most well-studied PTMs); 01 model for reconstruction o f founder sequences; and 01
model for extraction o f interactions between chemical compounds/drugs and diseases from the
biomedical literature.
The proposed models and methods have been verified by standard and sophisticated
experiments. We have also compared the proposed them with the same state-of-the-art methods and
models up to the present time. Comparative experimental results have shown the effectiveness o f
the proposed models and methods when compared to state-of-the-art models by far. In addition, the
models and methods we have proposed are more likely to be expanded and further upgraded in the
follow-up.
7
We anticipate that the proposed models and methods delivered in the form of easy-to-use
software system interfaces will be possible to play an important role in helping chemists, biologists
accelerate their related researchs, acquiring better understanding of proteins’ functions.
7. Tài liệu tham khảo
•
C.-H. Wei, Y. Peng, R. Leaman, A. p. Davis, c. J. Mattingly, J. Li, T. c. Wiegers, z. Lu, Overview of the biocreative V
chemical disease relation (cdr) task, in: Proceedings of the fifth BioCreative challenge evaluation workshop, Sevilla Spain,
2015, pp. 154-166.
•
B. Alberts, A. Johnson, J. Lewis, M. Ra, K. Roberts, p. Walter, The shape and structure of proteins.
•
K. Liolios, I.-M. A. Chen, K. Mavromatis, N. Tavemarakis, p. Hugenholtz, V. M. Markowitz, N. c. Kyrpides, The
genomes on line database (gold) in 2009: status of genomic and metagenomic projects and their associated metadata,
Nucleic acids research 38 (suppl_l) (2009) D346-D354.
•
c. Plake, M. Schroeder, Computational polypharmacology with text mining and ontologies, Cuưent pharmaceutical
biotechnology 12 (3) (2011) 449-457.
• G. A. Khoury, R. c. Baliban, c. A. Floudas, Proteome-wide post-translational modification statistics: frequency analysis
and curation of the swiss-prot database, Scientific reports 1 (2011) 90.
• L. du Plessis, N. ẫkunca, c. Dessimoz, The what, where, how and why of gene ontology—a primer for bioinformaticians,
Briefings in bioinformatics 12 (6) (2011) 723-735.
•
A. Roll, S. Benedettini, T. Stutzle, c. Blum, Large neighbourhood search algorithms for the founder sequence
reconstruction problem, Computers & operations research 39 (2) (2012) 213-224.
• N. Sugiyama, H. Nakagami, K. Mochida, A. Daudi, M. Tomita, K. Shirasu, Y. Ishihama, Large-scale phosphorylation
mapping reveals the extent of tyrosine phosphorylation in arabidopsis, Molecular systems biology 4 (1) (2008) 193.
•
P. J. Boersema, L. Y. Foong, V. M. Ding, s. Lemeer, B. van Breukelen, R. Philp, J. Boekhorst, B. Snel, J. den Hertog, A.
B. Choo, et al., In-depth qualitative and quantitative profiling of tyrosine phosphorylation using a combination of
phosphopeptide immunoa_nity purification and stable isotope dimethyl labeling, Molecular & Cellular Proteomics 9 (1)
(2010)84-99.
•
Y. Dou, B. Yao, c. Zhang, Phosphosvm: prediction of phosphorylation sites by integrating various protein sequence
attributes with a support vector machine, Amino acids 46 (6) (2014) 1459-1469.
•
H. D. Ismail, A. Jones, J. H. Kim, R. H. Newman, D. B. Kc, Rf-phos: a novel general phosphorylation site prediction tool
based on random forest, BioMed research international 2016.
•
B. Trost, A. Kusalik, Computational phosphorylation site prediction in plants using random forests and organism-specific
instance weights, Bioinformatics 29 (6) (2013) 686-694.
•
W.-R. Qiu, X. Xiao, Z.-C. Xu, K.-C. Chou, iphos-pseen: identifying phosphorylation sites in proteins by fusing di erent
pseudo components into an ensemble classifier, Oncotarget 7 (32) (2016) 51270.
•
G. Manning, D. B. Whyte, R. Martinez, T. Hunter, s. Sudarsanam, The protein kinase complement of the human genome,
Science 298 (5600) (2002) 1912-1934.
•
J.-S. Seeler, o . Bischof, K. Nacerddine, A. Dejean, Sumo, the three rs and cancer, in: Acute Promyelocytic Leukemia,
Springer, 2007, pp. 49-71.
•
S.-B. Suo, J.-D. Qiu, S.-P. Shi, X. Chen, R.-P. Liang, Psea: Kinase-specific prediction and analysis of human
phosphorylation substrates, Scientific reports 4 (2014) 4524.
•
M. S. Huen, J. Chen, The dna damage response pathways: at the crossroad of protein modifications, Cell research 18 (1)
(2008) 8.
•
•
.
•
•
•
•
•
•
•
L. Chindelevitch, C.-Y. Ma, C.-S. Liao, B. Berger, Optimizing a global alignment of protein interaction networks,
Bioinformatics 29 (21) (2013) 2765-2773.
J. S. Ste an, N. Agrawal, J. Pallos, E. Rockabrand, L. c. Trotman, N. Slepko, K. Illes, T. Lukacsovich, Y.-Z. Zhu, E.
Cattaneo, et al., Sumo modification of huntingtin and huntington’s disease pathology, Science
304 (5667) (2004) 100-104.
A. E. Alada'g, c. Erten, Spinal: scalable protein interaction network alignment, Bioinformatics 29 (7) (2013) 917-924.
B. P. Kelley, B. Yuan, F. Lewitter, R. Sharan, B. R. Stockwell, T. Ideker, Pathblast: a tool for alignment of protein
interaction networks, Nucleic acids research 32 (suppl_2) (2004) W83-W88.
M. Remm, c. E. Storm, E. L. Sonnhammer, Automatic clustering of orthologs and in-paralogs from pairwise species
comparisons, Journal of molecular biology 314 (5) (2001) 1041-1052.
D. Park, R. Singh, M. Baym, C.-S. Liao, B. Berger, Isobase: a database of functionally related proteins across ppi
networks, Nucleic acids research 39 (suppl_l) (2010) D295-D300.
J. Dutkowski, J. Tiuryn, Identification of functional modules from conserved ancestral protein-protein interactions,
Bioinformatics 23 (13) (2007) i 149—i158.
V. MemiSevi’c, N. Priulj, C-graal: Common-neighbors-based global graph alignment of biological networks, Integrative
Biology 4 (7) (2012) 734-743.
B. Trost, A. Kusalik, Computational prediction of eukaryotic phosphorylation sites, Bioinformatics 27 (21) (2011) 2927-
•
•
•
•
•
•
•
•
•
•
•
•
•
2935.
E. Ukkonen, Finding founder sequences from a set of recombinants, in: International Workshop on Algorithms in
Bioinformatics, Springer, 2002, pp. 277-286.
R. Islamaj Dogan, G. c. Muưay, A. Névéol, z. Lu, Understanding pubmed R user search behavior through log analysis,
Database 2009.
L. Yu, J. Huang, z. Ma, J. Zhang, Y. Zou, L.Gao, Inferring drug-disease associations based on known protein complexes,
BMC medical genomics 8 (2) (2015) S2.
M. Duran-Frigola, D. Rossell, p. Aloy, A chemo-centric view of human health and disease, Nature communications 5
(2014) 5676.
R. Leaman, R. Khare, z. Lu, Challenges in clinical natural language processing for automated disorder normalization,
Journal ofbiomedical informatics 57 (2015) 28-37.
M. Choi, J. Zobel, K. Verspoor, A categorical analysis of coreference resolution errors in biomedical texts, Journal of
biomedical informatics 60 (2016) 309-318.
J. Liu, A. Li, S. Sene^ Automatic drug side effect discovery from online patient-submitted reviews: Focus on statin drugs,
in: Proceedings of First International Conference on Advances in Information Mining and Management (IMMM),
Barcelona, Spain, Citeseer, 2011, pp. 23-29.
M. R. Arkin, J. A. Wells, Small-molecule inhibitors of protein-protein interactions: progressing towards the dream, Nature
reviews Drug discovery 3 (4) (2004) 301.
J. Chen, N. Sawyer, L. Regan, Protein-protein interactions: General ưends in the relationship between binding a_nity and
interfacial buried surface area, Protein Science 22 (4) (2013) 510-515.
A. A. Ivanov, F. R. Khuri, H. Fu, Targeting protein-protein interactions as an anticancer strategy, Trends in
pharmacological sciences 34 (7) (2013) 393-400.
J. Song, H. Wang, J. Wang, A. Leier, T. Marquez-Lago, B. Yang, z. Zhang, T. Akutsu, G. I. Webb, R. J. Daly,
Phosphopredict: A bioinformatics tool for prediction of human kinase-specific phosphorylation substrates and sites by
integrating heterogeneous feature selection, Scientific Reports 7 (1) (2017) 6862.
J. Vreeken, M. Van Leeuwen, A. Siebes, Krimp: mining itemsets that compress, Data Mining and Knowledge Discovery
23 (1) (2011) 169-214.
H.-Q. Le, M.-V. Tran, T. H. Dang, Q.-T. Ha, N. Collier, Sieve-based coreference resolution enhances semi-supervised
learning model for chemical-induced disease relation extraction, Database 2016.
Đ. Đ. Đông, T. N. Hà, Đ. T. Hài, Đ. c. Cuòng, H. X. Huân, An e_cient algorithm for global alignment of protein-protein
interaction networks, in: Advanced Technologies for Communications (ATC), 2015 International Conference on, IEEE,
2015, pp. 332-336.
PHÀN III. sAN PHÀM, CÔNG BỐ VÀ KẾT QUẢ ĐÀO TẠO CỦA ĐÈ TÀI
3.1. Ket quả nghiên cứu
TT
Yêu cầu khoa học hoặc/và chỉ tiêu kinh tế - kỹ thuật
Tên sản phẩm
Mô hình dự đoán biến đổi
protein sau tổng họp
Đăng ký
-Một mô hình có khả năng
dự đoán tốt hơn các phương
pháp cùng loại tốt nhất hiện
có (Độ chính xác >90%)
- Được trình bày thành một
bài báo khoa học trên tạp
chíISI
-Được triển khai dưới dạng
một ứng dụng Web với giao
diện dễ hiểu, dễ sử dụng đối
với người dùng là những
nhà nghiên cứu hoá sinh
học.
Đạt được
-Một mô hình có khả năng dự
đoán tốt hơn 4 phương pháp
cùng loại tốt nhất hiện có, đã
được công bố trên các tạp chí ISI
uy tin (bao gồm cả
Bioinformatics).
-01 bài báo trên tạp chí Database
(IF=3.35, ISI) và 01 bài báo đã
gửi đăng tạp chí Bioinformatics
(IF-7 307, ISI).
-Được triển khai dưới dạng một
ứng dụng Web với giao diện dễ
hiểu, dễ sử dụng đối với người
dùng là những nhà nghiên cứu
hoá sinh học. Được cung cấp
miễn phí tại:
httD://fit.uet.vnu.edu.vn:8286/subin/web
9
2
Mô hình dự đoán tương tác
giữa các protein
- Một mô hình có khả năng
dự đoán tốt hơn các phương
pháp cùng loại tốt nhất hiện
có (Độ chính xác >90%)
- Được trình bày thành một
bài báo khoa học trong Kỷ
yếu hội nghị quốc tế có
bình chọn ngang hàng
(peer-review)
- Được triển khai dưới dạng
một ứng dụng Web với giao
diện dễ hiểu, dễ sử dụng đối
với người dùng là những
nhà nghiên cứu hoá sinh
học.
-Một hệ thống Webserver có khả
năng dự đoán tốt hơn 01 phương
pháp cùng loại tốt nhất hiện có
của nhóm Song vcs., (2017) cho
trường hợp tương tác với nhóm
protein kinase PKA (là một trong
những nhóm được tập trung
nghiên cứu nhiều nhất trong),
ngoài ra hệ thống cùa chúng tôi
dự đoán tốt hơn hệ thống của
Song vcs. khi không tích hợp
các thông tin bổ sung (giống như
hệ thống của chúng tôi).
- 02 phiên bản của một mô hình
dóng hàng toàn cục hai mạng
tương tác giữa các protein; hoạt
động tốt hơn mô hình tương tự
tốt nhất hiện có.
-01 bài báo trong kỷ yếu Hội
nghị quốc tế.
-01 bài báo trong kỷ yếu Hội
nghị quốc gia.
-Được triển khai dưới dạng một
ứng dụng Web với giao diện dễ
hiểu, dễ sử dụng đối với người
dùng là những nhà nghiên cứu
hoá sinh học. Được cung cấp
miễn phí tại:
httD://fit.uet.vnu.edu.vn/SKÍPHOS
3
Nghiên cứu khảo sát các
phương pháp tối ưu giải
quyết bài toán liên quan đến
chuỗi protein
- Được trình bày thành một
bài báo khảo cứu đầy đủ và
chi tiết (bao gồm điểm
mạnh, điểm yếu, hướng cải
tiến) nhất có thể các
phương pháp tối ưu điển
hình, tốt nhất hiện có giải
quyết bài toán liên quan
đến chuỗi protein.
- Được đăng trong Chuyên
san CNTT của ĐHQGHN
- 01 báo cáo chuyên đề được
trình bày thành một bài báo khảo
cứu đầy đủ và chi tiết (bao gồm
điểm mạnh, điểm yếu, hướng cải
tiến) nhất có thể các phương
pháp tối ưu điển hình, tốt nhất
hiện có giải quyết bài toán liên
quan đến chuỗi protein.
-01 bài báo đăng trên tạp chí
Khoa học của ĐHQGHN.
-01 mô hình xây dựng lại chuỗi
nguồn (protein/gene) có khả
năng hoạt động tốt hơn mô hình
tương tự tốt nhất hiện có.
10
3.2. Hình thức, cấp độ công bố kết quả
Ghi địa chỉ
Đánh giá
và cảm ơn
chung
(Đạt,
sự tài trợ
Sản phẩm
không
của
TT
đạt)
ĐHQGHN
đúng quy
đinh
1
Công trình công bô trên tạp chí khoa học quôc tê theo hệ thông ISI/Scopus
This work
Đạt
Đã in
1.1 Le, Hoang-Quynh, Mai-Vu Tran,
Thanh Hai Dang, Quang-Thuy Ha,
has been
and Nigel Collier. "Sieve-based
supported by
Vietnam
coreference resolution enhances
semi-supervised learning model
National
for chemical-induced disease
University,
relation extraction." Database
Hanoi
2016 (2016). (IF: 3.29).
(VNU),
under Project
No.
QG.15.21.
This work
Đạt (vượt
1.2 Thanh Hai Dang, Quang Think
Đã nộp (vào ngày
chỉ tiêu)
Trac, Kinh Huy Phan, Manh
has been
5/12/2017)
supported by
Cuong Nguyen, Quynh Trang
Vietnam
Pham Thi (2018). SKIP HOS: A
National
novel non-kinase specific
phosphorylation site prediction
University,
Hanoi
with random forests and amino
(VNU),
acid skip-gram embeddings.
under Project
Bioinformatics (IF:7.307) (being
No.
reviewed)
Q G .15.21.
2
Sách chuyên khảo được xuât bản hoặc ký họp đông xuât bản
2.1
2.2
3
Đăng ký sở hữu trí tuệ
3.1
3.1
4
Bài báo quôc tê không thuộc hệ thông ISI/Scopus
Đạt
4.1 Due Dong Do and Ngoe Ha Tran Đã in
This work
and Thanh Hai Dang and Cao
has also been
Cuong Dang and Xuan Huan
partly
supported by
Hoang (2015). An efficient
algorithm fo r global alignment o f
Vietnam
National
protein-protein interaction
networks. In: The 2015 IEEE
University,
International Conference
Hanoi
(VNU),
Advanced Technologies fo r
under Project
Communications (ATC), p 332336, 14-16 October 2015, Ho Chi
No.
Minh city, Vietnam. Print ISSN:
Q G .15.21.
2162-1020.
Tình trạng
(Đã in/ chap nhận in/ đã nộp
đơn/ đã được chấp nhận đơn
hợp lệ/ đã được cấp giấy xác
nhận SHTT/ xác nhận sử
dụng sản phẩm)
11
Bài báo được Đạt (vượt
Đã in
4.2 Dô Xuân Quyền, Nguyên Hoàng
chi tiêu)
hoàn thành
Dức, Thái Đình Phúc, Đô Đức
trong khuôn
Đông. Phương pháp tối ưu đàn
khổ của đề
kiến dóng hàng toàn cục các mạng
tài KHCN
tương tác protein. Kỷ yếu Hội nghị
cấp
Khoa học Quốc gia lan thứ IX
ĐHQGHN,
“Nghiên círu cơ bản và ứng dụng
Mã số đề tài:
Công nghệ thông tin (FAIR'9)
QG.15.21.
Cần Thơ, ngày 4-5/8/2016 DOI:
10.15625/vap.2016.00077.
5 Bài báo trên các tạp chí khoa học cùa ĐHQGHN, tạp chí khoa học chuyên ngành
quốc gia hoặc báo cáo khoa học đăng trong kỷ yếu hội nghị quốc tế
Đạt
This work
5.1 Anh Vu Thi Ngoe, Dinh Phuc Thai, Đã được châp nhận in
Hoang Due Nguyerì, Thanh Hai
has been
supported by
Dang, Due Dong Do. Ant colony
Vietnam
optimization based founder
National
sequence reconstruction. VNU
University,
Journal o f Science: Computer
Hanoi
Science and Communication
(VNU),
Engineering, 2018.
under Project
No.
QG.15.21.
5.2
Báo cáo khoa học kiến nghị, tư vấn chính sách theo đặt hàng của đơn vị sử dụng
6
6.1
6.2
Kêt quà dự kiên được ứng dụng tại các cơ quan hoạch định chính sách hoặc cơ sở
7
ứng dụng KH&CN
7.1
7.2
.... - .................................. ......
Ghi chú:
Cột sản phẩm khoa học công nghệ: Liệt kê các thông tin các sàn phẩm KHCN theo thứ tự
cóng trình, mã công trình đăng tạp chí/sách chuyên khảo (DOI), loại tạp chí ISI/Scopus>
Các ấn phẩm khoa học (bài báo, báo cáo KH, sách chuyên khảo...) chi đươc chấp nhân nếu
có ghi nhận địa chi và cảm ơn tài trợ của ĐHQGHN theo đúng quy định.
Bản phô tô toàn văn các ấn phẩm này phải đưa vào phụ lục các minh chứng của báo cáo.
Riêng sách chuyên khảo cần có bản phô tô bìa, trang đầu và trang cuối có ghi thông tin mã số xuất
bản.
12
3.3. Kết quả đào tạo
TT
Họ và tên
Thòi gian và kinh phí
tham gia đề tài
(sổ tháng/sổ tiền)
Ng'liên cứu sinh
1 Trân Ngọc
H à (được công
nhận NCS theo
quyết định số:
1118/QĐCTSV, ĐHCN)
2
Lê Hoàng
Quỳnh (theo
quyết định
sổ 1147/QĐĐT)
Học viên cao học
1 Đô Xuân
02 tháng
Quyền
2
Phạm Văn
Hiếu
03 tháng
3.
Đặng Quôc
Hùng
3 tháng
Công trình công bô liên quan
(Sàn phẩm KHCN, luận án, luận
văn)
Đã bảo vệ
Due Dong Do and Ngoe Ha Tran
and Thanh Hai Dang and Cao
Cuong Dang and Xuan Huan
Hoang (2015). An efficient
algorithm fo r global alignment o f
protein-protein interaction
networks. In: The 2015 IEEE
International Conference
Advanced Technologies fo r
Communications (ATC), p 332336, 14-16 October 2015, Ho Chi
Minh city, Vietnam. Print ISSN:
2162-1020.
Le, Hocmg-Quynh, Mai-Vu Tran,
Thanh Hai Dang, Quang-Thuy
Ha, and Nigel Collier. "Sievebased coreference resolution
enhances semi-supervised
learning model fo r chemicalinduced disease relation
extraction." Database 2016
(2016). (IF: 3.29).
Đang làm thủ
tục bào vệ.
* Đô Xuân Quyên, Nguyên Hoàng
Đức, Thái Đình Phúc, Đỗ Đức
Đông. Phương pháp tối uru đàn
kiến dóng hàng toàn cục các
mạng tương tác protein. Kỷ yếu
Hội nghị Khoa học Quốc gia lần
thứ IX “Nghiên cứu cơ bàn và
ứng dụng Công nghệ thông tin
(FAIR'9)"; Can Thơ, ngày 45/8/2016 DOI:
10.15625/vap.2Ọl 6.00077
* Luận văn: “ứ n g dụng phương
pháp tối ưu đàn kiến dóng hàng
hai đồ thi”
Luận văn: “Dự đoán tương tác
protein-protein sử dụng kỹ thuật
khai phá dữ liệu”
Đã bào vệ và
đã được công
nhận và cấp
bằng Thạc sỹ.
(QĐ số
812/QGĐHCNTT&TT)
Luận văn: “Dự đoán tương tác
giữa các protein dựa trên kỹ thuật
Chưa
Đã bảo vệ
thành công,
được điểm TB
7.8/10 (QG số
1163/QĐ-ĐT,
ngày
23/11/2017).
Đã bảo vệ
thành công.
13
deep learning”
Ghi chú:
Gửi kèm bản photo trang bìa luận án/ luận văn/ khóa luận và bang hoặc giấy chứng nhận
nghiên cím sinh/thạc sỹ nếu học viên đã bảo vệ thành công luận án/ luận văn;
Cột công trình công bố ghi như mục III. 1.
PHÀN IV. TỎNG HỢP KÉT QUẢ CÁC SẢN PHẢM KH&CN VÀ ĐÀO TẠO CỦA ĐẺ TÀI
Số lượng
đăng ký
01
TT
Sản phâm
1
Bài báo công bô trên tạp chí khoa học quôc tê theo hệ thông
ISI/Scopus
2
Sách chuyên khảo được xuât bản hoặc ký họp đông xuât
bàn
Đăng ký sở hữu trí tuệ
Bài báo quôc tê không thuộc hệ thông ISI/Scopus
01
01
Sô lượng bài báo trên các tạp chí khoa học của ĐHQGHN,
tạp chí khoa học chuyên ngành quốc gia hoặc báo cáo khoa
hoc đăng trong kỷ yếu hôi nghi quốc tế
Báo cáo khoa học kiên nghị, tư vân chính sách theo đặt
hàng của đơn vị sử dụng
Kêt quả dự kiên được ứng dụng tại các cơ quan hoạch định
chính sách hoặc cơ sở ứng dụng KH&CN
Đào tao/hô trơ đào tao NCS
01
02
Đào tạo thạc sĩ
3
4
5
6
7
8
9
Số lượng đã
hoàn thành
02 (01 đã
được in, 01
đang chờ
phàn biện)
01
01
02
03 (01 đã có
quyết định
lùi thời gian
bảo vệ vì vừa
bổ sung
chứng chi
tiếng anh)
PHÀN V. TÌNH HÌNH s ử DỤNG KINH PHÍ
TT
A
1
2
3
4
5
6
7
8
B
Nội dung chi
Chi phí trực tiêp
Thuê khoán chuyên môn
Nguyên, nhiên vật liệu, cây con.
Thiết bị, dụng cụ
Công tác phí
Dịch vụ thuê ngoài
Hội nghị, Hội thảo, kiểm tra tiến độ, nghiệm
thu
In ân, Văn phòng phâm
Chi phí khác
Chi phí gián tiêp
Kinh phí
được duyệt
(triệu đồng)
Kinh phí
thực hiện
(triệu đồng)
216
216
15
15
4
25
15
4
25
15
Ghi chú
Đào tao
14
1
2
Quản lý phí
Chi phí điện, nước
nn Ẳ
Ẩ
Lông so
10
5
250
10
5
250
PHẢN V. KIÊN NGH Ị (về phát triên các kết quá nghiên círu của để tài; về quản lý, tổ chức thực
hiện ở các cấp)
PHẢN VI. PHỤ LỤC (minh chứng các sàn phẩm nêu ở Phần III)
Hà Nội, ngày 26 tháng 12 năm 2 0 17.
Đơn vị chủ trì đề tài
_
(Thủ trưởng đom vị ký tên, đóng dấu
Chủ nhiệm đề tài
(Họ tên, chữ ký)
15
Database. 2016, 1-14
doi: 10.1093/database/bawl02
Original article
Driginal article
Sieve-based coreference resolution enhances
semi-supervised learning model for
chemical-induced disease relation extraction
H o a n g - Q u y n h L e 1, M a i - V u T r a n 1, T h a n h H a i D a n g 1' * , Q u a n g - T h u y H a 1
a n d N i g e l C o l l i e r 2' *
Faculty of Inform ation Technology, VNU University of Engineering and Technology, Hanoi, Vietnam.
3uilding E 3 ,144 Xuan Thuy str., Cau Giay dist., Hanoi, Vietnam. Postal code: 100000 and d e p a rtm e n t of
Theoretical and Applied Linguistics, University of Cambridge, Cambridge, UK
‘Corresponding author: Tel: +44 (0)1223 7 67356, Email: nhc30@ cam.ac.uk
Correspondence may also be ad d ressed to Thanh Hai Dang. Tel: +84(4)375 47 064; Fax: +84(4)37547.460; Email:
iai.dang@ vnu.edu.vn
Citation details: Le,H-Q., Tran,M-V., Hai Dang.T. e t al. DEOP: a datab ase on osm oprotectants and associated pathw ays.
Database (2016) Vol. 2016: article ID baw102; doi:10.1093/database/baw102
Received 4 December 2015; Revised 4 June 2016; Accepted 6 June 2016
Abstract
The BioCreative V chemical-disease relation (CDR) track w as proposed to accelerate the pro
gress of text m ining in facilitating integrative understanding of
chemicals, diseases
and thoir
relations. In this article, w e describe an extension of our system (nam ely UET-CAM ) that par
ticipated in the BioCreative V CDR. The original UET-CAM system's perform ance w as ranked
fourth am ong 18 participating systems by the BioCreative CDR track com m ittee. In the
Disease N am ed Entity Recognition and Normalization (DNER) phase, our system em ployed
joint inference (decoding) w ith a perceptron-based nam ed entity recognizer (NER) and a
back-off m odel with S em antic Supervised Indexing and Skip-gram for nam ed entity norm al
ization. In the chemical-induced disease (CID) relation extraction phase, w e proposed a pipe
line that includes a coreference resolution m odule and a
Support
Vector M achine relation
extraction m odel. The fo rm er m odule utilized a multi-pass sieve to extend entity recall. In
this article, the UET-CAM system w as im proved by adding a 'silver' CID corpus to train the
prediction model. This silver standard corpus of more than 50 thousand sentences w as
automatically built based on the Com parative Toxicogenomics Database (CTD) database.
W e evaluated our m ethod on the CDR test set. Results showed
that
our system could reach
the state of the art perform ance w ith F1 of 82.44 for the DNER task and 58.90 for the CID
task. Analysis dem onstrated substantial benefits of both the multi-pass sieve coreference
resolution m ethod (FI + 4.13% ) and the silver CID corpus (F1 + 7 .3 % ).
D atabase URL: S ilv e rC ID -T h e silver-standard corpus for CID relation extraction is free ly
online available at: (d o i:10.5281/zen o do .34530).
©The Author(s) 2016. Published by Oxford University Press.
P age 1 o f 14
This is an Open Access article distributed under the terms of the Creative Commons Attribution License ( which permits
unrestricted reuse, distribution, and reproduction in any medium, provided the original work is properly cited.
(page num ber not fo r citation purposes)
Page 2 o f 14
D a ta b a s e , V o l. 2016, A rtic le ID baw 102
In t r o d u c t io n
A survey of PubMed users’ search behavior showed that
diseases and chemicals were two of the most frequently re
quested entities by PubMed users worldwide: diseases ap
peared in 20% of queries and chemicals in 11% (1). These
two entities are central to several topics such as developing
drugs for therapeutics, discovering adverse drug reactions
(ADRs) as well as chemical safety/toxicity among patient
groups and facilitating hypothesis discovery for new
pharmaceutical substances. As a consequence, extracting
chemical-disease relations (CDR) from unstructured free
text has become an important field in biomedical text
mining.
In recent years, there has been an increased focus in re
search on capturing disease and chemical relations (e.g.
drug-side-effecc relations) from biomedical literature text.
The Comparative Toxicogenomics Database (CTD) has
been a notable target of many studies. The CTD is a manu
ally curated database that promotes understanding about the
effects of environmental chemicals (e.g. arsenic, heavy metals
and dioxins) on human health (2). As of June 2015, the CTD
database had 1 842 746 chemical-disease associations. Due
to the high cost of manual curacion and the rapid growth of
the biomedical literature, a number of researchers have at
tempted to extract chemical—disease relations or drug side
effects automatically. The simplest class of approaches is
based on the co-occurrence statistics of chemical and disease
entities, i.e. if two entities are mentioned together in the
same sentence or abstract, they are probably related. Chen
et ttl. (3) used this method to identify and rank associations
between eight diseases and relevant drugs. This approach
tends to achieve high recall, but low precision and fails to
distinguish the chemical-induced disease (CID) relations
from other relations that commonly occur between chem
icals and diseases. Knowledge-based approaches were also
successfully applied for the ADR extraction (4, 5). They,
however, demands the time-consuming and labor-intensive
manual compilation of huge knowledge (in terms of rules as
in 4 or a three-tier hierarchical graph as in 5), which results
from the wide variety of contexts in which relations can
occur. These approaches, therefore, tend to suffer from the
low recall. Other approaches are based on automated ma
chine learning techniques, such as Support Vector Machines
(SVMs) (6) and decision trees (7). Their performance, how
ever, has still been limited, which is mainly due to the lack of
a substantial data set for training. Moreover, the variety of
abundant ADR syntaxes as well as a failure to resolve inter
sentence alternative entity-mentions also hampers the
performance.
To accelerate the progress, BioCreative V proposed a
challenge task for automatic extraction of CDRs (8, 9).
C h e m ic a l-in d u c ed disease relations
F igure 1. A nalysis o f the d ire ct evidence fie ld in the CTD database.
The CDR challenge has two sub-tasks:
(A) Disease Named Entity Recognition (DNER). This task
includes automatic recognition of disease mentions
(named entity recognition, NER) in PubMed abstracts
and assignment of Medical Subject Heading (MeSH,
10) identifiers to these mentions named entity normal
ization (NEN).
(B) CID relation extraction. Participating systems were
provided with raw text from PubMed articles as input
and asked to return a list of <chemical, disease> pairs.
In which, chemicals and diseases are normalized con
cepts that participate in a CID relation.
In these challenge tasks, diseases were annotated using
the ‘Diseases’ [C] branch of MeSH 2015, including dis
eases, disorders, signs and symptoms; chemical terminolo
gies were annotated using the ‘Drugs and Chemicals’ [D]
branch of MeSH 2015. The CID relations can be marked
as ‘marker/mechanism’ in the CTD database. There are
two types of such relationships: (i) biomarker relations be
tween a chemical and disease indicating that the chemical
correlates with the disease and (ii) putative mechanistic re
lationships between a chemical and disease indicating that
the chemical may play a role in the etiology of the disease
(see Figure 1).
As a team participating in the CDR challenge, we pro
posed a modular system that handled the DNER and CID
tasks separately. For the DNER as the first phase, we pro
posed a method for combining several state-of-the-art
word-embedding techniques in the NEN module in order
to take advantages of both the gold standard annotated
corpus and large scale unlabeled data. The NEN and NER
modules were then combined into a joint inference model
to boost performance and reduce noise. For the second
phase, the CID task exposed many challenges such as (i)
P a g e 3 o f 14
)atabase. Vol. 2016, A rtic le ID baw 102
:omplex grammatical structures, (ii) entities that belong to
relation may appear not only in a single sentence but also
n multiple sentences, in which they are often mentioned
coreferencially or using different forms, (iii) entities being
expressed in MeSH IDs instead of of free-text forms. To
overcome these challenges, a traditional machine learning
model for relation extraction, which is based only on
explicit mentions of entities in a single sentence, will not be
adequate. We thus had to employ a coreference module
along with a SVM-based relation extraction module as the
central core. The intention of using the coreference module
was to extend system recall on disease/chemical mentions,
then to convert inter-sentence relations to intra-sentence
relations. Additionally, in order to exploit as much useful
information as possible from the literature, we built a
silver-standard corpus (namely ‘SilverCID’) for training the
DNER average perceptron model and the SVM intra
sentence relation extraction model. This corpus was a care
fully selected sub-set of citations in the CTD database and
totally disjoint from the targets in the testing set. In add
ition, we explored the benefit of using a large-scale feature
set to handle the variety of CTD relation mentions.
The novel contributions of this article are as follows: (i)
we proposed a DNER model that was based on the joint in
ference between an averaged perceptron NER model and a
NEN pipeline of two phases, i.e. Supervised Semantic
Indexing (SSI) followed by a skip-gram model; (ii) we dem
onstrated the benefit of our automatically built SilverCID
corpus (a sentence-level corpus) for the CID relation extrac
tion; (iii) we presented evidence for the efficacy of using the
multi-pass sieve in the CID relation extraction task and (iv)
we demonstrated the strength of the rich feature set (see sec
tion SVM-based intra-sentence relation extraction and
Table 2 for more details) for CÍD relation extraction.
T a b le 1
S u m m a ry of th e CDR tra c k d a ta s e t
1
M a te ria ls an d M e t h o d s
Data set
Our experiments were conducted on the BioCreative V
CDR data. In order to take advantage of the CTD data
base, we also built a SilverCID corpus from PubMed art
icles that were cited in the CTD database but which did
not appear in the BioCreative CDR track data set.
BioCreative CDR track data set
To assist the development and assessment of participating
CDR systems, the BioCreative V workshop organizers cre
ated an annotated text corpus that consists of expert anno
tations for all chemicals, diseases, and their CID relations.
This corpus contained a total of 1500 PubMed articles that
were separated into three sub-sets, each of 500 for the
D ata sec
Articles
Chemical
Men
Disease
ID
Men
ID
C!D
T raining
500
5203
1467
4182
1965
1038
Developm ent
500
5347
1S07
4244
1865
1012
Test
500
5385
1435
4424
1988
1066
Men, Mention; CID, CID relations.
training, development and test set (the details are shown
on Table 1). Following the data survey of BioCreative (9),
of these 1500 articles, 1400 were selected from an existing
CTD-Pfizer data set that had been jointly curated via a pre
vious collaboration between CTD and Pfizer (11). The re
maining 100 articles contained newly curated data and
were incorporated into the test set.
SilverCID corpus
The CTD (2) is a robust, publicly available database that
aims to advance understanding about how environmental
exposures affect human health. Chemicals in the CTD
come from the chemical subset of MeSH. The CTD’s dis
ease vocabulary is a modified subset of descriptors from
the ‘Diseases’ category of MeSH, combined with genetic
disorders from the Online Mendelian Inheritance in Man
(OMIM) database (12).
In > 28 million CTD toxicogenomic relationships, there
are 1 919 790 disease-chemical relations (curated or
inferred via CTD-curated chemical-gene interaction)
(October 2015). There are several types of relations be
tween diseases and chemicals, which may be described
within the ‘Direct Evidence’ field of the CTD database.
This field has two labels M and T, in which the label M in
dicates that a chemical can correlate with a disease or can
be the etiology of a disease (Figure 1). Relations curated as
M, therefore, are more likely to be CID relations.
Moreover, we observed that if two entities that partici
pated in a relation appear in the same sentence, it is highly
probable that this sentence contains the grammatical rela
tion that we were considering. Taking into account these
two observations, a silver standard CID corpus, SiiverCID,
was constructed using the CTD database and PubMed ac
cording to five steps (Figure 2 gives an example of how the
SilverCID was constructed):
Step 1 (Relation filtering): CID relations in the CTD
database were filtered using information from the ‘Direct
evidence’ field. Only relations marked as ‘M ’ (marker/
mechanism) were chosen.
Step 2 (Collecting): We collected PubMed abstracts from
the reference list of the relations that had been chosen in Step
1. This reference list was provided by the CTD database.
D a ta b a s e , V o l. 2016, A rtic le ID baw 102
je 4 o f 14
C h e m ic a l-in d u c e d d ise a s e
CTD database
C hem ical
D ieth y ln lt
ro sa m in e
1
D isease
H ep ato cell-
.
B reast
N eo p lasm s
1 . .. .
UdlUilfWI
B reast
N eo p lasm s
Valproic
Acid
AlferTtanili
1_
1 uxygyn
r e la tio n list
D irect
Evidence
r ----------
CIO R elations
(ch em ical-d isease)
R eferen ces
M
1 ■: -
- . .'.V.
.V om iting
T
n /H
?^
M uscle
Rigidity
D ieth y ln itro sam in e H e p ato cellu lar
[
1
M
V aiproic Acid - V om iting
16
A lfentanil - M uscle
Rigidity
13
■M
C lu ster
H eadache
1
I-
i
CIO R elations
(ch em ical-d isease)
210
CID R elations
(ch em ical-d isease)
R eferen ces
PMID
♦
R eferen ces
PMID
D ieth y ln itro sam in e H e p a to ce llu la r
22197969
24632418
23548910
D ieth y ln itro sam in e H ep a to ce llu la r
22197969
2 4632418
2 3548910
Valproic Acid - Vomitirtg
6 206716
20204907
Valproic Acid - V om iting
6206716
20204907
A lfen tan il - M uscle
Rigidity
I .
PMID: 22197969
(...) The them e of work was to
evaluate effectiveness in oral
route of polylactide co-glycolide
(PLGA) Nanocapsuiated curcumin
(Nano
Cur)
against
Ì (DEN) induced
rat. (...) Three i.p. injections oft he
chemical hepatocarcinogen DEN
at
ỈSdays
interval
causes
hepatotoxicity, the generation of
reactive oxygen species (ROS),
lipid peroxidation, decrease in
plasma m embrane microviscosity
and depletion of antioxidant
enzyme levels in liver. Nano Cur
(weekly oral
treatm entf or
16weeks at 20mg/kg b.wt) in DEN
induced
rats
exerted
significant protection against HCC
and restored redox homeostasis in
liver cells. (...)
A lfentanil - M uscle
Rigidity
3115130-----
3115150
1
PMID: 6206716
Four
patients
had
pancreatitis associated with
valproic acid therapy. Three
patients received valproic
a d d at usual doses, and all
were
free
of
other
symptoms
oft
oxic
reactions, with serum levels
of valproic acid in the usual
therapeutic range. (...) All
patients recovered with
discontinuation of valproic
acid therapy and enteral
feeding and administration
of* ntravenous fluids. After
recovery, a valproic acid
regimen
was
restarted
uneventfully
(in
one
patient). (...) Pancreatitis is
a serious complication of
valproic acid therapy that
must be considered in any
patient receiving valproic
acid
who
experiences
severe abdominal pain and
vomiting.
The them e of work was to
evaluate effectiveness in oral
route of polylactide coglycolide (PLGA)
Nanocapsulated curcumin
(Nano Cur) against
dlethvlnitrosamine (PEN)
Induced hepgtqcfllulm
carcinoma (HCCi in rat.
Nano Cur (weekly oral
treatm ent for 16weeks at
20mg/kg b.wt) in PEN
induced HCC rats exerted
significant protection against
HCC and restored redox
homeostasis in liver cells
Pancreatitis is a serious
complication of valproic acid
therapy that must be
considered in any patient
receiving valproic add who
experiences severe
abdominal pain and
vomiting.
F igure 2. An exam ple o f co n stru ctin g silverC ID corpus.
Step 3 (Overlap removal): To avoid overlap between
the SilverCID corpus and the CDR test set, we removed all
the PubMeb abstracts which appeared in the CDR track
data set to ensure a fair evaluation of the SilverCID’s
contribution.
Step 4 (Annotating): For each relation that had been
chosen in Step 1, all disease and chemical mentions in its
referring PubMed articles were automatically annotated.
Step 5 (Sentence filtering): Sentences in the abstracts
that remained after Step 4 were kept for downstream
works if they contained both chemical and disease entities,
which may participate in a CID relation. Sentences that did
not contain any entity or contained only one entity were
removed.
Two novel aspects that makes our SilverCID corpus dif
ferent from other resources are (i) i t was built automatically
D atabase, Vol. 2016, A rtic le ID ba w 1 02
P a g e 5 o f 14
Figure 3. A rch itectu re o f the prop o se d CDR e xtra ctio n system , w hich includes the p ipeline o f processing m odules and m aterial resources; boxes w ith
dotted lines indicate sub-m odules.
and (ii) it is a sentence-level corpus (i.e. a set of sentences
that contains at least one intra-sentence CID relation with
its participating chemical and disease entities), which cov
ered about 60% of CID relations in the CTD database.
This data set contains 38 332 sentences, 1.25 million
tokens, 48 856 chemical entities (1196 unique chemical
entities), 44 744 disease entities (2098 unique disease enti
ties) and 48 199 CID relations (12776 unique CID rela
tions). It is freely available online at URL: https://zenodo.
org/record/34530 (doi: 10.5281/zenodo.34530).
Proposed m odel
The overall architecture of our proposed system is
described in Figure 3. Compared with our previous system
in the BioCreative CDR track, the improved system used
the SilverCID corpus for training in both the DNER and
CID phases. The impact of this improvement on the sys
tem’s performance will be analyzed in the next sections.
Pre-processing steps include sentence splitting, tokenization, abbreviation identification, stemming, POS tagging
and dependency parsing (Stanford; Stanford Dependencies:
/>shtml). The system was based on the integration of several
state-of-the-art machine learning techniques in order to
maximize their strengths and overcome their weaknesses.
Named entity recognition and normalization
This module solved the sub-task DNER. It was a jointdecoding model of a NER and NEN modules in order to
boost performance and reduce noises (13). The NER and
NEN modules were trained separately and then decoded
simultaneously.
Following reports of high level performance of the
joint-inference model by Li and Ji (13) and Zhang and
Clark (14), we decided to employ a structured perception
model for NER. Its output was a set of real numbers, each
in which corresponded to the weight of each class label.
This output format was the same with that of the NEN
model, therefore, it was suitable for joint-inference in the
decoding phase. The structured perception was an exten
sion of the standard perceptron for structured prediction
by applying inexact search with violation-fixing update
methods (15). It was trained on the CDR training, develop
ment set and SilverCID corpus with a standard lexico
graphic feature set: orthography features, context features,
POS tagging features and dictionary (CTD) features.
The NEN module was a sequential back-off model
based on two word embedding (WE) methods: SSI (16)—a
supervised WE method—and skip-grams (17)—an un
supervised WE method. The SSI model was trained on the
CDR training and development set to obtain a correlation
matrix w between tokens in the training data as well as
MeSH. Skip-gram is a state-of-the-art word-to-vector
method that took advantage of large unlabeled data. We
used an open source skip-gram model provided by
NLPLab ( />wikipedia-pubmed-and-PMC-w2v.bin), which was trained
on all PubMed abstracts and PMC full texts (4.08 million
distinct words). The output of skip-gram model was a set
of word vectors of 200 dimensions, from which similarities
between all word pairs were calculated. As a result, we
constructed a correlation matrix that was in the same for
mat as the output of the SSI model. Therefore, we could
combine the SSI model and the skip-gram model into the
back-off model. For normalizing entities, we created pairs
D a ta b a s e , V o l. 2016, A rtic le ID baw 102
a g e 6 o f 14
if each entity and each MeSH concept and then processed
hem by the SSI and skip-gram sequential back-off model,
n this regard, firstly, we implemented the SSI model to
ind which pairs are linked, and then processed non-linked
>airs once again by the skip-gram model.
The CỈD subtask required the system to extract the CID
elations at the abstract level. In simple cases, a CID relaion might be expressed in a single sentence (intra-sentence
:elation), i.e. two entities that participate in a CID relation
ippear in the same sentences. Unfortunately, they might be
:xpressed in multiple sentences (inter-sentence relation).
Our system was based on a strategy that firstly converted
nter-sentence relations to intra-sentence relations by using
Ì coreference resolution method and then applied a ma:hine learning model to extract them.
Our DNER system was a joint decoding model, which
used a modified beam search for decoding (13, 18). In this
model, we trained two separate models for NER and NEN
and then decoded them simultaneously. We also proposed
a new scoring function for Beam search decoding as fol
lowed (sec formula 1).
argmax
+
El
WNEN
J
{ w n e r (* < = ;, y i =i - i , NER. )
(x/=i, x t= i - l ,
y t= i-\-N E R , yt=i-,NEI0
)
The scoring function for NEN is:
M'NfcN ( * » = ; ,X != i- l,y < = i- l;N £ R ,y / = i; N E R )
' 0, 1
if y,=i-o
y t = i - i - ,B - D S \ l - D S \ O a n d y t = i , B - C D
y t = i - \ ;B - C D \ l - C D \ O a n d y t = i,B - D S
yt=i-\\B-DS\l-DS‘>ndyt=ril-DS
J t = i - 1;B -C D |/-C D a n d y t=i\l-CD
If WNEN< W NEN (NONE) = threshold, re-write for
mula 1 to formula 3:
a r g m a x Ỵ ™ = l( w N E R {x t= i,y t= i-l:N E R ) +
w
Ne
n
(N O N E ))
In which, Wner is returned from the structured perceptron model.
Corefcrence resolution
Formally, the coreference consists of two linguistic expres
sions—antecedent and anaphor (19). Figure 4 is an ex
ample of the coreference, in which the anaphor ‘side effect’
is the expression whose interpretation depends on that of
the other expression, and the antecedent ‘tohemorrhagic
cystitis’ is the linguistic expression on which an anaphor
‘side effect’ depends on.
It is ch aracterized by its intense urotoxic action,
leading to h e m o r rh a q ic c y s t it is .
I
coreference
I(
CIO relation
This s id e e ffe c t of IFO ra ise s th e requirem ent for the
co-adm inistration with sodium 2su lfan y leth an esu lfo n ate (M esna) aim ing to avoid or
minimize this effect.
PM/O: 23949SBĨ
Figure 4. A n exam ple o f the coreference betw een chem ical entities.
Tw o sequential sentences are extracted fro m PubM ed abstract PMID:
23949582.
The traditional coreference resolution task was nor
mally to discover the antecedents for each anaphor in a
document. From the perspective of this study, it was not
necessary to always make clear which is the antecedent or
anaphor. Our system considered both antecedents and anaphors as mentions of entities, and strived to recognize as
many mentions of an entity as possible.
Studies on the coreference resolution in the general
English domain date back to 1960s and 1970s and often
focus on person, location and organization. In biomedi
cine, because entity types to be resolved are atypical to gen
eral domains (i.e. protein, gene, disease, chemical, etc.),
coreference researches in this domain have received com
paratively less attentions (19). Previous approaches had
applied several methods, ranging from heuristics-based
(20, 21) to machine learning (22, 23).
In this regard, our proposed system employed the co
reference module that was based on a multi-pass sieve
model (21). It has been evaluated as a simple yet effective
mean for disorder mention normalization (21). We first
processed each abstract by noun phrase (NP) chunking
(using Genia tagger; />ger/) and then created a set of NPs pairs for each abstract.
These pairs of NPs were then passed through the sieves.
Those that were kept by any sieve were considered as core
ferent pairs, those that were not kept in each sieve were
passed through the next sieve to the end. There were nine
sie v es used, each corresponded to a set of rules. Figure 5 is
an illustration of the sieve-based coreference resolution
module with example pairs that were kept by each sieve.
Sieve 1—ID matching: Two chemical or disease men
tions that have the same MeSH ID are coreferent. This
sieve used information from the previous NEN step. For
example as ‘irregular heartbeat’ and ‘irregular heart beat’
were both normalized to MeSH ID: D001145, and were
thus considered coreferent.
Sieve 2—Abbreviation expansion: In this sieve we used
the BioText Abbreviation recognition software (http://bio
text.berkeley.edu/software.html) (24) to identify abbrevi
ations and their full forms (e.g. full form of ‘PND’ in the
sta b a s e , V ol. 2016, A rtic le ID ba w 1 02
P a g e 7 o f 14
Pairs a p p e a r in th e s am e ab s tra c t:
- c h e m ic a l-c h e m ic a l m e n tio n s
- d isease -d is e a s e m e n tio n s
irre g u la r h e a r tb e a t irre g u la r h e a rt b e a t
Sieve 1 - ID m a tc h in
PMIO: 1170*428
M>SH 10: OOH241___________________
> p re d n is o n e - P D n ]
Sieve 2 - A b b re v ia tio i
expansion
c a lc ific a tio n o f th e a rte r y
- a r te r y c alc ific a tio n
Sieve 3 - G ra m m a ticaj
conversion
b ip o la r II - b ip o la r 2
Sieve 4 - N urr
PMIO: 611664
M«SH ID: D0114Ì3__________________________________
re p la ce m e n t
p ro p a n o lo l - p ro p ra n o lo l
Sieve 5
-
Synonym
re p la ce m e n t
m a c ro p ro la c tin e m ia
- m ic ro p ro la c tin o m a
Sieve 6- A ffix
PMIO: »037*3
M«SH 10: 0000031
n o rm a liz a tio n
a b o r tio n - a b o rtio n s
Sieve 7 - S te m m in g
PMIO: 3323259
M«SH 10: D00Ĩ12I
c alc iu m c h a n n e l b lo c k in g a g e n ts
Sieve 8 - P a rtia l m a tch
- c a lc iu m c h a n n e l blockers
PMID: 23949S42
MtSH IP : D003S5<
to h e m o r r h a g ic cystitis
Sieve 9 - H ypo n ym ic term s
- side e ffe c t
not co-reference pairs
igure 5. C oreference re solu tio n usin g nine-pass sieve. Exam ples is pairs w ere kept by sieves.
bstract PM[D:11708428 is ‘prednisone’). We then
hecked the MeSH ID of the full form and applied it to the
bbreviation in order to unify mentions.
Sieve 3—Grammatical conversion: Similar forms of an
:ntity mention were automatically generated by changing
;rammatical elements in mentions, including subjects, obects and prepositions, etc. The ID match criterion was
hen checked. New forms were obtained by applying rules
jroposed by D’Souza and Ng (21), which includes: (i)
eplacing the preposition in the name with other prepostions, (ii) dropping the preposition from the name and
iwapping the substring surrounding it, (iii) bringing the
ast token to the front, inserting a preposition as the second
:oken, and shifting the remaining tokens to right by two
ind (iv) moving the first token to the end, inserting a prep
osition as the second to last token, and shifting the remainng tokens to the left by two. Examples include
calcification of the artery’ and ‘artery calcification’, ‘men:al status alteration’ and ‘alteration in mental status’.
Sieve A— Number replacement: Similar forms of a men
tion were generated by replacing numbers with other forms
and the ID match criterion was checked. In this regard, we
considered the numeral, roman numeral, cardinal and
multiplicative forms of a number for generating new men
tion forms, i.e. ‘two’ can be converted to ‘2’, ‘ii’ and
‘double’.
Sieve 5—Synonym replacement: The ID match criterion
for synonyms of mentions was checked. This sieve used a
synonym dictionary constructed from the MeSH, which
contains 780 982 entries. Examples include ‘propanolop
and ‘propranolol’.
Sieve 6—Affix normalization: New forms of a mention
were generated by changing affixes (including prefixes and
suffixes) and then the ID match criterion was checked. For
examples, ‘macroprolactinemia’ and ‘microprolactinoma’
(PMID:20595935), ‘nephrotoxicity’ and ‘nephrotoxic’
(PMID:19642243) are coreferent.
Sieve 7—Stemming: Entity mentions are stemmed using the
Porter stemmer (http^/taưarus.org/martin/PorterStcmmer/),
and then the ID match criterion was checked. Examples in
clude ‘abortion’ and ‘abortions’.
Sieve 8—Partial match: This sieve used the output infor
mation from the abbreviation expansion sieve and applied
the criterion for partial matching proposed by D’Souza
D a ta b a s e , V ol. 2016, A rtic le ID baw 102
ge 8 o f 14
,d Ng (21). It is said that ‘a mention can be partially
atched with another mention for which it shares the
ost tokens’. To give an example, ‘calcium channel blockg agents’ and 'calcium channel blockers’ in abstract
vlID:3323259 were marked as coreference.
Sieve 9—Hyponymic terms: We created two dictionaries
r chemicals and diseases including hyponymic nouns that
ten referred to chemicals/diseases. For example, chemical
'ponymic dictionary includes ‘drug’, ‘dose’, etc.; disease
'ponymic dictionary includes ‘disease’, ‘case’, ‘infection’,
de effect’, etc. In this sieve, NER information was used to
id chemical and disease entities, and if there was any term
dictionary within its context window of two sentences bere-/after-wjrd, we could determine a coreference.
/M-based intra-sentence relation extraction
ur work was based on the know-how that if a NP and an
ltity are coreferent, the NP can be considered as an entity
i that type. The intra-sentence relation extraction module
iceived sentences that contain a disease—chemical pair as
iput and classified whether this pair had the CID relation
r not.
The example in Figure 4 (section Coreference resoItion) also shows how to combine the coreference resoItion module and the intra-sentence relation extraction
lodule for handling inter-sentence relations. The strategy
that if the intra-sentence relation extraction module can
xognize the relation between ‘side effect’ and ‘IFO’, we
an also determine the relation between ‘tohemorrhagic
pstitis’ and ‘IFO’ because ‘tohemorrhagic cystitis’ and
lide effect’ are coreferent.
The intia-sentence relation extraction module was
ased on a SVM (25)—one of the most popular machine
:arning methods that has been successfully applied for
iomedical relation extraction (26, 27). We used the
.iblinear tool ( />D train a supervision binary SVM classifier (L2- regular&ed and Ll-loss) on the CDR track training/development
lata set and our SilverCID corpus. In this study, we
ibserved that the complexities of CID relations (several
tructural forms, abundance-related vocabulary sets, diffiulty to determine the distance between the two entities,
:tc.) are very similar to the event extraction problem. As a
:onsequencs, the feature set that was specially constructed
or event extraction might work better than that comnonly used for normal relation extraction [they were
vords, entity types, mention levels, overlap, dependency,
>arse tree £nd dictionary (28-30)]. Following a report of
ligh performance in event extraction (31), we decided to
lse a large-scale feature set including four types of features:
Token features, neighboring token features, token features
1 1 -gram,
pair features n-gram and shortest features path,
the feature’s details are shown in Table 2.
E x p e rim e n ta l re su lts
For evaluation, disease entities and CID relations that had
been predicted by our proposed model were compared to
the gold standard annotated CDR testing data set using
standard metrics: precision (P, indicating the percentage of
predicted positives that are true instances), recall (R, indicat
ing the percentage of true positive instances that the system
has retrieved) and FI (the harmonic means of R and P).
BioCreative V also evaluates the running time of partici
pating systems based on response time via teams’ respect
ive web services.
DNER results
The experimental results of the DNER phase on the CDR
track testing data set are shown in Table 3. Note that only
disease entities were evaluated.
We compared our results with the benchmarks provided
by the BioCreative organizer, including:
• The straightforward dictionary look-up method that
relied on disease names from the CTD database.
• Retrained models using the out-of-box DNorm (16),
which was a competitive system that achieved the highest
performance in a previous disease challenge. DNorm
combined an approach that was based on conditional
random fields (CRFs) and rich features for NER with a
pair wise learning to rank for NEN.
• BioCreative DNER average results: Average results of
the best run of 16 teams participating in the DNER task.
• BioCreative DNER no. 1 ranked team results: Results
from the team that was ranked no. 1 (in term of FI) in
the DNER task (32). This system used a linear chain
CRF with rich features for NER, they used three lexicons
resources to generate CRF dictionary features and mul
tiple post processing steps to optimize the results. In the
NEN step, they used a dictionary-lookup method that
was based on the collection of MEDI, NCBI disease cor
pus and the CDR task data set.
In this article, we improved our system (33) that had
participated in the BioCreative DNER task by adding the
silverCID corpus in the NER averaged perceptron training
set. Table 3 also shows how useful the silverCID was in
boosting the performance of our proposed model.
In the BioCreative V evaluation, our system performed far
beyond the dictionary look up method, but worse than
DNorm that was considered as a very strong benchmark (note
that there were only seven participating teams that achieved