BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI
NGUYỄN VĂN TỈNH
DỰ ĐOÁN LIÊN KẾT TRONG MẠNG HỖN TẠP VÀ
ỨNG DỤNG TRONG DỰ ĐOÁN MỐI QUAN HỆ
GIỮA RNA KHƠNG MÃ HĨA VÀ BỆNH
Chun ngành: Khoa học máy tính
Mã số: 9480101
TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Hà nội, 2023
Cơng trình được hồn thành tại: Khoa Cơng nghệ thơng
tin, Trường Đại học Sư phạm Hà Nội
Người hướng dẫn khoa học:
1. PGS.TS. Trần Đăng Hưng
2. TS. Lê Thị Tú Kiên
Phản biện 1: PGS.TS. Nguyễn Long Giang, Viện Công
nghệ thông tin-Viện Hàn lâm KHCN Việt Nam
Phản biện 2: PGS.TS. Lê Đức Hậu, Trường Đại học
Thủy Lợi
Phản biện 3: PGS.TS. Nguyễn Ngọc Hóa, Trường Đại
học Cơng nghệ-ĐHQG Hà Nội
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án
cấp Trường họp tại
Trường Đại học Sư phạm Hà Nội vào hồi …..giờ … ngày …
tháng… năm…
Có thể tìm hiểu luận án tại thư viện: Thư viện Quốc
Gia, Hà Nội
hoặc Thư viện Trường Đại học Sư phạm Hà Nội
DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ
LIÊN QUAN ĐẾN LUẬN ÁN
[VTN1] Van Tinh Nguyen, Thi Tu Kien Le and Dang Hung Tran,
"A new method on lncRNA-disease-miRNA tripartite graph to predict
lncRNA-disease associations", 2020 12th International Conference
on Knowledge and Systems Engineering (KSE), 2020, pp. 287-293,
doi: 10.1109/KSE50997.2020.9287563 (Scopus indexed).
[VTN2] Van Tinh Nguyen, Thi Tu Kien Le, Tran Quoc Vinh Nguyen
and Dang Hung Tran, “Inferring miRNA-disease associations using
collaborative filtering and resource allocation on a tripartite
graph”, BMC
Med
Genomics 14, 225
(2021).
(ISI Q2 journal).
[VTN3] Van Tinh Nguyen and Dang Hung Tran, "An improved
computational method for prediction of lncRNA-disease associations
based on collaborative filtering and resource allocation", 2021 13th
International Conference on Knowledge and Systems Engineering
(KSE), 2021, pp. 1-6, doi: 10.1109/KSE53942.2021.9648632 (Scopus
indexed).
[VTN4] Van Tinh Nguyen, Thi Tu Kien Le, Khoat Than and Dang
Hung Tran, “Predicting miRNA–disease associations using improved
random walk with restart and integrating multiple similarities”, Sci
Rep 11, 21071 (2021). />(ISI Q1 journal).
1
MỞ ĐẦU
Chúng ta đang sống trong một thế giới kết nối nơi mà hầu hết dữ
liệu hay thông tin của các đối tượng, các tác nhân, nhóm đối tượng hay
nhóm các thành phần tương tác với nhau để tạo thành các mạng lớn.
Chúng chứa nhiều loại nút và nhiều loại tương tác. Những mạng như
vậy được gọi là các mạng thông tin hỗn tạp. Những mạng này giàu
ngữ nghĩa và có thể được xây dựng từ nhiều nguồn dữ liệu khác nhau.
Phân tích mạng thơng tin hỗn tạp sản sinh một xu hướng nghiên cứu
mới trong khai phá dữ liệu, truy vấn thơng tin, phân tích mạng xã hội,
dự đốn liên kết, khai phá đồ thị, khoa học mạng lưới,…
Dự đoán liên kết là một nhiệm vụ then chốt và tích cực trong phân
tích mạng thơng tin hỗn tạp. Nó mang lại nhiều lợi ích cho các nhà
nghiên cứu và các tổ chức trong nhiều lĩnh vực khác nhau. Mục tiêu
của dự đốn liên kết là tìm ra những liên kết thiếu trong một mạng
hoặc những liên kết có thể xuất hiện trong tương lai gần trong mạng.
Dự đoán liên kết được áp dụng rộng rãi trong nhiều lĩnh vực, từ
các mạng xã hội tới các hệ thống sinh học. Với các hệ thống sinh học,
dự đoán liên kết được sử dụng để dự đoán các mối quan hệ giữa nhiều
loại đối tượng sinh học khác nhau, chẳng hạn quan hệ Triệu chứng
bệnh-Gen, tương tác Thuốc-Protein, quan hệ Thuốc-miRNA, quan hệ
Thuốc-bệnh, quan hệ giữa các RNA khơng mã hóa-bệnh…
Trong một khoảng thời gian dài, việc xác định các RNAs không
mã hóa (ncRNAs) trong bộ gen người là một cơng việc khó khăn.
Chúng được coi như nhiễu sinh học và khơng có chức năng sinh học
nào. Nhưng trên thực tế các ncRNAs đóng vai trị quan trọng trong các
hoạt động khác nhau của sự sống.
Việc xác định mối quan hệ giữa các RNAs khơng mã hóa và bệnh
đã mở ra cơ hội cho việc chẩn đoán và điều trị các bệnh trên người.
Vì vậy các nghiên cứu về mối quan hệ giữa các ncRNAs và bệnh trên
2
người đã được thực hiện rộng rãi trong những năm gần đây.
Việc xác định mối quan hệ giữa ncRNAs và bệnh bằng các
phương pháp thực nghiệm sinh học truyền thống là đắt đỏ, tốn thời
gian và cơng sức. Vì vậy, nó địi hỏi phải có các phương pháp tính
tốn để xác định các mối quan hệ ncRNA-bệnh trên người, đặc biệt là
để xác định mối quan hệ giữa RNA không mã hóa nhỏ (miRNA)-bệnh
và mối quan hệ giữa RNA khơng mã hóa dài (lncRNA)- bệnh. Trong
những năm gần đây, khá nhiều phương pháp tính tốn đã được phát
triển để dự đốn quan hệ giữa RNA khơng mã hóa và bệnh. Các
phương pháp tính tốn này đã mang lại nhiều lợi ích trong phát hiện
các ncRNAs liên quan đến bệnh, tuy nhiên còn một số hạn chế gần
phải giải quyết.
Thứ nhất, các phương pháp tính tốn để dự đốn quan hệ ncRNAdisease phải đối mặt với vấn đề tính thưa của dữ liệu. Điều đó dựa trên
thực tế rằng số lượng mối quan hệ ncRNA-disease đã biết là rất hạn
chế so với số lượng các mối quan hệ chưa biết giữa chúng. Từ đó
chúng ta khó xây dựng một mạng thơng tin đáng tin cậy để biểu diễn
các mạng sinh học. Do đo, nó hạn chế tính chính xác của dự đốn.
Thứ nhì, do vấn đề tính thưa của dữ liệu có thể dẫn đến vấn đề
mất cân bằng giữa các mẫu dương tính và mẫu âm tính trong thực thi
các phương pháp tính tốn để dự đốn các quan hệ ncRNA-disease.
Đó là lý do hiệu quả của các phương pháp tính tốn chưa thực sự có
độ tin cậy cao.
Thứ ba, việc tính tốn tương đồng trong các phương pháp tính
tốn hiện hành dựa quá nhiều vào các mối quan hệ ncRNA-disease đã
biết. Điều đó có thể dẫn đến những sai lệch đáng kể trong dự đoán các
mối quan hệ giữa RNA khơng mã hóa và bệnh. Vì vậy địi hỏi cần phải
tích hợp thơng tin sinh học từ nhiều nguồn khác nhau để cải thiện hiệu
quả của việc dự đoán.
3
Thứ tư, hầu hết các phương pháp tính tốn hiện hành khơng thể
áp dụng để dự đốn các quan hệ cho các bệnh hoặc ncRNA cô lập,
những bệnh hoặc ncRNA chưa có mối quan hệ với ncRNA hoặc bệnh
khác trong tập dữ liệu được xem xét. Do đó cần phải tích hợp thơng
tin từ nhiều nguồn khác nhau để nâng cao hiệu quả dự đốn của các
phương pháp tính tốn đối với các bệnh hoặc ncRNA cơ lập.
Thứ năm, có quá nhiều tham số cần điều chỉnh trong các phương
pháp tính tốn hiện hành dẫn đến việc khó thực thi việc dự đốn quan
hệ ncRNA-disease. Do đó các nhà nghiên cứu cần phải triển các
phương pháp tính tốn dễ triển khai hơn để dự đốn quan hệ giữa các
RNA khơng mã hóa và bệnh.
Cuối cùng, ngày càng nhiều các cơ sở dữ liệu sinh học trở nên
sẵn có, vì vậy chúng ta cần phải tích hợp dữ liệu từ nhiều nguồn khác
nhau để cải thiện độ tin cậy của các phương pháp dự đốn.
Cho tới nay, hàng tuần vẫn có một số nghiên cứu được xuất bản
trên các tạp chí hoặc hội thảo khoa học để đưa ra những kết quả mới
trên các phương pháp tính tốn dự đốn quan hệ RNA khơng mã hóa
và bệnh. Nhiều nghiên cứu tập trung vào việc giải quyết những hạn
chế đã được chỉ ra ở trên. Tuy nhiên, việc lựa chọn dữ liệu hữu ích từ
các nguồn thơng tin hỗn tạp để xây dựng một mạng hỗn tạp đáng tin
cậy vẫn còn là một thách thức, vì vậy nó vẫn cịn khơng gian cho các
nhà khoa học và các nhà nghiên cứu để xây dựng một mạng thông tin
hỗn tạp đáng tin cậy và xây dựng một phương pháp tính tốn để đạt
hiệu quả cao hơn trong dự đốn quan hệ ncRNA-bệnh.
. Đó là lý do mà nghiên cứu sinh lựa chọn đề tài “Dự đoán liên
kết trong mạng hỗn tạp và ứng dụng dự đốn mối quan hệ giữa
RNA khơng mã hóa và bệnh” cho luận án của mình.
• Mục tiêu luận án và vấn đề nghiên cứu cần giải quyết.
Nghiên cứu trong luận án này tập trung vào đề xuất và cải tiến
4
các phương pháp tính tốn để nâng cao hiệu quả dự đốn quan hệ giữa
các RNA khơng mã hóa và bệnh trên mạng thông tin hỗn tạp bằng
cách giải quyết các vấn đề sau đây.
Thứ nhất, vấn đề tính thưa của dữ liệu cần được giải quyết để cải
thiện hiệu quả dự đốn.
Thứ nhì, nghiên cứu trong luận án cần tích hợp nhiều bộ dữ liệu
sinh học khác nhau để xây dựng các độ tương đồng hợp lý hơn và giảm
ảnh hưởng của việc sự phụ thuộc quá nhiều vào các mối quan hệ
ncRNA-disease đã biết.
Thứ ba, các phương pháp tính tốn từ các lĩnh vực khác như dự
đốn quan hệ vi khuẩn-bệnh (microbe-disease), dự đốn quan hệ
metabolite-disease…cũng có thể được áp dụng trong lĩnh vực dự đoán
quan hệ ncRNA-disease. Do đó, luận án có thể kế thừa các phương
pháp tính tốn từ những lĩnh vực đó và hiệu chỉnh chúng để đạt hiệu
quả tốt hơn trong dự đoán quan hệ ncRNA-disease.
Các đóng góp khoa học của luận án:
Luận án sau khi được thực hiện có những đóng góp sau:
- Đóng góp 1: Đề xuất một mơ hình tính tốn cải tiến bằng cách kết
hợp một giải thuật lọc cộng tác và một tiến trình phân bổ tài nguyên
trên đồ thị 3 phía dựa trên nhiều loại quan hệ đã biết giữa nhiều loại
đối tượng sinh học để dự đoán quan hệ giữa các RNA khơng mã hóa
và bệnh.
- Đóng góp 2: Đề xuất một phương pháp tính tốn mới có hiệu quả
cao để dự đốn quan hệ miRNA-disease. Phương pháp này sử dụng
một giải thuật K-láng giềng gần nhất đã biết (WKNKN) như một bước
tiền xử lý dữ liệu để giải quyết vấn đề tính thưa của dữ liệu và dự đoán
quan hệ miRNA-disease sử dụng giải thuật Random walk with restart
cải tiến và tích hợp nhiều độ tương đồng từ nhiều mạng hỗn tạp.
Đóng góp 1 được trình bày trong chương 2 của luận án, những nội
5
dung liên quan của đóng góp này được xuất bản trong các kỷ yếu hội
thảo và tạp chí trong các cơng trình [VTN1], [VTN2] và [VTN3].
Đóng góp 2 được trình bày ở chương 3 của luận án. Những nội dung
liên quan của đóng góp này được xuất bản trong cơng trình [VTN4]
trên tạp chí Scientific Reports (ISI Q1).
• Cấu trúc luận án:
Luận án được trình bày bao gồm phần các phần: Mở đầu, 3
chương chính và Kết luận và hướng nghiên cứu trong tương lai như
được mơ tả trong hình dưới đây.
CHƯƠNG 1. CÁC KIẾN THỨC CƠ BẢN
1.1. Các khái niệm cơ bản
1.1.1. Mạng thơng tin hỗn tạp
• Mạng thơng tin
Định nghĩa 1.1. Mạng thông tin. Một mạng thông tin được định
nghĩa như một đồ thị 𝐺 = (𝑉, 𝐸) với một hàm ánh xạ loại đối tượng
6
ϕ: V → A và một hàm ánh xạ loại liên kết ψ: E → R. Mỗi nút v ϵ V có
một loại đối tượng duy nhất, ϕ(v) ϵ A và mỗi liên kết e ϵ E thuộc về
một loại liên kết cụ thể, ψ(e) ϵ R. Nếu hai liên kết thuộc về cùng một
loại liên kết, chúng có cùng loại đối tượng bắt đầu cũng như cùng loại
đối tượng kết thúc.
• Mạng thơng tin hỗn tạp/đồng nhất.
Định nghĩa 1.2. Mạng thơng tin hỗn tạp/đồng nhất. Nếu mạng
thơng tin có nhiều hơn một loại đối tượng hoặc nhiều hơn một loại liên
kết thì nó được gọi là mạng thơng tin hỗn tạp (HIN), tức là mạng hỗn
tạp có |A|>1 hoặc |R|>1; Ngược lại, mạng thông tin được gọi là mạng
thông tin đồng nhất, tức là |A|=1 và |R|=1.
1.1.2. Các hệ thống sinh học
Các hệ thống sinh học là một lớp đặc biệt của các mạng thông tin
không đồng nhất bao gồm một số lượng lớn các thực thể sinh học như
gen, miRNA, lncRNA, biểu hiện gen, kiểu hình, v.v
1.1.3. Các RNAs khơng mã hóa (ncRNAs)
Những RNAs khơng thể chuyển hóa thành protein được gọi là
các RNAs khơng mã hóa (ncRNAs).
miRNAs
miRNAs là một lớp con của các ncRNAs sợi đơn, nội sinh, nhỏ,
được bảo tồn tiến hóa với chiều dài khoảng 20-26 nucleotides.
lncRNAs
lncRNAs là một lớp con của các ncRNAs với chiều dài lớn hơn
200 nucleotides.
1.2. Dự đoán liên kết trong các mạng thơng tin hỗn tạp
1.2.1. Bài tốn dự đốn liên kết
Định nghĩa 1.5. Dự đoán liên kết trong mạng thông tin hỗn tạp.
Cho một mạng hỗn tạp được biểu diễn bởi đồ thị 𝐺 = (𝑉1 ∪ 𝑉2 ∪
… ∪ 𝑉𝑀 , 𝐸1 ∪ 𝐸2 ∪ … ∪ 𝐸𝑁 ), trong đó 𝑉𝑖 (𝑖 = 1,2, … , 𝑀) là tập các
7
nút loại i và 𝐸𝑗 (𝑗 = 1,2, … , 𝑁) biểu diễn tập các cạnh loại j. Nhiệm vụ
của dự đốn liên kết là tìm câu trả lời có hoặc không một liên kết
𝑒𝑘 giữa nút 𝑣𝑖 (𝑣𝑖 ∈ 𝑉𝑖 ) và nút 𝑣𝑗 (𝑣𝑗 ∈ 𝑉𝑗 ) bất kỳ.
Đầu vào: Đồ thị 𝐺 = (𝑉1 ∪ 𝑉2 ∪ … ∪ 𝑉𝑀 , 𝐸1 ∪ 𝐸2 ∪ … ∪ 𝐸𝑁 ):
𝑉𝑖 (𝑖 = 1,2, … , 𝑀) là tập các nút loại i và 𝐸𝑗 (𝑗 = 1,2, … , 𝑁) biểu diễn
tập các cạnh loại j.
Output: Với 2 đối tượng bất kỳ có kết nối tiềm ẩn 𝑣𝑖 (𝑣𝑖 ∈ 𝑉𝑖 ) và
𝑣𝑗 (𝑣𝑗 ∈ 𝑉𝑗 ), liệu liên kết 𝑒𝑘 là tồn tại (1) hoặc không tồn tại (0)?
1.2.2. Các phương pháp dự đoán liên kết
Các phương pháp dự đốn liên kết có thể được phân loại thành: Các
phương pháp dựa trên độ tương đồng mạng, các phương pháp dựa trên
xác xuất và xác xuất cực đại, các phương pháp dựa trên học máy, các
dựa trên học sâu…Chúng có thể được áp dụng trong nhiều lĩnh vực từ
các mạng xã hội tới các mạng sinh học.
1.2.3. Các ứng dụng của dự đoán liên kết trong các hệ thống sinh
học
Trong các hệ thống sinh học, dự đoán liên kết thường được sử dụng
để dự đoán quan hệ giữa các đối tượng sinh học như dự đoán quan hệ
Gen-bệnh, dự đoán quan hệ bệnh-các trao đổi chất, phát triển thuốc,
dự đoán tương tác thuốc-protein, dự đoán quan hệ thuốc-miRNA, dự
đoán quan hệ thuốc-bệnh, dự đoán quan hệ giữa các ncRNA-bệnh…
1.3. Các phương pháp tính tốn dự đốn quan hệ giữa các RNAs
khơng mã hóa và bệnh
1.3.1. Dự đốn quan hệ ncRNA-bệnh được coi là bài toán dự đoán
liên kết
Dự đoán quan hệ ncRNA-disease được coi là bài toán dự đốn
liên kết trong mạng thơng tin hỗn tạp. Nó thường sử dụng một mạng
hỗn tạp chứa nhiều loại đối tượng sinh học và quan hệ giữa chúng.
Những loại đối tượng sinh học và quan hệ giữa chúng có thể được thu
8
thập từ nhiều nguồn dữ liệu khác nhau, bao gồm các nút ncRNAs
(miRNA, lncRNA) và bệnh. Sau đó nó dự đoán quan hệ giữa các
ncRNAs và bệnh. Các quan hệ có thể là quan hệ mới hoặc quan hệ
thiếu chưa được kiểm chứng trước đó.
1.3.2. Các tài nguyên dùng để dự đốn quan hệ ncRNA-disease
Thơng tin về miRNAs và các quan hệ miRNA-target có thể được
thu thập từ nhiều nguồn dữ liệu khác nhau như miRBase, miReg,
miRTarBase, miRecords,... Các quan hệ miRNA-disease được kiểm
chứng có thể được thu thập từ các cơ sở dữ liệu có sẵn đã được kiểm
chứng như MiRCancer, MiR2Disease, HMDD, MiREC, DbDEMC,…
Thơng tin về lncRNAs có thể được thu thập từ nhiều nguồn như
LNCipedia, NONCODE database, LncRBase,...Thơng tin về các
tương tác của lncRNA có thể được thu thập từ các cơ sở dữ liệu như
DIANA-LncBase, lncRNA2Target,…Thông tin quan hệ lncRNAdisease có thể được thu thập từ nhiều cơ sở dữ liệu khác nhau như
LncRNADisease, Lnc2Cancer, MNDR, ...
1.3.3. Tính tốn độ tương đồng và xây dựng mạng hỗn tạp
Tính tốn độ tương đồng giữa các bệnh
Một phương pháp tiêu biểu tính tốn độ tương đồng của bệnh
bằng cách tính tốn đóng góp của các nút tổ tiên của bệnh trong một
cấu trúc cây như MeSH.
Một loại phương pháp khác đã sử dụng thông tin của các phân tử
sinh học có liên quan khác để tính tốn mức độ giống nhau của bệnh
Tính tốn tương đồng ncRNAs
Phương pháp phổ biến nhất là tính độ tương đồng ncRNA là sử
dụng thơng tin sinh học của chính ncRNA.
Xây dựng mạng thơng tin hỗn tạp
Sau khi có các độ tương đồng, mạng thông tin hỗn tạp được xây
dựng.
9
1.3.4. Khảo sát tổng quan các phương pháp tính tốn để dự đốn
quan hệ ncRNA-disease
Nhiều phương pháp tính tốn để dự đoán quan hệ ncRNA-disease đã
được phát triển trong những năm gần đây. Nhìn chung, chúng có thể
được phân loại thành các loại : Các phương pháp dự đoán dựa trên mơ
hình mạng, các phương pháp dựa trên phân bổ tài nguyên, các phương
pháp dựa trên hệ thống khuyến nghị, các phương pháp dựa trên học
máy, các phương pháp dựa trên học sâu và các phương pháp dựa trên
nhiều nguồn thơng tin và tích hợp nhiều mơ hình. Mỗi loại phương
pháp có những ưu, nhược điểm riêng.
1.4. Các hướng nghiên cứu của luận án
Nghiên cứu trong luận án có thể được thực hiện theo các hướng :
Đầu tiên, cần phát triển các phương pháp để trích chọn đặc trưng,
tính tốn tương đồng hoặc tổng hợp thông tin phù hợp hơn để giải
quyết vấn đề tính thưa của dữ liệu hoặc nâng cao tính tin cậy của hiệu
quả dự đốn.
Thứ hai, luận án có thể tập trung vào việc tích hợp dữ liệu từ
nhiều tập dữ liệu sinh học khác nhau để xây dựng độ tương đồng hợp
lý hơn và phát triển các phương pháp tính tốn mới để dự đốn quan
hệ ncRNA-disease.
Thứ ba, các phương pháp tính tốn để dự đốn quan hệ ncRNAdisease có thể được áp dụng cho các lĩnh vực nghiên cứu khác như dự
đoán quan hệ mircrobe-disease, metabolite-disease, drug-disease...Do
đó, các phương pháp tính tốn để dự đốn quan hệ ncRNA-disease
cũng có thể kế thừa các phương pháp tính tốn từ các lĩnh vực khác và
hiệu chỉnh chúng để đạt hiệu quả tốt hơn trong dự đoán quan hệ
ncRNA-disease.
1.5. Các phương pháp đánh giá và các đo lường đánh giá hiệu
quả dự đoán
10
Trong luận án này, hiệu quả dự đoán của các phương pháp được
đánh giá bằng đo lường Diện tích dưới đường cong ROC (AUC), Diện
tích dưới đường cong Precision-Recall (AUPR) bằng các thực nghiệm
5-fold-cross-validation và leave-one-out-cross-validation (LOOCV).
Bên cạnh đó, để hỗ trợ tính tin cậy của hiệu quả dự đốn, một số trường
hợp kiểm tra (checking case studies) có thể được thực thi trong mỗi
phương pháp. Ngoài ra, mặc dù độ phức tạp tính tốn thường khơng
được quan tâm để đánh giá hiệu quả dự đoán nhưng trong luận án này,
độ phức tạp tính tốn về thời gian của các phương pháp được ước
lượng để đảm bảo các phương pháp sẽ kết thúc trong thời gian thực
thi chấp nhận được.
1.6. Tóm tắt chương
Trong chương này, trước tiên một số khái niệm cơ bản được trình
bày. Sau đó, bài tốn dự đốn liên kết trong mạng thơng tin hỗn tạp
được phát biểu và các ứng dụng của dự đoán liên kết trong sinh học
hệ thống được tóm tắt. Tiếp đó, các phương pháp tính tốn để dự đốn
quan hệ giữa các ncRNAs và bệnh được khảo sát tổng quan. Từ khảo
sát đó, các hướng nghiên cứu của luận án đã được chỉ ra. Cuối cùng,
một số phương pháp đánh giá và các đo lường đánh giá hiệu quả dự
đoán đã được trình bày.
CHƯƠNG 2. DỰ ĐỐN QUAN HỆ GIỮA CÁC NCRNAS VÀ
BỆNH KẾT VỚI LỌC CỘNG TÁC VÀ MỘT TIẾN TRÌNH
PHÂN BỔ TÀI NGUYÊN TRÊN ĐỒ THỊ BA PHÍA
2.1. Động lực nghiên cứu
Gần đây nhiều phương pháp tính tốn khác nhau để dự đoán quan hệ
ncRNA-disease, đặc biệt là quan hệ miRNA-bệnh và quan hệ
lncRNA-bệnh, đã được phát triển. Nhiều phương pháp trong đó chủ
yếu dựa vào các mối quan hệ ncRNA-disease đã biết. Chúng cần phải
11
sử dụng nhiều ma trận tương đồng khác nhau mà những ma trận này
không kết nối trực tiếp với các quan hệ ncRNA-bệnh đã biết. Vì vậy,
gần đây nhiều phương pháp tính tốn đã được xây dựng sử dụng nhiều
loại quan hệ giữa nhiều loại đối tượng để dự đoán quan hệ ncRNAbệnh. Nhìn chung những phương pháp dựa vào nhiều loại quan hệ đã
biết của nhiều loại đối tượng cải thiện được hiệu quả của việc dự đoán.
Trong chương này, một mơ hình tính tốn mới được đề xuất để dự
đoán quan hệ ncRNA-disease nhằm giải quyết vấn đề tính thưa của dữ
liệu và tận dụng những ưu điểm của việc tích hợp nhiều loại quan hệ
đã biết giữa nhiều loại đối tượng sinh học trong cải thiện hiệu quả của
việc dự đốn. Trước tiên, vấn đề tính thưa của dữ liệu được giải quyết
bởi một giải thuật lọc cộng tác dựa theo item. Sau đó một tiến trình
phân bổ tài nguyên được triển khai trên đồ thị 3 phía để dự đốn quan
hệ ncRNA-disease.
2.2. Các nghiên cứu liên quan chính
2.2.1. Giải thuật lọc cộng tác dựa theo item để dự đốn quan hệ
ncRNA-disease.
Mơ hình mới được đề xuất sử dụng giải thuật lọc cộng tác dựa trên
item để giải quyết vấn đề tính thưa của dữ liệu quan hệ ncRNAdisease.
2.2.2. Phân bổ tài nguyên trên đồ thị 3 phía
Phân bổ tài nguyên trên đồ thị 3 phía đã được thực thi thành cơng
trong nhiều phương pháp tính tốn để dự đoán quan hệ ncRNA-disease
bao gồm các phương pháp TPGLDA và ncPRED.
2.3. Mơ hình được đề xuất
Mơ hình được đề xuất mới được minh họa như trong Hình 2.1 dưới
đây.
Một cách tổng quan, mơ hình được đề xuất bao gồm 4 giai đoạn. Ở
giai đoạn thứ nhất, một đồ thị G0 được xây dựng dựa trên các loại quan
12
Hình 2.1. Sơ đồ luồng tiến trình của mơ hình được đề xuất
hệ miRNA-disease, lncRNA-disease và miRNA-lncRNA đã biết. Ở
giai đoạn thứ 2, để giải quyết vấn đề tính thưa của dữ liệu, một giải
13
thuật lọc cộng tác được triển khai trên đồ thị G0 để thu được một đồ
thị 3 phía mới Gu. Sau đó, đồ thị 3 phía Gu được sử dụng trong một
tiến trình phân bổ tài nguyên ở giai đoạn thứ 3 để tính tốn điểm tài
ngun của các ứng viên ncRNA cho mỗi bệnh liên quan. Ở giai đoạn
cuối cùng, tất cả các điểm tài nguyên của các ncRNA ứng viên với
mỗi bệnh sẽ được xếp hạng theo thứ tự giảm dần mà ứng viên với điểm
tài nguyên cao hơn sẽ có khả năng lớn hơn có mối quan hệ đúng và
được kiểm chứng trong tương lai.
2.4. Triển khai mơ hình được đề xuất để suy diễn các mối quan hệ
miRNA-disease dựa trên lọc cộng tác và phân bổ tài ngun
2.4.1. Các giai đoạn của mơ hình được đề xuất trong suy diễn quan
hệ miRNA-disease
• Giai đoạn 1: Xây dựng đồ thị 3 phía G0
• Giai đoạn 2: Xây dựng đồ thị 3 phía Gu
• Giai đoạn 3: Triển khai tiến trình phân bổ tài nguyên trên đồ thị 3
phía Gu để suy diễn quan hệ miRNA-disease
• Giai đoạn 4: Xếp hạng các Rscores của các miRNA ứng viên cho
mỗi bệnh theo thứ tự giảm dần
2.4.2. Thực nghiệm và kết quả của phương pháp được đề xuất
• Bước 1: Chuẩn bị tập dữ liệu thực nghiệm
Phương pháp được đề xuất sử dụng các tập dữ liệu đến từ nghiên cứu
của Zhao et al. Các tập dữ liệu này bao gồm 190 bệnh, 111 lncRNAs
và 264 miRNAs, 936 quan hệ lncRNA-disease đã biết, 3552 quan hệ
miRNA-disease đã được kiểm chứng và 1880 quan hệ đã biết giữa các
lncRNAs và miRNAs. Thơng tin về các tập dữ liệu này được tóm tắt
trong Hình 2.2 dưới đây
• Bước 2: Cài đặt phương pháp được đề xuất và ước lượng độ
phức tạp tính toán
Phương pháp được đề xuất được cài đặt sử dụng ngôn ngữ lập
14
Hình 2.2. Các tập dữ liệu và số nút dữ liệu trong phương pháp
được đề xuất
trình Python và các thư viện có liên quan.
Độ phức tạp tính tốn của phương pháp được ước lượng tương
đương với O(n3). Đây là độ phức tạp thời gian đa thức.
• Bước 3: Đánh giá hiệu năng dự đoán
Để đánh giá hiệu quả của phương pháp được đề xuất trong suy diễn
mối quan hệ miRNA-disease, các thực nghiệm 5-fold-cross-validation
được thực hiện và các đo lường AUC và AUPR được đánh giá.
Đánh giá AUC bằng các thực nghiệm 5-fold-cross-validation
Hình 2.3. Đường cong ROC và giá trị AUC của phương pháp được
đề xuất trong một lần chạy thực nghiệm với γ = 0.9.
Giá trị AUC trung bình tốt nhất đạt được 0.9788 với γ = 0.9 sau khi
15
thực hiện các thực nghiệm 5-fold-cross-validation 10 lần. Hình 2.3
minh họa đường cong ROC và giá trị AUC của phương pháp được đề
xuất với γ = 0.9 trong một lần chạy thực nghiệm.
• Đánh giá AUPR bằng thí nghiệm 5-fold cross-validation
Sau khi thực hiện các thí nghiệm 5-fold-cross-validation 10 lần,
phương pháp được đề xuất đạt được giá trị AUPR trung bình tốt nhất
là 0.9373 với γ = 0.9. Hình 2.4 minh họa đường Precision-Recall và
giá trị AUPR của phương pháp được đề xuất với γ = 0.9 trong một lượt
chạy thí nghiệm.
Hình 2.3. Đường cong Precision-Recall và giá trị AUPR của
phương pháp đề xuất trong một lần chạy thực nghiệm với γ = 0.9.
• So sánh hiệu quả dự đốn với các phương pháp khác có liên
quan.
Hiệu quả của phương pháp được đề xuất được so sánh với hiệu quả
của các phương pháp có liên quan DCSMDA và TPGLDA. Hiệu
quả của những phương pháp này được chỉ ra trong Bảng 2.1.
Method
AUC value
TPGLDA
0.9703
DCSMDA
0.8155
The proposed method
0.9788
• Kiểm tra các Case studies
AUPR value
0.7421
0.9373
16
Các trường hợp nghiên cứu trên các bệnh Ung thư tiền liệt tuyến, Suy
tim, U thần kinh đệm và Tăng nhãn áp (Bệnh thiên đầu thống) được
thực thi để chỉ ra khả năng của mơ hình được đề xuất trong dự đốn
các miRNA có quan hệ với từng bệnh.
2.5. Triển khai mơ hình được đề xuất để dự đốn quan hệ lncRNAdisease dựa trên lọc cộng tác và phân bổ tài ngun.
2.5.1. Các giai đoạn của mơ hình được đề xuất trong dự đốn quan
hệ lncRNA-disease
• Giai đoạn 1: Xây dựng đồ thị 3 phía G0.
• Giai đoạn 2: Áp dụng giải thuật lọc cộng tác trên các quan hệ đã
biết lncRNA-disease và lncRNA-miRNA để thu được đồ thị 3 phía
mới Gu.
• Giai đoạn 3: Sử dụng tiến trình phân bổ tài nguyên cải tiến để thu
được các quan hệ lncRNA-disease dự đốn.
• Giai đoạn 4: Xếp hạng tất cả các lncRNAs được dự đoán cho mỗi
bệnh theo thứ tự giảm dần để thu được kết quả cuối cùng.
2.5.2. Thực nghiệm và kết quả của phương pháp được đề xuất
• Bước 1: Thu thập dữ liệu
Các tập dữ liệu của phương pháp được đề xuất bao gồm các quan hệ
lncRNA-disease đã biết, quan hệ miRNA-disease đã biết và tương tác
lncRNA-miRNA đã kiểm chứng. Các nút dữ liệu và các mối quan hệ
của các nguồn dữ liệu trong phương pháp được đề xuất được trình bày
trong hình 2.5.
Hình 2.5. Mối quan hệ giữa các tập dữ liệu và số nút dữ liệu
trong từng tập
17
•
Cài đặt phương pháp được đề xuất và ước lượng độ phức
tạp tính tốn
Phương pháp được đề xuất này cũng được cài đặt bằng ngơn ngữ lập
trình Python và các thư viện có liên quan. Độ phức tạp tính tốn của
phương pháp được đề xuất là O(nl*nd*nm) ≈ O(n3). Nghĩa là độ phức
tạp tính tốn của phương pháp được đề xuất có độ phức tạp đa thức.
• Bước 3: Đánh giá hiệu quả dự đoán
Các thực nghiệm 5-fold-cross-validation được triển khai và các độ đo
AUC và AUPR được sử dụng để đánh giá hiệu năng của phương
pháp được đề xuất.
Đánh giá AUC bằng thí nghiệm 5-fold-cross-validation
Phương pháp được đề xuất đạt hiệu quả AUC tốt nhất khi 𝛾 = 0.8
trong các thí nghiệm 5-fold-cross-validation. Hình 2.6 chỉ ra đường
cong ROC và giá trị AUC trong 5 lượt chạy thí nghiệm.
Hình 2.6. Đường cong ROC và giá trị AUC của phương pháp được
đề xuất trong 5 lần chạy thực nghiệm với 𝛾 = 0.8
Đánh giá AUPR bằng thí nghiệm 5-fold cross-validation
Phương pháp mới được đề xuất đạt giá trị AUPR tốt nhất khi 𝛾 = 0.8
trong các thực nghiệm 5-fold-cross-validation. Hình 2.7 minh họa các
đường PR và các giá trị AUPR trong 5 lượt chạy thí nghiệm.
18
Hình 2.7. Đường cong PR và giá trị AUPR của phương pháp được
đề xuất trong 5 lần chạy thực nghiệm với 𝛾 = 0.8
• So sánh hiệu quả với các phương pháp khác có liên quan
Để so sánh hiệu quả của phương pháp được đề xuất với các phương
pháp khác có liên quan, kết quả của một số nghiên cứu khác bao gồm
phương pháp MFLDA và RFLDA được sử dụng. Hơn nữa, một
ablation study triển khai phương pháp được đề xuất không áp dụng lọc
cộng tác đã được thực hiện. Tất cả các phương pháp này sử dụng chung
tập dữ liệu như đầu vào thực nghiệm. Bảng 2.6 chỉ ra các giá trị AUC
và AUPR của các phương pháp có liên quan trong so sánh.
Bảng 2.6. Giá trị AUC và AUPR của các phương pháp có liên quan
trong so sánh với phương pháp được đề xuất
Method
AUC
AUPR
MFLDA
0.741
0.205
RFLDA
0.976
0.779
The proposed method without
0.983
0.828
a collaborative filtering
process
The new proposed method
0.983
0.983
• Bước 4: Kiểm tra các trường hợp nghiên cứu để hỗ trợ tính
tin cậy của hiệu quả dự đoán
19
Để hỗ trợ tính tin cậy của kết quả dự đoán của phương pháp được đề
xuất trong các thực nghiệm 5-fold-cross-validation, các trường hợp
nghiên cứu trên các bệnh Ung thư tiền liệt tuyến và Ung thư dạ dày
đã được triển khai
2.6. Tóm tắt chương
Chương này trình bày một mơ hình mới được đề xuất để dự đoán quan
hệ ncRNA-disease kết hợp giải thuật lọc cộng tác để giải quyết vấn
đề tính thưa của dữ liệu và phương pháp dự đốn quan hệ dựa trên tiến
trình phân bổ tài nguyên trên nhiều loại quan hệ giữa nhiều loại đối
tượng. Mơ hình mới được đề xuất được triển khai trong hai phương
pháp mới để dự đoán quan hệ miRNA-disease và quan hệ lncRNAdisease.
CHƯƠNG 3. MỘT PHƯƠNG PHÁP TÍNH TỐN MỚI ĐỂ DỰ
ĐỐN QUAN HỆ MIRNA-DISEASE SỬ DỤNG BƯỚC LẶP
NGẪU NHIÊN CÓ QUAY LUI CẢI TIẾN VÀ TÍCH HỢP
NHIỀU ĐỘ TƯƠNG ĐỒNG
Trong chương này, một phương pháp mới được đề xuất để dự
đoán quan hệ miRNA-disease. Phương pháp được đề xuất sử dụng một
giải thuật K-láng giềng đã biết gần nhất (WKNKN) như một bước tiền
xử lý nhằm giải quyết vấn đề tính thưa của dữ liệu. Nó cũng tích hợp
nhiều nguồn dữ liệu để tăng tính tin cậy của hiệu quả dự đốn. Bên
cạnh đó, phương pháp mới cải tiến một giải thuật bước lặp ngẫu nhiên
có quay lui được kế thừa từ lĩnh vực dự đoán quan hệ microbe-disease
để phát hiện các mối quan hệ miRNA-disease mới. Kết quả của
chương này đã được xuất bản trong cơng trình [VTN4].
3.1. Động lực nghiên cứu và các nghiên cứu liên quan chính
Gần đây, một số lượng đáng kể các ứng dụng trong dự đoán quan hệ
20
ncRNA-disease sử dụng các phương pháp dựa trên random walk đã
được phát hiện cao gồm các phương pháp của Le et al.’s và BRWH.
Tuy nhiên, xác suất bước lặp của mỗi nút lân cận của nút bệnh hoặc
miRNA tương ứng của nó là đồng nhất trong hầu hết các phương pháp
dựa trên random-walk kể trên. Và, hầu hết các bệnh hoặc miRNA
khơng có mối quan hệ với miRNA hoặc bệnh trong các tập dữ liệu
được xem xét sẽ không được dự đốn một cách hiệu quả. Do đó, các
nhà nghiên cứu gần đây thường dựa trên giả thiết, một disease
(miRNA) sẽ có xác suất liên quan khác nhau với mỗi miRNA
(disease), mỗi mối quan hệ miRNA-disease được gán cho một trọng
số riêng biệt trong các không gian mạng hỗn tạp khác nhau được xây
dựng bằng cách tích hợp nhiều độ tương đồng để dự dốn quan hệ
miRNA-disease. Ngồi ra, các phương pháp dựa trên random walk
phổ biến để dự đoán quan hệ miRNA-disease vẫn tồn tại một số hạn
chế mà nếu giải quyết được thì có thể cải thiện hiệu quả của việc dự
đốn. Vấn đề tính thưa của dữ liệu chính là một trong những hạn chế
đó. Trong chương này, một phương pháp mới để dự đoán quan hệ
miRNA-disease sử dụng giải thuật RWR cải tiến và tích hợp nhiều độ
tương đồng được đề xuất. Phương pháp mới được đề xuất sử dụng giải
thuật K-láng giềng đã biết gần nhất (WKNKN) như một bước tiền xử
lý để giải quyết vấn đề tính thưa của dữ liệu. Nó cũng tích hợp nhiều
nguồn dữ liệu khác nhau để tăng tính tin cậy của hiệu qảu dự đốn.
Bên cạnh đó, nó kế thừa giải thuật bước lặp ngẫu nhiên có quay lui mở
rộng được giới thiệu bởi Luo J. và Long Y để dự đoán quan hệ microbedisease và cải tiến tiến trình bước lặp ngẫu nhiên có quay lui để phát
hiện các mối quan hệ miRNA-disease tiềm ẩn.
3.2. Tài nguyên sử dụng trong phương pháp mới được đề xuất
Trong phương pháp được đề xuất, các quan hệ miRNA-disease đã biết
được tải từ cơ sở dữ liệu HMDD V2.0. Nó chứa 5430 quan hệ đã được
21
kiểm chứng thực nghiệm giữa 383 bệnh và 495 miRNAs.
3.3. Phương pháp mới được đề xuất
Sơ đồ phương pháp được đề xuất để dự đoán quan hệ miRNAdisease sử dụng bước lặp ngẫu nhiên có quay lui và tích hợp nhiều độ
tương đồng được trình bày trong hình 3.2.
Hình 3.2. Sơ đồ luồng tiến trình của phương pháp được đề xuất
(RWRMMDA).
Một cách tổng quan, phương pháp mới được đề xuất sử dụng các quan
hệ miRNA-disease đã biết, độ tương đồng chức năng miRNA và độ
22
tương đồng ngữ nghĩa bệnh như đầu vào để tiến hành dự đốn và chưa
6 giai đoạn như mơ tả sau đây. Ở giai đoạn thứ nhất, độ tương đồng
Gaussian Interaction Profile Kernel cho miRNAs và bệnh được tính
tốn. Ở giai đoạn thứ hai, độ tương đồng tích hợp cho miRNAs và
bệnh được tính ra. Ở giai đoạn thứ ba, một giải thuật thuật K-láng
giềng đã biết gần nhất được thực thi như một bước tiền xử lý dữ liệu
để giảm thiểu các giá trị chưa biết trong tập dữ liệu miRNA-disease.
Mục tiêu của nó chính là giảm thiểu ảnh hưởng của vấn đề dữ liệu
thưa. Tiếp đó, ở giai đoạn thứ tư, hai mạng hỗn tạp dựa trên 2 không
gian độ tương đồng miRNA và bệnh được xây dựng. Sau đó tại giai
đoạn thứ 5, một giải thuật bước lặp ngẫu nhiên có quay lui được cải
tiến được thực thi đồng thời trên 2 mạng hỗn tạp dựa trên độ tương
đồng miRNA và độ tương đồng bệnh để tính toán xác suất dự đoán
cuối. Cuối cùng, các điểm xác suất dự đoán sẽ được xếp hạng theo thứ
tự giảm dần để thu được các miRNA tiềm năng nhất tương ứng của
mỗi bệnh.
3.4. Các thực nghiệm và kết quả
3.4.1. Các tập dữ liệu
Các tập dữ liệu được sử dụng trong phương pháp được đề xuất đã
được trình bày tại mục 3.2.
3.4.2. Cài đặt và đánh giá độ phức tạp tính toán của phương
pháp được đề xuất.
Phương pháp được đề xuất này cũng được cài đặt bằng ngơn ngữ lập
trình Python và các thư viện có liên quan. Độ phức tạp tính tốn của
phương pháp được đề xuất là O(nd*nm*nm) ≈ O(n3). Nghĩa là độ
phức tạp tính tốn của phương pháp được đề xuất có độ phức tạp đa
thức.
3.4.3. Các đánh giá hiệu quả
• Đánh giá AUC và AUPR bằng thí nghiệm 5-fold CV