Tải bản đầy đủ (.pdf) (26 trang)

Dự đoán mối quan hệ giữa miRNAs và bệnh bằng phương pháp Random Walk with Restarts

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.63 MB, 26 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

HỌC VIEN CƠNG NGHỆ BƯU CHÍNH VIỄN THONG

Nguyễn Đình Hùng

DỰ ĐỐN MỖI QUAN HỆ GIỮA MIRNAs VÀ BỆNH

BẰNG PHƯƠNG PHÁP RANDOM WALK WITH RESTARTS

<small>Chuyên ngành: Khoa học máy tính</small>

Mã số: 60.48.01.01

TĨM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2014

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

Người hướng dẫn khoa học: TS. Trần Đăng Hưng

<small>Phản biện 1:</small>

<small>Phản biện 2:</small>

<small>Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ tạiHọc viện Cơng nghệ Bưu chính Viễn thơng</small>

<small>Vào lúc: ... giờ</small>

<small>Có thê tìm hiệu luận văn tại:</small>

- Thư viện của Học viện Cơng nghệ Bưu chính Viễn thơng

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

MO DAU

Gần day, nhiều nghiên cứu đã chỉ ra miRNA là một thành phan trong tế bao, nó đóng vai tro quan trọng trong các q trình sinh học cơ bản khác nhau và sự rơi

loạn có liên quan đến miRNA thường dẫn đến nhiều loại bệnh khác nhau.

Việc tìm kiếm trên phạm vi rộng những mối quan hệ giữa miRNA và các bệnh cụ thê trở thành một mục tiêu quan trọng trong nghiên cứu y sinh giúp thúc đây hiểu

biết về bệnh ở mức phân tử và mang lại các lợi ích trong việc tiên lượng, chân đoán, đánh giá, điều trị, ngăn ngừa bệnh và thúc đây việc cải thiện thuốc đành cho con người. Việc xác định băng thực nghiệm các miRNA có liên quan đến bệnh là khá đắt

đỏ và tốn kém về mặt thời gian. Từ nhu cầu thực tiễn và việc ứng dụng của Tin-Sinh vào việc giải quyết bài tốn nêu trên luận văn trình bày một phương pháp mới “Dự đoán mối quan hệ giữa miRNAs và bệnh bằng phương pháp Random Walk with

Bồ cục của luận văn được chia làm 3 chương như sau:

Chương 1: Giới thiệu về tin sinh học và bài toán dự đốn

Chương này trình bài các khái niệm cơ bản, tầm quan trọng và một số dạng bài

tốn chính trong tin-sinh học và giới thiệu sơ qua về bài toán dự đoán mối quan hệ

giữa miRNA và bệnh và một số nghiên cứu có liên quan.

<small>Chương 2: Phương pháp Random Walk with Restarts</small>

Chương này trình bày chi tiết về nội dung của phương pháp Random Walk with Restarts, cơ sở tốn học có liên quan và trình bày một số ứng dụng của phương

<small>pháp Random Walk with Restarts.</small>

Chương 3: Dự đoán mối quan hệ giữa miRNAs và bệnh bằng phương

<small>pháp Random Walk with Restarts</small>

Chương nay trình bày cụ thé bài toán dự đoán mối quan hệ giữa miRNAs vabệnh, phương pháp giải quyết bài tốn nói trên và trình bày về thực nghiệm đánh giákết quả của phương pháp.

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

CHƯƠNG 1: GIỚI THIỆU VE TIN SINH HOC VÀ BÀI TỐN DU

1.1 Tơng quan về Tin - sinh học

1.1.1 Giới thiệu về Tin - sinh học

Theo tác giả Nguyễn Văn Cách, khái niệm tin-sinh học có thé được hiểu như

<small>sau [1]:</small>

“Tin-sinh học (Bioinformatic) có thé hiểu là khoa học sinh học phân tích và dự

đốn đặc tính của đối tượng sinh học, trên cơ sở tích hợp năng lực hoạt động hữu cơ của ba lĩnh vực khoa học công nghệ là khoa học sinh học, với tri thức về quy luật vận động của thế giới sống: năng lực quản trị và xử lý đữ liệu của máy tính với năng lực

kết nối của cơng nghệ thông tin (qua mang internet và hệ thống viễn thông hiện đại) dé tổ chức quản ly và khai thác nguồn dữ liệu thông tin-sinh học khổng lồ quy mơ tồn cầu. Tin-sinh học đảm nhiệm nhiệm vụ to lớn hỗ trợ cho việc hoạch định các

<small>thực nghiệm sinh học; hỗ trợ hiệu quả cho việc phân tích, dự đốn đặc tính của vật</small>

liệu sinh học, cũng như nghiên cứu khám phá bản chất sinh học của giới tự nhiên, hay đảm nhiệm vai trò quan trọng trong việc “thiết kế” và sản xuất ra các sản phẩm sinh

học mong muốn khác nhau phục vụ đời sống con người...”

Một khái niệm ngắn gọn hơn, nhìn nhận dưới góc độ sự kết hợp của các ngành

<small>khác nhau [19] thì: “Tin-sinh học là một lĩnh vực khoa học sử dụng các cơng nghệ</small>

của ngành tốn học ứng dụng, tin học, thống kê, khoa học máy tính và tốn sinh học

(biomathematics) dé giải quyết các van đề sinh học.” 1.1.2 Tâm quan trọng của Tìn - sinh học

Tin-sinh học không chỉ là các nghiên cứu cơ bản về hệ gen hay sinh học phân

tử, mà nó cịn có nhiều tác động đến các lĩnh vực khác như công nghệ sinh học và y sinh. Nó có các ứng dụng như điều chế được phẩm, phân tích tính pháp lý của DNA

<small>(forensic DNA analysis), và công nghệ sinh học trong nơng nghiệp. Do đó, nó đóng</small>

vai trị quan trọng trong giải quyết các vấn đề về đường chuyền hóa sinh học, sức

khỏe, dinh dưỡng, kinh tế, khoa học xã hội và khoa học sinh học...

Tin-sinh học đóng vai trị rất quan trọng, cho phép giao tiếp với các tổ chức tham gia vào nghiên cứu sinh học và các ứng dụng; truy cập, tìm kiếm và thu thập

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

các thông tin-sinh học; xử lý và quan ly dit liệu sinh học (gồm cả tổ chức, phân tích). Phân tích và giải thích đữ liệu sinh học thông qua các phương tiện tiếp cận tính tốn.

Tin-sinh học giúp xác định những gen hữu ích dẫn đến sự phát triển của gen mới, phát hiện và phát triển thuốc và vắc-xin mới. Sự tăng trưởng theo thứ tự: bộ gen

đầy đủ, cấu trúc gen, protein, vi mang... sẽ rat cham néu khơng có ứng dung của

<small>tin-sinh học [2].</small>

<small>1.1.3 Các dạng bài tốn chính trong Tin-sinh học</small>

Dang bài toán trong tin-sinh học được chia thành ba lớp cơ bản gồm [2][19]:

Phân tích cau trúc (Structure Analysis): Trong bài tốn phân tích cấu trúc, bài

tốn điển hình là phân tích cấu trúc protein. Trong tin-sinh học người ta chú ý đến tính tương đồng khi dự đoán cấu trúc của gen. Chăng hạn nếu biết trình tự và chức năng của gen X và trình tự đó tương đồng với gen Y thì có thé biết được chức năng

của gen Y. Và, với kỹ thuật mơ phỏng tính tương đồng thơng tin này được dùng để dự đoán cau trúc của protein khi đã biết cầu trúc của một protein khác tương đồng với nó. Hiện nay, đây là cách dự đốn cấu trúc đáng tin cậy.

<small>Phân tích day (Sequence Analysis): Dữ liệu trình tự DNA trong các ngân hang</small>

cơ sở dữ liệu gen sẽ được phân tích dé tim ra những gen cấu trúc, cũng như tìm ra qui

luật của những trình tự tương đồng giữa các protein. Việc so sánh các gen trong cùng một loài hay giữa các loài khác nhau có thê cho thấy sự tương đồng về chức năng của protein, hay mối quan hệ phát sinh chủng lồi giữa những lồi này. Phân tích dãy cịn dé tìm kiếm tự động các gen và những trình tự điều khiển bên trong một hệ gen. Ngồi ra, có thể việc sử dụng trình tự DNA dé nhận dang protein.

<small>Phan tích chức nang (Funtion Analysis): Một bài tốn trong phân tích chức</small>

năng gen có thé nói đến là phân tích biểu hiện gen. Dữ liệu biểu hiện gen được dùng

dé nghiên cứu điều hịa gen, người ta có thé so sánh dữ liệu microarray của một sinh vật ở những trạng thái sinh lý khác nhau từ đó kết luận về vài trò của từng gen tham

gia vào mỗi trạng thái. Người ta cũng có thể áp dụng giải thuật phân cụm đối với những dir liệu biểu hiện dé xác định những nhóm gen đồng biểu hiện, hay đơn vị điều

<small>hòa.</small>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

1.2 Dự đoán mối quan hệ giữa miRNAs và bệnh

<small>1.2.1 Các khát niệm hiên quan</small>

1.2.2 Một số nghiên cứu liên quan

Công trình của Lu cùng các đồng nghiệp (2008) [11]: Nghiên cứu đã phát hiện

ra các miRNA có xu hướng thể hiện các dấu hiệu rối loạn về chức năng tương tự

hoặc khác biệt đối với những cụm bệnh tương tự hoặc khác biệt. Nghiên cứu còn khám phá ra rằng các miRNA có mối quan hệ với cùng một bệnh có xu hướng xuất

<small>hiện ở cùng nhóm miRNA đã được định nghĩa từ trước. Dựa trên phân tích cụm</small>

miRNA và phân tích pha hệ (family analysis), nghiên cứu con đưa ra một kết luận là

nếu hầu hết các thành viên trong một tập miRNA có mối quan hệ với một bệnh thì

các thành viên khác trong tập đó sẽ có xác suất lớn có quan hệ với bệnh đó. Kết luận

này như là một hướng dẫn đề dự đốn các miRNA tiềm năng có quan hệ với bệnh.

Zhang cùng các đồng nghiệp (2009): dựa trên giả thuyết các bệnh tương tự về kiểu hình có xu hướng có quan hệ với các miRNA có liên quan về mặt chức năng dé xuất bởi Lu cùng các đồng nghiệp [II], Zhang cùng đồng nghiệp xây dựng lên phương pháp dự đoán mối quan hệ giữa miRNA với bệnh đầu tiên. Phương pháp này xác định các miRNA tiềm năng có liên quan đến bệnh tim mạch bằng cách sử dụng

tập miRNA, phân tích pha hệ và sử dung Gen Ontology [6]. Kết qua là nghiên cứu đã dự đốn được 20 miRNA tiềm năng có quan hệ với bệnh tim mạch từ tập gồm 626 miRNA. Kết quả là, trong 20 miRNA tiềm năng đã được dự đốn có 5 miRNA đã

<small>được xác nhận qua các thực nghiệm.</small>

Jiang cùng đồng nghiệp (2010) [8]: dựa trên giả thuyết nếu một miRNA cho

trước điều hòa các gen gây bệnh hoặc điều hịa các gen có liên quan về chức năng đốivới các gen gây bệnh thì sự rối loạn chức năng của miNRA này có tiềm năng có mỗiquan hệ với bệnh mà ta đang quan tâm, Jiang cùng đồng nghiệp đã đề xuất mộtphương pháp để xếp hạng các miRNA liên quan đến bệnh. Đầu tiên mạng liên kếtchức năng gen được xây dựng thông qua việc tích hop dif liệu về gen. Mỗi nút trong

mạng đại diện cho một gen và cạnh đánh trọng số đại diện cho mối quan hệ về chức năng. Dựa trên mạng liên kết chức năng này, Jiang cùng đồng nghiệp đã xác định số lượng tương quan về chức năng giữa các gen gây bệnh và các gen đích hay cịn gọi là

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

gen mục tiêu của miRNA. Sau đó việc tính tốn tỉ số cho mỗi miRNA trong hệ

miRNA của người dé đánh giá được mức độ quan hệ của miRNA với bệnh mà đang được quan tâm được thực hiện. Cuối cùng, ti số trên được sử dụng dé xép hang cho

<small>các miRNA.</small>

Xu cùng đồng nghiệp (2011) [14]: dựa trên giả thuyết các miRNA có liên quan

đến một kiểu hình u cụ thé sẽ thé hiện những điều hịa khác thường đối với các gen đích của chúng. Phương pháp thực hiện việc xếp hạng các miRNA có liên quan đến

ung thư tiền liệt tuyên của Xu cùng đồng nghiệp có thé được mơ tả qua 3 bước: Dau

tiên, một mạng rối loạn điều hòa các gen đích của miRNA (mạng MTDN- MiRNA

<small>Target- Dysregulated Network) được xây dựng sử dụng sự khác biệt tương quan giữa</small>

các nhóm con u và các nhóm con khơng u. Sau đó, họ xây dựng các tập đữ liệu chuẩn vàng gồm có các miRNA có liên quan đến ung thư tiền liệt tuyến và các miRNA

không liên quan đến ung thư tiền liệt tuyến và đã định nghĩa 4 đặc tính topo cho các

miRNA trong mạng MTDN. Bốn đặc tính topo này là khác biệt giữa các miRNA có liên quan đến ung thư tiền liệt tuyến và các miRNA không liên quan. Cuối cùng một máy vec-to hỗ trợ SVM được đào tạo dựa trên các tập dữ liệu chuẩn vàng này được

dùng dé xếp hạng các miRNA tiềm năng có liên quan đến ung thư tiền liệt tuyến.

1.2.3 Dự đoán mi quan hệ giữa miRNA và bệnh bằng phương pháp Random

<small>Walk With Restarts</small>

Các phương pháp đã được dé cập tại phan 1.2.2 có nhiều hạn chế:

Phương pháp được đề xuất bởi Lu cùng các đồng nghiệp, Zhang cùng các đồng

nghiệp dựa quá nhiều vào tập miRNA nên đã hạn chế ứng dụng của nó.

Phương pháp mà Jiang cùng các đồng nghiệp có hạn chế là chỉ sử dụng thông

tin láng giềng của miRNA trong hệ thống tính tỉ số, có tỉ lệ đương tính giả cao và tỉ lệ

<small>âm tính gia cao nên độ chính xác khơng cao.</small>

Phương pháp của Xu cùng đồng nghiệp sử dụng các mẫu âm tính về quan hệ

giữa miRNA và bệnh trong khi trên thực tế khơng có mẫu âm tính nào giữa miRNA và bệnh đã được kiểm chứng, việc thu thập các mẫu âm tính hiện tại rất khó thậm chí là khơng thể.

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<small>Một phương pháp mới dựa trên độ đo tương tự trên mạng toàn cục và giả định</small>

rằng các miRNA có liên quan về mặt chức năng có xu hướng liên quan đến các bệnh tương tự về kiểu hình nhằm xác định mối quan hệ tiềm năng giữa miRNA và bệnh có tên là Random Walk with Restarts. Phương pháp này thực hiện việc di chuyên ngẫu nhiên trên một mạng tương tự về chức năng giữa các miRNA để xếp hạng các

<small>miRNA ứng viên cho những bệnh đang được quan tam. Phương pháp được áp dụng</small>

rộng rãi trong tin-sinh học, cụ thể cho việc xác định gen gây bệnh và dự đoán tương tác thuốc mục tiêu.

1.3 Kết luận chương 1

Trong chương này, các khái niệm cơ bản về tin-sinh học và tam quan trọng của

<small>tin-sinh học đã được trình bày. Các khái niệm, thuật ngữ được sử dụng trong luận văn</small>

cũng được trình bày cụ thể. Tại chương này, các nghiên cứu liên quan đến việc xác

định mối quan hệ giữa miRNA và bệnh được nêu ra và một phương pháp mới sử

dụng trên thuật toán Random Walk with Restart đã được đề cập.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

CHƯƠNG 2: PHƯƠNG PHAP RANDOM WALK WITH

<small>2.1 Giới thiệu phương pháp Random Walk with Restarts</small>

Xuất phát từ một nút ban đầu trên đồ thị, chúng ta lựa chọn một cách ngẫu nhiên láng giềng của nút đó và di chuyên đến nút láng giéng này, sau đó, ta lại lựa chọn một cách ngẫu nhiên láng giềng của nút hiện tại và thực hiện di chuyển sang

láng giềng đó. Cách lựa chọn một chuỗi những nút như vậy được gọi là một di chuyển ngẫu nhiên trên đồ thị (random walk) [10].

Theo L.Lovász (1993) thì một di chuyên ngẫu nhiên là một xích markov hữu hạn mà có tính khả nghịch về thời gian và thực tế khơng có sự khác biệt nhiều giữa lý thuyết về di chuyên ngẫu nhiên trên đồ thị và lý thuyết về xích markov hữu hạn. Mỗi xích markov có thé được xem là sự di chuyên ngẫu nhiên trên một đồ thị có hướng, có đánh trọng SỐ. Tương tự như vậy, các xích markov với thời gian khả nghịch có thể

được xem là sự di chuyển ngẫu nhiên trên đồ thị vơ hướng và các xích markov đối

xứng có thé xem là các di chuyên ngẫu nhiên trên đồ thị đối xứng.

Phương pháp Random Walk with Restarts (RWRs) mô phỏng một di chuyên ngẫu nhiên trên một mang dé tính tốn độ lân cận giữa hai nút bằng cách khám pha cấu trúc toàn cục của mạng. Phương pháp này được sử dụng rộng rãi trong nhiều ứng dụng như việc xác định các mô-đun chức năng, việc mơ hình hóa sự tiến hóa của

mạng xã hội, ngồi ra phương pháp này cịn được ứng dụng đề xếp hạng các gen ứng viên có liên quan đến bệnh.

<small>2.2 Nội dung phương pháp</small>

Để rõ hơn nội dung của phương pháp Random Walk with Restarts, trước hết luận văn trình bày một số khái niệm có liên quan:

Tinh Markov: Khi nghiên cứu sự phát triển theo thời gian của một hệ vật lý

hoặc sinh thái nao đó. Ký hiệu Xứ) là vi trí của hệ tại thời điểm ¿. Tập hợp các vi trícó thê có của hệ được gọi là không gian trạng thái ký hiệu E. Giả sử trước thời điểms hệ ở trạng thái nào đó, cịn ở thời điểm s hệ ở trạng thái ¡. Ta cần biết tại thời điểm

t trong tương lai ứ >s) hệ ở trạng thái j với xác suất là bao nhiêu? Nếu xác suất trên

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

chỉ phụ thuộc vào s,1,i,j thì điều nay có nghĩa là: sự tiễn triển của hệ trong tương lai

chỉ phụ thuộc vảo hiện tại và độc lập với quá khứ. Tính chất này được gọi là tính chất

Markov. Hệ có tính chất này được gọi là q trình Markov. Về phương diện tốn học,

<small>ta có định nghĩa dưới đây [4]:</small>

Ta nói rằng X(t) có tinh Markov nếu:

<small>P(Xứ,¡)= IX) =i, X(t) =5,. XG) =F</small>

Với bat kỳ 1) <¡, <...<f, <f„..<... VÀ lye ysis J EE

Tại biểu thức trên r, được xem là thời điểm hiện tai, 1,,, là thời điểm tương lai, các thời điểm „.:,...:„, được xem là thời điểm quá khứ.

Xác suất p(s,i,t, j)= P{X(t) = j|X(s) =i},(s <2) là xác suất có điều kiện dé hệ tai

thời điểm s ở trạng thái ¡ chuyên sang trạng thái j tại thời điểm +, còn được gọi là

xác suất chuyền của hệ. Nếu xác suất chuyên chỉ phụ thuộc vào (¢—s) thì ta nói hệ là

thuần nhất về thời gian.

Ma trận xác suất chuyển: Ta gọi ma trận P có dạng dưới đây là ma trận xác

suất chuyên:

<small>Pyro PinP= : . :</small>

<small>Pri " Pan</small>

Phan tir p, thudc ma tran xac suat chuyén là xác suất có điều kiện dé một hệ tại

thời điểm + (hiện tại) chuyển từ trạng thái i sang trạng thái j tại thời điểm ¿+1

(tương lai) sau 1 bước. Ma trận P với các phần tử không âm thỏa mãn điều kiện sau

được gọi là ma trận ngẫu nhiên: dP, =1.

Phân phối ban dau: Phân phối hay trạng thái của hệ tai thoi điểm ø được cho

bởi biểu thức [4]:

<small>p?”=P(X,= j); n=0,1,2,...; j 6 E (2.2)</small>

Với E là không gian trạng thái của hệ. Nếu đặt wu, =( p;”,jeE) là phân phối

hay trạng thái của hệ tại thời điểm n (dạng vec-tơ cột) thì ta có phân phối hay trạng

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<small>\ x. À 3¬ mãn điền kiên rà ôc Nhi</small>

<small>thái ban dau của hệ là u,. Phân phôi ban dau ø„ thỏa mãn điêu kiện ràng buộc Yiu) =1</small>

<small>u,,, = Pxu, = Px Pxu,,=Px Px Pxu,, =..=P"' xu, (2.4)</small>

Xích Markov: Một xích Markov rời rac và thuần nhất là bộ ba (X (n),U),P)

trong đó: X(n) là dãy các đại lượng ngẫu nhiên rời rac, ø„ là phân phối ban dau, P là

ma trận xác suất chuyên.

Phân phối xác suất trạng thái không đổi: Sau khi thực hiện một loạt các bước chuyên trạng thái hệ sẽ đạt đến trạng thái xác suất ơn định có véc-tơ xác suất z không phụ thuộc việc lựa chọn véc-tơ ban đầu u,.

<small>z=P'xz (2.6)</small>

Ta thấy được lúc này z trở thành véc-to đặc trưng chính của ma trận xác suất

chuyển P với giá trị đặc trưng là 1. Véc-tơ đặc trưng chính này phản ánh xác suất lâu dai của việc di chuyên ngẫu nhiên đến một trạng thái nào đó mà khơng phụ thuộc vào trạng thái ban đầu. Nó thường được sử dụng để xếp hạng với các thành phần của nó

chính là tỉ số xếp hạng.

Nội dung phương pháp: Xét đồ thị ơ=(V,E) có trọng số. Phương pháp RWRs được mô tả như sau: xét một phần tử ở thời điểm hiện tại đang ở nút ¡ của đồ

thị G. Với tap ScV chứa các nút ban đầu của di chuyển ngẫu nhiên còn gọi là các nút nguồn ta xác định véc-tơ ạ,là véc-tơ xác suất ban đầu. Tại véc-tơ g, giá trị ban

đầu của các nút thuộc tập S được gan là gq, =1⁄ISI, và q, =0 đối với các nút khơng

<small>thuộc tập này.</small>

Phan tử có xác suất @ dé di chuyển một cách ngẫu nhiên về nút nguồn, và vớixác suất (I—Ø) dé di chuyên sang nút láng giềng của nó. Với giả định rằng đi chuyên

ngẫu nhiên trên đồ thị G có tính tối giản và khơng chu trình, biểu thức (2.8) thỏa

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

mãn, với M, là ma trận kề được chuẩn hóa cột của đồ thị G, Ø là xác suất khởi động

lại, q, là véc-to ban đầu.

<small>uy =(1-9)xM,, xu, +Oxq, (2.8)</small>

Với gia định di chuyên ngẫu nhiên trên đồ thi G có tính tối giản và khơng chu kỳ thì phương pháp RWRs sẽ hội tụ tới trạng thái xác suất ôn định hay cịn gọi là

phân bố dừng. Có thê đạt được trạng thái này thông qua việc áp dụng lặp lại biểu thức (2.8), phương pháp này được biết đến với tên là lặp lũy thừa. Hình dưới đây mơ tả

<small>03: chuẩn hóa cột cho M,</small>

<small>04: while (chưa hội tụ ø; ) do</small>

<small>05: y=(l1—Ø)xAMfœ@xuy+ØXxqs</small>

<small>06: end while</small>

<small>Hình 2.1: Thuật tốn Random Walk with Restarts</small>

2.3 Một số ứng dụng của Random Walk With Restarts

<small>Hai ứng dung của RWRs được trình bày thông qua hai nghiên cứu: nghiên cứu</small>

về xếp hạng các gen có liên quan đến mơ-đun gen gây ung thư và nghiên cứu về dự

<small>đoán hành vi sử dụng dich vụ của người dùng Internet di động.</small>

Thông qua việc sử dụng dữ liệu mạng tương tác chức năng kế thừa từ các

nguồn khác nhau về thông tin-sinh học tế bào, Matteo Re và Giorgio Valentini [12] đã chỉ ra rằng thuật tốn Random Walks có khả năng xếp hạng gen một cách chính

<small>xác đơi với các gen liên quán đên mô-đun gen gây ung thu.</small>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Dé xếp hạng các gen có liên quan đến tập các mô-đun gen gây ung thu, Matteo

<small>Re và Giorgio Valentini đã thực hiện xem xét hai loại mạng tương tac chức năng: loại</small>

đầu tiên là mạng tương tác chức năng của protein (functional protein interaction

<small>nefwork-F]), loại mang thứ hai là mạng chức năng gen cua con người (functional</small>

<small>human gene network —HumanNet).</small>

Tiếp theo, họ loại bỏ những nút đơn là những gen mà không tương tác với bat

<small>kỳ gen nao khác trong mang FI và HumanNet. Họ cũng loại bỏ những mơ-đun gen</small>

gây ung thư có ít hơn 20 gen, kết quả là số đun gen gây ung thư cịn lại 298

mơ-dun và một tập khoảng 8.500 gen người. Với mỗi mô-đun trong số 298 mô-đun gen

trên thì các gen được xếp hang dé biết được mức độ liên quan đến các gen gây ung

<small>thư thuộc mô-đun gen gây ung thư này.</small>

Dé xếp hạng các gen có liên quan đến một mơ-đun gen gây ung thu cụ thé, ho

<small>sử dụng ma trận G=(V,E) trong đó các nut i,j eV tương ứng với các gen, với |VEn</small>

và các cạnh (¡,j)eE được đánh trọng số theo ma trận trọng số W là ma trận mà các

phần tử w„ là trọng số của các cạnh (i, j).

Một ma trận xác suất chuyên Q với các phan tử q, thỏa mãn điều kiện ràng

buộc về xác suất À4, =1 được tính theo biéu thức sau:

<small>Q=D'W (2.10)</small>

Trong đó, D là ma trận đường chéo với các phan tử d, thỏa mãn:

<small>d, =i (2.11)</small>

Việc di chuyên ngẫu nhiên được bat đầu với các nút thuộc tập V, CV gọi là

các nút ngu6n là các gen thuộc mô-đun gen gây ung thư dang được xét với véc-tơ ban

đầu p, =1⁄IV„ I đối với những gen thuộc mô-đun gen gây ung thư và p, =0 với những

gen icV\V, còn gọi là những gen ứng viên. Ở mỗi bước di việc di chuyển có thé

sang nút láng giéng với xác suất (1-6) hoặc trở lại với nút nguồn thông qua xác suất

khởi động lại 2. Biểu thức (2.8) trong trường hợp này được viết lại như biểu thức

(2.12) dưới đây với Q’ là ma trận xác suất chuyển đã được chuẩn hóa cột:

Prt =(1-0)Q" p, + OD, (2.12)

</div>

×