ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
DỰ ĐOÁN CẤU TRÚC BẬC HAI CỦA
PHÂN TỬ SINH HỌC
TRÊN CƠ SỞ KẾT HỢP MỘT SỐ KỸ THUẬT
TÍNH TỐN MỀM
Chun ngành: KHOA HỌC MÁY TÍNH
Mã số: 9.48.01.01
TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT
Đà Nẵng – 2023
LUẬN ÁN ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Người hướng dẫn khoa học: TS. Phạm Minh Tuấn
TS. Đặng Đức Long
Phản biện 1: ………………………………………….
Phản biện 2: ………………………………………….
Phản biện 3: ………………………………………….
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Trường
họp tại Đại học Đà Nẵng
Vào hồi ….. giờ ….. ngày ….. tháng ….. năm …..
Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia;
- Trung tâm Học liệu và Truyền thông, trường Đại học Bách Khoa;
- Trung tâm Thông tin - Học liệu và Truyền thông, Đại học Đà Nẵng.
Mở đầu
Sinh học phân tử là một trong những lĩnh vực khoa học quan
trọng trong sinh học với nhiều ứng dụng trong việc tìm ra các
thuốc và vật liệu tiên tiến. Cấu trúc bậc hai của phân tử sinh
học là một trong những yếu tố quan trọng để xác định tính chất,
hoạt động và chức năng của chúng. Việc xác định chính xác cấu
trúc bậc hai của phân tử sinh học từng là một thách thức lớn cho
nghiên cứu sinh học vì sự phức tạp của cấu trúc và sự hạn chế của
các phương pháp kiểm tra hiện tại.
Tuy nhiên, với sự phát triển của cơng nghệ tính tốn, đặc biệt
là các kỹ thuật tính tốn mềm đang được sử dụng để giải quyết
thách thức này. Trong luận án này, tôi sẽ đề xuất các phương pháp
kết hợp các kỹ thuật tính tốn mềm và áp dụng các kỹ thuật này
vào bài toán dự đoán cấu trúc bậc hai của phân tử sinh học.
1. Tính cấp thiết, ý nghĩa khoa học của luận
án
Luận án có tính cấp thiết cao và ý nghĩa khoa học rất lớn trong
lĩnh vực sinh học. Luận án đề xuất các phương pháp kết hợp trong
tính toán mềm và áp dụng dự đoán cấu trúc bậc hai của phân tử
sinh học, đồng thời đánh giá hiệu quả của các phương pháp này.
Điều này giúp cho nhà khoa học cải thiện việc dự đoán cấu trúc
bậc hai của phân tử sinh học và cũng giúp cho việc phát triển các
phương pháp hiện tại với mục đích tìm ra cấu trúc chính xác của
phân tử sinh học.
1
2
Bài toán dự đoán cấu trúc bậc hai RNA là một bài toán phức
tạp trong lĩnh vực phân tử sinh học. RNA (Ribonucleic acid) là
một loại acid nucleic có trong tế bào của các tế bào sinh vật và
cung cấp thông tin gen cho việc sản xuất protein. Cấu trúc bậc
hai của RNA là một hình thức tồn tại trong tế bào và có thể tác
động đến việc sản xuất protein và các quá trình sinh học khác.
Xuất phát từ thực tế và những lý do trên, nghiên cứu sinh đã
lựa chọn đề tài:"DỰ ĐOÁN CẤU TRÚC BẬC HAI CỦA
PHÂN TỬ SINH HỌC TRÊN CƠ SỞ KẾT HỢP MỘT
SỐ KỸ THUẬT TÍNH TỐN MỀM" thực hiện luận án tiến
sĩ chun ngành Khoa học Máy tính.
2. Mục tiêu, đối tượng, phạm vi và phương
pháp nghiên cứu
2.1. Mục tiêu
Luận án được thực hiện nhằm nghiên cứu giải quyết một phần
thách thức trong bài toán dự đoán cấu trúc bậc hai của phân tử
sinh học, cụ thể là cấu trúc bậc hai RNA. Luận án nhằm hướng
đến những mục tiêu sau đây:
- Nghiên cứu và đề xuất các phương pháp kết hợp trong tính tốn
mềm.
- Áp dụng các phương pháp đã đề xuất vào bài toán dự đoán cấu
trúc bậc hai của phân tử sinh học.
2.2. Đối tượng nghiên cứu
Đối tượng nghiên cứu chính của luận án này gồm:
- Phân tử sinh học: cụ thể là RNA.
- Các kỹ thuật tính tốn mềm gồm: Thuật toán di truyền, logic
mờ, mạng nơ-ron nhân tạo, mạng LSTM.
3
2.3. Phạm vi nghiên cứu
Phạm vi nghiên cứu bao gồm:
- Nghiên cứu tổng quan về bài toán dự đoán cấu trúc bậc hai
phân tử sinh học và các phương pháp dự đốn, trên cơ sở đó
xác định các hạn chế của các phương pháp hiện tại và các
vấn đề hiện nay.
- Từ những kết quả phân tích tổng quan về phương pháp dự
đoán cấu trúc bậc hai phân tử sinh học, đề xuất một số thuật
toán cải tiến:
- Thuật toán di truyền.
- Kết hợp thuật toán di truyền với logic mờ.
- Kết thợp thuât toán di truyền với mạng LSTM.
2.4. Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết
và nghiên cứu thực nghiệm.
3. Đóng góp chính của luận án
Luận án "DỰ ĐỐN CẤU TRÚC BẬC HAI CỦA PHÂN TỬ
SINH HỌC TRÊN CƠ SỞ KẾT HỢP MỘT SỐ KỸ THUẬT
TÍNH TỐN MỀM" cung cấp một số đóng góp quan trọng trong
lĩnh vực nghiên cứu phân tử sinh học. Đóng góp chính của luận
án gồm:
1. Xác định các kỹ thuật tính tốn mềm có hiệu quả để dự
đoán cấu trúc bậc hai của RNA.
2. Kết hợp một số kỹ thuật tính tốn mềm để tăng tính chính
xác và hiệu quả trong việc dự đốn cấu trúc bậc hai của
RNA.
4
4. Bố cục luận án
Bố cục luận án "DỰ ĐOÁN CẤU TRÚC BẬC HAI CỦA
PHÂN TỬ SINH HỌC TRÊN CƠ SỞ KẾT HỢP MỘT SỐ KỸ
THUẬT TÍNH TỐN MỀM" gồm các phần sau:
- Mở đầu
- Chương 1: Tổng quan về RNA, cấu trúc bậc hai RNA
và tính tốn mềm
- Chương 2:Đề xuất các phương pháp kết hợp trong
tính tốn mềm để dự đoán cấu trúc bậc hai phân tử
sinh học
- Chương 3: Áp dụng tính tốn mềm cho bài tốn dự
đoán cấu trúc bậc hai RNA
- Kết luận
- Phụ lục
Chương 1
Tổng quan về RNA, cấu trúc
bậc hai RNA và tính tốn mềm
1.1
Cơng nghệ sinh học
Cơng nghệ sinh học là một lĩnh vực đa ngành sử dụng các kỹ
thuật, phương pháp, công cụ và thiết bị của nhiều lĩnh vực khác
nhau như sinh học phân tử, di truyền học, vi sinh, hóa học, vật lý,
máy tính, điện tử, cơ khí, khoa học vật liệu, y học và nhiều lĩnh
vực khác. Với mục đích là nghiên cứu, phát triển và ứng dụng các
sản phẩm, dịch vụ, quy trình, cơng nghệ và giải pháp cho các vấn
đề liên quan đến sức khỏe, môi trường, năng lượng, thực phẩm và
nhiều lĩnh vực khác.
1.2
Tin sinh học
Tin sinh học là lĩnh vực nghiên cứu sự tương tác giữa các thành
phần của hệ thống sinh học bằng cách sử dụng các phương pháp
và cơng nghệ tính toán. Trong thời đại hiện nay, tin sinh học đã
trở thành một lĩnh vực đa dạng và phức tạp, có ảnh hưởng lớn
đến nhiều lĩnh vực khác nhau, từ y tế, nơng nghiệp đến cơng nghệ
thơng tin.
Dự đốn cấu trúc của phân tử RNA là một bài toán quan
5
6
trọng trong lĩnh vực sinh học phân tử và có nhiều ứng dụng trong
thực tiễn như điều trị bệnh, phát hiện và chẩn đốn bệnh, thiết
kế thuốc, tìm hiểu cơ chế di truyền, v.v.
1.3
1.3.1
Cấu trúc Ribonucleic Acid (RNA) và
các khái niệm liên quan
Cấu trúc RNA
Ribonucleic acid (RNA) là một phân tử sinh học quan trọng.
Nó đóng một vai trị chính trong quá trình tổng hợp protein từ
deoxyribonucleic acid (DNA). Mỗi phần tử RNA bao gồm một
chuỗi ribonucleotide được liên kết với nhau bởi liên kết hóa học
cộng hóa trị và mỗi ribonucleotide chứa một trong bốn nucleotide:
Adenine pAq, Guanine pGq, Cytosine pC q và U racil pU q, nó có
thể tự gấp lại (folding) để hình thành cấu trúc bậc hai với các cặp
nucleotide A U, G C, và G U , các đối xứng của chúng là
U A, C G và U G. Những cặp nucleotide này gọi là những
cặp chính tắc. Một chuỗi RNA có thể gấp lại để hình thành nhiều
cấu trúc bậc hai khác nhau.
Không giống như DNA là chuỗi kép, RNA thường được tìm
thấy dưới dạng phân tử axit nucleic sợi đơn thường chứa các vùng
bổ sung để tạo thành các vịng xoắn kép khi nó có thể tự gấp lại.
Việc tự gấp này tạo ra một cấu trúc có thể được chia thành ba
cấp độ tổ chức chính: cấu trúc chính, bậc hai và bậc ba
1.3.2
Các khái niệm liên quan đến RNA
Phân tử RNA được định rõ đặc điểm bởi chuỗi của bốn loại
nucleotide hoặc bazơ 1 : Adenine pAq, Cytosine pC q, Guanine pGq
và U racil pU q. Chuỗi nucleotide tuyến tính của một sợi RNA tạo
1
Một nucleotide được cấu tạo bởi một bazơ, một ribose và một phosphate;
nhưng vì mục đích của mình, tơi sử dụng thuật ngữ “nucleotide” và “bazơ”
thay thế cho nhau
7
thành cấu trúc chính hoặc chuỗi và được định nghĩa chính thức
như sau:
Định nghĩa 1.1. Một chuỗi RNA có chiều dài n nucleotide là một chuỗi x x1 x2 ...xn , trong đó xi P tA, C, G, U u,
@i P t1, ..., nu.
Định nghĩa 1.2. Cấu trúc bậc hai RNA y ứng với chuỗi
RNA x có chiều dài n được định nghĩa là tập hợp các cặp
(khơng có thứ tự) ts, tu, với s, t P t1, ..., nu là từng cặp
riêng lẻ, tức là đối với hai cặp bất kỳ ts, tu và tu, v u P y,
ts, tu X tu, vu m (tập rỗng)
Định nghĩa 1.3. Cấu trúc bậc hai RNA khơng có các
cặp nucleotide bắt liên kết chéo nhau (pseudoknot free)
y tương ứng với chuỗi RNA x có độ dài n là cấu trúc
bậc hai RNA trong đó bất kỳ hai cặp nucleotide pi, j q và
pi1, j 1q P y, chúng đang lồng nhau, tức là i i1 j 1 j,
hoặc là liên tiếp nhau, tức là i j i1 j 1 . Ở đây chúng
ta giả định mà khơng mất tính tổng qt rằng i j, i1 j 1
và i i1 .
Định nghĩa 1.4. Cấu trúc bậc hai RNA có các cặp nucleotide bắt liên kết chéo nhau (pseudoknotted) y tương
ứng với chuỗi RNA x có độ dài n là cấu trúc bậc hai RNA
tồn tại ít nhất hai cặp nucleotide pi, j q và pi1 , j 1 q P y, mà
i i1 j j 1 (đây thường là các cặp nucleotide giao
nhau). Ở đây chúng ta giả định mà khơng mất tính tổng
qt rằng i j, i1 j 1 và i i1 .
1.3.3
Dự đoán cấu trúc RNA
Cấu trúc RNA bao gồm ba mức độ: cấu trúc bậc một (primary
structure) một chuỗi gồm các nucleotide liên kết với nhau bởi
các liên kết phân tử, cấu trúc bậc hai (secondary structure) gồm
các mảng ghép cơ bản (stem-loop) và cấu trúc bậc ba (tertiary
structure) gồm sự gập lại của cấu trúc bậc hai và tương tác giữa
các phân tử RNA và protein.
8
1.3.4
Các cách biểu diễn cấu trúc bậc hai RNA
Cấu trúc bậc hai RNA có thể được trình bày theo nhiều cách
khác nhau: Biểu diễn Radial, Biểu diễn cây (Tree), Biểu diễn tuyến
tính (Linear), Biểu diễn bằng các kí hiệu dấu ngoặc đơn và dấu
chấm (Dot-Bracket) Trong luận án, cấu trúc bậc hai RNA được
biểu diễn bằng hai cách: biểu diễn Radial và biểu diễn bằng các
kí hiệu dấu ngoặc đơn và dấu chấm (Dot-Bracket).
1.4
Tính tốn mềm
Tính tốn mềm là một phương pháp hiệu quả và phổ biến
trong lĩnh vực sinh học phân tử và tin sinh học, đặc biệt trong dự
đoán cấu trúc bậc hai RNA. Các phương pháp này có thể được
sử dụng để dự đốn cấu trúc bậc hai của RNA một cách nhanh
chóng và chính xác, mà khơng cần phải tiến hành thí nghiệm phức
tạp và tốn kém.
1.4.1
Thuật tốn di truyền - (Genetic Algorithm GA)
Các bước chính của thuật toán di truyền bao gồm:
Bước
Bước
Bước
Bước
Bước
Bước
Bước
1.4.2
1:
2:
3:
4:
5:
6:
7:
Khởi tạo quần thể ban đầu;
Đánh giá độ thích nghi;
Chọn lọc;
Lai ghép;
Đột biến;
Tiến hóa thế hệ tiếp theo;
Kiểm tra điều kiện dừng;;
Logic mờ và các đặc trưng của tập mờ
Logic mờ là một phương pháp giải quyết vấn đề trong đó khơng
có giải pháp chính xác và rõ ràng, mà chỉ có thể xác định được các
9
kết quả có thể và khả năng xảy ra của chúng. Trong tốn học và
khoa học máy tính, logic mờ là một hệ thống logic mà sự đúng/sai
khơng chỉ có thể có giá trị true hoặc false, mà cịn có thể có giá
trị nằm giữa chúng, được biểu diễn bằng một giá trị trong khoảng
từ 0 đến 1.
1.4.2.1
Logic Boolean so với Logic mờ
Các tập hợp cổ điển với các hoạt động và thuộc tính của
chúng rất hữu ích trong việc biểu diễn logic cổ điển, dẫn đến
logic Boolean. Tập hợp cổ điển được xác định bởi các ranh giới rõ
ràng trong khi mặt khác, tập hợp mờ được xác định bởi các ranh
giới không rõ ràng.
1.4.2.2
Tập hợp cổ điển
Trong lý thuyết tập hợp cổ điển, một phần tử hoặc thuộc tập
hợp hoặc khơng thuộc tập hợp đó
1.4.2.3
Tập mờ
Tập hợp mờ là loại tập hợp có thể khơng có ranh giới rõ ràng
hoặc sắc nét. Chúng đại diện cho những ranh giới mơ hồ.
1.4.2.4
Các đặc trưng của tập mờ
Các đặc trưng của một tập mờ A trên U , là những thông tin
để mô tả về các phần tử liên quan đến tập mờ A, những đặc trưng
này còn chỉ rõ sự khác biệt của tập mờ A, so với những tập con
cổ điển khác của U .
1.4.2.5
Các kiểu hàm thành viên của tập mờ
Kiểu của tập mờ phụ thuộc vào các kiểu hàm thành viên khác
nhau. Đã có nhiều kiểu hàm thuộc khác nhau được đề xuất. Dưới
đây là một số hàm thành viên tiêu biểu:Tập mờ tam giác, Tập mờ
hình thang, Tập mờ L, Tập mờ Gamma tuyến tính.
10
1.4.2.6
Một số khái niệm và phép toán trên tập mờ
Y là lập rỗng, Tập Y và Z bằng nhau, Phần bù của Y là tập
mờ Y 1 , Y được chứa trong Z (tập con), Hợp của tập Y và Z và
Giao của tập Y và Z.
1.4.3
Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN)
Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) là
một mơ hình tính tốn được lấy cảm hứng từ cấu trúc và hoạt
động của hệ thống thần kinh trong não người. Mạng nơ-ron nhân
tạo được sử dụng để giải quyết các bài toán phức tạp, bao gồm
nhận dạng hình ảnh, xử lý ngơn ngữ tự nhiên, dự đoán, phân loại
và điều khiển.
1.4.4
Học máy - (Machine learning)
Học máy (Machine Learning - ML) là một phương pháp trong
trí tuệ nhân tạo cho phép máy tính học hỏi và cải thiện hiệu suất
thông qua dữ liệu đầu vào thay vì chỉ thực hiện theo các quy tắc
lập trình cứng nhắc.
1.4.5
Mạng nơ-ron dài ngắn hạn (Long Short-Term
Memory - LSTM)
Mạng nơ-ron dài ngắn hạn (LSTM) là một loại kiến trúc mạng
nơ-ron nhân tạo được sử dụng để giải quyết vấn đề của các mạng
nơ-ron thường trong việc xử lý chuỗi dữ liệu, đặc biệt là các chuỗi
dữ liệu dài. LSTM được cấu tạo từ các đơn vị thực hiện các phép
tính nhưng có khả năng lưu trữ thơng tin trong một khoảng thời
gian dài. Các đơn vị này được gọi là "cổng" và bao gồm: Cổng quên
(Forget gate), Cổng đầu vào (Input gate), Cổng đầu ra (Output
gate).
Chương 2
Đề xuất các phương pháp kết
hợp trong tính tốn mềm để dự
đoán cấu trúc bậc hai phân tử
sinh học
2.1
Bài toán dự đoán cấu trúc bậc hai của
phân tử sinh học
Cấu trúc bậc hai của RNA bao gồm các cặp đôi nucleotide
pG C, A U, G U q được sắp xếp thành một cấu trúc ba chiều.
Các cặp đôi nucleotide này tạo thành các mắt cầu, khớp với nhau
thơng qua các đoạn xoắn và vịng xoắn. Dự đốn cấu trúc bậc hai
của RNA có thể giúp chúng ta hiểu được cơ chế hoạt động của
RNA và các chức năng của nó trong tế bào. Bài tốn dự đốn cấu
trúc bậc 2 của RNA có thể được mơ hình hóa như sau:
- Đầu vào: một chuỗi RNA x x1 x2 ...xn , xi P tA, U, G, C u,
n là chiều dài của chuỗi RNA (số các nucleotide có trong
chuỗi) và một mơ hình năng lượng tự do.
- Mục tiêu: Phát triển thuật toán Apxq trả về một hoặc nhiều
cấu trúc bậc hai y tương ứng với x được dự đoán hấp dẫn
11
12
về mặt sinh học.
Một cách tiếp cận phổ biến để thu được các cấu trúc bậc hai hấp
dẫn về mặt sinh học là tìm cấu hình năng lượng tự do tối thiểu
(minimum free energy - MFE) y M F E của chuỗi RNA x đã cho
theo mơ hình năng lượng tự do giả định.
yM F E
arg min
4 Gpx, y q
y PY
trong đó:
- Y là tập các cấu trúc bậc hai có thể có của chuỗi RNA x;
- 4G là hàm năng lượng cung cấp độ ổn định của cấu trúc;
- arg miny 4 Gpy q dùng để chỉ ra rằng cấu trúc y có 4Gpy q là
nhỏ nhất.
2.2
Các tham số nhiệt động học.
Các tham số nhiệt động học cho quá trình gấp khúc RNA và
DNA đã được xác định bằng các phương pháp khác nhau. Trong
phần này, chúng tôi trình bày tất cả các loại tham số RNA mà tơi
sử dụng và định dạng chúng.
2.3
Tính tốn năng lượng tự do của một
cấu trúc bậc hai
Phần này mô tả cách tính năng lượng tự do của cấu trúc bậc
hai, sử dụng các tham số được mô tả trong phần trước.
2.3.1
Những hàm tổng quát
Các nghiên cứu đã chỉ ra rằng các vịng xoắn (helice) có cặp bên
ngồi khơng phải pC Gq kém ổn định hơn. Giá trị N on_GC_terminal
có nghĩa là thêm một tham số bổ sung để nắm bắt sự mất ổn
13
định này. Trong một số tài liệu, thuật ngữ AU terminal penalty
được sử dụng. Do đó, để tránh nhầm lẫn, chúng tơi gọi nó là
N on_GC_terminal_penalty.
2.3.2
Tính năng lượng tự do cho vòng xếp chồng
Cho một chuỗi x, năng lượng tự do của một vòng xếp chồng
xi xi 1 ...xj 1 xj , với pxi , xj q, pxi 1 , xj 1 q là các cặp nucleotide trong
vòng xếp chồng, được cho bởi:
4G_xpx, i, j q = 4G_Stack pxi , xj , xi 1 , xj 1 q.
2.3.3
Tính tốn năng lượng tự do cho vịng kẹp tóc
Năng lượng tự do của những vịng kẹp tóc có kích thước lớn hơn
hoặc bằng 3, được tạo ra từ bốn đại lượng: 4G1 , 4G2 , 4G3 và 4
G4
2.3.4
Tính tốn năng lượng tự do cho vòng lặp trong
Chiều dài của một vòng lặp trong được cho bởi số lượng nucleotide tự do giữa hai cặp nucleotide đóng, chúng ta ký hiệu là
pi, j q và pi1, j 1q. Chúng ta gọi l1 là chiều dài của một cạnh của vòng
lặp, tức là: l1 i1 i 1. Khi đó, l2 sẽ là chiều dài của cạnh kia
l2 j j 1 1. Chiều dài của vòng lặp sẽ là l l1 l2 .
2.3.5
Tính năng lượng tự do cho vòng nhiều nhánh
Xét một vòng nhiều nhánh với k 1 nhánh và các cặp nucleotide
đóng của chúng là pxi ; sj q, pxi1 ; xj1 q, ...pxik , xjk q.
2.3.6
Tính tốn năng lượng tự do cho cấu trúc nhiều
miền
Cơng thức sau đây cho thấy sự đóng góp của các nucleotide
lơ lửng cho k miền, trong đó pxi1 .xj1 q, ..., pxik .xjk q là các cặp nucleotide đóng của mỗi miền
14
2.4
2.4.1
Các phương pháp đề xuất
Thuật toán di truyền
Cấu trúc bậc hai có thể có của chuỗi RNA bất kỳ có tổ hợp
rất lớn. Nếu cấu trúc bậc 1 của RNA có chiều dài là n thì tổ hợp
kết nối có thể có là n!. Vì thế thuật tốn di truyền là giải pháp có
thể được sử dụng để giải quyết bài tốn đã trình bày ở (2.1). Giải
thuật di truyền được tôi áp dụng như sau:
Input: một chuỗi RNA, X x1 x2 ...xn với xi P tA, U, G, C u, n là
chiều dài của chuỗi;
Output:
- y M F E y1 y2 ...yn với yi P t p q .u sao cho p q là "dấu ngoặc
đúng",
- và 4GM F E
Bước 1: Tạo tập các cặp bazơ;
Bước 2: Tạo tập các helix;
Bước 3: Khởi tạo quần thể ngẫu nhiên;
Bước 4: Đánh giá, nếu đủ tốt thì đến Bước 9 ;
Bước 5: Chọn lọc;
Bước 6: Lai ghép;
Bước 7: Đột biến;
Bước 8: Quay về Bước 4;
Bước 9: Tính y M F E và 4GM F E ;
2.4.2
Kết hợp thuật toán di truyền với logic mờ
Trong luận án này, phương pháp logic mờ được sử dụng trong
quá trình chọn lọc, lai ghép và đột biến. Giải thuật di truyền kết
hợp với logic mờ được tôi áp dụng như sau:
15
Input: một chuỗi RNA, X x1 x2 ...xn với xi P tA, U, G, C u, n là
chiều dài của chuỗi;
Output:
- y M F E y1 y2 ...yn với yi P t 1 p1 1 q1 1 .1 u sao cho 1 p1 1 q1 là "dấu ngoặc
đúng",
- và 4GM F E
Bước 1: Tạo tập các cặp bazơ;
Bước 2: Tạo tập các helix;
Bước 3: Khởi tạo quần thể ngẫu nhiên dựa trên tập mờ;
Bước 4: Đánh giá, nếu đủ tốt thì đến Bước 9 ;
Áp dụng modul mờ
Bước 5: Chọn lọc;
Bước 6: Lai ghép;
Bước 7: Đột biến;
Bước 8: Quay về Bước 4;
Bước 9: Tính y M F E và 4GM F E ;
2.4.3
Kết hợp thuật toán di truyền với mạng nơ-ron
nhân tạo, cụ thể là mạng LSTM
Trong luận án này, tơi đề xuất phương pháp kết hợp thuật
tốn di truyền với mạng LSTM để dự đoán cấu trúc bậc hai RNA.
Chương 3
Áp dụng tính tốn mềm cho
bài tốn dự đốn cấu trúc bậc
hai RNA
3.1
Cơ sở dữ liệu RNA
Tất cả các dữ liệu tôi sử dụng cho thực nghiệm được lấy từ
Rfam1 với phiên bản Rfam 14.9 (November 2022, 4108 họ) và
COVID-19 Data Portal2 (Nền tảng dữ liệu COVID-19 của Châu
Âu).
3.2
Bộ dữ liệu
Tôi tiến hành thực nghiệm trên một tập dữ liệu RNA bao gồm
các chuỗi với độ dài khác nhau. Dưới đây là các chuỗi RNA mà tôi
tiến hành thực nghiệm với các phương pháp đã đề xuất ở chương
2, được thể hiện trong bảng 3.1.Thông tin cụ thể của từng chuỗi
sẽ được trình bày trong các phần tiếp theo của chương này.
1
2
/> />
16
17
Bảng 3.1: Các chuỗi thực nghiệm
STT
1
2
3
4
5
6
7
8
9
10
11
3.3
Tên chuỗi
SARS-CoV-2
E.Coli
Bmori
Schizosaccharomyces pombe
Ichthyosporidium sp
Oryza sativa Japonica Group
(Japanese rice)
Mycoplasma capricolum
Influenza A virus
Corynebacterium diphtheriae
Coxsackie A16
Enterovirus A71
Chiều dài
88 Bases
221 Bases
498 Bases
119 Bases
1352 Bases
324 Bases
865
543
176
252
252
Bases
Bases
Bases
Bases
Bases
Kết quả thực nghiệm
Tôi đã tiến hành thực nghiệm trên bộ dữ liệu với các chuỗi
được trình bày trong bảng 3.1. Kết quả của từng phướng pháp
ứng với từng chuỗi được thể hiện trong bảng dưới đây.
Bảng 3.2: Kết quả thực nghiệm các phương pháp đề xuất ứng với các chuỗi thực nghiệm
-24.40
-67.93
-178.2
GA
kết hợp với
logic mờ (FL)
4G
-25.20
-71.90
-180.7
GA
với mạng
LSTM
4G
-26.6
-73.90
-183
Chiều dài
SARSCoV-2
E.Coli
B.mori
Schizosaccharomyces
pombe
Ichthyosporidium
sp
Oryza sativa
Japonica Group
(Japanese rice)
Mycoplasma capricolum
Influenza A virus
Corynebacterium
diphtheriae
Coxsackie A16
Enterovirus A71
88 Bases
221 Bases
498 Bases
119 Bases
-27.2
-32.10
-33.60
-33.70
1352 Bases
-314.99
-429.8
-432.9
-435.3
324 Bases
-93.44
-95.11
-97.31
-103.82
865 Bases
543 Bases
-225.60
-94.69
-229.0
-131.0
-235.4
-137.6
-239.6
-139.6
176 Bases
-61.80
-63.11
-64.50
-68.60
252 Bases
252 Bases
-79.16
-74.16
-80.10
-76.75
-85.90
-79.57
-87.90
-82.36
Di
truyền (GA)
4G
18
RNA
Quy
hoạch
động (DP)
4G
-24.20
-66.53
-176.8
19
3.4
3.4.1
Thuật toán di truyền
Khởi tạo các tham số cho thuật toán di truyền
Việc khởi tạo các tham số cho thuật tốn di truyền là một q
trình quan trọng trong q trình thực nghiệm bài tốn dự đốn
cấu trúc bậc hai RNA. Giá trị khởi tạo cho các tham số cụ thể
được thể hiện quả bảng 3.3 dưới đây.
Bảng 3.3: Giá trị các tham số cho thuật toán di truyền áp dụng
cho bài toán dự đoán cấu trúc bậc hai RNA
Tham số
Số thế hệ (G)
Kích thước quần thể (P )
Tỷ lệ lai ghép (Rc )
Tỷ lệ đột biến (Rm )
Tỷ lệ chon lọc (Rs )
Số lần bốc ngẫu nhiên (N OR)
3.4.2
Kết quả thực nghiệm
3.4.3
So sánh
Giá trị
700
800
70%
80%
70%
100
3.5
Kết hợp thuật toán di truyền với logic
mờ
3.5.1
Khởi tạo các tham số cho thuật toán di truyền
kết hợp với logic mờ
Ngoài những tham số trong thuật toán di truyền đã được
truyền thể hiện trong bảng 3.3, để kết hợp với logi mờ tôi đưa
thêm tham số ε là biên độ trong hàm thành viên µpiq, được thể
20
hiện trong công thức (2.14). Giá trị khởi tạo cho các tham số cụ
thể được thể hiện quả bảng 3.4 dưới đây.
Bảng 3.4: Giá trị các tham số cho thuật toán di truyền kết hợp
với logic mờ áp dụng cho bài toán dự đoán cấu trúc bậc hai RNA
Tham số
Số thế hệ (G)
Kích thước quần thể (P )
Tỷ lệ lai ghép (Rc )
Tỷ lệ đột biến (Rm )
Tỷ lệ chon lọc (Rs )
Số lần bốc ngẫu nhiên (N OR)
Biên độ (ε)
3.5.2
Kết quả thực nghiệm
3.5.3
So sánh
3.6
3.6.1
Giá trị
700
800
70%
80%
70%
100
10
Phương pháp kết hợp thuật tốn di truyền
với mạng LSTM
Mơ hình kết hợp GA với LSTM
Mơ hình đã được giới thiệu trong chương 2 tại hình ??, xin
được giới thiệu lại cho tiện theo dõi. trong đó
- Xi một chuỗi RNA trong tập chuỗi RNA. Xi x1 x2 ...xn với
xi P tA, U, G, C u, i P t1...nu và n chiều dài chuỗi RNA.
- Qj bộ tham số được thể hiện trong bảng 3.3.
M F E và
- 4Gij và yij là giá đầu ra của thuật toán GA, tức là: yij
M
F
E
4Gij
- Loss F unction được định nghĩa như sau: LpXi , Qj q 4Gij
21
Hình 3.1: *
Sơ đồ kết hợp GA và LSTM cho bài toán dự đoán cấu trúc bậc
hai RNA.
3.6.2
Kết quả thực nghiệm
3.6.3
So sánh
22
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
1. Kết luận
Luận án "Dự đoán cấu trúc bậc hai của phân tử sinh học trên
cơ sở kết hợp một số kỹ thuật tính tốn mềm" là một nghiên cứu
quan trọng trong lĩnh vực tin sinh học, đặc biệt là trong việc dự
đoán cấu trúc bậc hai phân tử sinh học. Với những mục tiêu đã
đặt ra ban đầu, luận án đã đạt được một số kết quả sau:
- Tổng hợp phân tích, đánh giá và phân loại các phương pháp dự
đoán cấu trúc bậc hai phân tử sinh học. Từ đó, đưa ra được các
ưu điểm và khuyết điểm của các phướng pháp hiện tại và đây
chính là cơ sở để luận án đề xuất một số phương pháp dự đoán
cấu trúc bậc hai phân tử sinh học.
- Đề xuất một bộ dữ liệu cho thuật toán di truyền.
- Đề xuất phương pháp kết hợp thuật toán di truyền với logic mờ.
- Đề xuất kết hợp thuật toán di truyền với LSTM.
Mỗi phương pháp đều có ưu điểm và hạn chế riêng, và sự kết
hợp được đề xuất đã đem lại kết quả tốt hơn trong việc dự đoán
cấu trúc bậc hai của phân tử sinh học. Nghiên cứu này đã chứng
minh rằng kết hợp nhiều kỹ thuật tính tốn mềm là một hướng
tiếp cận hữu ích trong việc dự đốn cấu trúc bậc hai của phân tử
sinh học.
2. Hướng phát triển
Nghiên cứu này cũng đặt ra các hướng nghiên cứu tiếp theo,
bao gồm sử dụng các phương pháp học sâu khác như mạng neural
tích chập (CNN) và mạng neural chuyển đổi (Transformer) để dự
đoán cấu trúc bậc hai của phân tử sinh học. Trong tương lai, để
23
nâng cao độ chính xác của phương pháp dự đốn cấu trúc bậc hai
của RNA, NCS đề xuất các hướng phát triển sau:
1. Mở rộng phạm vi nghiên cứu để áp dụng phương pháp dự
đoán cấu trúc bậc hai cho các loại phân tử sinh học khác
nhau, bao gồm protein, peptide, lipid, và các phân tử có tính
chất đa dạng khác.
2. Kết hợp các phương pháp học máy và học tăng cường để
cung cấp một cách tiếp cận mạnh mẽ hơn trong tính tốn
mềm.
3. Nghiên cứu và phát triển các phương pháp xử lý dữ liệu lớn,
kỹ thuật học sâu và cách tích hợp chúng để nâng cao hiệu
suất và độ chính xác.
4. Hiện nay, các phương pháp tính tốn mềm chủ yếu tập trung
vào dự đoán cấu trúc tĩnh. Tuy nhiên, tính động của cấu trúc
bậc hai cũng rất quan trọng trong các q trình sinh học.
Do đó, hướng phát triển tiếp theo là phát triển phương pháp
tính tốn mô phỏng động để mô phỏng sự thay đổi và biến
đổi cấu trúc bậc hai theo thời gian thực.
Với những hướng phát triển này, tôi hy vọng sẽ cải thiện độ
chính xác của phương pháp dự đốn cấu trúc bậc hai của phân tử
RNA và áp dụng vào các bài toán liên quan trong tương lai.