BỘ Y TẾ
TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI
PHẠM THỊ XUÂN ÁI
Mã sinh viên: 1201036
G–QUADRUPLEX TRÊN NHIỄM SẮC
THỂ CỦA VI KHUẨN: PHÂN BỐ VÀ
TRÌNH TỰ NUCLEOTID
KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ
HÀ NỘI – 2017
BỘ Y TẾ
TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI
PHẠM THỊ XUÂN ÁI
Mã sinh viên: 1201036
G–QUADRUPLEX TRÊN NHIỄM SẮC
THỂ CỦA VI KHUẨN: PHÂN BỐ VÀ
TRÌNH TỰ NUCLEOTID
KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ
Người hướng dẫn:
1. TS. Đỗ Ngọc Quang
Nơi thực hiện:
1. Bộ môn Vi sinh và Sinh học
HÀ NỘI – 2017
LỜI CẢM ƠN
Trong quá trình học tập tại trường và hoàn thành khoá luận này, tôi đã nhận
được rất nhiều sự giúp đỡ của gia đình, thầy cô và bạn bè.
Tôi xin gửi lời cảm ơn chân thành và sâu sắc đến TS. Đỗ Ngọc Quang. Thầy
luôn tận tình chỉ bảo, hướng dẫn và tạo cho tôi nguồn động lực để làm việc và
phấn đấu vươn lên.
Tôi xin trân trọng cảm ơn các thầy cô cùng cán bộ Trường Đại học Dược Hà
Nội đã dạy dỗ, quan tâm tôi trong suốt 5 năm học tập tại trường.
Cuối cùng, tôi xin được bày tỏ lòng biết ơn sâu sắc tới gia đình và bạn bè đã
luôn đồng hành bên tôi những lúc khó khăn, bận rộn để tôi hoàn thành khoá luận
tốt nghiệp này.
Hà Nội, ngày 18 tháng 05 năm 2017
Sinh viên
Phạm Thị Xuân Ái.
MỤC LỤC
ĐẶT VẤN ĐỀ
1
CHƯƠNG 1. TỔNG QUAN
3
1.1
Vai trò sinh học của G-quadruplex . . . . . . . . . . . . . . . .
3
1.2
Cấu trúc của G-quadruplex . . . . . . . . . . . . . . . . . . . .
6
1.3
Phân bố của G-quadruplex ở sinh vật nhân thực và sinh vật nhân
sơ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.4
Các thuật toán tìm kiếm G-quadruplex trong bộ gen . . . . . . .
10
1.5
Xác định mô-típ về trình tự nucleic của acid nucleic . . . . . . .
11
CHƯƠNG 2. ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
13
2.1
Đối tượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.2
Phương pháp nghiên cứu . . . . . . . . . . . . . . . . . . . . .
15
2.2.1
Xây dựng cơ sở dữ liệu G4 . . . . . . . . . . . . . . . .
16
2.2.2
Khảo sát phân bố của các đoạn G4 . . . . . . . . . . .
17
2.2.3
Khảo sát mô-típ của các đoạn G4 . . . . . . . . . . . .
20
CHƯƠNG 3. KẾT QUẢ
21
3.1
Xây dựng cơ sở dữ liệu G4 . . . . . . . . . . . . . . . . . . . .
21
3.1.1
Khảo sát chiều dài của các đoạn lặp guanin . . . . . . .
21
3.1.2
Khảo sát khoảng cách giữa các đoạp lặp guanin . . . .
22
3.1.3
Xây dựng thuật toán tìm kiếm các đoạn G4 trên nhiễm
sắc thể . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.1.4
3.2
3.3
Cơ sở dữ liệu G4 . . . . . . . . . . . . . . . . . . . . .
25
Phân bố của các đoạn G4 trên nhiễm sắc thể . . . . . . . . . . .
28
3.2.1
Tần số xuất hiện của các đoạn G4 so với tỷ lệ %GC . .
28
3.2.2
Tần số xuất hiện của các đoạn G4 trên các gen khác nhau 29
Mô-típ của các đoạn G4 trên nhiễm sắc thể . . . . . . . . . . .
30
3.3.1
Chiều dài của các đoạn guanin và đoạn nối . . . . . . .
31
3.3.2
Mô-típ của các đoạn nối . . . . . . . . . . . . . . . . .
32
KẾT LUẬN VÀ ĐỀ XUẤT
34
4.1
Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
4.2
Đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
Phụ lục A Phân bố của G-quadruplex trên 61 nhiễm sắc thể của 54
chủng vi khuẩn
I
Phụ lục B Mô-típ của các đoạn nối tại các vị trí 1, 2 và 3 có độ dài từ 1
đến 10 nucleotid
Phụ lục C Mô-típ của các đoạn nối có độ dài từ 7 đến 10 nucleotid
IV
VII
DANH SÁCH BẢNG
1
Tham số dùng trong một số thuật toán tìm kiếm G-quadruplex
[14]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
Tên và mã NCBI của 54 chủng vi khuẩn sử dụng trong nghiên
cứu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
24
Số lượng các đoạn G4 trên NST của 10 chủng vi khuẩn tìm được
bằng thuật toán 3 và thuật toán Quadbase. . . . . . . . . . . . .
5
13
Kết quả kiểm tra thuật toán 3 trên nhiễm sắc thể của Escherichia
coli UMN026 với số lượng và trình tự các đoạn G4 biết trước. .
4
10
25
Mười nhiễm sắc thể vi khuẩn có nhiều đoạn G4 nhất trong số các
nhiễm sắc thể được khảo sát. . . . . . . . . . . . . . . . . . . .
27
DANH SÁCH HÌNH ẢNH
1
Mô hình của G-quadruplex hình thành trên telomere ở người [27].
3
2
G-quadruplex trên telomere ngăn cản hoạt động của nuclease [30].
4
3
G-quadruplex kích thích hình quá trình khởi đầu chép ADN. Gquadruplex ở gần vị trí khởi đầu phiên mã sẽ kích thích quá trình
hình thành phức hợp khởi đầu sao chép dẫn đến tăng cường sao
chép ADN [30]. . . . . . . . . . . . . . . . . . . . . . . . . . .
4
5
G-quadruplex ngăn cản hoạt động của ADN polymerase [30]. Gquadruplex cản trở sự di chuyển của ADN polymerase dẫn đến
ức chế sao chép ADN. . . . . . . . . . . . . . . . . . . . . . .
6
5
Mô hình của G-tetrad [27]. . . . . . . . . . . . . . . . . . . . .
7
6
Phân loại G-quadruplex theo hướng của sợi đơn acid nucleic. Từ
trái sang phải: dạng song song, dạng 3+1, dạng phản song song
1, dạng phản song song 2 [27]. . . . . . . . . . . . . . . . . . .
7
8
Các loại vòng nối của G-quadruplex. Từ trái sang phải: vòng nối
nối hai sợi phản song song trên đường chéo, vòng nối bên nối
hai sợi phản song song liền kề, vòng nối nối hai sợi song song
cạnh nhau [27]. . . . . . . . . . . . . . . . . . . . . . . . . . .
8
8
Vị trí của G-quadruplex so với điểm khởi đầu phiên mã [13]. . .
9
9
Phân tích mô-típ cho thấy trình tự nucleotid bảo thủ của hộp
TATA trên genom của Escherichia coli . . . . . . . . . . . . . .
12
10
Tần số xuất hiện của các đoạn lặp guanin có chiều dài khác
nhau trên nhiễm sắc thể của 54 chủng vi khuẩn (đường nét liền)
và nhiễm sắc thể đối chứng với trình tự nucleotid ngẫu nghiên
(đường nét đứt). . . . . . . . . . . . . . . . . . . . . . . . . . .
11
22
Tần số xuất hiện của các đoạn nối có chiều dài khác nhau trên
nhiễm sắc thể của 54 chủng vi khuẩn (đường nét liền) và nhiễm
sắc thể đối chứng với trình tự nucleotid ngẫu nghiên (đường nét
đứt). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
23
Nhiễm sắc thể của Staphylococcus epidermidis ATCC 12.228:
(a) toàn bộ nhiễm sắc thể, (b) phân đoạn từ nucleotid 2.223.200
đến 2.250.000. Các vạch và số thể hiện vị trí của các đoạn G4
trên nhiễm sắc thể. . . . . . . . . . . . . . . . . . . . . . . . .
13
26
(a) Số lượng các đoạn G4 tìm được so với tỷ lệ %GC trên NST
của 54 chủng vi khuẩn. (b) Kết quả phân tích hồi quy tuyến tính
giữa số lượng các đoạn G4 và tỷ lệ %GC. . . . . . . . . . . . .
14
28
Năm gen có tần số xuất hiện của các đoạn G4 lớn nhất. Các đoạn
G4 có thể nằm trên mạch mang mã (+) hoặc mạch khuôn (-). . .
29
15
Phân bố của các đoạn G4 so với điểm khởi đầu phiên mã. . . . .
30
16
Tần số xuất hiện của các đoạn lặp guanin với chiều dài khác nhau
tại: (a) vị trí 1, (b) vị trí 2, (c) vị trí 3 và (d) vị trí 4 của các đoạn
G4 trên nhiễm sắc thể của 54 chủng vi khuẩn. . . . . . . . . . .
17
31
Tần số xuất hiện của các đoạn nối có chiều dài khác nhau tại: (a)
vị trí 1, (b) vị trí 2 và (c) vị trí 3 của các đoạn G4 trên nhiễm sắc
thể của 54 chủng vi khuẩn. . . . . . . . . . . . . . . . . . . . .
32
18
19
Mô-típ của những đoạn nối có độ dài 3 nucleotid tại: (a) vị trí 1,
(b) vị trí 2 và (c) vị trí 3. . . . . . . . . . . . . . . . . . . . . .
33
Mô-típ của những đoạn nối có độ dài từ 1 đến 6 nucleotid. . . .
33
DANH SÁCH TỪ VIẾT TẮT
1 ADN
Acid deoxyribonucleic
2 ARN
Acid ribonucleic
3 NST
Nhiễm sắc thể
4 G4
G-quadruplex
5 DNA Pol ADN polymerase
6 ORF
Khung đọc mở
7 SD
Độ lệch chuẩn
8 Mean
Giá trị trung bình
9 tARN
Transfer RNA
10 gtlJ
Glutamate/Aspartate import permease
11 serA
D-3-phosphoglycerate dehydrogenase
12 gidA
Glucose-inhibited division protein A
13 def
Peptide deformylase
14 TMPyP4 5,10,15,20-tetra(N-methyl-4-pyridyl) porphin
ĐẶT VẤN ĐỀ
Phân tử acid deoxyribonucleic (ADN) có thể tồn tại ở nhiều cấu trúc khác
nhau, trong đó có mô hình được gọi là G-quadruplex. Được phát hiện đầu tiên
vào năm 1962, G-quadruplex có thể được hình thành tại các vị trí acid nucleic
giàu guanin [11, 14]. Khác với mô hình chuỗi xoắn kép của Watson và Crick, mỗi
G-quadruplex gồm 4 mạch đơn nằm song song và liên kết bổ sung nhau bằng
liên kết hydro giữa các nucleotid guanin [14, 27]. G-quadruplex có cấu trúc đa
dạng tùy thuộc vào nhiều yếu tố như trình tự nucleotid, vị trí trên nhiễm sắc thể,
điều kiện môi trường, v.v..[11, 18, 26, 27].
G-quadruplex tồn tại ở cả sinh vật nhân sơ và nhân chuẩn [19]. Ở người, Gquadruplex được tìm thấy nhiều tại các vị trí như telomere, vùng điều hòa của
gen [11, 19, 35]. Các nghiên cứu thực nghiệm cho thấy G-quadruplex tham gia
vào nhiều quá trình sinh học quan trọng như phiên mã, dịch mã, sao chép, bảo vệ
nhiễm sắc thể, v.v.. [14, 19]. Bởi vậy tác động vào G-quadruplex nhằm thay đổi
hoạt động của tế bào theo hướng mong muốn là một hướng đi triển vọng trong
lĩnh vực Y, Sinh và Dược học.
Việc lập bản đồ các đoạn có khả năng hình thành G-quadruplex trên nhiễm
sắc thể là một trong những bước quan trọng để nghiên cứu về vai trò của Gquadruplex trong tế bào. Một số cơ sở dữ liệu về vị trí và cấu trúc của Gquadruplex đang được sử dụng hiện nay gồm có QGRS Mapper [20], Quadbase
[37], Quadparser [14]. Tuy nhiên, các cơ sở dữ liệu này tập trung chủ yếu vào
đối tượng là con người. Mặc dù có vai trò quan trọng trong đời sống con người
nhưng số lượng bản đồ G-quadruplex cho vi khuẩn vẫn còn rất ít. Để phần nào
1
giải quyết vấn đề trên, chúng tôi đã thực hiện đề tài nghiên cứu “G-quadruplex
trên nhiễm sắc thể của vi khuẩn: phân bố và trình tự nucleotid” với hai mục tiêu:
• Xây dựng cơ sở dữ liệu về vị trí và trình tự của các đoạn acid nucleic có
khả năng hình thành G-quadruplex trên nhiễm sắc thể của một số vi khuẩn
thường gặp.
• Khảo sát một số đặc điểm về phân bố và mô-típ của các đoạn acid nucleic
trong cơ sở dữ liệu thu được.
2
CHƯƠNG 1. TỔNG QUAN
1.1 Vai trò sinh học của G-quadruplex
G-quadruplex là cấu trúc được tạo bởi các đoạn acid nucleic giàu guanin.
Khác với cấu trúc xoắn kép theo mô hình Watson-Crick, G-quadruplex gồm ít
nhất hai lớp G-tetrad xếp chồng lên nhau và nối với nhau bằng liên kết π - π.
G-tetrad gồm bốn guanin nằm trong cùng một mặt phẳng liên kết với nhau bằng
liên kết hydro Hoogsten (Hình 1) [27]. Cấu trúc này được hình thành tại nhiều vị
trí của bộ gen và tham gia vào nhiều quá trình quan trọng trong tế bào như bảo
vệ nhiễm sắc thể, sao chép ADN, phiên mã và dịch mã [14, 19].
Hình 1: Mô hình của G-quadruplex hình thành trên telomere ở người [27].
• Bảo vệ nhiễm sắc thể
Telomere là những cấu trúc nucleoprotein nằm ở phần cuối của nhiễm
sắc thể [24, 31, 33]. ADN telomere ở sinh vật nhân thực chứa nhiều đoạn
lặp giàu guanin (ở người là TTAGGG) [12, 33]. ADN telomere tạo được
3
G-quadruplex trong điều kiện in vitro. Vai trò của telomere là bảo vệ nhiễm
sắc thể trước sự phân hủy của các nuclease nội bào (Hình 2).
Hình 2: G-quadruplex trên telomere ngăn cản hoạt động của nuclease [30].
Ngoài bảo vệ nhiễm sắc thể, telomere còn có chức năng như đồng hồ
sinh học của tế bào. Chiều dài của telomere đặc trưng cho từng loài và
có liên quan đến số lần phân chia của tế bào. Telomere bị ngắn dần sau
mỗi chu kỳ phân bào [24, 28], khi telomere không còn đủ độ dài để bảo
vệ nhiễm sắc thể thì cũng là lúc tế bào chết [25, 28]. Để ngăn cản hiện
tượng này, tế bào sử dụng telomerase - một loại enzym có vai trò nối dài
telomere [24, 35]. Tuy nhiên, mặt trái của vệc kéo dài telomere là làm quá
trình phân bào có nguy cơ bị mất kiểm soát như đã thấy ở nhiều loại tế
bào ung thư [25]. Một số nghiên cứu cho thấy hoạt động của telomerase
trong tế bào ung thư sẽ bị kìm hãm dưới tác dụng của một số chất như
telomestatin, TMPyP4,... [3, 25], đây là những chất có đích tác dụng là
các G-quadruplex trên telomere. Vì thế, đây có thể là một hướng nghiên
cứu tiềm năng trong điều trị ung thư.
• Sao chép ADN
4
Hình 3: G-quadruplex kích thích hình quá trình khởi đầu chép ADN. Gquadruplex ở gần vị trí khởi đầu phiên mã sẽ kích thích quá trình hình thành
phức hợp khởi đầu sao chép dẫn đến tăng cường sao chép ADN [30].
Quá trình sao chép ADN bắt đầu khi tế bào nhận biết được điểm khởi
đầu sao chép. Sau đó, ADN polymerase sẽ di chuyển dọc theo mạch khuôn
để lắp các nucleotid bổ sung vào vị trí tương ứng. Khi xuất hiện gần vị trí
khởi đầu sao chép, G-quadruplex có thể kích thích quá trình hình thành
phức hợp khởi đầu sao chép (Hình 3) [3] dẫn đến tăng cường sao chép
ADN hoặc ngược lại cản trở sự di chuyển của helicase và ADN polymerase
dẫn đến ức chế sao chép ADN (Hình 4) [30, 35].
• Phiên mã
Trong quá trình phiên mã, ARN polymerase bám vào promoter của gen
và di chuyển dọc theo phân tử ADN để tổng hợp phân tử mARN. Thực
nghiệm cho thấy promoter là vùng thường tập trung G-quadruplex [33].
Tùy vào vị trí nằm trên mạch khuôn hay mạch mang mã, G-quadruplex có
5
Hình 4: G-quadruplex ngăn cản hoạt động của ADN polymerase [30]. Gquadruplex cản trở sự di chuyển của ADN polymerase dẫn đến ức chế sao chép
ADN.
thể cản trở hay kích thích phiên mã [3, 7, 30].
• Dịch mã
Quá trình dịch mã từ mARN thành protein gồm 3 bước chính: khởi
đầu (gắn ribosom vào mARN), kéo dài (tổng hợp chuỗi acid amin) và
kết thúc (tháo gỡ ribosom). Việc tập trung G-quadruplex ở các vùng 5’/3’
không dịch mã của mARN có thể kìm hãm quá trình dịch mã trong tế bào
[24, 30, 33].
1.2 Cấu trúc của G-quadruplex
G-quadruplex là cấu trúc được tạo bởi một hay nhiều phân tử acid nucleic
mạch đơn (ADN hoặc ARN) giàu guanin. Mỗi G-quadruplex gồm ít nhất hai lớp
G-tetrad xếp chồng lên nhau. Các lớp G-tetrad này liên kết với nhau bằng liên kết
π - π. G-tetrad gồm 4 guanin nằm trong cùng một mặt phẳng liên kết với nhau
6
Hình 5: Mô hình của G-tetrad [27].
bằng liên kết hydro Hoogsten. Các lớp tetrad nối với nhau bởi các vòng nối. Các
cation hoá trị một như K+ , Na+ giúp ổn định cấu trúc G-quadruplex bằng cách
kết hợp các nhóm carbonyl của guanin (Hình 5) [27, 30, 31].
G-quadruplex được phân loại dựa trên hướng của sợi đơn acid nucleic và liên kết
glycosid (dạng anti- hay dạng syn- của guanin). Từ đó, cấu trúc của G-quadruplex
có thể được phân thành bốn loại: bốn sợi có cùng hướng (dạng song song), ba sợi
cùng hướng và một sợi ngược hướng (dạng 3+1), hai sợi cạnh nhau cùng hướng
và hai sợi còn lại có hướng ngược lại (dạng phản song song) và hai sợi cùng trên
một đường chéo cùng hướng và hai sợi còn lại có hướng ngược lại (Hình 6). Các
liên kết glucosid của guanin trong tetrad tương ứng với hướng của các sợi là: anti
- anti - anti - anti hoặc syn - syn - syn - syn, syn - anti - anti - anti hoặc anti - syn
- syn - syn, anti - anti - syn - syn và anti - syn - anti - syn. Có ba loại vòng nối
chính là: vòng nối nối hai sợi phản song song trên đường chéo, vòng nối bên nối
hai sợi phản song song liền kề, vòng nối nối hai sợi song song cạnh nhau (Hình
7
7). Sự hình thành và độ ổn định của G-quadruplex bị ảnh hưởng bởi độ dài của
vòng nối. Vòng nối càng dài thì G-quadruplex càng không ổn định [19, 27].
Hình 6: Phân loại G-quadruplex theo hướng của sợi đơn acid nucleic. Từ trái
sang phải: dạng song song, dạng 3+1, dạng phản song song 1, dạng phản song
song 2 [27].
Hình 7: Các loại vòng nối của G-quadruplex. Từ trái sang phải: vòng nối nối hai
sợi phản song song trên đường chéo, vòng nối bên nối hai sợi phản song song
liền kề, vòng nối nối hai sợi song song cạnh nhau [27].
1.3 Phân bố của G-quadruplex ở sinh vật nhân thực và sinh
vật nhân sơ
• Sinh vật nhân thực
G-quadruplex rất phổ biến ở bộ gen của sinh vật nhân thực [15, 24, 36]. Hệ
gen của người có chứa ít nhất 37.000 đoạn acid nucleic có thể hình thành
8
G-quadruplex [36]. G-quadruplex được tìm thấy ở nhiều khu vực của gen
như telomere, promoter, v.v.. [22, 29]. Trong đó, G-quadruplex tập trung
nhiều nhất ở promoter, có hơn 40% các promoter của người có chứa nhiều
hơn một đoạn G-quadruplex (Hình 8) [16, 37]. Trên mARN, G-quadruplex
có thể được tìm thấy tại khu vực không phiên mã tại đầu 5’ và 3’ [17].
Hình 8: Vị trí của G-quadruplex so với điểm khởi đầu phiên mã [13].
• Sinh vật nhân sơ
So với sinh vật nhân thực, các nghiên cứu về G-quadruplex ở sinh vật nhân
sơ tương đối ít. Một số nghiên cứu cho thấy G-quadruplex tập trung gần
đầu 3’ không phiên mã của mARN và khu vực điều hoà của các đơn vị
phiên mã [10, 19]. Trong đó, phân bố của G-quadruplex ở cả mạch mang
mã và mạch khuôn là tương tương [9].
9
1.4 Các thuật toán tìm kiếm G-quadruplex trong bộ gen
Nhiều thuật toán khác nhau đã được dùng để tìm kiếm những đoạn acid nucleic có khả năng hình thành nên G-quadruplex (gọi là đoạn G4) [4, 5, 14, 20,
21, 37]. Trong đó thuật toán tìm kiếm các chuỗi acid nucleic theo công thức cho
trước hoạt động hiệu quả hơn so với các kỹ thuật khác. Công thức chung được
dùng cho các thuật toán này là Gx1 NL1 Gx2 NL2 Gx3 NL3 Gx4 với các giá trị khác
nhau về độ dài (x) của vùng nhiều G và độ dài (L) của các đoạn nối (Bảng 1)
[14].
Bảng 1: Tham số dùng trong một số thuật toán tìm kiếm G-quadruplex [14].
Năm
Thuật toán
Tác giả
Độ dài vùng Độ dài đoạn
guanin
2004 QGRS
D’Antonio và Bagga
2-4
nối
≥0
2005 Quadruplexes Todd và Neidle
3-5
1-7
2005 PQS
Huppert và Balasubramanian
1-7
2006 PG4
Chowdhury
≥3
2-5
1-5
Thuật toán đầu tiên được viết và mô tả chi tiết vào năm 1984 bởi Brendel và
Trifonov để xác định vị trí của các đoạn G4 trên vi khuẩn [4, 5].
Năm 2006, Oleg Kikin đã phát triển chương trình QGRS Mapper để tìm các
đoạn G4 với dữ liệu lấy từ NCBI [20]. QGRS Mapper là một chương trình web
được viết bằng Hypertext Preprocessor (PHP) và Java, cho phép người dùng tìm
kiếm các G-quadruplex bằng nhiều cách. Dữ liệu đầu vào có thể là một chuỗi
10
nucleotid hoặc các tệp tin có định dạng FASTA. Người dùng cũng có thể tìm
kiếm và phân tích một trình tự gen từ tên gen, gen ID, số truy cập hoặc số GI từ
NCBI. Người dùng có thể thay đổi một số định dạng sẵn như thay đổi chiều dài
tối đa của QGRS, thay đổi số lượng tối thiểu của G trong các nhóm hay cố định
số lượng acid nucleic của vòng nối. Từ QGRS Mapper, Oleg Kikin xây dựng hai
cơ sở dữ liệu về G4 là GRSDB2 và GRS-UTRdb [21]. GRSDB2 chứa dữ liệu
của 29.288 gene và hơn 3 triệu đoạn G4 ở các pre-mARN. GRS-UTRdb là cơ sở
dữ liệu của hơn 27.000 đoạn G4 ở đầu 5’ không phiên mã của mARN.
Năm 2008, chương trình QuadBase được giới thiệu bởi Vinod Kumar Yadav
[37]. QuadBase được viết trên nền Java, gồm hai phần là EuQuad và ProQuad.
EuQuad dùng để tìm các đoạn G4 trên nhiễm sắc thể của chuột, tinh tinh và
người. ProQuad dùng để tìm các đoạn G4 trên nhiễm sắc thể của một số chủng
vi khuẩn.
Một chương trình tìm kiếm các đoạn G4 khác là Quadparser do Julian L.
Huppert và Shankar Balasubramanian phát triển [14]. Chương trình này có thể
nhanh chóng phân tích một số lượng lớn các dữ liệu có định dạng FASTA. Kết quả
thu được là số lượng, vị trí và một số thông số khác giúp xác định G-quadruplex
[14].
1.5 Xác định mô-típ về trình tự nucleic của acid nucleic
Mục đích của xác định mô-típ về trình tự nucleic (gọi tắt là mô-típ) là tìm ra
các đoạn bảo thủ trên acid nucleic. Các đoạn bảo thủ này thường tham gia vào
nhiều quá trình sinh học của acid nucleic. Để tìm ra mô-típ, các đoạn acid nucleic
11
có cùng chiều dài sẽ được đối chiếu với nhau về trình tự nucleotid. Tần số xuất
hiện của các nucleotid sẽ được tính toán cho từng vị trí trên đoạn acid nucleotid
và mô-típ chung sẽ là nucleotid có tần số xuất hiện lớn nhất tại vị trí đó. [8]
Trong phân tích mô-típ, kết quả xác định tần số thường được xử lý và biểu
thị dưới dạng biểu đồ Logo [32]. Trên biểu đồ Logo, trục hoành biểu thị vị trí
nucleotid trên đoạn cần phân tích, trục tung biểu thị tần số xuất hiện của nucleotid
và thường có đơn vị là “bit”. Các cột trên biểu đồ càng cao thì tần số xuất hiện
của các nucleotid trong cột càng lớn. Mỗi cột trên biểu đồ bao gồm các nucleotid
xuất hiện tại cùng một vị trí trên đoạn acid nucleic, tần số xuất hiện của từng
nucleotid sẽ tỷ lệ thuận với chiều cao của ký tự biểu diễn nucleotid đó. (Hình 9)
Hình 9: Phân tích mô-típ cho thấy trình tự nucleotid bảo thủ của hộp TATA trên
genom của Escherichia coli
12
CHƯƠNG 2. ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
2.1 Đối tượng
Từ cơ sở dữ liệu hệ gen của 95.090 chủng vi khuẩn có trong NCBI [1], chúng
tôi chọn ra 54 chủng vi khuẩn có số lượng nghiên cứu được công bố nhiều nhất
để sử dụng trong đề tài này (Bảng 2).
Bảng 2: Tên và mã NCBI của 54 chủng vi khuẩn sử dụng trong nghiên cứu.
STT
Mã NCBI
Tên vi khuẩn
1
NC_00117
Chlamydia trachomatis D/UW-3/CX
2
NC_00907
Haemophilus influenzae Rd KW20
3
NC_00915
Helicobacter pylori 26695
4
NC_00962
Mycobacterium tuberculosis H37Rv
5
NC_00964
Bacillus subtilis subsp. subtilis str. 168
6
NC_02163
Campylobacter jejuni subsp. jejuni NCTC 11168 = ATCC 700819
7
NC_02505
Vibrio cholerae O1 biovar El Tor str. N16961 chromosom I
8
NC_02506
Vibrio cholerae O1 biovar El Tor str. N16961 chromosom II
9
NC_02516
Pseudomonas aeruginosa PAO1
10
NC_02695
Escherichia coli O157:H7 str. Sakai
11
NC_02737
Streptococcus pyogenes M1 GAS
12
NC_02929
Bordetella pertussis Tohama I
13
NC_02942
Legionella pneumophila subsp. pneumophila str. 1
14
NC_02944
Mycobacterium avium subsp. paratuberculosis str. k10
15
NC_02946
Neisseria gonorrhoeae FA 1090
16
NC_03098
Streptococcus pneumoniae R6
17
NC_03143
Yersinia pestis CO92
18
NC_03197
Salmonella enterica subsp. enterica serovar Typhimurium str. LT2
13
19
NC_03210
Listeria monocytogenes EGD-e
20
NC_03997
Bacillus anthracis str. Ames
21
NC_04116
Streptococcus agalactiae 2603V/R
22
NC_04337
Shigella flexneri 2a str. 301
23
NC_04342
Leptospira interrogans serovar Lai str. 56601 chromosom I
24
NC_04343
Leptospira interrogans serovar Lai str. 56601 chromosom II
25
NC_04350
Streptococcus mutans UA159
26
NC_04461
Staphylococcus epidermidis ATCC 12228
27
NC_04567
Lactobacillus plantarum WCFS1
28
NC_04603
Vibrio parahaemolyticus RIMD 2210633 chromosom 1
29
NC_04605
Vibrio parahaemolyticus RIMD 2210633 chromosom 2
30
NC_04668
Enterococcus faecalis V583
31
NC_04722
Bacillus cereus ATCC 14579
32
NC_06085
Propionibacterium acnes KPA171202
33
NC_06347
Bacteroides fragilis YCH46 DNA
34
NC_06350
Burkholderia pseudomallei K96243 chromosom 1
35
NC_06351
Burkholderia pseudomallei K96243 chromosom 2
36
NC_06570
Francisella tularensis subsp. tularensis SCHU S4
37
NC_06932
Brucella abortus biovar 1 str. 9-941 chromosom I
38
NC_06933
Brucella abortus biovar 1 str. 9-941 chromosom II
39
NC_07005
Pseudomonas syringae pv. syringae B728a chromosom
40
NC_07168
Staphylococcus haemolyticus JCSC1435
41
NC_07492
Pseudomonas fluorescens Pf0-1
42
NC_07795
Staphylococcus aureus subsp. aureus NCTC 8325
43
NC_08800
Yersinia enterocolitica subsp. enterocolitica 8081
44
NC_09089
Peptoclostridium difficile 630
45
NC_09698
Clostridium botulinum A str. Hall
14
46
NC_10397
Mycobacterium abscessus
47
NC_10943
Stenotrophomonas maltophilia K279a
48
NC_12470
Streptococcus equi subsp. zooepidemicus H70
49
NC_12926
Streptococcus suis BM407
50
NC_13198
Lactobacillus rhamnosus GG
51
NC_14121
Enterobacter cloacae subsp. cloacae ATCC 13047
52
NC_15663
Enterobacter aerogenes KCTC 2190
53
NC_16822
Shigella sonnei 53G
54
NC_16845
Klebsiella pneumoniae subsp. pneumoniae HS11286
55
NC_17960
Enterococcus faecium DO
56
NC_20064
Serratia marcescens FGI94
57
NZ_009257
Acinetobacter baumannii strain AB030
58
NZ_009486
Burkholderia ubonensis MSMB22 chromosom II
59
NZ_009487
Burkholderia ubonensis MSMB22 chromosom III
60
NZ_009488
Burkholderia ubonensis MSMB22 chromosom I
61
NZ_013733
Campylobacter coli strain OR12
2.2 Phương pháp nghiên cứu
Cơ sở dữ liệu hệ gen của các chủng vi khuẩn được phân tích trên máy tính
bằng các thuật toán viết bằng ngôn ngữ lập trình Python [34] với các thư viện
Pandas, NumPy, Matplotlib, Biopython, Statistic, Re. [23]. Các thuật toán đều
được kiểm tra độ tin cậy bằng các dữ liệu chuẩn trước khi sử dụng để phân tích.
Các phân tích thống kê được thực hiện qua thư viện Statistic của Python [23].
15