G quadruplex trên nhiễm sắc thể của vi khuẩn phân bố và trình tự nucleotid

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.32 MB, 58 trang )

BỘ Y TẾ
TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

PHẠM THỊ XUÂN ÁI
Mã sinh viên: 1201036

G–QUADRUPLEX TRÊN NHIỄM SẮC
THỂ CỦA VI KHUẨN: PHÂN BỐ VÀ
TRÌNH TỰ NUCLEOTID
KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ

HÀ NỘI – 2017

BỘ Y TẾ
TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

PHẠM THỊ XUÂN ÁI
Mã sinh viên: 1201036

G–QUADRUPLEX TRÊN NHIỄM SẮC
THỂ CỦA VI KHUẨN: PHÂN BỐ VÀ
TRÌNH TỰ NUCLEOTID
KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ
Người hướng dẫn:
1. TS. Đỗ Ngọc Quang
Nơi thực hiện:
1. Bộ môn Vi sinh và Sinh học

HÀ NỘI – 2017

LỜI CẢM ƠN
Trong quá trình học tập tại trường và hoàn thành khoá luận này, tôi đã nhận
được rất nhiều sự giúp đỡ của gia đình, thầy cô và bạn bè.
Tôi xin gửi lời cảm ơn chân thành và sâu sắc đến TS. Đỗ Ngọc Quang. Thầy
luôn tận tình chỉ bảo, hướng dẫn và tạo cho tôi nguồn động lực để làm việc và
phấn đấu vươn lên.
Tôi xin trân trọng cảm ơn các thầy cô cùng cán bộ Trường Đại học Dược Hà
Nội đã dạy dỗ, quan tâm tôi trong suốt 5 năm học tập tại trường.
Cuối cùng, tôi xin được bày tỏ lòng biết ơn sâu sắc tới gia đình và bạn bè đã
luôn đồng hành bên tôi những lúc khó khăn, bận rộn để tôi hoàn thành khoá luận
tốt nghiệp này.
Hà Nội, ngày 18 tháng 05 năm 2017
Sinh viên

Phạm Thị Xuân Ái.

MỤC LỤC

ĐẶT VẤN ĐỀ

1

CHƯƠNG 1. TỔNG QUAN

3

1.1

Vai trò sinh học của G-quadruplex . . . . . . . . . . . . . . . .

3

1.2

Cấu trúc của G-quadruplex . . . . . . . . . . . . . . . . . . . .

6

1.3

Phân bố của G-quadruplex ở sinh vật nhân thực và sinh vật nhân
sơ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

1.4

Các thuật toán tìm kiếm G-quadruplex trong bộ gen . . . . . . .

10

1.5

Xác định mô-típ về trình tự nucleic của acid nucleic . . . . . . .

11

CHƯƠNG 2. ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU

13

2.1

Đối tượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

2.2

Phương pháp nghiên cứu . . . . . . . . . . . . . . . . . . . . .

15

2.2.1

Xây dựng cơ sở dữ liệu G4 . . . . . . . . . . . . . . . .

16

2.2.2

Khảo sát phân bố của các đoạn G4 . . . . . . . . . . .

17

2.2.3

Khảo sát mô-típ của các đoạn G4 . . . . . . . . . . . .

20

CHƯƠNG 3. KẾT QUẢ

21

3.1

Xây dựng cơ sở dữ liệu G4 . . . . . . . . . . . . . . . . . . . .

21

3.1.1

Khảo sát chiều dài của các đoạn lặp guanin . . . . . . .

21

3.1.2

Khảo sát khoảng cách giữa các đoạp lặp guanin . . . .

22

3.1.3

Xây dựng thuật toán tìm kiếm các đoạn G4 trên nhiễm
sắc thể . . . . . . . . . . . . . . . . . . . . . . . . . .

23

3.1.4
3.2

3.3

Cơ sở dữ liệu G4 . . . . . . . . . . . . . . . . . . . . .

25

Phân bố của các đoạn G4 trên nhiễm sắc thể . . . . . . . . . . .

28

3.2.1

Tần số xuất hiện của các đoạn G4 so với tỷ lệ %GC . .

28

3.2.2

Tần số xuất hiện của các đoạn G4 trên các gen khác nhau 29

Mô-típ của các đoạn G4 trên nhiễm sắc thể . . . . . . . . . . .

30

3.3.1

Chiều dài của các đoạn guanin và đoạn nối . . . . . . .

31

3.3.2

Mô-típ của các đoạn nối . . . . . . . . . . . . . . . . .

32

KẾT LUẬN VÀ ĐỀ XUẤT

34

4.1

Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

4.2

Đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

Phụ lục A Phân bố của G-quadruplex trên 61 nhiễm sắc thể của 54
chủng vi khuẩn

I

Phụ lục B Mô-típ của các đoạn nối tại các vị trí 1, 2 và 3 có độ dài từ 1
đến 10 nucleotid
Phụ lục C Mô-típ của các đoạn nối có độ dài từ 7 đến 10 nucleotid

IV
VII

DANH SÁCH BẢNG
1

Tham số dùng trong một số thuật toán tìm kiếm G-quadruplex
[14]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2

Tên và mã NCBI của 54 chủng vi khuẩn sử dụng trong nghiên
cứu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

24

Số lượng các đoạn G4 trên NST của 10 chủng vi khuẩn tìm được
bằng thuật toán 3 và thuật toán Quadbase. . . . . . . . . . . . .

5

13

Kết quả kiểm tra thuật toán 3 trên nhiễm sắc thể của Escherichia
coli UMN026 với số lượng và trình tự các đoạn G4 biết trước. .

4

10

25

Mười nhiễm sắc thể vi khuẩn có nhiều đoạn G4 nhất trong số các
nhiễm sắc thể được khảo sát. . . . . . . . . . . . . . . . . . . .

27

DANH SÁCH HÌNH ẢNH
1

Mô hình của G-quadruplex hình thành trên telomere ở người [27].

3

2

G-quadruplex trên telomere ngăn cản hoạt động của nuclease [30].

4

3

G-quadruplex kích thích hình quá trình khởi đầu chép ADN. Gquadruplex ở gần vị trí khởi đầu phiên mã sẽ kích thích quá trình
hình thành phức hợp khởi đầu sao chép dẫn đến tăng cường sao
chép ADN [30]. . . . . . . . . . . . . . . . . . . . . . . . . . .

4

5

G-quadruplex ngăn cản hoạt động của ADN polymerase [30]. Gquadruplex cản trở sự di chuyển của ADN polymerase dẫn đến
ức chế sao chép ADN. . . . . . . . . . . . . . . . . . . . . . .

6

5

Mô hình của G-tetrad [27]. . . . . . . . . . . . . . . . . . . . .

7

6

Phân loại G-quadruplex theo hướng của sợi đơn acid nucleic. Từ
trái sang phải: dạng song song, dạng 3+1, dạng phản song song
1, dạng phản song song 2 [27]. . . . . . . . . . . . . . . . . . .

7

8

Các loại vòng nối của G-quadruplex. Từ trái sang phải: vòng nối
nối hai sợi phản song song trên đường chéo, vòng nối bên nối
hai sợi phản song song liền kề, vòng nối nối hai sợi song song
cạnh nhau [27]. . . . . . . . . . . . . . . . . . . . . . . . . . .

8

8

Vị trí của G-quadruplex so với điểm khởi đầu phiên mã [13]. . .

9

9

Phân tích mô-típ cho thấy trình tự nucleotid bảo thủ của hộp
TATA trên genom của Escherichia coli . . . . . . . . . . . . . .

12

10

Tần số xuất hiện của các đoạn lặp guanin có chiều dài khác
nhau trên nhiễm sắc thể của 54 chủng vi khuẩn (đường nét liền)
và nhiễm sắc thể đối chứng với trình tự nucleotid ngẫu nghiên
(đường nét đứt). . . . . . . . . . . . . . . . . . . . . . . . . . .

11

22

Tần số xuất hiện của các đoạn nối có chiều dài khác nhau trên
nhiễm sắc thể của 54 chủng vi khuẩn (đường nét liền) và nhiễm
sắc thể đối chứng với trình tự nucleotid ngẫu nghiên (đường nét
đứt). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

23

Nhiễm sắc thể của Staphylococcus epidermidis ATCC 12.228:
(a) toàn bộ nhiễm sắc thể, (b) phân đoạn từ nucleotid 2.223.200
đến 2.250.000. Các vạch và số thể hiện vị trí của các đoạn G4
trên nhiễm sắc thể. . . . . . . . . . . . . . . . . . . . . . . . .

13

26

(a) Số lượng các đoạn G4 tìm được so với tỷ lệ %GC trên NST
của 54 chủng vi khuẩn. (b) Kết quả phân tích hồi quy tuyến tính
giữa số lượng các đoạn G4 và tỷ lệ %GC. . . . . . . . . . . . .

14

28

Năm gen có tần số xuất hiện của các đoạn G4 lớn nhất. Các đoạn
G4 có thể nằm trên mạch mang mã (+) hoặc mạch khuôn (-). . .

29

15

Phân bố của các đoạn G4 so với điểm khởi đầu phiên mã. . . . .

30

16

Tần số xuất hiện của các đoạn lặp guanin với chiều dài khác nhau
tại: (a) vị trí 1, (b) vị trí 2, (c) vị trí 3 và (d) vị trí 4 của các đoạn
G4 trên nhiễm sắc thể của 54 chủng vi khuẩn. . . . . . . . . . .

17

31

Tần số xuất hiện của các đoạn nối có chiều dài khác nhau tại: (a)
vị trí 1, (b) vị trí 2 và (c) vị trí 3 của các đoạn G4 trên nhiễm sắc
thể của 54 chủng vi khuẩn. . . . . . . . . . . . . . . . . . . . .

32

18
19

Mô-típ của những đoạn nối có độ dài 3 nucleotid tại: (a) vị trí 1,
(b) vị trí 2 và (c) vị trí 3. . . . . . . . . . . . . . . . . . . . . .

33

Mô-típ của những đoạn nối có độ dài từ 1 đến 6 nucleotid. . . .

33

DANH SÁCH TỪ VIẾT TẮT
1 ADN

Acid deoxyribonucleic

2 ARN

Acid ribonucleic

3 NST

Nhiễm sắc thể

4 G4

G-quadruplex

5 DNA Pol ADN polymerase
6 ORF

Khung đọc mở

7 SD

Độ lệch chuẩn

8 Mean

Giá trị trung bình

9 tARN

Transfer RNA

10 gtlJ

Glutamate/Aspartate import permease

11 serA

D-3-phosphoglycerate dehydrogenase

12 gidA

Glucose-inhibited division protein A

13 def

Peptide deformylase

14 TMPyP4 5,10,15,20-tetra(N-methyl-4-pyridyl) porphin

ĐẶT VẤN ĐỀ
Phân tử acid deoxyribonucleic (ADN) có thể tồn tại ở nhiều cấu trúc khác
nhau, trong đó có mô hình được gọi là G-quadruplex. Được phát hiện đầu tiên
vào năm 1962, G-quadruplex có thể được hình thành tại các vị trí acid nucleic
giàu guanin [11, 14]. Khác với mô hình chuỗi xoắn kép của Watson và Crick, mỗi
G-quadruplex gồm 4 mạch đơn nằm song song và liên kết bổ sung nhau bằng
liên kết hydro giữa các nucleotid guanin [14, 27]. G-quadruplex có cấu trúc đa
dạng tùy thuộc vào nhiều yếu tố như trình tự nucleotid, vị trí trên nhiễm sắc thể,
điều kiện môi trường, v.v..[11, 18, 26, 27].
G-quadruplex tồn tại ở cả sinh vật nhân sơ và nhân chuẩn [19]. Ở người, Gquadruplex được tìm thấy nhiều tại các vị trí như telomere, vùng điều hòa của
gen [11, 19, 35]. Các nghiên cứu thực nghiệm cho thấy G-quadruplex tham gia
vào nhiều quá trình sinh học quan trọng như phiên mã, dịch mã, sao chép, bảo vệ
nhiễm sắc thể, v.v.. [14, 19]. Bởi vậy tác động vào G-quadruplex nhằm thay đổi
hoạt động của tế bào theo hướng mong muốn là một hướng đi triển vọng trong
lĩnh vực Y, Sinh và Dược học.
Việc lập bản đồ các đoạn có khả năng hình thành G-quadruplex trên nhiễm
sắc thể là một trong những bước quan trọng để nghiên cứu về vai trò của Gquadruplex trong tế bào. Một số cơ sở dữ liệu về vị trí và cấu trúc của Gquadruplex đang được sử dụng hiện nay gồm có QGRS Mapper [20], Quadbase
[37], Quadparser [14]. Tuy nhiên, các cơ sở dữ liệu này tập trung chủ yếu vào
đối tượng là con người. Mặc dù có vai trò quan trọng trong đời sống con người
nhưng số lượng bản đồ G-quadruplex cho vi khuẩn vẫn còn rất ít. Để phần nào
1

giải quyết vấn đề trên, chúng tôi đã thực hiện đề tài nghiên cứu “G-quadruplex
trên nhiễm sắc thể của vi khuẩn: phân bố và trình tự nucleotid” với hai mục tiêu:
• Xây dựng cơ sở dữ liệu về vị trí và trình tự của các đoạn acid nucleic có

khả năng hình thành G-quadruplex trên nhiễm sắc thể của một số vi khuẩn
thường gặp.
• Khảo sát một số đặc điểm về phân bố và mô-típ của các đoạn acid nucleic
trong cơ sở dữ liệu thu được.

2

CHƯƠNG 1. TỔNG QUAN

1.1 Vai trò sinh học của G-quadruplex
G-quadruplex là cấu trúc được tạo bởi các đoạn acid nucleic giàu guanin.
Khác với cấu trúc xoắn kép theo mô hình Watson-Crick, G-quadruplex gồm ít
nhất hai lớp G-tetrad xếp chồng lên nhau và nối với nhau bằng liên kết π - π.
G-tetrad gồm bốn guanin nằm trong cùng một mặt phẳng liên kết với nhau bằng
liên kết hydro Hoogsten (Hình 1) [27]. Cấu trúc này được hình thành tại nhiều vị
trí của bộ gen và tham gia vào nhiều quá trình quan trọng trong tế bào như bảo
vệ nhiễm sắc thể, sao chép ADN, phiên mã và dịch mã [14, 19].

Hình 1: Mô hình của G-quadruplex hình thành trên telomere ở người [27].
• Bảo vệ nhiễm sắc thể
Telomere là những cấu trúc nucleoprotein nằm ở phần cuối của nhiễm
sắc thể [24, 31, 33]. ADN telomere ở sinh vật nhân thực chứa nhiều đoạn
lặp giàu guanin (ở người là TTAGGG) [12, 33]. ADN telomere tạo được
3

G-quadruplex trong điều kiện in vitro. Vai trò của telomere là bảo vệ nhiễm
sắc thể trước sự phân hủy của các nuclease nội bào (Hình 2).

Hình 2: G-quadruplex trên telomere ngăn cản hoạt động của nuclease [30].
Ngoài bảo vệ nhiễm sắc thể, telomere còn có chức năng như đồng hồ
sinh học của tế bào. Chiều dài của telomere đặc trưng cho từng loài và
có liên quan đến số lần phân chia của tế bào. Telomere bị ngắn dần sau
mỗi chu kỳ phân bào [24, 28], khi telomere không còn đủ độ dài để bảo
vệ nhiễm sắc thể thì cũng là lúc tế bào chết [25, 28]. Để ngăn cản hiện
tượng này, tế bào sử dụng telomerase - một loại enzym có vai trò nối dài
telomere [24, 35]. Tuy nhiên, mặt trái của vệc kéo dài telomere là làm quá
trình phân bào có nguy cơ bị mất kiểm soát như đã thấy ở nhiều loại tế
bào ung thư [25]. Một số nghiên cứu cho thấy hoạt động của telomerase
trong tế bào ung thư sẽ bị kìm hãm dưới tác dụng của một số chất như
telomestatin, TMPyP4,... [3, 25], đây là những chất có đích tác dụng là
các G-quadruplex trên telomere. Vì thế, đây có thể là một hướng nghiên
cứu tiềm năng trong điều trị ung thư.
• Sao chép ADN
4

Hình 3: G-quadruplex kích thích hình quá trình khởi đầu chép ADN. Gquadruplex ở gần vị trí khởi đầu phiên mã sẽ kích thích quá trình hình thành
phức hợp khởi đầu sao chép dẫn đến tăng cường sao chép ADN [30].
Quá trình sao chép ADN bắt đầu khi tế bào nhận biết được điểm khởi
đầu sao chép. Sau đó, ADN polymerase sẽ di chuyển dọc theo mạch khuôn
để lắp các nucleotid bổ sung vào vị trí tương ứng. Khi xuất hiện gần vị trí
khởi đầu sao chép, G-quadruplex có thể kích thích quá trình hình thành
phức hợp khởi đầu sao chép (Hình 3) [3] dẫn đến tăng cường sao chép
ADN hoặc ngược lại cản trở sự di chuyển của helicase và ADN polymerase
dẫn đến ức chế sao chép ADN (Hình 4) [30, 35].
• Phiên mã
Trong quá trình phiên mã, ARN polymerase bám vào promoter của gen
và di chuyển dọc theo phân tử ADN để tổng hợp phân tử mARN. Thực

nghiệm cho thấy promoter là vùng thường tập trung G-quadruplex [33].
Tùy vào vị trí nằm trên mạch khuôn hay mạch mang mã, G-quadruplex có
5

Hình 4: G-quadruplex ngăn cản hoạt động của ADN polymerase [30]. Gquadruplex cản trở sự di chuyển của ADN polymerase dẫn đến ức chế sao chép
ADN.
thể cản trở hay kích thích phiên mã [3, 7, 30].
• Dịch mã
Quá trình dịch mã từ mARN thành protein gồm 3 bước chính: khởi
đầu (gắn ribosom vào mARN), kéo dài (tổng hợp chuỗi acid amin) và
kết thúc (tháo gỡ ribosom). Việc tập trung G-quadruplex ở các vùng 5’/3’
không dịch mã của mARN có thể kìm hãm quá trình dịch mã trong tế bào
[24, 30, 33].

1.2 Cấu trúc của G-quadruplex
G-quadruplex là cấu trúc được tạo bởi một hay nhiều phân tử acid nucleic
mạch đơn (ADN hoặc ARN) giàu guanin. Mỗi G-quadruplex gồm ít nhất hai lớp
G-tetrad xếp chồng lên nhau. Các lớp G-tetrad này liên kết với nhau bằng liên kết
π - π. G-tetrad gồm 4 guanin nằm trong cùng một mặt phẳng liên kết với nhau
6

Hình 5: Mô hình của G-tetrad [27].
bằng liên kết hydro Hoogsten. Các lớp tetrad nối với nhau bởi các vòng nối. Các
cation hoá trị một như K+ , Na+ giúp ổn định cấu trúc G-quadruplex bằng cách
kết hợp các nhóm carbonyl của guanin (Hình 5) [27, 30, 31].
G-quadruplex được phân loại dựa trên hướng của sợi đơn acid nucleic và liên kết
glycosid (dạng anti- hay dạng syn- của guanin). Từ đó, cấu trúc của G-quadruplex
có thể được phân thành bốn loại: bốn sợi có cùng hướng (dạng song song), ba sợi

cùng hướng và một sợi ngược hướng (dạng 3+1), hai sợi cạnh nhau cùng hướng
và hai sợi còn lại có hướng ngược lại (dạng phản song song) và hai sợi cùng trên
một đường chéo cùng hướng và hai sợi còn lại có hướng ngược lại (Hình 6). Các
liên kết glucosid của guanin trong tetrad tương ứng với hướng của các sợi là: anti
- anti - anti - anti hoặc syn - syn - syn - syn, syn - anti - anti - anti hoặc anti - syn
- syn - syn, anti - anti - syn - syn và anti - syn - anti - syn. Có ba loại vòng nối
chính là: vòng nối nối hai sợi phản song song trên đường chéo, vòng nối bên nối
hai sợi phản song song liền kề, vòng nối nối hai sợi song song cạnh nhau (Hình
7

7). Sự hình thành và độ ổn định của G-quadruplex bị ảnh hưởng bởi độ dài của
vòng nối. Vòng nối càng dài thì G-quadruplex càng không ổn định [19, 27].

Hình 6: Phân loại G-quadruplex theo hướng của sợi đơn acid nucleic. Từ trái
sang phải: dạng song song, dạng 3+1, dạng phản song song 1, dạng phản song
song 2 [27].

Hình 7: Các loại vòng nối của G-quadruplex. Từ trái sang phải: vòng nối nối hai
sợi phản song song trên đường chéo, vòng nối bên nối hai sợi phản song song
liền kề, vòng nối nối hai sợi song song cạnh nhau [27].

1.3 Phân bố của G-quadruplex ở sinh vật nhân thực và sinh
vật nhân sơ
• Sinh vật nhân thực
G-quadruplex rất phổ biến ở bộ gen của sinh vật nhân thực [15, 24, 36]. Hệ
gen của người có chứa ít nhất 37.000 đoạn acid nucleic có thể hình thành
8

G-quadruplex [36]. G-quadruplex được tìm thấy ở nhiều khu vực của gen
như telomere, promoter, v.v.. [22, 29]. Trong đó, G-quadruplex tập trung
nhiều nhất ở promoter, có hơn 40% các promoter của người có chứa nhiều
hơn một đoạn G-quadruplex (Hình 8) [16, 37]. Trên mARN, G-quadruplex
có thể được tìm thấy tại khu vực không phiên mã tại đầu 5’ và 3’ [17].

Hình 8: Vị trí của G-quadruplex so với điểm khởi đầu phiên mã [13].
• Sinh vật nhân sơ
So với sinh vật nhân thực, các nghiên cứu về G-quadruplex ở sinh vật nhân
sơ tương đối ít. Một số nghiên cứu cho thấy G-quadruplex tập trung gần
đầu 3’ không phiên mã của mARN và khu vực điều hoà của các đơn vị
phiên mã [10, 19]. Trong đó, phân bố của G-quadruplex ở cả mạch mang
mã và mạch khuôn là tương tương [9].

9

1.4 Các thuật toán tìm kiếm G-quadruplex trong bộ gen
Nhiều thuật toán khác nhau đã được dùng để tìm kiếm những đoạn acid nucleic có khả năng hình thành nên G-quadruplex (gọi là đoạn G4) [4, 5, 14, 20,
21, 37]. Trong đó thuật toán tìm kiếm các chuỗi acid nucleic theo công thức cho
trước hoạt động hiệu quả hơn so với các kỹ thuật khác. Công thức chung được
dùng cho các thuật toán này là Gx1 NL1 Gx2 NL2 Gx3 NL3 Gx4 với các giá trị khác
nhau về độ dài (x) của vùng nhiều G và độ dài (L) của các đoạn nối (Bảng 1)
[14].
Bảng 1: Tham số dùng trong một số thuật toán tìm kiếm G-quadruplex [14].
Năm

Thuật toán

Tác giả

Độ dài vùng Độ dài đoạn
guanin

2004 QGRS

D’Antonio và Bagga

2-4

nối
≥0

2005 Quadruplexes Todd và Neidle

3-5

1-7

2005 PQS

Huppert và Balasubramanian

1-7

2006 PG4

Chowdhury

≥3

2-5

1-5

Thuật toán đầu tiên được viết và mô tả chi tiết vào năm 1984 bởi Brendel và
Trifonov để xác định vị trí của các đoạn G4 trên vi khuẩn [4, 5].
Năm 2006, Oleg Kikin đã phát triển chương trình QGRS Mapper để tìm các
đoạn G4 với dữ liệu lấy từ NCBI [20]. QGRS Mapper là một chương trình web
được viết bằng Hypertext Preprocessor (PHP) và Java, cho phép người dùng tìm
kiếm các G-quadruplex bằng nhiều cách. Dữ liệu đầu vào có thể là một chuỗi
10

nucleotid hoặc các tệp tin có định dạng FASTA. Người dùng cũng có thể tìm
kiếm và phân tích một trình tự gen từ tên gen, gen ID, số truy cập hoặc số GI từ
NCBI. Người dùng có thể thay đổi một số định dạng sẵn như thay đổi chiều dài
tối đa của QGRS, thay đổi số lượng tối thiểu của G trong các nhóm hay cố định
số lượng acid nucleic của vòng nối. Từ QGRS Mapper, Oleg Kikin xây dựng hai
cơ sở dữ liệu về G4 là GRSDB2 và GRS-UTRdb [21]. GRSDB2 chứa dữ liệu
của 29.288 gene và hơn 3 triệu đoạn G4 ở các pre-mARN. GRS-UTRdb là cơ sở
dữ liệu của hơn 27.000 đoạn G4 ở đầu 5’ không phiên mã của mARN.
Năm 2008, chương trình QuadBase được giới thiệu bởi Vinod Kumar Yadav
[37]. QuadBase được viết trên nền Java, gồm hai phần là EuQuad và ProQuad.
EuQuad dùng để tìm các đoạn G4 trên nhiễm sắc thể của chuột, tinh tinh và
người. ProQuad dùng để tìm các đoạn G4 trên nhiễm sắc thể của một số chủng
vi khuẩn.
Một chương trình tìm kiếm các đoạn G4 khác là Quadparser do Julian L.
Huppert và Shankar Balasubramanian phát triển [14]. Chương trình này có thể
nhanh chóng phân tích một số lượng lớn các dữ liệu có định dạng FASTA. Kết quả

thu được là số lượng, vị trí và một số thông số khác giúp xác định G-quadruplex
[14].

1.5 Xác định mô-típ về trình tự nucleic của acid nucleic
Mục đích của xác định mô-típ về trình tự nucleic (gọi tắt là mô-típ) là tìm ra
các đoạn bảo thủ trên acid nucleic. Các đoạn bảo thủ này thường tham gia vào
nhiều quá trình sinh học của acid nucleic. Để tìm ra mô-típ, các đoạn acid nucleic

11

có cùng chiều dài sẽ được đối chiếu với nhau về trình tự nucleotid. Tần số xuất
hiện của các nucleotid sẽ được tính toán cho từng vị trí trên đoạn acid nucleotid
và mô-típ chung sẽ là nucleotid có tần số xuất hiện lớn nhất tại vị trí đó. [8]
Trong phân tích mô-típ, kết quả xác định tần số thường được xử lý và biểu
thị dưới dạng biểu đồ Logo [32]. Trên biểu đồ Logo, trục hoành biểu thị vị trí
nucleotid trên đoạn cần phân tích, trục tung biểu thị tần số xuất hiện của nucleotid
và thường có đơn vị là “bit”. Các cột trên biểu đồ càng cao thì tần số xuất hiện
của các nucleotid trong cột càng lớn. Mỗi cột trên biểu đồ bao gồm các nucleotid
xuất hiện tại cùng một vị trí trên đoạn acid nucleic, tần số xuất hiện của từng
nucleotid sẽ tỷ lệ thuận với chiều cao của ký tự biểu diễn nucleotid đó. (Hình 9)

Hình 9: Phân tích mô-típ cho thấy trình tự nucleotid bảo thủ của hộp TATA trên
genom của Escherichia coli
12

CHƯƠNG 2. ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU

2.1 Đối tượng

Từ cơ sở dữ liệu hệ gen của 95.090 chủng vi khuẩn có trong NCBI [1], chúng
tôi chọn ra 54 chủng vi khuẩn có số lượng nghiên cứu được công bố nhiều nhất
để sử dụng trong đề tài này (Bảng 2).
Bảng 2: Tên và mã NCBI của 54 chủng vi khuẩn sử dụng trong nghiên cứu.
STT

Mã NCBI

Tên vi khuẩn

1

NC_00117

Chlamydia trachomatis D/UW-3/CX

2

NC_00907

Haemophilus influenzae Rd KW20

3

NC_00915

Helicobacter pylori 26695

4

NC_00962

Mycobacterium tuberculosis H37Rv

5

NC_00964

Bacillus subtilis subsp. subtilis str. 168

6

NC_02163

Campylobacter jejuni subsp. jejuni NCTC 11168 = ATCC 700819

7

NC_02505

Vibrio cholerae O1 biovar El Tor str. N16961 chromosom I

8

NC_02506

Vibrio cholerae O1 biovar El Tor str. N16961 chromosom II

9

NC_02516

Pseudomonas aeruginosa PAO1

10

NC_02695

Escherichia coli O157:H7 str. Sakai

11

NC_02737

Streptococcus pyogenes M1 GAS

12

NC_02929

Bordetella pertussis Tohama I

13

NC_02942

Legionella pneumophila subsp. pneumophila str. 1

14

NC_02944

Mycobacterium avium subsp. paratuberculosis str. k10

15

NC_02946

Neisseria gonorrhoeae FA 1090

16

NC_03098

Streptococcus pneumoniae R6

17

NC_03143

Yersinia pestis CO92

18

NC_03197

Salmonella enterica subsp. enterica serovar Typhimurium str. LT2

13

19

NC_03210

Listeria monocytogenes EGD-e

20

NC_03997

Bacillus anthracis str. Ames

21

NC_04116

Streptococcus agalactiae 2603V/R

22

NC_04337

Shigella flexneri 2a str. 301

23

NC_04342

Leptospira interrogans serovar Lai str. 56601 chromosom I

24

NC_04343

Leptospira interrogans serovar Lai str. 56601 chromosom II

25

NC_04350

Streptococcus mutans UA159

26

NC_04461

Staphylococcus epidermidis ATCC 12228

27

NC_04567

Lactobacillus plantarum WCFS1

28

NC_04603

Vibrio parahaemolyticus RIMD 2210633 chromosom 1

29

NC_04605

Vibrio parahaemolyticus RIMD 2210633 chromosom 2

30

NC_04668

Enterococcus faecalis V583

31

NC_04722

Bacillus cereus ATCC 14579

32

NC_06085

Propionibacterium acnes KPA171202

33

NC_06347

Bacteroides fragilis YCH46 DNA

34

NC_06350

Burkholderia pseudomallei K96243 chromosom 1

35

NC_06351

Burkholderia pseudomallei K96243 chromosom 2

36

NC_06570

Francisella tularensis subsp. tularensis SCHU S4

37

NC_06932

Brucella abortus biovar 1 str. 9-941 chromosom I

38

NC_06933

Brucella abortus biovar 1 str. 9-941 chromosom II

39

NC_07005

Pseudomonas syringae pv. syringae B728a chromosom

40

NC_07168

Staphylococcus haemolyticus JCSC1435

41

NC_07492

Pseudomonas fluorescens Pf0-1

42

NC_07795

Staphylococcus aureus subsp. aureus NCTC 8325

43

NC_08800

Yersinia enterocolitica subsp. enterocolitica 8081

44

NC_09089

Peptoclostridium difficile 630

45

NC_09698

Clostridium botulinum A str. Hall

14

46

NC_10397

Mycobacterium abscessus

47

NC_10943

Stenotrophomonas maltophilia K279a

48

NC_12470

Streptococcus equi subsp. zooepidemicus H70

49

NC_12926

Streptococcus suis BM407

50

NC_13198

Lactobacillus rhamnosus GG

51

NC_14121

Enterobacter cloacae subsp. cloacae ATCC 13047

52

NC_15663

Enterobacter aerogenes KCTC 2190

53

NC_16822

Shigella sonnei 53G

54

NC_16845

Klebsiella pneumoniae subsp. pneumoniae HS11286

55

NC_17960

Enterococcus faecium DO

56

NC_20064

Serratia marcescens FGI94

57

NZ_009257

Acinetobacter baumannii strain AB030

58

NZ_009486

Burkholderia ubonensis MSMB22 chromosom II

59

NZ_009487

Burkholderia ubonensis MSMB22 chromosom III

60

NZ_009488

Burkholderia ubonensis MSMB22 chromosom I

61

NZ_013733

Campylobacter coli strain OR12

2.2 Phương pháp nghiên cứu
Cơ sở dữ liệu hệ gen của các chủng vi khuẩn được phân tích trên máy tính
bằng các thuật toán viết bằng ngôn ngữ lập trình Python [34] với các thư viện
Pandas, NumPy, Matplotlib, Biopython, Statistic, Re. [23]. Các thuật toán đều
được kiểm tra độ tin cậy bằng các dữ liệu chuẩn trước khi sử dụng để phân tích.
Các phân tích thống kê được thực hiện qua thư viện Statistic của Python [23].

15

G quadruplex trên nhiễm sắc thể của vi khuẩn phân bố và trình tự nucleotid

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về