BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NÔNG LÂM TP.HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
KHÓA LUẬN TỐT NGHIỆP
XÂY DỰNG QUY TRÌNH ĐỊNH HCV GENOTYPE
BẰNG PHƯƠNG PHÁP GIẢI TRÌNH TỰ VÙNG GENE NS5B
Ngành học
: CÔNG NGHỆ SINH HỌC
Sinh viên thực hiện
: HOÀNG NGỌC MẠNH
Niên khóa
: 2009 - 2013
Tháng 6/2013
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NÔNG LÂM TP.HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
KHÓA LUẬN TỐT NGHIỆP
XÂY DỰNG QUY TRÌNH ĐỊNH HCV GENOTYPE
BẰNG PHƯƠNG PHÁP GIẢI TRÌNH TỰ VÙNG GENE NS5B
Hướng dẫn khoa học
Sinh viên thực hiện
PGS.TS. LÊ HUYỀN ÁI THÚY
HOÀNG NGỌC MẠNH
KS. NGUYỄN PHAN THÀNH
Tháng 6/2013
LỜI CẢM ƠN
Xin chân thành cảm ơn Ban giám hiệu trường Đại học Nông Lâm Thành phố
Hồ Chí Minh, Ban chủ nhiệm Bộ Môn Công nghệ Sinh học, cùng tất cả quý thầy cô
đã truyền đạt những kiến thức cho em trong suốt 4 năm học.
Công ty cổ phần công nghệ Việt Á đã đồng ý và hỗ trợ tốt trong quá trình thực
tập tại công ty cũng như để em hoàn thành đề tài tốt nghiệp của mình.
Tập thể cán bộ và quý Thầy - Cô Viện công nghệ sinh học và môi trường, Đại
học Nông Lâm Thành phố Hồ Chí Minh đã tạo điều kiện và giúp đỡ em trong suốt
thời gian thực tập.
PGS.TS. Lê Huyền Ái Thúy và KS. Nguyễn Phan Thành đã tận tình hướng
dẫn và tạo mọi điều kiện cho em trong suốt quá trình thực hiện đề tài tốt nghiệp.
Anh Trần Huỳnh Minh Nhật, chị Thái Ngọc Khánh Linh và các anh chị trong
phòng thí nghiệm công ty Việt Á đã giúp đỡ em nhiều trong quá trình làm thí nghiệm.
Tp. Hồ Chí Minh, ngày 20 tháng 06 năm 2013
Hoàng Ngọc Mạnh
i
TÓM TẮT
Bệnh xơ gan, ung thư gan đang có dấu hiệu gia tăng đáng báo động trong những
năm qua. Phần lớn số bệnh nhân tử vong do xơ gan, ung thư gan đều liên quan tới virút viêm gan C. Số bệnh nhân mắc các bệnh xơ gan, ung thư gan liên quan tới vi-rút
viêm gan C chiếm 80%, số người chết hàng năm do biến chứng xơ gan giai đoạn nặng
hoặc ung thư gan. Vi-rút viêm gan C là loại virus nguy hiểm. Hiện nay trên thế giới có
khoảng 2 tỷ người nhiễm virus viêm gan, cứ 12 người thì có 1 người bị viêm gan mạn
tính do nhiễm vi-rút viêm gan C. Trong những năm gần đây Việt Nam đã trở thành
quốc gia có tỉ lệ người mắc bệnh ung thư gan hàng đầu thế giới. Phần lớn các bệnh
nhân lại phát hiện bệnh trong giai đoạn trễ hoặc không xác định chính xác chủng viêm
gan C nên việc chữa trị không còn hiệu quả.
Nghiên cứu này được tiến hành nhằm xác định chính xác chủng vi-rút viêm gan C
dựa trên vùng gen NS5B. Vùng trình tự được xem là có nhiều biến động phù hợp mục
tiêu không những xác định kiểu gen mà còn cả đến mức subtype. Một quy trình đã
được thiết lập bao gồm thực hiện RT-PCR khuếch đại vùng NS5B, giải trình tự, hiệu
chỉnh trình tự sau khi giải và xây dựng các cây phân loài. Dù mới được thử nghiệm
trên số bệnh phẩm ít ỏi (chỉ có 6 mẫu), nhưng quy trình với tính logic khoa học cao sẽ
được tiếp tục thử nghiệm với cỡ mẫu lớn hơn trong thời gian tới.
ii
SUMMARY
Cirrhosis, liver cancer is showing signs of increased alarmingly in recent years. The
majority of patients die from cirrhosis, liver cancer associated with hepatitis C virus
Number of patients with liver cirrhosis, liver cancer associated with hepatitis C virus
accounted for 80%, the annual number of deaths due to complications of severe
cirrhosis or liver cancer. Hepatitis C virus is a malicious virus. Currently in the world
there are about 2 billion people infected with hepatitis, then 1 every 12 people who are
infected with chronic hepatitis due to hepatitis C virus In recent years, Vietnam has
become the country with the incidence of liver cancer leading. The majority of patients
to detect the disease in late stage or not accurately identify strains of hepatitis C
treatment should no longer effective.
This study was conducted to determine the exact strain of hepatitis C virus based on
the NS5B gene. Region sequences are considered to be more appropriate target
changes not only identify but also to genotype subtype level. A process has been
established, including implementation of RT-PCR amplified NS5B regions,
sequencing, sequence editing and after the construction of the plant subspecies.
Although a number of patients tested in the small (only 6 samples), but with the
process of scientific logic will be further tested with larger sample sizes in the future.
iii
MỤC LỤC
LỜI CẢM ƠN ............................................................................................... i
TÓM TẮT ................................................................................................... ii
SUMMARY ................................................................................................ iii
DANH SÁCH VIẾT TẮT VÀ THUẬT NGỮ ..................................................... vi
DANH SÁCH CÁC BẢNG ........................................................................... vii
DANH SÁCH CÁC HÌNH ........................................................................... viii
Chương 1 MỞ ĐẦU ........................................................................................1
1.1 Đặt vấn đề..................................................................................................................... 1
Chương 2 TỔNG QUAN TÀI LIỆU ...................................................................3
2.1 Tổng quan bệnh viêm gan siêu vi C ............................................................................ 3
2.2 Cấu trúc vi-rút HCV .................................................................................................... 5
2.3 Bộ gen vi-rút HCV....................................................................................................... 5
2.4 Sự phân bố các kiểu gen và kiểu phụ HCV: ................................................................ 7
2.5. Vai trò của nghiên cứu xác định kiểu gen (genotype) và kiểu phụ (subtype) bao ..... 8
2.6. Các phương pháp chẩn đoán bệnh viêm gan siêu vi C ............................................... 8
2.6.1 Phát hiện kháng thể Anti-HCV ............................... Error! Bookmark not defined.
2.6.2 Các thử nghiệm kháng thể HCV ............................................................................... 8
2.6.3 Thử nghiệm số lượng siêu vi .................................................................................... 9
2.6.4 Thử Nghiệm Chức Năng và Sinh Hóa của Gan ....................................................... 9
2.6.5 Sinh thiết gan (Liver Biopsy) ................................................................................. 10
2.7 Một số nghiên cứu trong và ngoài nước .................................................................... 10
2.7.1 Nghiên cứu nước ngoài ........................................................................................... 10
2.7.2 Nghiên cứu trong nước ........................................................................................... 11
2.8 Định danh HCV dựa vào vùng non-structure NS5B ................................................ 12
2.8.1 Phương pháp giải trình tự ....................................................................................... 12
2.8.2 Hiệu chỉnh trình tự (Proofreading) ......................................................................... 13
2.8.3 Nghiên cứu phát sinh loài ....................................................................................... 14
Chương 3 VẬT LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU ..................................18
iv
3.1 Thời gian và địa điểm nghiên cứu ............................................................................. 18
3.2. Vật liệu nghiên cứu ................................................................................................... 18
3.3. Phương pháp nghiên cứu .......................................................................................... 18
3.3.1 Phương pháp xây dựng database vùng NS5B HCV genotype ............................... 19
3.3.2 Phương pháp thu thập và đánh giá các bộ mồi ....................................................... 20
3.4.4Thực nghiệm ............................................................................................................ 21
3.3.4.1 Thu nhận mẫu ...................................................................................................... 21
3.3.4.2 Ly trích RNA và xác định sự hiện diện của vi-rút HCV...................................... 22
Quá trình ly trích RNA từ dịch virus và huyết thanh....................................................... 22
3.3.4.3 Kiểm tra sản phẩm DNA đã tách chiết: ............................................................... 23
3.3.4.4 Phản ứng PCR...................................................................................................... 23
3.3.4.5 Điện di xác định kết quả ...................................................................................... 24
3.3.4.6 Hiệu chỉnh trình tự .............................................................................................. 24
3.3.4.7 Dựng cây phả hệ .................................................................................................. 25
Chương 4 KẾT QUẢ VÀ THẢO LUẬN ............................................................26
4.1 Kết quả thu thập trình tự xây dựng database cục bộ.................................................. 26
4.2 Kết quả đánh giá và thiết kế mồi. .............................................................................. 26
4.3 Kết quả hiệu chỉnh tình tự sau khi giải ...................................................................... 28
4.4 Kết quả so sánh với cơ sở dữ liệu Genbank. ............................................................. 31
4.4 Kết quả xây dựng cây phân loài xác định subtype .................................................... 33
4.5 Kết quả xác định subtype ........................................................................................... 35
Chương 5 KẾT LUẬN VÀ ĐỀ NGHỊ ...............................................................37
5.1 Kết luận ...................................................................................................................... 37
5.2 Đề nghị ....................................................................................................................... 37
TÀI LIỆU THAM KHẢO ..............................................................................38
v
DANH SÁCH VIẾT TẮT VÀ THUẬT NGỮ
Nu
: Nucleotide
HCV
: Hepatitis C virus.
HCC
: Hepatocellular carcinoma.
HBV
: Hepatitis B virus.
rNTP
: Ribonucleoside triphosphate
RNA
: Ribonucleic acid
DNA
: Deoxyribonucleic acid
RNase inhibitor
: Ribonuclease inhibitor
WHO
: World Health Organization
Virion: là hạt virus đã đc lắp ráp hoàn chỉnh gồm vỏ protein bao bọc bên ngoài
(capsit), bên trong là lõi acid nucleic (genom), ngoài ra còn có một số hợp chất khác
như một số có vỏ ngoài (tạo bởi lipit kép+protein) và có thể có thêm gai glicoprotein.
Versant HCV (Lipa): Phương pháp xác định các kiểu gen HCV bằng hệ thống máy tự
động.
Chỉ số bootstrap: là tần số xuất hiện của một nhóm trên số lần giản đồ được thiết
lập. Đơn vị tính là % (phần trăm).
HCC: ung thư gan do viêm gan siêu vi C gây ra.
vi
DANH SÁCH CÁC BẢNG
Bảng 3.2 Các bước của phản ứng PCR ...........................................................................17
Bảng 4.1 Vị trí Nu nghi ngờ............................................................................................23
Bảng 4.2 Kết quả hiệu chỉnh trình tự sau khi giải...........................................................25
Bảng 4.3 Độ tương đồng của các mẫu trên cây phả hệ ...................................................27
Bảng 4.4 Kết quả phân loại suptype ...............................................................................28
vii
DANH SÁCH CÁC HÌNH
Hình 2.1 Diễn biến bệnh viêm gan C. ...................................................................... 4
Hình 2.2 Cấu trúc vi-rút HCV. ................................................................................. 5
Hình 2.3 Cấu trúc bộ gen HCV. ............................................................................... 6
Hình 3.1 Sơ đồ tổng quan quy trình xác định kiểu gen HCV. ...............................16
Hình 3.2 Hiện tượng gap và đa nu. ........................................................................19
Hình 3.3 Trình tự sau khi giải. ...............................................................................20
Hình 3.4 Peak nghi ngờ ..........................................................................................20
Hình 3.5 Cách xác định subtype.............................................................................21
Hình 4.1 Mẫu database cục bộ ...............................................................................22
Hình 4.2 Vùng trình tự đầu của mạch xuôi bị nhiễu tín hiệu .................................24
Hình 4.3 vùng trình tự đầu của mạch ngược bị nhiễu tín hiệu ...............................24
Hình 4.2 Peak Nu 306, 307, 308 ...........................................................................25
Hình 4.2 Cây phân loài ...........................................................................................26
viii
Chương 1 MỞ ĐẦU
1.1 Đặt vấn đề
Viêm gan do siêu vi C (HCV) là một bệnh nguy hiểm, khó điều trị vì triệu chứng
lâm sàng mơ hồ, trong khi đó hậu quả của bệnh để lại rất nặng nề: 50%-80% chuyển
qua mạn tính, và có tới 20%-25% bệnh nhân mạn tính diễn tiến qua xơ gan và ung thư
Theo ước tính của Tổ chức Y tế Thế giới WHO, trung bình 3% dân số bị nhiễm virút HCV, khoảng 170-200 triệu người. Nhiễm mới từ 1-3 trường hợp /100.000 người
mỗi năm. Việt Nam có tỷ lệ nhiễm HCV chiếm từ 1-5% dân số ước tính khoảng 8 triệu
người bị nhiễm virus viêm gan B hoặc C. Theo con số thống kê hiện nay thì số người
bị nhiễm đã tăng lên 20 triệu người. Trong đó có khoảng 4,5 triệu người nhiễm vi-rút
HCV. Khoảng 60% trường hợp xơ gan và gần 80% trường hợp ung thư gan sau nhiễm
vi-rút viêm gan B hoặc C. Ung thư gan là nguyên nhân thứ hai gây tử vong ở nam giới
tại Việt Nam. Trong khi đó tỉ lệ số người mắc bệnh viêm gan ngày một gia tăng mà
chưa có thuốc điều trị đặc hiệu và chi phí điều trị rất cao. (WHO, 2002)
Vì vậy, việc xác định, định lượng cũng như định được type của HCV là một mục
tiêu quan tâm hàng đầu của các bác sĩ, từ đó mới lựa chọn phương pháp điều trị, theo
dõi diễn tiến và phòng ngừa sự lây lan của vi rus HCV.
Ðể chẩn đoán viêm gan do siêu vi C, ngoài các xét ngiệm đánh giá chức năng gan,
siêu âm... thì các xét nghiệm tìm HCV giữ một vai trò rất quan trọng. Vì điều trị đặc
hiệu HCV rất tốn kém và có tác dụng phụ, cho nên trước khi tiến hành điều trị ta nên
đánh giá khả năng điều trị thành công cao hay thấp. Hai yếu tố giữ vai trò quan trọng
trong đáp ứng điều trị là số lựơng virus và loại (type) vi-rút.
Hiện nay đã có nhiều phương pháp xác định được genotype HCV như phương pháp
định genotype HCV bằng kỹ thuật giải trình tự của Trugene hay kỹ thuật InoLIPA lai
trên vạch của Bayer đều dựa trên một đoạn nucleotide đặc hiệu trên vùng 5’-NC. Đây
là cả hai phương pháp được y học chấp nhận để dùng trong các phòng thí nghiệm lâm
sàng. Phương pháp InoLIPA kém hơn phương pháp giải trình tự vì có nhiều trường
hợp không thể phân biệt được các subtype. Vì phương pháp này phải thực hiện trên
sản phẩm PCR là kết quả của phản ứng nested PCR nên khả năng bị ngoại nhiễm là
khá cao, đây chính là lí do giải thích được tại sao có khá nhiều trường hợp InoLIPA có
1
kết quả không thể xác định được genotype. Phương pháp giải trình tự trên vùng 5’NC
cũng được tiến hành để xác định type HCV nhưng người ta thấy rằng giải trình tự trên
vùng 5’NC để xác định kiểu gien không thể phân biệt genotype 6 và genotype 1. Mà
type 6 thường xuất hiện ở các nước Đông Nam Á. (Nguyễn Thanh Bảo và Phạm Hùng
Vân. 2008.)
Bên cạnh đó, có một số nhà nghiên cứu cho rằng nếu định genotype bằng giải trình
tự vùng 5’-NC sẽ không cho kết quả chính xác mà phải giải trình tự vùng NS5B trên
bộ gen của HCV. Một số y văn trên thế giới chứng minh rằng nếu định genotype HCV
trên vùng NS5B thì sẽ có thể phân biệt được các subtype tốt hơn là dựa trên vùng 5’NC, cũng như là phân biệt được type 6 với subtype 1b hay 1a và 1b chính xác hơn
(Laperche S. 2005, Jean-Jacques Lefrère. 2005).
Vì vậy đề tài này được xây dựng nhằm xác định type HCV dựa trên vùng NS5B
của virus HCV.
1.2 Yêu cầu đề tài
Giải trình tự gene NS5B và xác định các genotype của virus HCV bằng phương
pháp phả hệ phân tử nhằm phục vụ cho việc chẩn đoán và điều trị bệnh viêm gan do
vi-rút HCV gây ra tại Việt Nam.
1.3 Nội dung đề tài
Sau khi giải trình tự vùng gen này và hiệu chỉnh vùng gen sau khi giải.
Thu thập trình tự mẫu trên cơ sở dữ liệu sinh học, tiến hành dựng cây phân loài
cùng với bộ mẫu đã thu thập và chọn lọc trên các cơ sở dữ liệu sinh học.
Xác định chủng vi-rút có trong mẫu bệnh phẩm.
2
Chương 2 TỔNG QUAN TÀI LIỆU
2.1 Tổng quan bệnh viêm gan siêu vi C
Vào năm 1970 Harvay J. A chứng minh là nhiễm virus sau truyền máu phần lớn là
do vi-rút viêm gan không phải A và cũng không phải B được đặt tên là vi-rút không A
không B. 17 năm sau Houghton M và cộng sự dùng sinh học phân tử để tạo dòng và
xác định chính xác vi-rút không A không B. Năm 1989, vi-rút gây viêm gan không A
không B có tên chính thức là vi-rút viêm gan C. Hiện nay y học đã xác định vi-rút
HCV được phân làm 6 genotype. Trong từng genotype, HCV lại được phân thành các
subtype. Như genotype 1 có các subtype là 1a, 1b, 1c. Genotype 2 có các subtype là
2a, 2b, 2c... Genotype 1-3 phân bố khắp toàn cầu, trong đó subtype 1a và 1b thường
gặp nhất, chiếm 60% trường hợp nhiễm HCV và khó chữa trị hơn (Colin Tidy, 2012).
HCV xâm nhập thẳng vào cơ thể qua máu, rồi tấn công tế bào gan và nhân lên tại
đây. HCV làm cho tế bào gan bị viêm và đồng thời giết các tế bào gan. Có đến 80%
những người bị nhiễm HCV có khả năng trở thành bệnh mãn tính - có nghĩa là 6 tháng
sau khi bị nhiễm, bệnh vẫn không hết. Ða số những người bị HCV mãn tính không
thấy có triệu chứng nào và vẫn có cuộc sống bình thường. Tuy nhiên, trong số 10 25% người có HCV mãn tính, bệnh sẽ âm thầm tiến triển trong khoảng 10 - 40 năm,
và có thể làm hư gan trầm trọng, xơ gan, hoặc ung thư gan. Hiện nay bệnh viêm gan C
là nguyên nhân hàng đầu đưa đến việc thất bại trong thay ghép gan tại Hoa Kỳ. Cho
đến nay chưa có vacine đặc hiệu đối với căn bệnh này. Tuy nhiên đã có nhiều phương
pháp trị liệu được áp dụng có thể tiêu diệt hoặc làm chậm lại sự phát triển của siêu vi
HCV cho một số bệnh nhân. Những nghiên cứu gần đây cho thấy HCV có thể tồn tại
trong môi trường, ở nhiệt độ phòng ít nhất 16 giờ nhưng không lâu quá 4 ngày. Sau khi
bị nhiễm HCV, thời gian ủ bệnh thường kéo dài từ 2 đến 26 tuần, trung bình từ 7 đến 9
tuần (Colin Tidy, 2012).
2.2 Diễn tiến bệnh viên gan siêu vi C
-
Giai đoạn đầu gọi là nhiễm trùng cấp tính : thường chấm dứt sau 2 đến 12 tuần,
phần lớn bệnh nhân không có triệu chứng lâm sàng trong khi một số khác có triệu
chứng giống như bị cảm cúm nhẹ như buồn nôn, mệt mỏi, sốt, nhức đầu, ăn không
3
ngon, đau vùng bụng, và nhức bắp thịt hay ở khớp, có thể vàng da, vàng mắt, nước
tiểu đậm màu. Chẩn đoán bệnh dựa vào xét nghiệm máu.
-
Nhiễm trùng mãn tính: Khoảng 80% trường hợp, cơ thể của họ không đào thải
được hết vi-rút sau 6 tháng, nên chuyển thành viêm gan mãn tính. Ðặc điểm nổi bật
của bệnh viêm gan C mạn tính là sự tiến triển rất thầm lặng qua 10-30 năm, vì thế
người bệnh thường không được chẩn đoán và điều trị kịp thời. Tỉ lệ nhiễm HCV đưa
đến xơ gan 15-20% sau 20 năm, tỉ lệ càng tăng nếu thời gian nhiễm càng lâu.Trong
nhóm bệnh nhân xơ gan do HCV, mỗi năm 1.4-3.3% chuyển sang ung thư gan và 2.64% tử vong. (Stephen L Chen, 2006).
Nhiễm SVC cấp
20% có triệu chứng
80% không triệu chứng
10-20% hồi phục
80-90% viêm gan C mãn tính
60-70% viêm gan mạn sau 10 năm
20% sơ gan
sau 20 năm
15% ung thư gan
sau 30 năm
Hình 2.1 Các giai đoạn chuyển biến bệnh viêm gan C.
2.3 Các đường lây truyền chính của siêu vi viêm gan C
- Sử dụng kim chích chung
- Quan hệ tình dục với người bị viêm gan siêu vi C
- Truyền máu và các chế phẩm của máu nhiễm siêu vi viêm gan C
- Từ mẹ bị viêm gan siêu vi C qua con
- Không rõ đường lây truyền
(Colin Tidy, 2012)
4
2.2 Cấu trúc vi-rút HCV
Hình 2.2 Cấu trúc vi-rút HCV.
(Lindenbach et al, 2006)
HCV là loại vi rút hướng gan dưới kính hiển vi điện tử người ta phát hiện HCV có
hình cầu, đa diện hoặc hình que, kích thước nhỏ 55-65nm và có các vỏ ngoài với các
gai nhỏ khoảng 6nm được cấu tạo bằng glycoprotein, bao quanh một nucleocapsid 3035 nm có cấu trúc đối xứng 20 mặt. Các thể hình cầu HCV có mặt trong hệ tuần hoàn
dưới dạng các phức hợp miễn dịch hoặc kết hợp với lipoprotein huyết thanh.
2.3 Bộ gen vi-rút HCV
Bộ gen của vi-rút viêm gan C là một chuỗi đơn RNA dương, gồm khoảng 9600
nucleotide, được chia làm 3 vùng (Hình 2.3):
- Đầu 5’ không mã hóa (non-cording region) gồm 341 - 344 nucleotid, đây là vùng
ít biến đổi.
- Vùng mã hóa nằm giữa hai đầu 5’ và 3’. Vùng này chỉ có một khung đọc mở duy
nhất gồm 9379-9481 nucleotide. Khung đọc mở duy nhất này được dịch mã và
tiến hành sản xuất một sản phẩm protein duy nhất, mà sau đó được tiếp tục xử lý
để sản xuất các protein hoạt động nhỏ hơn.
- Đầu 3’ không mã hóa 3 'UTR chứa khoảng 225 nucleotide, bao gồm ba cấu trúc
vòng lặp SL1, SL2 và SL3. 3 'UTR tương tác với NS5B RdRp và với hai trong số
bốn cấu trúc vòng lặp ổn định nằm ở đầu 3' của trình tự NS5B.
5
Rfd
RNA virut viêm gan C
(9600 nt base)
Gene gốc mã hóa polyprotein
5’NTR
protein cấu trúc
protein phi cấu trúc
3’NTR
C
E1
E2
NS1
NS2
NS3
NS4
A
NS4
B
NS5
A
NS5
B
Hình 2.3 Cấu trúc bộ gen HCV (Mónica Anzola và cvt, 2003).
Các protein cấu trúc bao gồm:
- E1: Là glycoprotein xuyên màng đóng vai quan trọng trong nhập bào tạo điều
kiện cho các phản ứng tổng hợp.
- E2: Đóng vai trò quan trọng trong quá trình xâm nhiễm vào tế bào chủ. Vi-rút
xâm nhập tế bào thông qua sự tương tác E2 với một hoặc một số thành phần của
phức hợp thụ thể. (Chevaliez S, Pawlotsky JM. 2006)
Các protein không cấu trúc bao gồm:
- NS2: là một protein màng đóng vai trò là một protease và tương tác với các
protein tế bào chủ
- NS3: là protein có đầu N serine protease hoạt động và đầu C chứa NTPase /
helicase hoạt động. Nằm trong mạng lưới nội chất và tạo thành một phức hợp
heterodimeric với NS4A.
- NS4B: là protein màng, nằm trong mạng lưới nội chất và đóng một vai trò quan
trọng đối với việc thu nhận các protein virus khác. Nó tạo ra những thay đổi về
hình thái đối với mạng lưới nội chất tạo thành một cấu trúc gọi là hệ thống màng
- NS5A: là một phosphoprotein, đóng vai trò quan trọng trong việc nhân lên của
virus, điều khiển các phản ứng interferon. Nó có nguồn gốc từ một polyprotein
lớn được dịch từ bộ gen HCV, và tiếp tục được xử lý bởi protein 3(NS3)
protease. (Chevaliez.S và Pawlotsky.JM. 2006)
6
- NS5B: có chức năng quan trọng của sao chép RNA của HCV bằng cách sử dụng
các sợi RNA dương làm mẫu và xúc tác các phản ứng triphosphate
ribonucleoside (rNTP) khi sao chép RNA. Protein do NS5B mã hóa giữ vai trò
sao chép RNA virus, không có hoạt tính sửa sai nên bộ gene HCV có khả năng
mang nhiều sai sót qua các lần sao chép, vì thế đặc tính khá quan trọng của HCV
là tính biến động di truyền cao. Tuy nhiên tính biến động này phân bố không
đồng đều trên bộ gen. (Chevaliez S, Pawlotsky JM. 2006). Cụ thể:
Tính biến động cao ở vùng không mã hóa vỏ ngoài E1 (31-47%) và E2/NS1 (2943%), cao nhất ở đoạn vùng siêu biến 1 (HVR1) của E2 (50%).
Tính biến động nhất thấp ở 5’URT (<10%), ở vùng lõi (12-19%) và ở vùng NS3
(20-30%), do chức năng quan trọng của vùng này nên không chịu được nhiều biến dị.
So sánh trình tự nucleotid của các HCV – RNA ở những người bị nhiễm HCV từ
các vùng địa lý khác nhau người ta thấy có sự khác biệt giữa các chuỗi nucleotid của
các virus HCV phân lập được. Tuỳ theo mức độ khác biệt này người ta phân loại theo
các kiểu gen hoặc các kiểu phụ khác nhau:
- Khi có sự khác biệt >20% về trình tự các nucleotid ở các genome thì chúng thuộc
các kiểu gen (genotype) khác nhau.
- Cùng một genotype nhưng có sự khác biệt <20% trình tự nucleotid thì được xếp
thành các kiểu phụ (subtype) khác nhau.
Sự xếp loại các kiểu gen (genotype) dựa trên so sánh các vùng khác nhau trên bộ
gen. Nếu dựa vào vùng 5’ không mã hoá để so sánh thì có 6 kiểu gen, và 11 kiểu phụ
khác nhau. Nếu dựa vào vùng gen E1 của 51 chủng phân lập khắp thế giới thì ít nhất
có 12 kiểu gen khác nhau.
2.4 Sự phân bố các kiểu gen và kiểu phụ HCV
- Kiểu 1a thường gặp ở Bắc Mỹ và Nam Mỹ, Australia.
- Kiểu 1b thường gặp ở Châu Âu và Châu Á.
- Kiểu 2a thường gặp ở Nhật và Trung quốc.
- Kiểu 2b thường gặp ở Mỹ và Bắc Âu.
- Kiểu 2c thường gặp ở Tây và Nam Âu.
- Kiểu 3a thường gặp ở Australia và Nam Á.
- Kiểu 4a thường gặp ở Ai cập và Zaire.
- Kiểu 4c thường gặp ở miền trung Châu Phi.
7
- Kiểu 5a thường gặp ở Nam Phi.
- Kiểu 6a thường gặp ở Nam Á, Việt Nam
- Kiểu 7a và 7b thường gặp ở Thái Lan.
- Kiểu 8a, 8b và 9a thường gặp ở Việt nam.
- Kiểu 10a và 11a gặp ở Indonesia.
- Kiểu 1b, 2b và 2a chủ yếu gặp ở vùng Viễn đông và miền nam Châu Phi.
(Nizar N. Zein, 2000)
2.5 Vai trò của nghiên cứu xác định kiểu gen (genotype) và kiểu phụ (subtype)
- Xác định nguy cơ lây nhiễm: Genotype 1b thường gặp ở bệnh nhân được truyền
máu, genotype 3a thường gặp ở đối tượng tiêm chích ma túy. Hiện nay nhiễm vi rút C
genotype 3a gia tăng do số người tiêm chích ma túy tăng lên, còn những người nhiễm
HCV genotype 1b thì giảm do tiến bộ trong kỹ thuật truyền máu.
- Liên quan giữa genotype và mô học: Genotype 1b có nguy cơ trở thành HCC
(ung thư gan) cao gấp 3 lần so với các genotype khác điều này được lý giải là do
những người nhiễm genotype 1b thường sớm hơn những người nhiễm genotype 2 và 3
vài thập kỷ. Các nghiên cứu ở Ý và Pháp lại thấy các tổn thương mô học độc lập với
các genotype.
- Genotype và dự đoán đáp ứng với điều trị: Thông tin về genotype rất quan trọng
và được sử dụng để dự đoán kết quả điều trị. Tỉ lệ đáp ứng kéo dài khi sử dụng
Peginterferon kết hợp với Ribavirin thường cao hơn ở genotype 2, 3 so với genotype1.
Genotype 1 được xem là genotype khó khăn nhất với các liệu pháp điều trị hiện nay.
Genotype 2 và 3 đáp ứng với điều trị hiện nay tốt hơn có thể lên đến 70% - 90%.
Nhiều ý kiến cho rằng các genotype vi rút viêm gan C khác nhau có thời gian sống
khác nhau dẫn đến thời gian và phương pháp điều trị khác nhau. Ví dụ như theo giả
thiết thì genotype 2, 3 vi rút viêm gan C có đời sống ngắn hơn genotype 1, vì thế sự
thải loại genotype 2, 3 thì dễ hơn (Trương Phi Hùng, 2009).
2.6. Các phương pháp thử nghiệm lâm sàng chẩn đoán bệnh viêm gan siêu vi C
hiện nay
2.6.2 Các thử nghiệm kháng thể HCV
ELISA II là một cuộc thử nghiệm máu đơn giản để phát hiện kháng thể HCV. Kỹ
thuật này gồm 3 thành phần chính tham gia: kháng nguyên, kháng thể, chất chỉ thị màu
8
Thông qua hoạt tính xúc tác của enzyme làm giải phóng oxy nguyên tử từ H2O2 oxy
hóa cơ chất chỉ thị màu từ đó phát hiện vi-rút viêm gan C.
Ưu điểm: đơn giản
Nhược điểm: độ đặc hiệu bị giới hạn (chỉ sử dụng 1 epitop – nhận diện kháng
nguyên). Phải đánh dấu cho từng kháng nguyên chuyên biệt. Phải thử nghiệm nhiều
kháng nguyên khác nhau để có độ tin cậy.
2.6.3 Thử nghiệm số lượng siêu vi
Một số thử nghiệm máu để đo lường sức hoạt động của gan. Chỉ số đo lường phổ
thông nhất là ALT và AST (alanine aminotransferase & aspartate aminotransferase mà trước đây gọi là SGPT và SGOT). ALT và AST là những enzyme được tiết vào
trong máu khi gan bị hư và thường tăng cao ở người bị nhiễm HCV. Bệnh nhân bị
nhiễm HCV cho chỉ số hai loại men gan này cao, đây là dấu hiệu đầu tiên họ đã bị
nhiễm bệnh. Những cách đo lường khác là ALK và GGT (alkaline phosphatase &
gamma-glutamyl transpeptidase) cũng được sử dụng trong việc thử nghiệm. Mức độ
bất thường có thể biểu lộ tình trạng xơ gan hoặc ống dẫn mật bị nghẹt, cũng như một
số trường hợp bất thường khác. Ngoài ra có thể đo thời gian đông máu bằng phương
pháp đo thời lượng "prothrombin" và mức độ mật vàng (bilirubin). Bilirubin là một sắc
tố thường thấy trong máu của người có viêm gan. Chất bilirubin cao sẽ gây ra chứng
vàng da (Philippe Halfon, 2006).
2.6.4 Thử Nghiệm Chức Năng và Sinh Hóa của Gan
Một số thử nghiệm máu để đo lường sức hoạt động của gan. Số đo lường phổ thông
nhất là ALT và AST (alanine aminotransferase & aspartate aminotransferase - mà
trước đây gọi là SGPT và SGOT). ALT và AST là những chất men (enzymes) được
tiết vào trong máu khi gan bị hư và thường tăng cao ở người bị nhiễm HCV. Bệnh
nhân bị nhiễm HCV cho chỉ số hai loại men gan này cao, đây là dấu hiệu đầu tiên họ
đã bị nhiễm bệnh. Những cách đo lường khác là ALK và GGT (alkaline phosphatase
& gamma-glutamyl transpeptidase) cũng được sử dụng trong việc thử nghiệm. Mức
độ bất thường có thể biểu lộ tình trạng xơ gan hoặc ống dẫn mật bị nghẹt, cũng như
một số trường hợp bất thường khác. Ngoài ra có thể đo thời gian đông máu bằng
phương pháp đo thời lượng (prothrombin) và mức độ mật vàng (bilirubin). Bilirubin là
một sắc tố thường thấy trong máu của người có viêm gan. Chất bilirubin cao sẽ gây ra
chứng vàng da.
9
2.6.5 Sinh thiết gan (Liver Biopsy)
Sinh thiết (hay thử mẫu tế bào) gan được dùng để đo lường mức độ viêm, số lượng
sẹo, và tình trạng sức khỏe của gan. Phương pháp này cũng có thể dùng để xác định
cách chữa trị (Alan Franciscus 2013)
2.7 Một số nghiên cứu trong và ngoài nước
Dựa trên mức độ nguy hiểm của vi-rút viêm gan C nên đã có nhiều công trình
nghiên cứu trong và ngoài nước được tiến hành nhằm pháp hiện và xác định chủng virút HCV ở mức type và subtype nhằm phục vụ cho việc điều trị.
2.7.1 Nghiên cứu nước ngoài
P. Halfon (2001) Xác định kiểu gen Virus viêm gan C Dựa trên 5’NC bằng phân
tích trình tự (Trugene). Đây là một trong những xét nghiệm kiểu gen thường được sử
dụng trên toàn thế giới, trong nghiên cứu này tác giả đã dựa vào bước giải trình tự trên
vùng gen NS5B để tính độ chính xác và nhằm so sánh kết quả. Phương pháp này
không đòi hỏi bước xử lý mẫu bổ sung và sử dụng các sản phẩm thu được từ phản ứng
khuếch đại duy nhất, do đó loại trừ sự chậm trễ và nguy cơ ô nhiễm. Tuy nhiên,
phương pháp này tốn kém đòi hỏi thiết bị đặc biệt. Mức độ bảo tồn trong khu vực này
không thể phân biệt chủng, như trong trường hợp với phân nhóm 2a và 2c.
Nakatani SM và vtc (2010) Thực hiện nghiên cứu xác định genotype viêm gan siêu
vi C dựa trên vùng gen NS5B. Trong phương pháp này, tác giả thiết kế mồi bám vào
các trong khu vực bảo tồn của vùng gen NS5B. Một cặp mồi và ba đầu dò khác nhau
được dán nhãn với fluorophore khác nhau được thiết kế để khuếch đại và phát hiện
kiểu gen 1a, 1b, 3a. Tương tự như vậy tác giả thiết kế mồi và đầu dò tương thích để
phát hiện kiểu gen 2a, 2b, và 2c. Với 304 mẫu bệnh lâm sàng được sử dụng để so sánh
giữa hai phương pháp real - time PCR genotyping với LiPA v. 1. Trong số đó có 9
mẫu real-time PCR không khuếch đại được nên xuất hiện 3% kết quả âm tính giả. 295
mẫu còn lại cả 2 phương pháp đều cho kết quả như nhau khi xác định ớ mức type.
Nhưng khi xác định ở mức subtype thì có 68 mẫu phương pháp real-time PCR xác
định được còn phương pháp LiPA v. 1thì không. Real-time PCR genotyping mô tả ở
đây cho thấy độ chính xác cao ở cấp subtype, ít bước xử lý và thời gian quay vòng
nhanh, chi phí thấp, có thể cung cấp chính xác hơn mối tương quan giữa các kết quả
lâm sàng và các kiểu gen khác nhau. Nhưng nghiên cứu này chỉ dừng lại ở các subtype
1a, 1b, 3a, 2a,2b, và 2c, không thể khuếch đại 3% số mẫu (9 mẫu). Những kết quả này
10
cho thấy nếu nhắm mục tiêu vào khu vực có nhiều biến đổi như vùng gen NS5B có
khả năng làm suy yếu hiệu quả khuếch đại. Những biến đổi tiềm tàng trên vùng gen
này có thể làm giảm hiệu năng của mồi PCR và các đầu dò.
Sueli M Nakatani và ctv (2011) tiến hành so sánh hiệu năng xác định kiểu gen HCV
dựa trên khu vực 5 'UTR với một phần trình tự trên khu vực NS5B của 171 bệnh nhân
Brazil mắc bệnh viêm gan C mãn tính. Kết quả cho thấy không có sự khác biệt trong
việc phân loại của tất cả 171 mẫu bằng hai phương pháp phân tích trình tự NS5B và
Lipa (5'UTR). Tuy nhiên, sự khác biệt ở cấp subtype đã được tìm thấy tới 47,9%
(82/171). Trong đó phương pháp Lipa không thể phân biệt 39,6% (40/101) kiểu gen ở
cấp subtype mà chủ yếu là nhầm lẫn giữa subtype 1a, 1b. Hiện nay, xét nghiệm dựa
trên khu vực 5’UTR chính xác với hơn 95% với các kiểu gen đã được xác định trình tự
nucleotide của khu vực NS5B hoặc vùng mã hóa khác của bộ gen HCV (Simmonds P
và ctv,1993 ). Trong nghiên cứu này, phương pháp Lipa và giải trình tự trên vùng gen
NS5B cho thấy sự phù hợp 100% xác chính xác các type. Tuy nhiên, tùy thuộc vào
khu vực địa lý, kiểu gen xác định dựa trên 5'UTR có thể không đáng tin cậy bởi vì một
số kiểu gen 6 biến thể đã được tìm thấy ở Đông Nam Á có trình tự 5'UTR giống hệt
các kiểu gen 1a hoặc 1b ( Murphy DG và ctv, 2007).
2.7.2 Nghiên cứu trong nước
song song với những nghiên cứu của thế giới, ở Việt Nam cũng có những đề
nghiên cứu để có khả năng đáp ứng điều trị cho căn bệnh nguy hiểm này.
Hồ Tấn Đạt và cộng sự (2005). Xác định HCVRNA bằng kỹ thuật nested PCR
cho 327 trường hợp bệnh nhân người Việt Nam. Kết quả cho thấy kiểu gen HCV chủ
yếu ở người Việt Nam là kiểu gen 1 (Chiếm 58,4%), tiếp theo là kiểu gen 6 (23,9%),
và kiểu gen 2 (13,1%) có 14 trường hợp (4,3%) không xác định được kiểu gen HCV5.
Trong nghiên cứu này ứng dụng kỹ thuật bDNA (Khuếch đại tín hiệu) để định lượng
siêu vi C trong máu. Ưu điểm của kỹ thuật này là tín hiệu nhận được sẽ tuyến tính với
số lượng siêu vi C trong mẫu, từ đó giúp cho việc định lượng chính xác hơn, tuy nhiên
lại có một nhược điểm là độ nhạy thấp nên sẽ có một số trường hợp dưới ngưỡng định
lượng được mà siêu vi C vẫn còn hoạt động nên vẫn có khả năng lây nhiễm.
Nguyễn Thanh Bảo và Phạm Hùng Vân (2008) Áp dụng kỹ thuật giải trình tự trực tiếp
sản phẩm PCR thu nhận được từ thử nghiệm RT real-time PCR vùng 5’-NC để làm xét
nghiệm định gen HCV. Nghiên cứu tiến hành trên 2000 mẫu HCV-RNA dương tính và
11
được xác định genotype bằng cách giải trình tự trực tiếp sản phẩm PCR của qui trình
qPCR . Kết quả định lượng tương ứng với kết quả xác định genotype của 234 mẫu
trong 2000 mẫu được phân tích.
Phương Thị Hà (2011) Xác định kiểu gen vi-rút viêm gan C trong huyết thanh bệnh
nhân viêm gan C bằng kỹ thuật sinh học phân tử Real time – PCR. Hệ mồi và mẫu dò
trên vùng 5’NC của HCV thiết kế đặc trưng cho HCV genotype 1, 2, 3 và 6. Việc bố
trí thí nghiệm cũng được tiến hành tương tự cho các genotype còn lại. Kết quả là xác
định được genotype của 228 mẫu bệnh. Trong số 151 mẫu của bệnh nhân đã xác định
là genotype l lấy ngẫu nhiên 30 trường hợp đem giải trình tự gen trên đoạn NS5b thì
thấy tỉ lệ nhầm lẫn giữa type 1 và type 6 trong 30 mẫu định type bằng phương pháp
Real-time PCR với phương pháp giải trình tự gen là 40,74%. Phương pháp này có
nhiều ưu điểm như: tiện lợi, nhanh, chi phi thấp phù hợp với đa số điều kiện của bệnh
nhân, tuy nhiên không xác định được subtype và nhầm lẫn giữa type 1 và type 6. vì
vậy sẽ ảnh hưởng đến kết quả điều trị của bệnh nhân, do các genotype HCV có sự
khác nhau về độc lực, khả năng gây bệnh và khả năng đáp ứng điều trị và genotype 1
thường đáp ứng thấp hơn với các genotype khác.
2.8 Định danh HCV dựa vào vùng non-structure NS5B
Vùng NS5B thuộc vùng gen không cấu trúc, nằm ở gần đầu 3’UTR.Vùng NS5B có
độ bảo tồn và độ biến động cao, đặc trưng cho từng genotype và có thể dùng để phân
biệt đến từng subtype.
2.8.1 Phương pháp giải trình tự
Phương pháp giải trình tự vùng NS5B được xem là phương pháp chuẩn để xác định
genotype và subtype của virus HCV. Hai phương pháp chính được thực hiện là:
phương pháp hóa học của Maxam-Gilbert và phương pháp enzyme học của Sanger sử
dụng các dideoxynucleotide và một phương pháp được sử dụng hiện nay là phương
pháp giải trình tự bằng máy tự động.
Phương pháp hóa học của Maxam-Gilbert
Vào năm 1977, Maxam và Gilbert lần đầu tiên phát minh ra phương pháp giải trình
tự gen bằng phương pháp hóa học. Nguyên tắc của phương pháp là dựa vào sự thủy
phân phân tử DNA bằng phương pháp hóa học. Trước hết, tạo mạch khuôn DNA trên
cơ sở các phân tử DNA được đánh dấu phóng xạ P32 ở đầu 5’ và biến tính phân tử
DNA thành các mạch đơn không tự xoắn lại với nhau. Sau đó, thực hiện kĩ thuật xử lý
12
hóa học đặc hiệu để phân cắt các mạch đơn thành các đoạn ngắn hơn kém nhau một
nucleotide, từ đó xác định trình tự DNA bằng phương pháp điện di.
Ưu điểm: dễ tiến hành, chi phí thấp.
Nhược điểm: độ chuẩn xác không cao, cần phải thực hiện nhiều lần và loại bỏ các
sai sót để chọn kết quả gần đúng nhất.
Phương pháp enzyme giải trình tự DNA
Phương pháp enzyme được Sanger và các cộng sự phát minh cũng vào năm 1977,
và ngày nay phương pháp này càng được hoàn thiện và thực hiện dễ dàng tại các
phòng thí nghiệm.Nguyên tắc của phương pháp này dựa vào sự tổng hợp mạch bổ
sung cho trình tự cần xác định nhờ enzyme DNA polymerase. Bằng việc sử dụng thêm
các dideoxynucleotide và các nucleotide thông thường, kết quả là sự hình thành tập
hợp nhiều đoạn DNA có kích thước khác nhau. Cuối cùng phân tích các đoạn đó qua
điện di để xác định trình tự các nucleotide.
Ưu điểm: các bước tiến hành đơn giản, có độ chính xác cao và là cơ sở cho máy giải
trình tự gen tự động.
Nhược điểm: chỉ đọc được một đoạn trình tự ngắn.
Giải trình tự bằng máy tự động (automated sequencer)
Máy được thiết kế trên nguyên tắc sử dụng các dNTP do Sanger và cộng sự phát
minh. Trong quá trình tổng hợp DNA có sử dụng các mồi và dNTP đánh dấu huỳnh
quang thay cho đánh dấu phóng xạ, mỗi loại dNTP được đánh dấu huỳnh quang khác
nhau. Tất cả các đoạn cùng kết thúc tại một loại dNTP sẽ cho cùng một màu. Sau khi
điện di, kết quả sẽ được đưa ra qua một hệ thống máy tính.
Ưu điểm: giảm các thao tác, tiết kiệm hóa chất. Kiểm soát được các sai sót, đảm bảo
độ chính xác cao và trình tự đọc dài hơn so với 2 phương pháp trên.
2.8.2 Hiệu chỉnh trình tự (Proofreading)
Trình tự sau khi được xác định bằng hệ thống máy tự động (như ABI…) chưa thể
sử dụng ngay cho việc phân tích. Việc đọc base tự động do các máy thực hiện
(automated base-calling) có một tỷ lệ sai sót nhất định tuỳ theo phương pháp và loại
máy sử dụng. Sự sai sót này xảy ra bởi cường độ tín hiệu huỳnh quang thu được không
phải lúc nào cũng rõ ràng. Khoảng cách không đồng đều giữa các mũi tín hiệu cũng
như sự chồng lắp các tín hiệu dẫn đến việc máy tính nhận và hiển thị sai kết quả. Hiện
13
tượng này xảy ra do nhiều nguyên nhân như bản chất của trình tự khảo sát, sự nhiễm
các mẫu DNA khi thực hiện, thao tác và loại phương pháp giải trình tự sử dụng.
Mặc dù những cải tiến về mặt kỹ thuật và thuật toán nhằm cải thiện độ chính xác
trong việc đọc các base của máy đang được nghiên cứu tích cực, tuy nhiên tỷ lệ sai sót
vẫn có thể xảy ra và khó có thể đọc chính xác tuyệt đối bằng phương pháp tự động.
Khi một base bị đọc sai có thể dẫn đến nhiều sai lầm nghiêm trọng trong việc phân tích
sau này. Do vậy, biện pháp hiệu chỉnh lại trình tự cần được thực hiện trực tiếp bằng
phương pháp thủ công (quan sát) nhằm khắc phục tối đa việc xác định sai base.
(Ewing và ctv, 1998)
2.8.3 Nghiên cứu phát sinh loài
Nghiên cứu quan hệ phát sinh chủng loài là một lĩnh vực đã được tìm hiểu từ hàng
thế kỷ nay. Các nhà hệ thống học luôn cố gắng sử dụng các phương pháp có độ tin cậy
cao nhằm mô phỏng, suy luận cây tiến hoá chính xác nhất có thể từ các dữ liệu sinh
học. Trong những năm trước đây, việc thiếu những tiêu chuẩn khách quan cũng như
những phương pháp hỗ trợ đã khiến cho việc xây dựng các mô hình này rất khó khăn.
Các nghiên cứu thường tập trung xem xét các vấn đề về định nghĩa loài, sự hình thành
loài mới mà ít quan tấm đến vấn đề phát sinh loài. Ngày nay, việc nghiên cứu phát
sinh chủng loài không chỉ dừng lại ở việc mô tả, định danh mà còn góp phần giải thích
những quá trình sinh học diễn ra trong tế bào, cơ thể sống hay mối quan hệ giữa các
nhóm loài với nhau.
Những thành tựu của Sinh học phân tử vào những năm 1960 và sự hỗ trợ của máy
tính trong việc phân tích dữ liệu đã giúp đây nhanh việc nghiên cứu phát sinh loài rất
nhiều. Phản ứng PCR, lai DNA-DNA, kỹ thuật RAPD, hay DNA fingerprinting là
những kỹ thuật mới được ứng dụng. Bên cạnh đó, những kỹ thuật cũ như điện di dị
enzyme hay di truyền học tế bào vẫn tiếp tục được sử dụng trong nghiên cứu phát sinh
loài. Và hiện nay, để có thể xây dựng một mô hình phát sinh loài chính xác cần kết
hợp nhiều các công cụ với nhau. Với những sự kết hợp trên, những kết quả nghiên cứu
có độ tin cậy cao ngày một tăng, cho phép kiểm chứng những giả thuyết phát sinh loài.
Một trong các mục tiêu xây dựng cây phát sinh chủng loài dựa trên các trình tự
phân tử là nhằm tái hiện lại lịch sử tiến hoá của các loài. Để có được một cây phát sinh
loài chính xác, cần phải nghiên cứu trên nhiều họ gene. Ngoài ra, một vấn đề thường
gặp phải trong nghiên cứu phát sinh loài dựa vào dữ liệu phân tử là sự đối lập với các
14
dữ liệu hình thái học. Để giải quyết các mâu thuẫn này là cần xem xét khi nào thì đặc
tính hình thái hay phân tử phù hợp với vấn đề đặt ra, nghĩa là dữ liệu sau khi phân tích
phải tương thích với các dữ liệu khác mà nó có cùng quan hệ (Avise JC.1994).
Để có một nghiên cứu phát sinh loài đầy đủ cần thực hiện những bước cơ bản sau:
Chọn lựa dữ liệu và lấy mẫu đại diện
Nếu mục đích phân tích phát sinh chủng loài chỉ nhằm nghiên cứu trên một họ gene
thì việc chọn lựa dữ liệu là điều dễ dàng. Tuy nhiên khi quan tâm đến sự phát sinh
chủng loài của một nhóm sinh vật thì việc chọn dữ liệu có thể mở rộng hơn, chẳng hạn
kết hợp nhiều vùng DNA khác nhau. Với những loài sinh vật mà người ta cho là có
quan hệ gần thì người ta có thể chọn những vùng DNA có độ biến động cao (như
intron hay ITS), nhưng với nhóm sinh vật có quan hệ xa thì người ta lại chọn vùng
DNA có độ bảo tồn cao (ví dụ ribosomal LSU rDNA, gene mã hóa protein). Nếu việc
chọn vùng DNA có độ bảo tồn cao hay độ biến động cao sẽ có thể ảnh hưởng đến kết
quả cuối cùng, vì vậy khuynh hướng hiện nay cũng là khuynh hướng tốt nhất là kết
hợp cả hai hướng này cho cùng một nghiên cứu.
Trong việc chọn mẫu sinh vật đại diện, người ta có khuynh hướng chọn những loài
đại diện sao cho nó thể hiện tính da dạng sinh học tốt nhất có thể. Với trường hợp phân
tích một họ gene thì 2 điều kiện bắt buộc phải thỏa mãn là: sinh vật chọn lấy mẫu phải
đảm bảo tính đa dạng sinh học, gene trực giao và gene đẳng giao (orthologous và
paralogous) trong cùng một sinh vật lấy mẫu phải được đọc trình tự đầy đủ.
Để xác định hướng tiến hóa, việc thêm nhóm đối chứng (outgroup) có ý nghĩa quan
trọng đáng kể. Thông thường để tăng độ chính xác của cây tiến hóa, nhóm outgroup
được chọn thường là nhóm có quan hệ gần nhất với nhóm đang được phân tích.
Đọc trình tự gene, hiệu chỉnh trình tự và sắp cột thẳng hàng
Các phân tích phát sinh chủng loài dựa trên sự khác biệt khi quan sát các trình tự
được so sánh thẳng hàng. Do đó lỗi trình tự có thể làm cây tiến hóa không chính xác.
Đặc biệt với trường hợp vùng DNA có độ bảo tồn cao và nhà phân tích chọn mô hình
tiến hóa phức tạp thì lỗi trình tự sẽ cho ra kết quả có độ sai khác rất lớn. Để tránh
trường hợp này, người ta đọc trình tự cả hai sợi để việc hiệu chỉnh sau đó được đảm
bảo tính khách quan hơn.
Việc sắp cột thằng hàng có thể thực hiện bằng máy tính một cách tự động. Tuy
nhiên, với những gene hay vùng DNA kém bảo tồn thì quá trình sắp xếp thẳng hàng tự
15