VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SẢN 2
LẮP RÁP, CHÚ GIẢI VÀ PHÂN TÍCH HỆ PHIÊN MÃ TƠM SÚ
Penaeus monodon
Nguyễn Cường1*, Phạm Quang Huy1, Nguyễn Văn Lâm1, Hà Thị Thu1, Phạm Thị Hoa1,
Nguyễn Hải Triều1, Đậu Huy Tùng1, Nguyễn Giang Thu2, Nguyễn Hữu Ninh3,
Đồng Văn Quyền1, Chu Hoàng Hà1, Đinh Duy Kháng1
TĨM TẮT
Tơm sú (Penaeus monodon) là lồi thủy sản đem lại nguồn lợi lớn cho quốc gia trong những năm
gần đây. Tuy nhiên, các dữ liệu về hệ gene và hệ phiên mã của chúng còn hạn chế. Mặc dù cơng
việc gia hóa sử dụng các biện pháp di truyền chọn giống đã nâng cao chất lượng tôm sú. Tuy
nhiên, nhu cầu giải mã và phân tích hệ gene, hệ phiên mã của của tơm sú để tìm ra các chỉ thị phân
tử cũng như các dữ liệu quan trọng khác sẽ giúp tăng hiệu suất cho quá trình chọn giống. Trong
bài báo này, chúng tôi công bố kết quả giải trình tự hệ phiên mã của tơm sú bằng cơng nghệ đọc
trình tự thế hệ mới. Với 9 Gb dữ liệu thu được từ máy Illumina MiSeq, chúng tôi tiến hành lắp ráp
de novo để tạo ra ngân hàng với 51.638 transcript, từ đó thực hiện chú giải chức năng transcript,
phát hiện được 7.016 chỉ thị phân tử microsatellite và 17.783 SNP. Chúng tôi xây dựng hệ thống
website quản lý các ngân hàng transcript cũng như các công cụ phân tích cần thiết. Kết quả của
bài báo là tiền đề cho các nghiên cứu chuyên sâu hơn về lồi tơm sú mang lại nguồn lợi lớn này.
Từ khóa: hệ phiên mã, lắp ráp de novo, giải trình tự thế hệ mới, chú giải, biểu hiện gene, microsatellite, SNP.
I. ĐẶT VẤN ĐỀ
Động vật giáp xác chiếm 10% tổng sản
lượng thủy sản của cả thế giới và là một trong
những lĩnh vực nuôi trồng thủy sản tăng trưởng
nhanh nhất (trung bình 15% hằng năm từ năm
1970 và đạt 5 triệu tấn vào năm 2008 (FAO,
2010). Trong đó, tơm là sản phẩm thủy sản
có giá trị nhất trong nhóm này và được nuôi
trồng ở Việt Nam hiện nay là tôm sú Penaeus
monodon. Mặc dù là ngành sản xuất nuôi trồng
thủy sản đem lại nguồn lợi lớn cho quốc gia
nhưng ngành sản xuất này vẫn bị ảnh hưởng
nặng nề bởi thiên nhiên nhất là dịch bệnh như
là dịch đốm trắng (WSSV). Do đó, nhu cầu
nghiên cứu sâu hơn về hệ gene và các marker
phân tử hỗ trợ chọn giống dựa vào chỉ thị phân
tử để nâng cao năng suất ni về tính trạng
tăng trưởng và kháng bệnh là rất cần thiết.
Hiện nay, nguồn dữ liệu về tơm sú P.
monodon cịn khá khiêm tốn (Andriantahina và
ctv., 2013). Trên ngân hàng Genbank có tổng
cộng 39.908 EST được ứng dụng vào tìm các
điểm đa hình (ví dụ như SNP) và có khoảng
600 trình tự microsatellite (cập nhật tháng 10
năm 2013). Trong khi đó, P. monodon có 44
nhiễm sắc thể với kích thước hệ gene lớn là
~2,17 Gb (You EM và ctv., 2010).
Với sự ra đời và phát triển khơng ngừng
của cơng nghệ đọc trình tự thế hệ mới Next
Generation Sequencing (NGS), cơng suất đọc
trình tự có thể lên tới từ 8 Gb cho đến 600 Gb,
cho phép đọc trình tự nguyên bộ gene với mức
Viện Công nghệ Sinh học, Viện Hàn lâm KH&CN Việt Nam
*Email:
2
Vụ Khoa học Công nghệ & Môi trường, Bộ NN&PTNT
3
Viện Nghiên cứu Ni trồng Thủy sản I, Bộ NN&PTNT
1
TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - 6 - THÁNG 8/2015
9
VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SẢN 2
độ lặp rất lớn lên tới cả 100x. Hơn nữa, chi phí
đọc trình tự và thời gian đọc trình tự của cả hệ
gene cũng đã giảm đi đáng kể và có thể thực
hiện được ở các phịng thí nghiệm có quy mơ
trung bình. Do đó, NGS là một cơng cụ mạnh
để có thể giải trình tự tồn bộ hệ gene hoặc hệ
phiên mã của một lồi nào đó từ đó có thể ứng
dụng rất nhiều trong phân tích sinh học phân
tử như đánh giá biểu hiện gene, phát hiện chỉ
thị phân tử, phân tích SNP/InDel,... hoặc ứng
dụng trong chuẩn đốn bệnh.
Trong nghiên cứu này, chúng tơi đọc trình
tự hệ phiên mã của tơm sú Penaeus monodon,
tiến hành lắp ráp de novo để thu được ngân
hàng các transcript. Từ đó, chúng tơi tiến hành
chú giải các transcript thu được, phân tích
biểu hiện gene, tìm kiếm các chỉ thị phân tử
microsatellite và phát hiện các chỉ thị SNP.
Chúng tôi cũng tiến hành xây dựng hệ thống
phần mềm quản lý ngân hàng các transcript
cùng với các cơng cụ phân tích cần thiết.
II. VẬT LIỆU VÀ PHƯƠNG PHÁP
NGHIÊN CỨU
2.1. Vật liệu
Một cá thể tôm sú Penaeus monodon được
lấy từ vùng ni trồng thủy sản Ninh Thuận,
sau đó mô tim của cá thể này được đem đi tách
chiết mRNA tổng số và đọc trình tự trên máy
giải trình tự thế hệ mới Illumina Miseq.
2.2. Phương pháp
2.2.1. Lắp ráp de novo hệ phiên mã
Dữ liệu trình tự đọc sau khi được giải
trình tự sẽ được tiền xử lý để loại bỏ adaptor và
trình tự xấu có chất lượng thấp và độ dài ngắn.
Những trình tự đọc có chất lượng base thấp
(chất lượng QC<20) cũng như số base nhiễu
nhiều (tỉ lệ N base>2%) hoặc bị dính adaptor
sẽ được loại bỏ bằng công cụ được đánh giá
rất cao Trimmomatic (dellab.
org/cms/?page=trimmomatic). Những trình tự
đọc chất lượng tốt từ mơ tim được lắp ráp để
tạo nên hệ phiên mã bao gồm các transcript
của tôm sú bằng phần mềm Trinity (http://
10
trinityrnaseq.sourceforge.net/) (Grabherr và
ctv., 2011) với các tham số mặc định. Để đánh
giá chất lượng lắp ráp chúng tơi đưa ra 3 tiêu
chí: N50, phân bố độ dài của các transcript và
số lượng trình tự đọc được ánh xạ ngược trở
lại hệ phiên mã tham chiếu.
2.2.2. Chú giải và phân loại transcript trong
hệ phiên mã
Chú giải chức năng cho các transcript
trong hệ phiên mã địi hỏi phải sử dụng những
thuật tốn tìm kiếm tương đồng trên các cơ sở
dữ liệu protein quan trọng. Trong nghiên cứu
này, chúng tôi sử dụng công cụ BLAST+ với
chế độ BLASTX để so sánh toàn bộ transcript
lên các cơ sở dữ liệu NCBI non-redundant
protein (Nr, />Swiss-Prot ( với
tham số E-value là 1e-6. Trong trường hợp kết
quả chú giải trên các cơ sở dữ liệu là khác nhau
thì thứ tự ưu tiên kết quả chú giải các vùng
mã hóa protein là Nr, Swiss-Prot. Kết quả chú
giải từ ngân hàng Nr sau đó được phần mềm
Blast2GO (Conesa và ctv., 2005) sử dụng để
lấy ra mã Gene Ontology (GO) riêng biệt cho
mỗi transcript. Toàn bộ transcript trong hệ phiên
mã sẽ được ánh xạ vào các mã GO và phân loại
dựa vào 3 hạng mục: quá trình sinh học, thành
phần tế bào và phân tử chức năng. Hơn thế nữa,
từ số liệu gene ontology, mỗi một transcript
sau khi chú giải sẽ được gán các mã số enzyme
commission (EC code) tương đương.
2.2.3. Phân tích biểu hiện gene trong mơ tim
Trình tự đọc đã tinh sạch từ thư viện mô
tim sẽ được ánh xạ ngược trở lại hệ phiên mã
vừa lắp ráp sử dụng Bowtie2 ( />(Langmead and Salzberg, 2012) với tham số
mặc định. Tổng số lượng trình tự đọc ánh xạ
được vào mỗi transcript sẽ được đếm xem xuất
hiện (biểu hiện) bao nhiêu lần trong mô tim bằng
công cụ SAMtools (rceforge.
net/) (Li và ctv., 2009). Việc đếm những trình tự
đọc như thế này được tiêu chuẩn hóa theo đơn
TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - 6 - THAÙNG 8/2015
VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SẢN 2
vị RPKM (reads per kilobase of transcripts per
million fragments mapped). Toàn bộ các phần
mềm phân tích biểu hiện trên đều được tích hợp
với tham số mặc định trong chương trình viết bởi
ngơn ngữ Perlrun_RSEM_align_n_estimate.pl
có trong gói phần mềm Trinity.
2.2.4. Phát hiện microsatellite marker và
SNP marker trong ngân hàng transcript
Từ các transcript đã lắp ráp, phần
mềm MISA (-gatersleben.
de/misa/) (Thiel và ctv., 2003) sẽ tìm kiếm
các microsatellite tiềm năng có miền trong
khoảng từ di- cho đến hexanucleotide. Giá
trị lặp nhỏ nhất cho mỗi miền bao gồm: 8 đối
với dinucleotide, sáu cho tri-, năm cho tetra-,
bốn cho penta- và ba cho hexanucleotide. Với
trường hợp microsatellite là mononucleotide
thì khơng được nghiên cứu vì rất khó để có
thế phân biệt được mononucleotide thật sự
từ những vùng polyadenylation hay đó chỉ là
mononucleotideđược tạo ra do lỗi giải trình tự.
Các trình tự transcript bên cạnh đó cũng
sẽ được khai phá các marker đa hình đơn
nucleotide SNP. Chúng tơi ánh xạ các trình
tự đọc ngược trở lại vào hệ phiên mã tham
chiếu vừa lắp ráp bằng phần mềm Bowtie2.
Kết quả ánh xạ sẽ được 2 công cụ SAMtools
và VarScan ( />(Koboldt và ctv., 2012) xử lý để tìm ra các loci
tiềm năng bị thay đổi nucleotide. Để sàng lọc
kết quả dương tính giả do lỗi giải trình tự hoặc
mẫu nhiễm trình tự lạ chúng tôi áp dụng các
tham số sau: chỉ lấy những trình tự đọc có chất
lượng ánh xạ lớn hơn 20, tần số alen của biến
dị phải lớn hơn 0,1 và độ sâu tối thiểu của alen
biến dị phải lớn hơn 10.
III. KẾT QUẢ
3.1. Lắp ráp de novo và đánh giá chất lượng
lắp ráp
Mẫu mô tim từ một cá thể tôm nuôi từ
vùng nuôi trồng thủy sản Ninh Thuận. Tổng
cộng 45.063.432 trình tự đọc thơ được giải
trình tự theo phương pháp paired-end từ máy
giải trình tự Illumina MiSeq với độ dài từ 35200 bp. Sau khi tiền xử lý thu được 40.313.722
trình tự có chất lượng tốt với độ dài trong
khoảng 70-200 bp (đạt tỉ lệ 89,46%).
Từ dữ liệu trình tự đọc đã được tiền xử
lý, chúng tôi sử dụng phần mềm Trinity để lắp
ráp de novo hệ phiên mã và thu được 51.638
transcript có độ dài trung bình 531,24 bp và
N50 là 726 bp. Phân bố độ dài của các transcript được mơ tả như trong (Hình 1) cho thấy
phần lớn các transcript có kích thước nhỏ
(73,94% contig có độ dài từ 200-500 bp). Tuy
nhiên có đến 93,66% số lượng read được sử
dụng cho lắp ráp de novo với độ sâu của toàn
bộ hệ phiên mã sau lắp ráp là 139X. Từ 3 tiêu
chí là N50, số lượng trình tự đọc sử dụng cho
lắp ráp và phân bố độ dài cho thấy chất lượng
lắp ráp de novo là tốt.
Bảng 1. Thống kê số liệu dữ liệu thô và sau khi tiền xử lý
Mô tim
Mô tim – tinh sạch
Số lượng trình tự đọc
45.063.432
40.313.722
Chú giải chức năng cho hệ phiên mã
Sử dụng cơng cụ BLAST với chế độ
BLASTX tìm kiếm những transcript vừa lắp
ráp trên cơ sở dữ liệu nr NCBI với tham số
E-value 1e-6, chúng tơi đã tìm được 14.601
Độ dài
35-200
70-200
%GC
59
59
% Tiền xử lý
89,46%
transcript được chú giải chức năng (Hình 2).
Vì độ dài trung bình của transcript sau khi lắp
ráp khá ngắn (độ dài N50 dài 726 bp) và khơng
có hệ gene tham chiếu tơm sú nên sẽ có một
lượng lớn transcript khơng thể chú giải chức
TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - 6 - THÁNG 8/2015
11
VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SẢN 2
năng. Phân bố E-value cho những kết quả tin chiếm 21,1%. Trong khi đó 99,9% transcript
cậy nhất thể hiện các transcript được chú giải có độ tương đồng lớn hơn 40% và 0,01% trancó độ tin cậy rất cao (E-value nhỏ hơn 1e- script có độ tương đồng từ 40% đến 15%.
15) và dải E-value phân bố từ 1e-15 đến 1e-5
Bảng 2. Thống kê chất lượng transcript sau khi lắp ráp de novo
Tổng số Transcript Transcript Average N50
transcript ngắn nhất dài nhất
Mơ tim
51.638
201
15.659
531,24
Hình 1. Phân bố độ dài của toàn bộ transcript sau khi lắp ráp
N10
%GC Tổng số base % trình tự đọc sử
dụng
726 3.273 49,81
27.432.242
37.760.643
(93,66%)
Hình 2. Thống kê kết quả chú giải lên cơ
sở dữ liệu NCBI
Hình 3. Thống kê lồi từ kết quả
Tophit BLASTX
Phân bố kết quả có độ tương đồng cao tơm sú trên cây phân lồi của NCBI trong khi
nhất từ cơ sở dữ liệu NR của NCBI được xây đó kết quả ứng với tơm sú Penaeus monodon
dựng thành cây phân loài, chỉ ra rằng loài đứng thứ 6 với 330 kết quả (Hình 3).
Daphnia pulex chiếm đa số và cũng đứng gần
12
TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - 6 - THAÙNG 8/2015
VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SẢN 2
3.2. Phân tích biểu hiện trong mô tim
RPKM là một đơn vị biểu hiện thể hiện
mức độ biểu hiện của từng transcript/contig
đối với một hệ phiên mã hồn chỉnh và được
tính theo cơng thức như sau:
Do đó, chúng tơi đưa ra sơ đồ phân bố
biểu hiện cho tồn bộ các transcript của mơ
tim trong Hình 4. Những transcript có mức
độ biểu hiện cao trong mơ tim (6,22% tồn bộ
transcript) là những transcript tiềm năng đặc
hiệu cho riêng mô tim và sẽ được nghiên cứu
sâu hơn.
3.3. Khai phá dữ liệu microsatellite và SNP
Toàn bộ transcript trong hệ phiên mã mô
tim tôm sú được khai phá để tìm các locus đa
hình bao gồm microsatellite và SNP, 18.838
microsatellite được tìm thấy trong 13.965
transcript trong đó có 3.551 transcript có nhiều
hơn một microsatellite và 2.759 microsatellite
ở dạng compound (Bảng 3). Trong số các
microsatellite được tìm thấy chiếm số lượng
nhiều nhất là dinucleotide (42%) và trinucleotide
(52,8%), theo sau đó là tetra- (4,97%), hexa(0,16%) và pentanucleotide (0,06%) (Bảng
4). Trong dinucleotide microsatellite, miền lặp
nhiều nhất là AG/CT (45,6%), theo sau là miền
lặp là AC/GT (35,52%). Còn với trinucleotide
microsatellite, miền lặp nhiều nhất là AGG/
CCT (21,3%), theo sau là miền lặp AGC/CTG
(16,95%).
Số lượng read bám vào transcript
(Độ dài transcript) x (Tổng số read)
Bảng 4. Phân bố miền lặp microsatellite
Bảng 3. Kết quả tìm kiếm microsatellite
Tổng số transcript thực hiện
Độ dài tổng số của toàn bộ transcript
Tổng số microsatellite được phát hiện
Số lượng transcript có microsatellite
Số lượng transcript có nhiều hơn 1 microsatelltite
Số lượng microsatellite ở dạng compound
RPKM =
51.638
27.432.242
7.016
5.711
883
710
Hình 4. Thống kê mức độ biểu hiện giữa các
transcript trong mô tim
Miền lặp
2
3
4
5
6
Số lượng microsatellite
2.947
3.705
349
4
11
Hình 5. Thống kê các miền lặp trong hệ phiên
mã mơ tim tơm sú
TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - 6 - THAÙNG 8/2015
13
VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SẢN 2
Hình 6. Tỉ lệ transition (A<->G hoặc C<->T)
và transversion (A<->T, C<->G) trong các
SNP tiềm năng
Các tham số được điều chỉnh trong các
phần mềm Bowtie2, SAMtools và VarScan,
cùng với đó do hệ phiên mã được xây dựng từ
một cá thể tôm nên chúng tôi nhắm đến các vị
trí có tần số thay đổi alen là 50% được coi là
các vị trí dị hợp về alen. Dựa vào đó chúng tơi
tìm ra được 17.783 SNP tiềm năng trong 6.683
transcript với mật độ trung bình là 0,648 SNP
mỗi một kb. Hầu hết các SNP tiềm năng này
đều được phân loại vào transition (2/3 tổng số
Hình 7. Phân bố tần số thay đổi alen trên các
SNP tiềm năng
SNP) (Hình 6). Phân bố của tần số thay đổi alen
cũng cho thấy phần lớn SNP tiềm năng có tần
số nằm trong khoảng từ 30 đến 50% (Hình 7).
3.4. Phần mềm quản lý ngân hàng transcript
Chúng tôi đã xây dựng phần mềm quản
lý hệ phiên mã tôm sú hoạt động trực tuyến tại
địa chỉ . Phần mềm cho
phép duyệt và xem chi tiết từng transcript cũng
như các microsatellite và SNP của chúng.
Hình 8. Giao diện phần mềm quản lý hệ phiên mã tơm sú
14
TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - 6 - THAÙNG 8/2015
VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SẢN 2
IV. THẢO LUẬN
Trên thế giới thì tơm sú là lồi chưa được
xây dựng bản đồ hệ gen hoàn chỉnh từ trước
đến nay mặc dù đã có những thơng tin về EST
trên ngân hàng Genbank của NCBI, do vậy
giải trình tự hệ phiên mã (RNA-seq) là một
hướng đi đúng đắn cho việc khai phá de novo
những thông tin về hệ gene bên trong tôm sú.
Với phương pháp RNA-seq, chúng ta chỉ cần
một lượng mẫu RNA rất nhỏ là đã đảm bảo
chất lượng giải trình tự cho những phân tích
tin sinh tiếp theo. Sự tiến bộ của cơng nghệ
giải trình tự thế hệ mới đi kèm với đó là độ dài
trình tự đọc tăng lên cũng như các phần mềm
lắp ráp tin sinh học được phát triển sâu hơn
đã giúp các kết quả phân tính chính xác hơn
rất nhiều so với trước kia. Lắp ráp de novo hệ
phiên mã đã thực sự tạo nên sự đột phá với rất
nhiều trình tự được giải mã trên rất nhiều các
lồi khác mà cũng khơng hề có thơng tin hệ
gene tham chiếu như tôm sú (Meyer và ctv.,
2009; Nielsen và ctv., 2010; Novaes và ctv.,
2008; Wheat, 2010).
Chúng tôi thực hiện phân tích ước chừng
số lượng gene và chú giải chức năng những
gene này cho hệ phiên mã tôm sú bằng cơng
cụ BLAST, kết quả có 71,72% số lượng
transcript khơng được chú giải chức năng vì
khơng thể tìm thấy các trình tự tương đồng với
chúng trên ngân hàng dữ liệu. Để có thể tìm ra
được một trình tự tương đồng có ý nghĩa trên
ngân hàng dữ liệu có một phần phụ thuộc vào
độ dài của trình tự cần tìm kiếm, chủ yếu các
trình tự khơng tìm thấy trên cơ sở dữ liệu có
độ dài nhỏ hơn 300 bp, các trình tự có độ dải
nhỏ thế này rất thường xun xuất hiện trong
các nghiên cứu của giải trình tự thế hệ mới và
việc chú giải chức năng cho chúng vẫn cịn
rất khó khăn với các phần mềm tin sinh hiện
nay (Novaes và ctv., 2008). Tuy nhiên thì các
transcipt khơng được tìm thấy trên ngân hàng
dữ liệu được coi là nguồn thông tin quý giá
cho những nghiên cứu tiếp theo về q trình
cắt nối intron, sản phẩm gene mới hay phân
tích biểu hiện gene.
Việc tìm ra một số lượng lớn các vùng
microsatellite và SNP sẽ là nguồn chỉ thị phân
tử hữu ích cho những nghiên cứu trong tương
lai để sàng lọc các tính trạng số lượng trong
phân tích quần thể và phả hệ. Hệ gene của tơm
sú được coi là có số lượng microsatellite rất
lớn, lớn hơn cả nhiều động vật có xương sống
và nhiều gấp 4 lần so với hệ gene cá lóc Fugu
(Huang và ctv., 2011; Maneeruttanarungroj và
ctv., 2006). Lý do vì sao số lượng microsatellite
trong tơm sú lại nhiều như vậy thì chưa được
giải thích rõ ràng nhưng có những giả thiết cho
rằng chắc chắn microsatellite trong tơm sú có
liên quan đến vai trị bảo tồn những chức
năng quan trọng trong tơm sú. Như vậy cần có
những nghiên cứu sâu hơn về việc kết hợp các
vùng lặp lại microsatellite trong gene đã biểu
hiện với các tính trạng số lượng đã biết của
tôm sú. Nhằm hướng đến việc thiếp lập bản
đồ di truyền và khai phá được những thông
tin đa hình của tơm sú một cách chính xác, ở
những nghiên cứu tiếp theo, chúng tôi sẽ tăng
số lượng mẫu và số lượng mô dùng để tách
chiết RNA cũng như lấy mẫu ở những vùng
địa lý khác nhau.
V. KẾT LUẬN
Trong nghiên cứu này, từ dữ liệu giải
trình tự thế hệ mới của mô tim tôm sú nuôi ở
Việt Nam, chúng tôi đã lắp ráp được hệ phiên
mã bằng phương pháp de novo. Từ dữ liệu đã
lắp ráp, trình tự được so sánh trên các cơ sở dữ
liệu protein của thế giới như Nr NCBI. Cuối
cùng đã xây dựng được website trực quan
quản lý dữ liệu trình tự, dữ liệu chú giải và
dữ liệu phân tích biểu hiện cho tơm sú ni ở
Việt Nam. Những dữ liệu này rất có ích cho
những phân tích tiếp theo đặc biệt là truy tìm
những chỉ thị tiềm năng liên kết với các tính
trạng quan trọng trên tơm sú như tăng trưởng
và kháng bệnh.
TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - 6 - THÁNG 8/2015
15
VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SẢN 2
TÀI LIỆU THAM KHẢO
Andriantahina, F., Liu, X., Feng, T., Xiang, J., 2013.
Current status of genetics and genomics
of reared penaeid shrimp: information
relevant to access and benefit sharing. Mar.
Biotechnol. N. Y. N 15, 399–412.
Conesa, A., Gưtz, S., García-Gómez, J.M., Terol,
J., Talón, M., Robles, M., 2005. Blast2GO:
a universal tool for annotation, visualization
and analysis in functional genomics research.
Bioinforma. Oxf. Engl. 21, 3674–3676.
FAO, 2010. Food and Agriculture Organisation
of the United Nations. The state ofworld
fisheries and aquaculture.
Grabherr, M.G., Haas, B.J., Yassour, M., Levin,
J.Z., Thompson, D.A., Amit, I., Adiconis,
X., Fan, L., Raychowdhury, R., Zeng,
Q., Chen, Z., Mauceli, E., Hacohen, N.,
Gnirke, A., Rhind, N., di Palma, F., Birren,
B.W., Nusbaum, C., Lindblad-Toh, K.,
Friedman, N., Regev, A., 2011. Full-length
transcriptome assembly from RNA-Seq data
without a reference genome. Nat. Biotechnol.
29, 644–652.
Huang, S.-W., Lin, Y.-Y., You, E.-M., Liu, T.-T.,
Shu, H.-Y., Wu, K.-M., Tsai, S.-F., Lo, C.-F.,
Kou, G.-H., Ma, G.-C., others, 2011. Fosmid
library end sequencing reveals a rarely
known genome structure of marine shrimp
Penaeus monodon. BMC Genomics 12, 242.
Koboldt, D.C., Zhang, Q., Larson, D.E., Shen,
D., McLellan, M.D., Lin, L., Miller, C.A.,
Mardis, E.R., Ding, L., Wilson, R.K., 2012.
VarScan 2: Somatic mutation and copy
number alteration discovery in cancer by
exome sequencing. Genome Res. 22, 568–
576.
Langmead, B., Salzberg, S.L., 2012. Fast gappedread alignment with Bowtie 2. Nat. Methods
9, 357–359.
Li, H., Handsaker, B., Wysoker, A., Fennell, T.,
Ruan, J., Homer, N., Marth, G., Abecasis,
G., Durbin, R., 1000 Genome Project Data
Processing Subgroup, 2009. The Sequence
16
Alignment/Map format and SAMtools.
Bioinforma. Oxf. Engl. 25, 2078–2079.
Maneeruttanarungroj, C., Pongsomboon, S.,
Wuthisuthimethavee, S., Klinbunga, S.,
Wilson, K.J., Swan, J., Li, Y., Whan, V.,
Chu, K.-H., Li, C.P., Tong, J., Glenn, K.,
Rothschild, M., Jerry, D., Tassanakajon, A.,
2006. Development of polymorphic expressed
sequence tag-derived microsatellites for
the extension of the genetic linkage map of
the black tiger shrimp (Penaeus monodon).
Anim. Genet. 37, 363–368.
Meyer, E., Aglyamova, G.V., Wang, S., BuchananCarter, J., Abrego, D., Colbourne, J.K., Willis,
B.L., Matz, M.V., 2009. Sequencing and de
novo analysis of a coral larval transcriptome
using 454 GSFlx. BMC Genomics 10, 219.
Nielsen, C.B., Cantor, M., Dubchak, I., Gordon,
D., Wang, T., 2010. Visualizing genomes:
techniques and challenges. Nat. Methods 7,
S5–S15.
Novaes, E., Drost, D.R., Farmerie, W.G., Pappas,
G.J., Grattapaglia, D., Sederoff, R.R.,
Kirst, M., 2008. High-throughput gene and
SNP discovery in Eucalyptus grandis, an
uncharacterized genome. BMC Genomics 9,
312.
Thiel, T., Michalek, W., Varshney, R.K., Graner,
A., 2003. Exploiting EST databases for the
development and characterization of genederived SSR-markers in barley (Hordeum
vulgare L.). TAG Theor. Appl. Genet. Theor.
Angew. Genet. 106, 411–422.
Wheat, C.W., 2010. Rapidly developing functional
genomics in ecological model systems via
454 transcriptome sequencing. Genetica
138, 433–451.
You, E.M., Liu, K.F., Huang, S.W., Chen, M.,
Groumellec, M.L., 2010. Construction
of integrated genetic linkage maps of the
tiger shrimp (Penaeus monodon) using
microsatellite and AFLP markers. Anim
Genet 41, 365–376.
TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - 6 - THAÙNG 8/2015
VIỆN NGHIÊN CỨU NUÔI TRỒNG THỦY SẢN 2
ASSEMBLING, ANNOTATING AND ANALYZING
THE TRANSCRIPTOME OF Penaeus monodon
Nguyen Cuong1*, Pham Quang Huy1, Nguyen Van Lam1, Ha Thi Thu1, Pham Thi Hoa1,
Nguyen Hai Trieu1, Dau Huy Tung1, Nguyen Giang Thu2, Nguyen Huu Ninh3,
Dong Van Quyen1, Chu Hoang Ha1, Dinh Duy Khang1
ABSTRACT
Despite black tiger shrimp (Penaeus monodon) is the important aquaculture species in our
country and contributes significantly to the export revenues in the recent years, the data
of the black tiger shrimp genome and transcriptome are not well documented until now.
Although domestication and genetic improvement can be implemented through traditional
breeding programs, the molecular markers and other data generated from genome and
transcriptome sequencing will greatly improve the efficiency and effectiveness of selection.
In this paper, the transcriptome of P. monodon was sequenced using the Next Generation
Sequencing technology with the raw data size of 9 Gb. The raw reads were de novo
assembled to get 51.638 transcripts. Those transcripts were annotated and analyzed to find
7.016 microsatellites and 17.783 SNPs. A website with helpful utilities had been developed
to manage the transcripts. These results would be useful for further research on P. monodon.
Keywords: transcriptome, assembling de novo, next generation sequencing, annotating,
gene display, microsatellite, SNP.
Người phản biện: TS. Nguyễn Văn Sáng
Ngày nhận bài: 29/5/2015
Ngày thông qua phản biện: 03/8/2015
Ngày duyệt đăng: 07/8/2015
Institute of Biotechnology
*Email:
2
Sub-Department of Environment and Technology Science
3
Research Institute for Aquaculture No 1
1
TẠP CHÍ NGHỀ CÁ SÔNG CỬU LONG - 6 - THAÙNG 8/2015
17