TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
MIHOC
sỷ
.
5 0
Năm
Xâ
y
dự ng
v à
p h á t t r iể n
K
BÁCH KHOA
1956 -2006
T
TS. NGUYỄN VĂN CÁCH
I
N
-
S
I
N
H
H
O
C
GICGSI
ICGSI
N H À X U Ấ T BẢN K H O A HOC V À KỸ TH U Â T
TS. NGUYỄN VẢN CÁCH
TIN-SINH HỌC
■
NHÀ XUẤT BẢN KHOA HỌC VÀ KỸ THUẬT
HÀ NỘI
L ờ i nói đầu
Trong nửa cuối thê kỷ XX. nên khoa học cịng lìĩịhệ th ế giới đ ã tạo rư
bước phá! triển mang tính đột phá ngoạn mục (rên rất nhiều lĩnh vực khác
nhau, trong đó đặc biệt'nhất lù ba lĩnh vực tin học, cớnt> nqhệ thơỉỉíỊ ùn
trên nén ỉáng internet và công nghệ sinh học. Thành công troni> lĩnh vực
công nghệ sinh học phdi ké đến bước phút triển đột phủ của cônq MỊỈtệ lén
men hiện đại, của sinh hục phân íử vả kỹ íhuật gen, của cỏng nghệ enz\m
và (tỏng học phản ứng... Chính trong thời khắc lịch sử ấv, một lĩnh vực
khoa học mới d ã ra đời là tin-sinh học.
Tin-sinh học chính lả sự hội tự, Ỉỉ(/Ị) tác hữu cơ và đậc biệt hiệu quả
của cả ba lĩnh vực cơnạ nạhệ hàng đẩu: tìn học- cóníỊ nghệ thơng tin-cỏng
nghệ sinh học, cùtìĩị CỘHÍỊ tác với nhan khám phá th ế ^ iớ i sốno. Thực t ế dã
chư thấy, nạav ĩừ khi ra đời tin-sinh học đ ã thực sự trừ thành côn 1» cụ
nghiên cứu mới. Ịrự ỳ ú p đắc lực và hiệu quả đ ể đẩy nhanh tốc dộ nghiên
CÚ1< và ứng dụng CƠMỊ nghệ sinh học; chắp cánh cho cơng nghệ sinh học
nói riêniỊ và sinh học nói ciìuỉiq, bơv lẽn tầm cao mới.
Việc bìẽn soạn cuốn ‘Tin-siỉỉh học ” này nhằm cung cấp cho cún bộ
và sình viên rìĩịành cơmị tìiỊỈìệ sinh học vừ cho các đối lư(/ỉig khác có Hèn
(Ịiiưiì, nhữn\ị kiến thức cơ bản vế tin-sinh học vù điểm qua một vài ứng
(ỉụn^ của lĩnh vực khoa học này.
Tác lỊỉả rất mong nhận được sự đóng góp của dộc giả đ ể hiệu chinh
cho ỉần in sau được hoùn chỉnh hơn. Xin chán thành cám ơn sự khích lệ và
ủng hộ Cỉkỉ đồnq nghiệp và của bạn đọc.
Xin chân thành cúm ơn bạn dọc.
TS . N guyễn Văn Cách
Hà Nội, 2005
3
MỤC LỤC
ỉ.
M ở đầu
7
2.
Đại cương về internet
2.1. Khái niệm về internet và địa chỉ trên mạng
2.2. Thông tin trên internet
2.3. Một số dịch vụ trên internet
2.4. Truy cập tìm kiếm dữ ỉiệu thông tin qua internet
11
11
13
14
18
3.
Cơ sở dữ liệu công nghệ sinh học
3.1. Đại cương
3.2. Đặc điểm của dữ liệu công nghệ sinh học
3.3. Một sô' cơ sở dữ liệu sinh học lem trên thế giới
3.3. ]. Cơ sở dữ liệu Trung tâm Thông tin
Quốc gia vể Công nghệ Sinh học Mỹ
3.3.2. Cơ sỏ'dữ liệu EM BL
3.3.3. Cơ sở dữ liệu CIB-DDBJ
21
21
29
30
32
4. N ghiên cứu cấu trúc chuồi DNA và am ino axit
4.1. Cơ sở xây đựng chương trình xử lý dữ liệu
4.2. Nghiên cứu so sánh cấu trúc chuỗi
39
39
49
5. Chương trình phân tích cáu trúc chuỏi ClustalVV
5.1. Đại cương về chương trình C lustal
5.2. Sử dụng chương Irình
53
53
55
6. Chương trình thiết kê và lựa chọn đoạn mồi Prim er3
6.1. Đại cương
6.2. Thao tác sử dụng chương trình
76
76
79
7. Chương trình phân tích cấu trúc tương đồng BLA ST
7.1. Đại cuơng
7.2. Sử dụng chương trình BLAST
90
90
91
8. Chương trình hiển thị phân tích cấu trúc khơng gian Cn3D
8.1. Đại cương
8.2. Sử dụng chương trình
104
10£
105
35
37
5
8.2.1. Sử dụng cơng cụ tìm kiếm cấu trúc chuỗi qua Entrez
8.2.2. Từ địch vụ entrez sequence neighbor
8.2.3. Từ dịch vụ phàn tích cấu trúc chuỗi BLAST
8.2.4. Sử dụng mã hiệu chuồi PDB Ider)tifier
9. Tra cứu dữ liệu qua Internet
9.1. Dịch vụ PubMed
9.2. Dịch vụ thư viện qua mạng ScienceDirect^)
9.3. Dịch vụ Entrez của NCBI và SRS của EBI
10.
Khai thác thông tin cơ sở dữ liệu cấu trúc để thiết k ế gen
10.1. Cơ sở dữ liệu RFLP (Restriction Praạment Length
Puìymorphism) và cơ sở dữ liệu ESTs (Expressed
Scquence Tags )
0
10.1.1.
Cơ sở dữ liệu RFLP (Restrìcùon
Fragment Lcngth Pymorphism)
.c.
10.1.2.
Cơ sở dữ liậu ESTs (Expresed
Sequence Tags)
10.2. Khai thác thông tin cơ sở dữ liệu chuỗi
trong thiết kế và tách dòng gen
10.2.1. Tách dòng gen trên các loài ctã biết cấu trúc di
truyền
10.2.2. Thiết kế tách dịng gen từ chủng mang hoạt tính
gen
10.2.3. Thiết kê' tách dòng gen từ các chủng mới
Tài liệu tham khảo
1
MỞ ĐẦU
Sự phát triển như vũ bão của khoa học và công nghệ trong thế ký XX đã
lạo ra cơ sở lý luận, vật chất và sự liên kết hỗ trợ lẫn nhau, tác động thúc
đấy sự phát triển của mọi lĩnh vực hoạt động của đời sống xâ hội. Trong
lĩnh vực củng nghệ sinh học, nhờ những thành tựu vô cùng to lớn của sinh
học và sinh học ứng dạng (đặc biệt là trong các lĩnh vực: di truyền học,
sinh học phân tử, kỹ thuật gcn, cống nghệ tên men hiện đại...), cùng với
việc hoàn thiện và hiện đại hoá các trang thiết bị phục vụ nghiên cứu khoa
học đã cho phép con người trong khoảng thời gian ngán thu được khối
lượng dữ liệu khoa học khổng lổ về cơng nghệ sinh học, nói ricng và vé
khoa học sự sơìig nói chung. Sự phát triển vơ cùng mạnh mẽ cúa sinh học
phân lử và kỹ thuât gen trong nửa cuối Ihế kỷ XX đã cho phép con người
khám phá bán chất sinh học, ở cấp độ phân tử, các đơn vị cơ sở nhỏ nhất
cáu thành ncn từng bộ phân cư thể và các quá trình vận động biến đổi xáy
ra trong các cơ thể sơng. Chính các yếu tố trên đã cấu thành ncn cơ sở vạt
chất han đẩu cho các ngân hàng dữ liệu công nghệ sinh học.
Nguồn dữ liệu cơ sở này, thực tế là các dữ liệu kết quả nghiên cứu thu
được của từng cá nhân hay của các cơ sở nghiên cứu rải rác khắp nơi trcn
thê giới. Với đặc thù là ngành khoa học thực nghiệm, đây chính là sản
phẩm kết tinh của khối lưựng rất lớn lao động trí tuê, hao phí vật chất, lién
bạc và tiêu tốn thời gian, công sức. Việc bảo quản tại chỗ kết quả nghiên
cứu này [à khỏng hiệu quả và không thể tránh khỏi mất mát hay thất lạc, do
nhiều nguyên nhân khác nhau, ihí dụ: do cơ sở hạ tầng vật chất kỹ thuật lạc
7
hậu, năng lực tài chính hạn chế, điều kiện địa lý, khí hậu khơng thuận lợi
hay các yếu tố chính trị liên quan... Trong khi đó, việc sử dụng các trang
thiết bị phàn tích hiện đại đã cho phép thu được khối lượng thồng tin rất
lớn, cho mỗi nghiên cứu riêng biệt. Kết quả là trong hầu hết các trường
hợp, bằng các phưưng tiện thơng tin truyền thống (tạp chí, sách, hội nghị,
hội thảo khoa học...) nhìn chung khơng đủ dung lượng và môi trường để
truyền tái hết ý tưởng và dữ liệu kết quả nghiên cứu của các tác giả. Đây
cũng là một nguyên nhân dẫn tới khả năng thất thoát tài nguyên trực tiếp
hay gián tiêp, do lạc hậu về thơng tin nên có thể tiêu tốn tiền bạc vào các
mục tiêu nghiên cứu đã được giải quyết thành cơng ở nơi khác. Trong khi
địi hỏi thực tiễn đặt ra cho sự phát triển toàn diện và sâu rộng công nghệ
sinh học ngày càng trở nên cấp bách, Như một hệ quả tất yếu để giải quyết
các vấn dề trên, các trung tàm dữ iiêu công nghệ sinh học đã ra đời và phát
triển hết sức nhanh chóng, trên cả hai mật quy mô và số lượng các đơn vị
thành viên.
Về mặt bản chất, sinh học hiện dại đã chỉ rõ rằng: đặc tính riêng biệt
của mỗi lồi trong sự đa dạng của thẻ giới sinh học được quyết định chính
trong kích thước và cấu trúc gen của từng cá thể, với đơn vị cấu trúc cơ sở
là bốn loại nucleotide: Adenine, Guanine, Cytosine và Thymine (Ưracil
thay thế Thymine tvong RNA). Đồng thời, protein (thành phần quan trọng
nhất của mọi cơ thể sống) được tạo thành trên cơ sở kết nối của 20 amino
axit khác nhau. Logic chính xác trong quy luật của thế giới sống trong môi
trường tin học đã cho phép con người “ số hoá và ký tự hố ” trong việc mơ
tả bản chất và sự vận động của thế giới sinh hoc. Kết hợp với khả năng kết
nối trao đổi thông tin “ vô hạn ” của công nghệ thông tin và internet đã mở
ra điều kiện lý tưởng cho các nhà sinh học để cất giữ, liên kết, xử lý và trao
đổi kho tàng dữ liệu giữa các thành viên với nhau. Nhờ sự hợp tác và liên
kết rộng rãi này, một mặt mở ra khả năng tư vấn, trao đổi và hỗ trợ cho nhà
nghiên cứu hay các tổ chức thành viên tham gia. Nhưng mặt khác, chính sự
liên kết này đã tạo ra công cụ mới để nghiên cứu sự biến đổi trong các cơ
8
thc sống hay các hiện tượng sông, trên cơ sở phân lích phái hiện tính quy
luật từ vơ số các dữ liệu thực nghiệm Irong kho tàng dữ liệu khổng lổ này...
Nghla là, thòng qua xử lý hàng loại mảng dữ liệu thực nghiệm rời rạc,
người ta thu được các mảng dữ liệu thứ cấp, đổ từ đó có thc khái qt hố
thành quy luật biến đổi cúa nó; hoặc Irẽn CƯ sơ xử lý cư sừ dữ iìộu đã có dể
định hướng, hoạch định kế hoạch và tổ chức Ihực nghiệm khoa học cua
mình sao cho hiệu quá hơn, hay trẽn cư sở nắm hắt được quy luật vận động
của lự nhiên đổ '‘thiết kế " ra các sản phíim hồn tồn mới, thậm chí cỏ thc
chưa xuấl hiện trong thiên nhicn... Chính từ các cơ sở ]v luận và thực tiễn
nêu Irên, một lĩnh vực khoa học mới đã ra đời, đó chính là tin-sinh học.
Tin-sinh học (Bioiiì/ormatic) có thể hiổu là khoa học bao gồm việc xây
dựng, quán lý và lưu giữ nguồn dữ liệu (hỏng tin quy mồ tồn cáu liên quan
đến sinh học làm mơi Irường dữ liệu cư sị. trên đó xảy dựng và hồn thiện
các chương Irình xử lý dữ liệu ứng dụng làm công cụ hỗ trự liiệu quả cho
việc nghiên cứu khám phá bán chất sinh học cua giới tự nhiên, để thu nhận
các sán phẩm sinh học quý, để “ thiết kế ” và sản xuất ra các sán phấm sinh
học m ong m uốn khác nhau phục VỊ1 đời sông con người...
Sự ra đời của lin-sinh học không chỉ mò ra khả năng khai Ihác cơ sớ dữ
liệu Ihực nghiệm thu được, mà trong thực tế chính tin-sinh học đã thực sự
trở thành công cụ nghiên cứu mới, trợ giúp đắc tực và hiệu quả để đáy
nhanh tốc độ nghiên cứu và ứng dung công nghệ sinh học; chắp cánh cho
cồng nghệ sinh học nói riêng và sinh học nói chung, bay lên tầm cao mới.
Cơ sở dũ liệu công nghệ sinh học không chi dừng lại ở tập hợp các kết quá
nghiên cứu thực nghiêm đơn thuần, mà nó cịn bao gổm khá nàng khái qt
hố, mó phỏng hoá thành những “đối tượng số ” của thế giới sinh học sống
động. Thí dụ, với cơng cụ tin-sinh học đã cho phép con người tìm hiểu và
khám phá các quá trình vận động nội tại trong bản thân mình, nhờ nghiên
cứu dữ liệu thực nghiệm trên các đối tượng sinh vật khác, hay cho phép con
người chế tạo ra cá những sinh giới mới vượt ra khói quy luật tiến hoá và
chọn lọc tự nhiên...
9
Tin-sinh học có thể khái qt hố thành ba nhiệm vụ cơ bản là:
•
Xây dựng, bổ sung, tổ chức quản lý và khai thác cơ sở dữ liệu đa dạng
và toàn diện trên quy mõ toàn cầu liẻn quan đến sinh học và các ngành
hay lĩnh vực khoa học liên quan. Vấn đề này đã và sẽ chỉ phát huy được
lợi ihế khổng lồ của nó khi huy động được sự tham gia thực sự của
đồng đảo các thành vicn sở hữu thõng tin sinh hạc trên tồn thế giới.
•
Xây dựng và phát triển các chương trình xử lý dữ liệu ứng dựng, dưới
dạng các chương trình xử ]ý dữ liệu độc lập hay được tích hợp ngay
trong các thiết bị phân tích hiện đại, nhằm cung cấp cho các nhà sinh
học phương tiện xây đựng phươnEĩ án nghiên cứu hay phân tích xử lý
kết quả thu được với sự “tư vấn và trao đổi của các chuyên gia ” trên
tồn thơ giới.
•
Đào lạo và cập nhật thường xun cho các nhà sinh học kỹ nãng tư duy
và năng lực khai thác hai nội dung trên vào hoạt động khoa học và công
nghệ nhằm tạo ra hước chuyển hiến đột phá trong phương cách tiếp cận
và nghiên cứu khám phá Ihế giới sống, tạo ra cuộc cách mạng thực sự
tronu hoạt đỏng sáng tạo của con người vì phồn vinh và hạnh phúc nhân
loại.
10
2
đ ạ i c ư ơ n g v ề in t e r n e t
2.1.
Khái niệm vể internet và dịa chỉ trên mạng
Internet là hệ thống gồm rất nhiều mạng máy tính cục bộ hay khu vực
được kết nối lại với nhau thành mạng chung trên phạm vi tồn cầu
(Networks o f íhc Nehvorks). Như vậy, internet kết nối nhiều triệu máy tính
riêng lẻ đã hồ mạng vào hệ thống chung, trong đó giữa các máy đã nối
mạng đều bình đẳng và có thể liên hộ trao đổi thông tin qua lại vứi nhau.
Trên internet, người truy cập vào mạng từ khắp nơi trên hành tinh, tiếu được
phép của chú sở hữu. có thể tìm kiếm va khai thác tất cả mọi thông tin và
dữ liệu trong từng máy con với tốc độ “ánh sáng” vượt qua inọi trở ngại về
không gian và lãnh thổ.
Điểm khởi đầu của inlemet là dự án nối mạng các máy tính cúa bốn
đơn vị thành vicn là Viện Nghiên cứu Staníord, Trường Đại học Tổng hợp
California, Trường Đại học Tổng hợp
UC-Sanla Barbara và Trường Đại
học Tổng hợp Utah do cơ quan quản lý dự án nghiên cứu phái triển của bộ
quốc phòng Mỹ {U.S. Deịense Advance Research Project$ Agency •"
DARPA) tài trợ (tháng 7/1968). Việc kết nối thành cơng các máy tính tham
gia của bốn thành viên trên (năm 1969) dã đánh dấu sự ra đời của mạng
máy tính khu vực - viết tắt là ARPANET. Lịch sử phát triển của internel là
q trình phát triển và hồn thiện khơng ngừng từ ARPANET, qua
LI
M ILNET và NSFNET (National Science houndalioìĩ
Nctwork), dến
internet với khá năng khổng íổ và quv mơ lồn cầu hiện nay (internet với
dầy đú V nghĩa và Ihực sự bùng nổ mạnh mẽ chỉ từ 1995, sau thời điểm
chính phu Mỹ cho phép cống khai và Ihương mại hố cơng nghệ này trên
phạm vi toàn cẩu).
Internet là sự kết nối đa chiều các mạng diện rộng (Wicỉe Arca Network
- w A N ) của các quốc gia hay khu vực. Mỗi mạng W AN đirực hình thành
do sự kết nối của nhiều mạng khu vực hcp hơn (Local Area N(mtwork LAN); trong đó, mỗi mạng LAN lại là mạng kết nối các máy tính riêng lc
(hay mạng của cụm các máy tính riêng lỏ) lại với nhau. Việc kết nối giữa
các mạng trcn dược thực hiện nhờ các cổng chuyển thởng tin - thường là
các cầu nối (Brìclges) hoặc các bộ định tuyến (Router).
Từng máy lính con thường được kết nối vào internet qua mộl máy chủ
(ỉỉosí). Để các máy tính nối mạng có thể nhận biết và thơng tin qua lại với
nhau, mồi máy chú đều được nhận một miẻn gồm một số dịa chỉ IP
(ỉdentiỊicưtìon Protocol) nhất định và không trùng nhau với các máy chủ
khác. Trung tâm thông tin điều phối internet quốc tế (Netvvork hìỊormiun
Cenler - NIC) chủ trì phân phối các địa chí mạng (/Ví'/ ID) cho mỏi quốc
eia. Tiếp (hen, tổ chức quản lý internet từng quốc gia sẽ phân phối micn địa
chi cho các máy chủ (rèn mạng đó (Host 1D). Theo hệ địa chí đang được sử
dụng hiện tại ỈP \’4 mỗi địa chỉ mạng gồm bốn cụm số phân cách nhau bằng
dấu chấm dạng A.B.C.D, với A, B, c , và D là một số nguyên có giá trị
trong dải (0 - 255), (hí dụ: 1 9 2 . 1 6 8 . 1 2 7 . 1 6 ;
1 7 2 .1 6 .1 .3
(mạng
W A N một vài nước đã sử dụng hệ địa chỉ IPvó). Đê thuận tiộn cho người
sử dụng trong giao tiếp, các địa chỉ IP kiểu số trên thường được máy chủ
(do các nhà cung cấp dịch vụ internet quản lý) phiên mã thành dạng địa chi
các
cụm
từ.
thí
dụ:
;
hltp://www.atcc.org: ..-
12
;
Đê truy cập vào mạng, người sử dụng inlernet (thường được
là khách hàng) phải điìng ký với các nhà cung cấp dịch vụ và sẽ được cấp
mộl tcn truy cập (Accounỉ) và với mật khẩu riêng tương ứng (Pas\woni).
Với lốn và mật khẩu đã đãng ký, ihường khách hàng có thể truy cập vào
mạng internet từ bất kỳ máy tính nào trong mạng LAN của nhà cung cấp
dịch vụ đó hav thống qua kết nối trực tiếp một máy tính nỵồi rnạng với
máy chú bằn« đường điện thoại (sử dụng Modetn thường hay Mođem
ADSL). Việc kết nối ẹiữa một máy tính con với máy chủ cịn phụ thuộc vào
chế độ kết nối. Có nhiều kiểu kết nối khác nhau, phụ thuộc vào kiểu dữ liệu
sử dụn^, phán mổm cài đặt trcn máy chủ, phần mcm của khách hàng. Các
kiổu kết nối này thường mang đặc trưng riêng với từng trườn? hựp cụ thể
("servìce bv Service", é'user by User") và thường được xác định qua cổng
kết nối {Por!) đi kèm như một địa chí phụ, thí dụ
“ 1 92 . 1 6 8 . 1 2 7 . 1 6 : 8 0 8 0 " (port 8080); hay
“ m erlin.bcm.lmc.edu:23” (port 23}...
2.2.
Thông tin trên internet
Intcrnei chứa khối lượng thông tin khổng lổ, bao gồm dữ liệu của hầu
như tất cả mọi lĩnh vực khác nhau trontĩ đời sống xã hội hiện đại, từ khoa
học, kinh tế, vãn hoá, chính trị, xã hơi đến cá vở số các thơng tin quảng cáo
Síìn phẩm hay các thơng tin về dịch vụ thương mại điện tứ... Các dữ liệu
Ihồng tin này dược iưu giữ trong các máy chủ cúa hàng trăm ngàn mạng
con (LAN và WAN) và trong các máy lính đang hoà mạng trên khấp thế
giới. Khá năng khai thác các dữ liệu thơng tin này, đương nhiên cịn phụ
Ihuộc vào việc cung cấp cùa chủ sở hữu và giới hạn khai thác của khách
hàng được chủ sơ hữu dữ liệu cấp phép. Ở góc độ khai thác, có thc chia cơ
sử dữ liệu khổng lổ trcn thành hai nhóm lớn là:
*
Loại các thông tin cỏng cộng: Bao gồm tất cả các loại dừ [ịệu thông tin
mà bất kỳ khách hàng nào, từ mọi nơi trên khắp thê giới, khi đã vào
internel đều có thổ tự do truy cập và khai thác phục vụ cho mục đích
riêng, điển hình cho kiểu dịch vụ thông tin cổng cộng là www (World
Wide Web), thí dụ: ; ...
*
Loại các thơng tin giới hạn truy cập: Bao gồm tất cả các dữ liệu hay các
hộ thống dữ liệu trên mạng, nhưng việc truy cập và khai thác chí có thổ
được thực hiộn nếu được phép của chủ sở hữu chúng. Thí dụ các (hơng
tin phải trả tiền khi sử dụng, các thông tin chỉ dành cho các đối tượng
đã được cấp quyền truy cập, các thống tin chi sử dụng nội bộ.... Thông
thường, nguồn dữ liệu này được lưu giữ trên inạng nhưng vói độ bảo
mật rất cao; chí có những người đã được cấp phép (vói tcn và mật kháu
truy cộp đã đăng ký) mới có thể truy cập và khai thác.
2.3. Một sơ dịch vụ trên internet
•
•
■
Các dịch vụ trên mạng rất đa dạng và được cải liến, hồn thiện và mở
rộng khơng ngừng. Một số dịch vạ phổ dụng hiện nay của internet là:
*
Truy cập khai thác thông tin từ xa Ợelnety. Được xem là dich vụ cơ sở
và dầu tíồn của việc kết nối mạng. Dịch vụ này cho phép từ một máy
lính ở bất kỳ vị trí nào trẽn thế giới có thể truy cập vào một máy tính
xác định khác trong mạng thơng qua giao thức TCP/IP (Trơnsfer
Control Procoi!Internet Protoco\). Khi dịch vụ đã đưọ'c thiết lập,
người sử dụng dịch vụ cổ thể thực hiện các thao tác đầy đủ trên máy
tính kia cũng như trên máy đang sử dụng, thí dụ: gọi các chương trình
hiện có, ghi hay xoá các tộp tin... Trong thực tế, việc khai thác dịch vụ
14
truy cập lừ xa được thực hiện với sự trự giúp của các chương trình hỗ
trự và giám sát mà các nhà quản lý hệ thống máy chu phía sở hữu dữ
liệu sử dụng. Nghĩa là người muốn Iruy cặp vẫn phai đưực "cấp phép"
dưới dạng được cấp lẽn đăng ký và mật khẩu riêniỉ (pubỉìí ỉoiịin name
and pơssword),
Dịch vụ trao đổi các tệp dữ liệu ựiles tnm sịcr -ftp)\ Dịch vụ fip cũng là
dịch vụ cơ sử đầu liên của việc kết nối mạng, nhưng được xãy dựng
liành riêng cho những người sư dụng chỉ trao đổi một hay một sỏ' tệp dữ
liệu nhất định, song khỏng mong muốn truv cập (hay khổng được thẩm
quvền truy cập) vào toàn bộ nẹân hàng dữ liệu của máy chủ đó. Thao
tác để sử dụng địch vụ/?/; nguyên ihuỷ cũng hoạt động trơn cơ sở tương
tự như sử dụng dịch vụ tnct. Khi sư đụng dịch vụ //■/?, (hông thường
khách hàng phải thực hiện hàng loạt dòng lệnh khác nhau mới cổ thể
gửi ịput fiì(',s) hoặc nhản (ị>etfiles) và phải phân biệt hai dạng dữ liệu là
kiểu ký tự (text mode) và kiểu nhị phân (binarv modc). Dịch vụ ftp với
kiểu ký tự đã lưu ý đến sự khác hiệt giữa các hệ điểu hành (môi trường
Unix sử dụng hệ ASCII 10, môi trường Macintosh sử dụng hệ ASCII 13
và mỏi trường MSDOS đưực thiết kế cho sử dụng mộl trong hai hệ trcn,
trong đó với kiổu nhị phân sẽ được trao đổi đúng nguyên bàn gốc).
Nhằm giảm hớt trục trặc và đổ thuận tiện hơn cho khách hàng,
người cung cấp tin có thể chuẩn bị sẫn các tệp dữ liệu hay inôt mộl sỏ
thư mục tệp dữ liộu liên quan thành các nhóm riêng, sao cho khi khách
hàng cần trao đổi có thể thực hiện được dễ dàng mà khơng cần phải sử
dụng đến mật khẩu. Khi xây dựng các (rang w w w (WorUI Wicie W cb)
người ta sử dụng phổ biến kỹ thuật này giúp khách hàng đang ở trong
trang W eb vẫn có thể trao đổi thuận tiện các lệp dữ liệu mong muốn,
qua truy cập các đường dẫn siêu liên kết dưới dạng dòng lệnh
“Doxvnỉocur, ''Doivnload nr;vv” hay đường dẫn “/í/?;//...” ((hồng thường
các lệp dữ liệu dạng này khơng có sẵn trong các trang W W W ), thí dụ:
"The
lile
1 S a v a ila b le
f t.p t o
and
by dnonỵm ous
ftp .
f. t p . bcm . tm c . e d u
re trie v e
m b c r/D u b /f i l e . tix t”
Đe trao dối lệp trcn có thể thực hiện nhờ sử dụng lệnh:
í~tp://ftp. bcm .tcm .edu/bmcr/pub/f i 1c. tx t
•
Dịch vụ thư điện tử (E-Mail): Dịch vụ thư điện tử là dịch vụ đưn gián
nhài nhưng lại rất hiệu quả và dược nhiểu n^ười sứ dụng nhất. Dịch vụ
này dành cho cả những người khổng đãng ký quyền truy cập mạng hay
thường xuycn được chọn với các khách hàng chỉ đăng ký sử dụng hạn
chế các dịch vụ Irên internet. Người gửi thư chỉ cần "gọi ra" một khung
mẫu thư lừ một máy chù nhất định (các mlserver), sau đó sử dụng bàn
phím đổ viết thư, điổn địa chỉ điện tử của người nhận và nhấn lệnh gừi
đi. Khi dó thư sẽ được chuyển ngay đến máy chủ rói chuyển tiếp sang
máv chủ của người nhận (tăng ký địa chỉ và được lưu giữ ử dó. Người
nhận thư, vào lúc thời gian thuận tiện, có thể truy cập vào "thùng thư"
của mình trên máy chủ đế xem các thư gửi đến. Ngàv nay, kết hợp với
các dịch vụ đi kèm khác, người gửi thư có thể gửi đổng thời một bức
thư đốn Iìhicu neườì nhận khác nhau (dịch vụ C.c. qua ììstserveiẩ), có
thơ chuyển cá "thư" dưới dạng âm thanh, hình ảnh hay tiêng nói đến
người nhận và thường kết hợp kèm thêm dịch vụ chuyển [ệp đơn gián
để mở rộng năng lực phục vụ khách hàng (chế độ attachmenl). Nhìn
chung, việc sử dụng dịch vụ thư điện tử rất đơn giản về thao tác, thuận
tiện về thời gian và hết sức nhanh chóng. Vì vậy, đổ thu hút khách hàng
truy câp, rất nhiều cỏng ty kinh doanh trên internet thường có thêm
muiỉserver phục vụ miễn phí cho mọi đối tượng được tự do đãng ký
"(hùng thư" cá nhân.
16
•
Dịch vụ thơng tin theo nhóm (Usenet): Dịch vụ này cho phcp nỉỊười sừ
dụng mạng có thể tham gia “sinh hoạt” theo các nhóm thơng tin
{Nưwsí>roup), trons đó họ có thê gửi hay nhận các thơníĩ tin cho các
Ihành vicn khác cùng tham gia tronti chủ đc này. Các nhóm thịng tin
được trình bày theo chủ để, khơng phân biệt thời giiin cập nhật, tách
biệt độc lập giữa các nhổm với nhau và độc lập với dịch vụ thư diện tử.
Đỏng thời, việc đăntĩ ký Iham gia vào nhóm tin, xoá tên đã ctăng ký, gửi
và nhận tin thao tác nít đơn giản và Ihuận tiện. Do dịch vụ này rất thuận
lợi n cn từ thời kv đ ầ u internet chỉ có 7 n h ó m tin (.Ví7- k h o a học, ,vw -xă
hội. íYw//;>-computer..,). song đến nay có thể tới hàng chục ngàn nhóm
lin khác nhau Irên mạng. Tuy nhiên, do những lv do nhất định, nhiều
nhóm lin khơng tham gia vào hệ thống dịch vụ “ Usenet” chung, mà
chúng tồn tại theo nhóm độc lập riêng hay các nhóm chỉ “trao đoi nội
bộ'’ trong diện đối tượng hẹp trên mạng.
•
Dịch vụ tìm kiếm thơng tin íịopher, WAIS (Widc Area ỉnịormation
Server) và dịch vụ Iruyẻn siêu văn bán HTTP (Hỵper 'Ị exĩ Transport
Pỉotocoĩ) hoặc
w w w (WorìJ Wide W('b): Với mục đích phối hợp với
dịch vụ Irao đổi lệp dữ liệu, qopher cho phép người sừ dụng mạng có
thè tìm kiếm và hiổti thị thuận liện các tộp dữ liệu có trên mạng, Ihưừng
với các tên theo từ khố và các đường đẫn từ trang íỊopher đến các trang
khác. Cũng hoạt động iươntĩ lự, dịch vụ WAIS (Widừ Area ỉnformation
Srrver) tìm kiếm Iheo các cụm dữ liệu dưới dạng ký tự ựree-iext
datahítses). Nhờ vậy, dịch vụ này có cơng năng rất mạnh đổ tìm kiếm,
thu Ihập và cung ứng thông tin. Song song với hai dạng trên, phương án
liên kết các tệp dữ liệu trong từng máy chủ để tạo ra dạng cung cấp
thông tin hiệu quả hơn đã xuất hiện dịch vụ truyền thông tin siêu văn
hán HTTP (ỊỊyper Text Transpoì t Protocoỉ) và Web (vvvvvv, 'H7.'? hoặc
Wừb). Vởi dịch vụ thông tin mới này, khả năng trình bày, nội dung hiển
17
thị. đường dẫn đến các cư sở dữ liệu hay các dạng dịch vụ khác rất đa
dạng. N hò vậy, đã tạo ra phương án cung cấp (hông tin nhanh chóng và
hiệu quả, mỏi trường giao tiếp thân (hiện và hếl sức thuận lợi cho khách
hàng. Với ưu Ihế to lớn của mình, ngày nay hầu như dịch vụ w w w đã
thế chõ hoàn toàn cho dạniỉ dịch vụ ỊỊopher và WAIS (các Web ỵerver
đéu có khá năng giao tiếp kết nối với các gopher server va ftp server).
Để giao tiếp với các Web scrver khách hàng thường sử dụng các
chương trình trình duyệt Web, trong đó ba chương trình trình duyồt
mạnh nhất hiện nay 1'à: Microsọịì ỉníernet E.\plover (của Microso/t
Corp.), Netscape Expiorer (cúa Netscape Communivuíion Corp.) và
AO L B ron ser (của American Oỉi Li ne Corp.).
2.4. Truy cập tìm kiếm dữ liệu thơng tin qua internet
Cũng như các lĩnh vực khoa học khác, người ta hầu như không thể hy
vọng liệt kẽ ra dược phần lớn các cơ sở dữ liệu licn quan đến công nghệ
sinh học, thậm chí sẽ khơng có một giải pháp tối ưu nhất dể tìm kiếm thơng
tin dù chỉ trong mơl lĩnh vực hẹp. Giải pháp tương đối đưn gián và thường
áp dụng với những người khởi đầu tham gia khai thác thơng lin qua internet
là:
•
Sử dụng các trang cơng cụ tìm kiếm pỉiổ dụng trên Internet như:
www.vahoo.com ; www.google.coin;
wvvw.allavista.com;
W W W - webferrct.com., ■
* Vào một cơ sở dữ liệu !ớn đã biết gần gũi với chuycn mục cần tìm kiếm.
Sau dó sử dụng các dường dẫn siêu liên kết mặc định (các đường
“hyperỉink” , lệnh
các cơ sở dữ liệu khác.
18
ctể mở rộng khả năng tìm kiếm sang
Cần chú ý ràn” , với mỏi cơ sở dữ liệu đều chứa đựng khối lượng thông
tin rất lớn, nguồn (in được cập nhật bị sung và hồn thiện liên tục, có thể
có những thơng tin lại được trình bày dưới các dạng chù đề khác nhau và có
thê’ tồn tại một vài khác hiệt nhấl đinh trong các chương trình xử lỵ dữ liệu
Ihực nghiệm giữa các tổ chức sử hữu.
Bên cạnh việc tìm kiếm trên, mơi trong sơ các giải pháp cập nhật thông
tin nhanh và hiệu quá là -đăng ký tham gia dịch vụ Irao đổi tin theo nhóm
theo những chuyên để hẹp quan tâm (dịch vụ Usenet hoặc dạng tương tự).
Ngồi ra, mỗi cá nhân có thể “sở hữu” kiổu tìm kiếm thịng lin hữu hiệu
hơn và việc tiếp thu thơng tin bạn bị giới thiệu íại... trong nhiều trường hợp
lại là cách tiếp cận nhanh chóng và hiệu quả đến nguồn dữ liệu mong
ĩiiuốn.
Bảng 2. ỉ . Đ ịa ch ỉ m ột s ố nhóm tin liên quan đến cịng nghệ sinh học
(hu p://w w w . b io r e m e d ia tio n g ro u p .o rg /B io L in k s /ltn k s /n c w s.h tm )
A griculture
A groforestry R esearch
Biology A nnouncem ents
Audubon Society
Biology U ou rn aìs and Publìcatìons)
Biologv of G rasses
B iotechnology
Botanv
C hem istry
C hem ical Engineering
Cỉvil E ngineering
E cological Research
Energy, Science, & Technology
Entom ology
Environm ent and Ecology
Fisherics Science
G eneral Biology & Science
news:sci,aericulture
news:bi.onet.aarotorestrv
news:bionet.announce
news:alt.ore.audubon
news:bìonet.iourna]s.contents
news:bionet.biolosv.erasses
news:sci.bio.technology
news:sci.bio.botany
news:sci.chem
news:sci .ener.chem
news:sci.entỉr.civil
news:sci.bio.ecolo)ỉY
news:sei.enei'íỉy
ncws:sci.bio.entomolog'í^inisc
news:sci.environment
news:sci.bio.fisheries
news:bionet.general
19
G eneral Engineering
Geology
H vdrologv
MicrobioloịỊV
MicrobioloỊỊV ÍBionct Nevvsgroup)
M icroscopy Tcchniques
Pctreum G eology
Population Biology
Scicntific Research
Toxicology
Tropical B ìoIoịịy
Energv and R enew able Resources
Environm entalist C auses
T echnology Topics
Sym biosis D iscussion and Research
Biosphere and Ecology
C onscrvation
M eteorology
1 Chaotic and other N onlinear
System s
C om putational Fluid Dynam ics
Polvm er Science
System s Science
M agnetic R esonance Im aging and
Spectroscopy
M ass Spectrum Techniques
Spectrum A nalysis
M iscellaneous R esearch Testing
T echniques
N ondestructive T esting Techniques
C rystallography
Environm ent
W aste M anagem ent
Plant Science
20
news:sci.en 2 r
news:sci.geo. scolocv
iiews:scLseo.hYdrologv
news:sđ.bio.microbioloỉĩV
news:bionct.microhioloíĩỵ
news:sci.techniuues.microscopv
news:sci.íỉeo. Petroleum
news:bionet.pormlation-bio
news:sci.research
news:bionet.lox icolosv
:
new s:b io n et.b io lo £ v .tro D Ìc
í
news:a]t.energy.rencwable
news:alt.savc. the. earth
news:alt.technulosv.misc
n e w s:b ìo n c t.b io lo £ V .sy m b io s is
ncws:bit.listserv.biosDh- ]
ncws:sci.bio.conscrva(ion
ncws:sci.seo.meteorơlo 2 Y
news:sci.nonlinear
news:sci.physics.comnutational.li
uid-dvnamics
news:sci.polymers
ncws;scí.svstems
news:sci.techniaues.maercsonancc
news:sci.tcchnkiues.mass-sncc
news:scĩ.techniques.spectroscopY
nevvs:sci.techniques.testins.misc
news:sei.tcchniaues.tesline.nonde
structive
news:sei.techniques.xtallo£rar>hy
news:talk.cnvironment
ne\vs:sci.environment.waste
ncws:bionet.plants
3.
cơ sỏ Dữ LIỆU
■
CƠNG NGHỆ SINH HỌC
■
■
3.1. Đại cương
Cơng nghệ sinh học là một lĩnh vực khoa học trẻ, đa nyành, phát triển
rất năng động và hết sức mạnh mẽ trong nửa cuối thế kỷ XX. Nếu như cơng
nghệ thịng lin và internet được xem là công nghệ của thc kỷ XX, thì rất
nhiểu ý kiến dự báo đều cho rằng công nghệ sinh hạc sẽ trư (hành công
nghệ phát tricn mạnh mẽ và nàng động nhất cua thế kỷ XXI. Rất nhiều quốc
gia trên Ihế giới đã xác định côniỉ nghệ sinh học là một lĩnh vực khoa học
công nghệ trọng điểm trong chiến lược phát triến đất nước. Nhờ vảv, trong
thời gian qua còng nghệ sinh học đã nhận đưực sự đầu tư đáng kể của các
chính phủ, đã huv động được tiềm lực khoa học và công nghệ không chỉ các
cơ quan chuycn sâu, hoạt động trực tiếp trong lĩnh vực của mình, mà cịn
mở rộng sang cả nhiều cơng ty vốn khơng có ưuyền thống hoạt động vổ
còng nghệ sinh học.
Về ticm lưc khoa học và công nghệ sinh học. các cường quốc công
nghiệp hàng đầu, do ưu tiên tập trung đầu tư từ rất sớm nên công nghệ sinh
học cùa các quốc gia này phát triển hết sức mạnh mẽ, vượt trội toàn diện,
triệt để và bỏ rất xa các quốc gia đang phát triển. Như một hệ quả tất yếu,
nâng lực lưu trữ, xử lý và khai thác cơ sở dữ liệu nói chung, và dữ liệu vể
21
cõng nghộ sinh học nói riêng, cũng tập trung cao độ trong các ngân hàng dữ
liệu thuộc ba trung tâm khoa học và công nghệ hàng đầu thế giới là: Mỹ,
Cộng đổng Châu Âu và Nhật Bán. Một sò quốc gia đang phát tricn, nhờ
chiên lược đểu lư trọng (tiêm nên cũng đã Ihu được một số thành công nhất
(lịnh trong từng lĩnh vực (thí dụ, thành tựu vc lúa lai của Trung Quốc hay
thành tựu vé công nghệ sinh học trong sản xuất thuốc đicu trị cùa Cuba...).
Tuy nhiên, trong kỷ nguyên công nghệ và hội nhập quốc tế hiện nav, để
đây nhanh tốc độ phát triển còng ntỉhệ sinh học thì mỗi quốc gia, dù ở bất
cứ trình độ công nghệ nào cũng phải xcm hợp tác quốc tế là một thực tế tất
yếu cùa Ihời đại. Hơn nữa, ưu thế về đa dạng sinh học lại tập trung cao ở
vành đai xanh nhiệt đới, chứ không phải thuộc các nước công nghiệp phát
triển. Nghĩa là, trong lĩnh vực cồng nghệ sinh học, mọi auởc gia.ticn thế
giới đều lất cấn sự “cộng tác và hõ trợ” từ các quốc gia khác. Cũng nhờ dặc
điểm này ncn ngay các ngân hànẹ dữ liệu lớn của các quốc gia cồng nghiệp
hàns đẩu cũng rấl '"hào phóng” trong việc tiếp nhạn thông tin mới và cung
cấp những “trợ giúp cần thiết” cho các nhà khoa học sinh học trên toàn thế
giới, thông qua dịch vụ internet. Thực tế này, đã tạo ra cơ hội thuận lợi cho
các nhà khoa học và công nghệ ở nước đang phát triển trong việc tiếp thu
thknh lựu khoa học và côn^ nghệ mới phục vụ cho mục tiêu nghicn cứu của
mình. Trcn nền tang cơne nghệ (hông tin và internet, cơ sở dữ liệu cõng
nghệ sinh học và hợp tác trao đổi thông tin đã thực sự liên thơng và liẻn kết
quy mơ tồn cầu. Từ hầu hếl các cơ sở dữ liệu đều có thể tìm thấy các
đường dần siêu liên kết đến các cơ sở dữ liệu khác. Đồng thời, các trung
tâm dừ liệu lớn như NCBI, EBI, WFCC-MIRCEN và ExPASy thực hiện ché
độ trao đổi dữ liệu và cập nhật thông tin trong ngày. Sau đây, cuốn sách
cung cấp cho bạn đọc một vki địa chỉ cửa các ngân hàng dữ liệu lớn trẽn
thế giới để tham khảo.
22
%
P ubM ed
1
National Center for Biotechnology Information
Nalioral Ubtarvol'Mcdiánc
Nsuional Insmuicsol'HcalUi
NCBI
Enti ez
B LA ST
S earch I E ntrez
OMIM
T U for I
B ooks
TaxBrovvser
►What does NCBI do?
SITE MAP
A lphab etical List
R esource Guide
About NCBI
A n introduction for
researchers,
educators and the
public
GenBank
S equence
sub m ission support
and software
Literature
databases
P ubM ed, O M IM ,
B ooks, and
Hot Spots
Established in 1988 as a national resource for
molecular biology iníormation, NCBI creates
public databases. conducts research in
computational biology, develops software
tools for analyzing genome data, and
disseminates biomedical information - all for
the better understandĩng of molecular
processes affecting human health and
disease More .
E n tr e z G en e
S equences,
stru cture s, and
You ca n now u se E n tre z to se a rch fo r
in ío r m a tio n ce n te re d on th e c o n c e p t of a
g e n e , an d c o n n e c t t o m an y so u rc e s of re la te d
in fo rm a tio n both w ith in and o u tsid e N C B I.
taxo nom y
The hũman
genom e, whole
genom es, and
related resources
Data m ining
► C lusters of
orthologous groups
* Coffee Break,
G enes & D isease,
NCBI Handbook
► E lectronic PCR
► E ntrez Tools
► Gene expression
orrmibus (GEO)
► Human genome
resources
► LocusLink
► M alaria genetics &
np.nnm irs
Genomic
biology
Tools
►A sse m b ly Archive
► E ntrez Home
The new My NCBI has replaced the
Cubby and indudes autom adc
e-m ailing of search updates and filtering search
results. Ã tab ío rm a t is used fo r íeatures such as
Lim its and displaying íiltere d search results.
P ubM ed Central
Molecular
databases
S tructure
G ũ|
u=l
___ í
P u b M ed C e n tra i
--------------- — ---------- ---- ------x
An archive o f life sciences jo u m a ls
•
F r e e fu llte x t
•
0
Over 300,000 a rticle síro m over 1S0journals
Linked to PubMed and fu lly searchable
\
Use of PubMed Central requires no registration oríee
Access itíro m any compưter vvĩlh an Internet connection.
► Map V iew er
► dbMHC
► Mouse genome
resources
► ORF finder
Hình 3.1. Đ ịa ch ỉ và ảnh trang chủ của Trung tâm Thông tin Quốc
gia về C ông nghệ Sinh học M ỹ
(N ational Centerỷor Biotechnolơgy Inỷormation, National
Library o f Medicine, National Institutes o f Healtlì, USA)
( />23
Ad<*eỉỉ !«£] hUp./Avwweb».dc uk/Databaĩes/
Nucleolide sequences
European
ESI Hom e
B i oi n f o rm a t i c s
A bout EBI
Databases
• a la ltiii
ỉ
■ Databases Home
» Database Brovvsing &
EntryRetrieval
• Nucleoliđe Dalabases
..
lu u g a
ĩn stitu te
R esearch
S ervices
Dalabases
ẼBI DATABASES
at the EBI
Sutxnissions
ArrayExpress 5000
Milẽstone
.
Institute (EBI) centre on building, m aintaining and
providing biological databases and iníormation services
to support data deposition and exploitation.
Apr 13th 2004
Som e of the (iatabases w e manage include:
A rra y é x p re s s .th e E8I'S
re p o s ío ry for
» Protein Databases
• structure Databases
• MicroarrayOatabase
•
• Literature Dalabases
•
• V ie w a ll Databases
•
•
ì • Europe's primary collection oí
nucleotide sequences is maintained in collaboration with Oenbank
(USA) and DDBJ (Japan)
ỤniProt KnowlẹrtjieHase a complete annotated protem sequence
database
M acroinọỊẹcular s tru c tụ rẹ Dalábase . European Project for the
managem ent and dislribution of data on m acrom olecular structures
A rrd v£ x»íe ss íor gene expression data
Ensembl - Providing up to date completed m etazoic genom es and
the best possible aulom atic annotation.
W e have m ariy other databases available including literature citation
databases such as Mediine. You can brovvse the databases we have
available by choosing the appropnate ca leg o iy on the left navigation
column.
Um Prot3 4 Reieased
UniProt
)• ụ n h n n tl
Dec 21st 2004 The UniProt Release 3.4 co n sisls of
S wiss-P rot Protein Knovvledgebase Release 45 4 and
T rE M B l Protein Dalabase Release 28 4 more
m icroarray-baseđ g eneexpcession d ata, has
g ro w n more th an 100told in th c past year.
exceedlng 5000
hybri<*za
BioMart Launched
Mar 17th 2004
BioMsrl IS a stnple and
robust dota irtegrsđion
system for la rg ẽ scale
ciaía querying, p fovidng
re se arc h ers w * h fast
a ix i tiexibie acce ss to
btological d atabases
..xnore
GOAReieaseđ
D e c e m h e r 1 4 th 2 0 0 4
The new release oí G O A contains UniP íot GO v24 0 ễ
G O A Hurnan v26 0, G O A Mouse v12 0 . G O A Rat V12.0
and G O A PDB v15.ữ more
m
CSA Launchetl
EMBL.V81 Releaseđ
Dec I3 th 2004 - Release 81 of the E M B l Nucleotide
Sequence Database contams 46,105.397 sequence
entries com pnsing 79.271.300.840 nucleotides.oí which
5,4Q8,558 entnes (34,986,041,399 nucleotides) are
W G S (whole genome shotgun) data
See full Release
notes and u serm anuai for more details
EKỊBl
Jan 7th 2004
Thẹ CateMK.Ste AM .
a reso u rce 0 < ca taly tc
s le s and residues
id e ríiíied in enzym es
using structurai data
Nưcf A ctds
interPro v8 1 Released
InterPro
N ov?9th 2004 - ln te rP ro 8 1 is out.vvith 11330 entries.
over 1 6 m illion hits to UniProt and new links to SVV1SSMO DEL. PANDIT and M S Dsite See Release Noles for
details
R es 2004
3 2 :0 1 2 9 -0 1 3 3 .
|UniProt
Hình 3.2. Đ ịa ch ỉ và ảnh trang chủ của cơ sở d ữ liệu thuộc Viện TinSinh học Cháu Âu
(European Bioin/ormatics ỉnstitute, England)
(www.ebi.ac.uk/databases)
24
enanra
ÍĨŨ3CĨĨ3
k ResÊarch O rg an U ition o í lorioaUon and Syiteras
i Institute of Genetics
About ãG
1
Rôô*arch
sôôrcôi Q
ằ [ S tn r v n
Ịcp«n S n ww |
JV“ *
HOME
j_
lnformationfDatabase
1
■Nemaỉode Gene ExDression Database
1
- DNA Data Bank ol JaDan
■A Ab ou t NIG
- National BioResource Proieci - Inlormation Site
ỗ.ể Rttcirch
....... ' ... .... jm __ * _________
.
—*H
- VVPCC-MIRCẼN VVorld Data Centre fổr Microoraanisms - R ice Genome D a ia b a se (O ivza b ase l
•J Graduate P ro g u m
D a ia bite -S erv lc e
!■ Genetic Resources DataBase (SHGENI
- Mouse Microsatellite Daiabase
I- E coli Genome Database ÍPEC)
•Ả Semlnars
•A Opcn Se m ln ari
Development and maintainance of genetlc stocks
'i * ( ( ! »
■J Local ln fo rm a tlo n
ị- E coli
'J VVtuol Muiaum & Gantttcs
1- HVdra
(•nttrnal UMo«ily}
Nvebmìiitcnanig^ip
I^Drosoũhila
■Mouse
■Rice
»
Distributlon of Libraies, Vectors Clones and Antibodies
Ị-NematlecDNAUbratv
Ị^Clonma Vectors
- DrủSODhila Seamentation Antibodies
Computer System
■NIG Suoercomouter System
______
____
Hình 3.3. Đ ịa ch ỉ và ảnh trang chủ của cơ sở dữ liệu
thuộc Viện Gen Quốc gia N hật Bản
(National Institute ofGenetics, Japơn)
(www.nig.ac.ip/section/service.html)
25
S ite M ap
Search ExPASv
Search |Swiss-ProựTrEMBL
3
Contact M
for ị
G o| Cteor I
Proteom ics Server
The ExPASy (Expcrt Protem Analysis System) protcomic? server o f the S w i s s Institute ofBiomformat)C$ (SIB) 1$ dedỉcated to the analysis of
protcm scqucnccs and structurcs as weD as 2-D PAGE (DiSclaimer / ReCerencesy
IAjuwmKfHKWteiỊ IJ»b •yciũng) [M irrp r S ittĩỊ
T ools and softw are p a ck a g es
•
•
•
•
•
S V iss-Prot and T rE M B L - Protein kjiowledgebase
PR O SITE Protem íaimlies and domains
S W ISS-2D PA G E - Two-dưntnsional polyacrylamide gcl elcctrophoreĩis
E NZYM E - Enzyme nomenclâturc
S W ISS -3D IM A G E - 3D ìmages o f proteins and other biological
macromolccules
• SVVISS-M ODEL R epository Automatic ally generated protcm models
• Proteom irs and seq u en ee analvsis to o lt
o
o
o
o
o
o
Proteomics [AldttUe (PMF) **" .
]
D N A -> Protein [TitntUul
Suralanty searches iHLASTl
Pattem and profile searches fSc>nPto»itt1
Post-translational modification and topology prediction
Pnmary structure analvsis fPtotP»t>m. pỊ/MW. PĩQtSolel
o S e c o n d a ry a n d t c r tia r y s tn ic tu r e p r e d ic tio n fS W ISS-M O D E1. S v n tt
• G erm O nLine - Knowiedậebase on germ ceD diấerenùation
• A shbya G en om e D a tab ase
PdbVằewôi1
ã L in k « to m an y o th e r m o lẹcular hiologỴ d atab aies
1
1
o Alignment fT-COFFE£.SIM1
o Eioloacal text analvsis
• Im ageM aster / M e la n ie - Software for 2-D PAGE analysis
• M Sight - Mass spectrometry Imagcr
• R oche Applied Science** B iochem ical Pathways
Education and l i n k l l
Docuntentatìon
• The E xPA Sy FT P server
• S\viss Shop automaticaDv obtain (bv emad) new seauencc entn
rclcvant to your 6eld(s) of mterest
• M a ster's d eiu e e ĨII ỈYotPomirs and Bioiníorm atics
• Proieom irs co u is e s • two courses covcnna Separáon Sciences &
MS spectrometry for Protcorrucs
• SVVISS-2DSERVICE vour 2-D Gels períormed accordmR to
Swiss standarđs
1
•
•
•
•
•
W hat's N c w on E xPA Sv
SW ĨSS-FI.A SH clcctronic buBetms
Swiss-Prot documents
H ow to c ie a te H TM L links to E xPA Sy
Cnmplete table o f availahle docnntents
•
•
•
•
European BioinToiittatics Intritiite (ERT)
National ("entpr for Riotechnoloiữ' LnTormation (N C BR
.Tapanese G en om eN et
Australian National Gpnomic Infoniiation S ervice (A NG ỈS)
L inks to som e m ajor m oleruiar biology servers
L in k s to b sts o f m olecular biology resources
• A m os' w ww lỉnks The ExPASy bsc o f Btomolecular servers
• KinHunt - Search the internet for molecular biolo^y míormaoon
• VVORLD-2DPAGE - Lỉnks to 2-D PAGE database servcrs and 2-D
PAGE reUted servers and services
• 2D Hunt - 2-D elcctrophoresis Snder
• C M S -S D S C - The C M S-SD S C Molecular B ioIv Resource
• B iolocv lin k í from Harvard Umvcrsitv
• Yahoo - SrienrprRiology
1
• Swiss-Q uiz
• S^iss-.Tokes
• B lO SC I/bionet Electronic Ne^-seroup N etw ork for R ioloev
• E M B net
L o ca llin k s
•
•
•
•
•
•
G en eva and .Vwiss local p aees
Swiss liiỉtitu te o f Bioi»ifonnaric$ (SỈB)
The H ealth On the N et Toundation (H O N)
G en eva BioinTonnatics (G en eB io)
G eneProt
Protem es a la «U ne»
Hình 3.4. Đ ịa c h ỉ và ảnh trang chủ của cơ sở dữ liệu vê hệ thơng
nghiên cứu phàn tích cáu trúc protein của Thuy S ĩ
(E.xPASy Proteomics Server, Swiss ỉnstitute o f Bioinformatics)
(www.expasy.org)
26
1
• ISR EC bioiníorniatirs sroup
M isce lla n eo u s
• Protein -Spntlight
• Links to roiưerenrps and ev e n tt
1
]