04
2016.07
參考基因體該如何下載(1) - Ensembl
Ensembl
由European Bioinformatics Institute(EBI)與Wellcome Trust Sanger Institute(WTSI)共同合作開發的Ensembl 資料庫覆蓋物種廣,資訊更新快;隨著技術發展和研究的深入,有的物種基因體會有多個版本,Ensembl 資料庫以最即時的更新受到廣大研究者的青睞。
查詢方法一:以物種名稱進入
如果想要直觀看到更多物種的基因體資訊,那請選擇方法一。
(A) 進入 Ensembl 資料庫首頁
(B) 點選 View full list of all Ensembl species,進入以物種名稱排序的列表
如果想要直觀看到更多物種的基因體資訊,那請選擇方法一。
(A) 進入 Ensembl 資料庫首頁
(B) 點選 View full list of all Ensembl species,進入以物種名稱排序的列表
(C) 如果列表中含有目標物種,可直接點選名稱入進,若沒有目標物種,需在Filter中輸入搜尋物種英文名稱。例如輸入"dolphin",將會篩選留下該物種的資訊,如下:
(D) 點選 Download DNA sequences (FASTA),即進入參考基因體的下載頁面
即可下載該物種的全基因體序列 (*.toplevel.fa.gz),下載後可直接用於該物種的重定序研究。
查詢方法二:以Downloads進入
如果想要一次下載多個參考基因體,那可以用此方法。
(A) 進入Ensembl 資料庫首頁
(B) 點選 Downloads 進入
(C) 點選右側的 Download data via FTP,進入FTP Download頁面
(D) 點選FTP site進入ftp://ftp.ensembl.org/pub/ 索引頁面,可看到多種參考基因體版本可供選擇
(E) 這邊以較新的 release-84 版本為例,點選 release-84,出現如下頁面
(F) 點選fasta,進入ftp://ftp.ensembl.org/pub/release-83/fasta/ 的索引頁面,會出現以不同物種拉丁命名的資料夾
(G) 點選感興趣的物種,進入該物種的資料夾
需要基因體序列,則點選 dna 資料夾
即可下載該物種的全基因體序列 (*.toplevel.fa.gz),下載後可直接用於該物種的重定序研究。
(H) 分析中我們需要FASTA格式檔案和GTF/GFF檔案,因此在(E)步驟中還需要下載GTF檔案,有GTF檔案則優先選擇下載,沒有GTF則選擇GFF3,然後再轉換成GTF檔案使用。點選GTF進入下方頁面:
點選 *.gtf.gz 檔案下載~
今天小編就先介紹以Ensembl資料庫下載參考基因體,之後再來陸續介紹NCBI及UCSC等資料庫~~
今天小編就先介紹以Ensembl資料庫下載參考基因體,之後再來陸續介紹NCBI及UCSC等資料庫~~
圖爾思生物科技 / 諾禾致源文案
http://www.toolsbiotech.com/
NCBI
NCBI(National Center for Biotechnology Information)由美國政府所設定並負責更新維護,其網站資訊全面且功能強大,1992年10月建立並負責維護 GenBank DNA 序列資料庫。
UCSC
由 University of California Santa Cruz (UCSC) 創立和維護的 UCSC 資料庫,但是覆蓋物種資訊有限,而且資訊更新相對較慢(如基因體版本更新),所以 UCSC 資料庫使用率稍遜色於前兩個資料庫。