06
2019.11
基因名稱轉換工具
原創文章 引用請註明出處
生物資訊分析最重要的是如何提高結果的可讀性,其中基因名稱或 ID 轉換是最常見的問題。往往在不同資料庫或不同平台會有特定的 Gene ID,例如 Ensembl 人類基因會是 ENSG/ENST 為前綴開頭,而 NCBI/EntrezID 則為一串數字,但這些文數字可讀性相當低,因此需要將其轉換為 Gene Symbol Name 以及對應的別名 (alias),更進一步還能對應到相關的 Gene Ontology 或 Pathway。 R Bioconductor 中的 biomaRt 則是生物資訊最常用的轉換工具,但由於需要以寫程式的方式去實現基因名稱轉換,因此對於一般研究人員進入門檻較高,今天小編就來介紹幾個易於操作的網頁工具吧!
Ensembl 提供一個網頁版的基因名稱轉換工具[1],進入 Ensembl 主頁面後點選上方的 BioMart
接著點選左側 Dataset 選擇欲使用的資料庫,選擇 Ensembl Gene 98,由於我們要轉換的是人類基因名稱,因此選擇對應的 Human genes (GRCh38.p13)。
點選 Filters 後,在右方 Input external reference ID list 選擇輸入的 ID 類型,並貼上欲轉換的 ID 列表。若為 Microarray probeset ID 則可選用下方的 microarray probes/probesets ID。
最後點選 Attributes,選擇欲輸出轉換的 ID 類型。例如我們在 Gene 分類中選取 Gene ID / Gene name / Gene description / Gene start / Gene end,另外亦可在 External 分類中選擇其他的 ID 類型,例如 GO term / NCBI gene ID / HGNC ID 等。
點選上方的 Count 按鈕可統計輸入的基因數目與該物種的總基因數量。點選 Results 後開始轉換 Gene ID,呈現結果如下圖。亦可點選 Go 按鈕下載轉換後的表格資訊。
bioDBnet 整合多種資料庫的資訊,包含了 Ensembl、UniProt、RefSeq、Affy、GO、KEGG、GeneBank 等 (詳見 bioDBnet Network Nodes & Network Diagram),可使用 db2db 轉換不同的 ID 資訊[2]。選擇輸入的 ID 類型與欲轉換輸出的 ID 類型,填入對應的物種分類 (例如人類 9606) 以快速且準確的進行轉換 (若不知道分類編號可點選 Taxon ID 查詢)。
點選 Submit 送出查詢。查詢後可點選 "Results in Excel" 下載表格。
參考文獻
[1] Kinsella RJ, Kähäri A, Haider S, Zamora J, Proctor G, Spudich G, Almeida-King J, Staines D, Derwent P, Kerhornou A, Kersey P, Flicek P. Ensembl BioMarts: a hub for data retrieval across taxonomic space. Database (2011).
[2] Mudunuri,U., Che,A., Yi,M. and Stephens,R.M. bioDBnet: the biological database network.
Bioinformatics, 25, 555-556 (2009).
[3] Reimand, J., Kull, M., Peterson, H., Hansen, J. & Vilo, J. g:Profiler—a web-based toolset for functional profiling of gene lists from large-scale experiments. Nucleic Acids Res. 35, W193–W200 (2007).
[4] Reimand, J. et al. g:Profiler-a web server for functional interpretation of gene lists (2016 update). Nucleic Acids Res. 44, W83–89 (2016).
圖爾思生物科技 / 微生物體研究中心
郭育倫 文案