15
2019.11
人類參考基因體
原創文章 引用請註明出處
人類參考基因體 (Human Reference Genome)
人類參考基因體的第一版印刷品作為一系列書籍展示,在倫敦的Wellcome Collection中展出 (圖片來源 )
人類基因體計畫(Human Genome Project, HGP)目的是希望解碼人類 30 億對鹼基對的序列,2000年6月26日,美國總統柯林頓與英國首相布萊爾共同宣布人類基因體計劃工作草圖完成。接下來就是不斷地針對草圖修正以及補充。到現在為止,已經有多種版本。解碼人類基因體序列促進了生命科學相關研究的發展,讓人們對於演化、發育、分化、疾病發生甚至治療,提供了很好的參考資料。
人類參考基因體對於研究人員來說,使用上有哪些要注意的呢?
人類基因體序列草圖公布至今也超過十幾年了,由於定序技術不斷地更新突破,先前有些不容易定出序列的區域也逐漸地明朗化,所以人類基因體序列每隔幾年就會有新的版本公布。
表一: 人類參考基因體版本公布時間
Release name
|
Date of release
|
Equivalent UCSC version
|
GRCh38
|
Dec 2013
|
hg38
|
GRCh37
|
Feb 2009
|
hg19
|
NCBI Build 36.1
|
Mar 2006
|
hg18
|
NCBI Build 35
|
May 2004
|
hg17
|
NCBI Build 34
|
Jul 2003
|
hg16
|
多種版本同時並行,我究竟該用哪個版本呢?
首先,先解釋什麼是參考序列? 參考序列怎麼來的? 由於參考基因體是利用來自”多個”DNA提供者的基因體進行定序之後而組裝而成的,因此不能準確地代表任何一個人的基因體序列。 當生物資訊人員拿到定序結果的原始資料,或是實驗端的研究人員拿到分析好的定序報告,第一個要注意的就是,手上這份資料的人類參考序列究竟是根據哪一個版本呢? GRCh38? GRCh37? hg38? hg19?
首先,先解釋什麼是參考序列? 參考序列怎麼來的? 由於參考基因體是利用來自”多個”DNA提供者的基因體進行定序之後而組裝而成的,因此不能準確地代表任何一個人的基因體序列。 當生物資訊人員拿到定序結果的原始資料,或是實驗端的研究人員拿到分析好的定序報告,第一個要注意的就是,手上這份資料的人類參考序列究竟是根據哪一個版本呢? GRCh38? GRCh37? hg38? hg19?
以公布的時間軸來看(表一),GRCh37 是 2009 年所公布的,在相同時間 UCSC (University of California, Santa Cruz)也發布了一個類似的版本為 hg19,而 GRCh38 是 2013 年所公布的,UCSC 相對應的版本為 hg38 (會不會覺得奇怪為什麼不是 hg20? 而是 hg38。這就跟蘋果公司出的iPhone 8下一代為什麼不是iPhone 9而是iPhone X一樣(誤)。這是因為 GRCh 與 UCSC 所公布的版本都是來自於相同的參考序列,為了避免大家搞混 (精神錯亂)所以決定用同樣的數字來代表。在這邊相同的參考序列所代表的意思就是基因體座標 (genomic coordinate) 是一樣的。
舉例來說:
TP53 (NM_001276698)這個基因在:
hg38 或是 GRCh38 的位置是chr17:7,668,402-7,675,493
hg19 或是 GRCh37 的位置是chr17:7,571,720-7,578,811
(資料來源是UCSC Genome Browser)
兩個不同時間發表的版本其基因體座標完全不一樣,所以如果要查詢序列時,一定要先清楚知道自己該使用哪一個版本的參考基因體。
那GRCh37 (hg19) 與 GRCh38 (hg38)還有哪些地方不一樣呢?
簡單來說就是修正一些不正確的序列,增加許多原先不清楚序列的區域,例如 centromere 區域,另外就是增加多許多存在變異的位置。因此,GRCh38 (hg38) 是目前最新版的人類參考基因體。
那我該選擇哪個版本呢?是不是最新的版本最好?
這就要看使用者的選擇了,目前兩種版本出現的比例差不多,相關的輔助資訊,例如各大基因體資訊資料庫,NCBI、UCSC、Ensembl、1000 Genomes Project、gnomAD、COSMIC等,還有我們台灣人體生物資料庫,同時都可以使用這兩種版本進行查詢與資料使用。不過還是有一些延伸的工具還沒有完全更新,所以目前來說,使用 GRCh37/hg19 可參考的資料較完善,也還不會遇到什麼版本不合的問題。 利用GRCh37/hg19分析出來的結果也可以利用以下兩種工具進行版本間座標的轉換: UCSC LiftOver工具 (https://genome.ucsc.edu/cgi-bin/hgLiftOver) NCBI’s Genome Remapping Service (https://www.ncbi.nlm.nih.gov/genome/tools/remap)
接下來就要討論到比較細部的問題,以同一時間發表 (以GRCh37為例),還是有不同名稱的人類參考基因體,那差別是在哪兒呢?
(1) GRCh37
全名為 The Genome Reference Consortium Human Build 37, GRCh37。是 Genome Reference Consortium 建立的人類參考基因體。這是所有人類基因體的參考版本,並作為其他三個參考序列的基礎。
a) 粒線體版本是修正版的 NC_012920。
b) 染色體編號直接以數字表示,沒有 chr 這幾個字元。
(2) hg19
UCSC 根據 GRCh37 所建立的人類參考基因體,通常稱為 hg19,與 GRCh37 有些許地方不一樣。
a) 粒線體是使用舊版的 NC_001807。
b) hg19 在記錄序列時有分大小寫,小寫表示在repeat區 (Repeats from Repeat Masker and Tandem Repeats Finder)。
c) 染色體編號帶有 chr 這三個字元,例如: chr1。
(3) b37
Broad Institute 根據 GRCh37 創建了一個人類基因體參考序列,Broad Institute 稱之為 b37。
(4) humanG1Kv37
這個版本相當於 b37,不同之處在於這版本不包含人皰疹病毒4類型1 (human herpesvirus 4 type 1 ),這是由 1000 genomes Project 所完成。
這四個版本目前都有使用,如果您是使用 Broad Institute 所開發的相關分析軟體,建議使用 UCSC 與 Broad Institute 所建立的人類參考基因體,也就是hg19/hg38以及b37/b38,因為 Broad Institute 有提供這兩種版本相關資源可以使用。詳情可以參考:https://software.broadinstitute.org/gatk/download/bundle。
最後給大家猜猜看,目前發現基因體最大的脊椎動物是什麼?
大象?鯨魚?
.
.
.
.
是蠑螈 Salamander,其基因體大小變異性很高,最大可以到人類基因體大小的 40-50 倍左右,這時候有沒有慶幸自己的研究對象是人類了呢?不然光印出序列就要 40 個大書櫃,硬碟儲存量就要 40 倍,還要加上運算時間,讓我們向研究蠑螈基因體的研究人員致上萬分的敬意吧!
蠑螈Salamander。圖片出自: https://en.wikipedia.org/wiki/Salamander
參考文獻:
8. Sclavi, J. Herrick, Genome size variation and species diversity in salamanders. Journal of evolutionary biology 32, 278-286 (2019).
圖爾思生物科技 / 微生物體研究中心
謝嘉珊 文案
© BIOTOOLS. All Rights Reserved