© 2021 BIOTOOLS Co., Ltd. All Rights Reserved

latest news

最新消息

11 2021.08

基因的諾亞方舟:《脊椎動物基因體計劃(VGP)》

(附圖)技術新知_1
2007年5月31日,綠色和平組織在《聖經》中記載「諾亞方舟」停靠的亞拉臘山上,打造了一座諾亞方舟模型,呼籲世人若不愛惜大自然,將導致洪水、乾旱等天災的反撲。

我們的星球正在經歷第六次大規模滅絕事件,這是自6,600萬年前恐龍滅絕以來最嚴重的一次。絕大部分是由於人類對污染、棲息地的破壞和氣候變化的影響。在此刻,地球上有八分之一的脊椎動物物種(總共約8,000種)瀕臨滅絕的風險。而基因的諾亞方舟計畫: 脊椎動物基因體計劃(The Vertebrate Genomes Project, VGP)也因此因應而生。
VGP是由12個國家/50多個機構/數百名國際科學家所組成的Genome 10K (G10K) 的聯盟組織宣布的一項長期項目,估計總成本為6億美元,最初G10K計劃對至少10,000種脊椎動物物種的基因體進行定序,由G10K聯盟的命名也可以窺見一二,但隨著定序技術的進步以及成本降低,G10K決定增加定序物種至71,657種現存脊椎動物物種,且同時包含每個物種的雄性和雌性個體。VGP 將根據生物分類法的結構逐步完成,從最大的分類: 域(domain)到最小的分類: 物種(species),將分為四個階段完成。目(第 1 階段)、科(第 2 階段)、屬(階段 3)最後是所有物種(階段 4)。而每一個階段物種的選擇都基於以下標準:
(1) 需要改進的現有基因體草圖的物種。
(2) 幫助了解人類生物學特殊特徵的物種。
(3) 瀕臨滅絕的物種。
(4) 在生物醫學研究有突出研究的物種。
VGP旨在建立近乎無錯誤的參考基因體組裝,這些基因體將用於解決生物學和疾病中的基本問題,識別遺傳風險最高的物種,並防止或至少最大限度地減少人類對環境影響造成的物種損失,保存生命的遺傳信息。

(附圖)技術新知_2
VGP提供的階段示意圖

VGP指出拯救物種和進行高品質基因體研究的一個主要挑戰是,大多數當前的基因體組裝都存在數十萬到數百萬個錯誤,其中未解析的複雜重複序列和單倍型異質性是組裝錯誤的主要來源。常見錯誤如部分基因缺失、部分基因體組裝錯誤、甚至有些基因則完全在組裝過程中丟失。由於先前都僅使用碎片化、容易出錯的組裝方法,在某些基因結構過於復雜的情況下,研究人員甚至不知道他們正在處理不正確的基因序列和結構,從而影響了許多科學發現和科學進步。因此,高品質無錯誤的基因體組裝和註釋是必要的。為了完成高品質的基因體組裝,VGP團隊強調“長讀長組裝”而不是“短讀長操作”。代表長讀長定序技術能最大化提高基因體品質,相較短讀長技術能更容易地將DNA序列組裝成整個染色體,數據的處理也由包含數百萬個碎片的拼圖,減少到數千個拼圖的拼圖等級。

(附圖)技術新知_3

左圖是第一代和第二代基因體定序方法的代表;以較小的拼圖表示短讀長片段,孔洞表示缺失信息。
右圖是用於 VGP 的第三代技術的代表,大塊拼圖塊代表長讀長片段。

在技術方面,VGP與行業合作夥伴合作開發了前所未有的高分辨率基因體定序方法,以低成本改進高分辨率基因體定序工作流程和計算管道。
合作夥伴包含:
(1) 定序和組裝公司: Illumina、Pacific Biosciences、Oxford Nanopore、Bionano Genomics、10X Genomics、NRGene、Dovetail Genomics、Phase Genomics、Arima Genomics
(2) 定序中心: 華大基因(BGI)、博德研究所(Broad Institute)、桑格研究所(Sanger Institute)、華盛頓大學基因體中心(Washington University Genome Center))
(3) 公共基因體檔案和註釋中心: NCBI、Ensembl、UCSC
(4) 學術界和政府部門專家: NIH、NSF

在組裝品質評估方面,G10K提出了一套標準: 縮寫為x.y.P.Q.C
x = log10[contig NG50]
y = log10[scaffold NG50]
P = log10[haplotype phase block NG50]
Q = QV base accuracy
C = percentage of the assembly assigned to chromosomes

VGP設置的最低基因體品質指標為:
(1) contig N50 為 100 萬 bp (1Mb)
(2) scaffold N50為10Mb
(3) 由2個獨立來源確認90%的基因體組裝成染色體
(4) 鹼基QV值不低於 QV40(相當於10,000 bp 中不超過1個核苷酸錯誤)
(5) 單倍型定相。
稱之為3.4.2.QV40 PHASED METRIC。

2021年的4月28日, VGP迎來了第一階段的重大成果,發表在nature雜誌並獲選為當期封面,論文名稱為: 《Towards complete and error-free genome assemblies of all vertebrate species》,研究結果涵蓋了6個主要脊椎動物種系中的16個物種的基因體組裝結果。 (懶人包傳送門)

(附圖)技術新知_4
幾乎所有基因體都是與個別科學家或其他財團合作完成的,包括Bat1K基因體、B10K鳥類基因體和地球生物基因體計畫(Earth BioGenome Project, EBP)。
 
(附圖)技術新知_5
 
(附圖)技術新知_6
 
(附圖)技術新知_7
 
(附圖)技術新知_8

大多數基因體數據是在投資VGP的三個定序中心生成的,包括紐約洛克菲勒大學脊椎動物基因體實驗室(VGL),英國Wellcome Sanger研究所和德國馬克斯普朗克研究所(MPI)。 VGP 基因體數據將在Genome Ark上公開提供。Genome Ark (https://vgp.github.io)是一個由亞馬遜雲託管的資料庫(s3://genomeark),並在國際公共基因體瀏覽和分析資料庫(NCBI、ENSEMBL和UCSC)中進行註釋和顯示。VGP的組裝在DNAnexus上執行,且可供任何人使用。完整的原始碼可在github 上公開獲得(https://github.com/VGP/vgp-assembly)提供在本地端或DNAnexus平台上運行。
在第一階段,VGP結合了PacBio等長讀長技術和改進的演算法來生成初始Contig組裝,再使用遠程支架方法,將Contig放入染色體中,包括 10X Genomics linked-reads、HiC linked-reads和 Bionano 光學圖。Pipeline如下:
(附圖)技術新知_9
第 1 階段Pipeline

VGP 的下一步預計將生成260個物種的幾乎無差錯的參考基因體,這些物種代表所有脊椎動物的目,它們的分歧時間為約 5,000 萬年前 (MYA) 或更早,VGP將對異染色體(如果存在)進行定序,以便可以為每個物種組裝兩種性染色體。
(附圖)技術新知_10
VGP第 1 階段涵蓋物種

VGP目前大約每週組裝三個基因體,但需要擴大到每週組裝125個基因體才能完成所有約70,000個物種。VGP正在利用過去幾年定序技術的巨大進步,開始為所有7 萬種活的脊椎動物生產高品質的參考基因體。到目前為止,VGP已經完成了129個二倍體組合,代表了迄今為止這些物種最完整和準確的版本,而在不久的將來,將產生數千個基因體組合。就讓我們一起來期待這個天上飛的~路上爬的~海裡游的~通通不放過的基因級諾亞方舟-《脊椎動物基因體計劃(VGP)》!

參考資料

1. The Vertebrate Genomes Project官網 (https://vertebrategenomesproject.org/)
2. nature官網(https://www.nature.com/immersive/d42859-021-00001-6/index.html)
3. Rhie, A., McCarthy, S.A., Fedrigo, O. et al. Towards complete and error-free genome assemblies of all vertebrate species. Nature 592, 737–746 (2021). (https://doi.org/10.1038/s41586-021-03451-0)
4. 圖爾思第三代定序技術服務及研究中心 (Biotools TGSRC) Biotools TGS Research Center) (https://www.facebook.com/groups/883166995753861)
5. 諾亞方舟的故事│看雜誌 (https://www.watchinese.com/gb/node/4019)

圖爾思生物科技 / 微生物體研究中心
吳雁韻 文案

http://www.toolsbiotech.com/
© BIOTOOLS. All Rights Reserved
回上一頁
標籤
三代定序
聯絡我們
CONTACT US
立即前往

抱歉,為了您的瀏覽體驗及安全性,本網站不支援IE瀏覽器,請參考下方常用瀏覽器。