© 2021 BIOTOOLS Co., Ltd. All Rights Reserved

latest news

最新消息

06 2022.04

三代定序策略與案例 │ 邁向大型族群研究

     原創文章     引用請註明出處

? 為什麼西方人皮膚是白的?

? 為什麼人口平均身高最高的國家幾乎都在歐洲?

? 為什麼心臟病、糖尿病與氣喘等常見的慢性病,發生在非裔美國人的比率高於非拉丁裔的白人?

(以下省略一百個問題,絕對是因為篇幅問題,不是小編偷懶喔)

最後要問:
為什麼每個族群看起來那麼不同卻都使用同一個參考基因體呢?

最後一個問題也是現在各國積極推動大型族群研究的原因 
--- 建立該國的人群資料庫

背景及挑戰:

事實上,早在 1948 年開始,世界各地陸續開始成立國家型人體生物資料庫 (圖一),包含美國、英國、中國、日本、韓國等國家,期望這些資料庫能發掘族群特有的遺傳變異、對於複雜的遺傳疾病能更好理解以及快速發現,從而實現精準化治療。
 
(圖一) 圓形表示全球基因體資料庫; 方形表示相關研究 [1]

以前的族群研究,包括全基因體關聯研究 (GWAS),並未能詳盡地描述人類特徵和遺傳疾病的相關性 [2]。關於這種“遺傳性缺失”的來源有很多猜測,通常指向結構變異 (SV) 和罕見變異。

在人類基因體中,SVs 所影響的核苷酸總數比單核苷酸變異 (SNV) 數量多得多。但直到目前為止,此類族群研究仍主要依賴於二代定序技術完成,該技術產生的讀長範圍為 25 bp 至 600 bp。
然而,二代定序的短讀長在重複區域方面遭遇到嚴重限制。DNA 重複序列作為基因體單元促進了 SV 的形成,同時也由於序列無法準確對齊而阻礙了 SV 的發現。即使在非重複區域中,二代定序由於技術限制也容易遺漏插入等變異(尤其是長度超過定序讀長的等位基因) 或其他修飾(例如甲基化)。隨著三代定序的成熟,越來越多研究開始將三代定序作為基因計畫的技術平台。

使用三代定序之大型研究:

瓶中基因體 (GIAB) 和人類基因體結構變異 (HGSV) 聯盟結合了多種技術來全面表徵人類基因體的結構變異,不約而同表示,三代定序在結構變異識別的能力已遠優於二代序和其他方法(例如 arrays)[3] [4] 。這些研究強調,通過三代定序可以發現很大一部分隱藏的變異。

已經有越來越多的大型研究納入三代定序作為發掘 SVs 的工具,從 2019 年到 2021 年使用三代定序且超過 5 個樣本的研究統計如圖二; 詳細列表於表一。
 
(圖二) 圓點大小表示基因體大小; 顏色表示發掘遺傳變異的方法 [5]



(表一) 使用三代定序之族群研究列表 [5]

定序策略:

在大規模人群定序項目開始時,需要考慮多種具有特定預算要求的常用策略(圖三)
下列討論三種主要策略,以達成不同的規模和預算,但須注意其對檢測遺傳變異的辨別率會產生影響。


(左) 全覆蓋策略(Full coverage): 

所有樣本都以中 ( >12x 定序深度) 到高 (>40x 定序深度) 的三代定序深度進行定序。儘管其成本為這三種方法中最高,但其優勢在於全面性、高水平的分辨率、研究設計的簡單性和相對簡單的計算工作流程。
假設: 20x 的覆蓋度對 2,500 人進行定序,需要 150 Tb的數據量。

(中) 混合覆蓋策略 (Mixed coverage) : 

代表樣本 (如: 亞種) 以中到高覆蓋度 (30x 定序深度) 進行三代定序,其餘樣本使用低覆蓋度 (>5x 定序深度) 進行三代定序(類似於最初的 1000 Genomes 項目)。混合覆蓋策略雖然比全覆蓋策略便宜,但仍然可以實現較高的整體檢測靈敏度,因此特別適用於人數眾多或預算有限的研究。但是,分析具有較高挑戰,特別是在跨多個樣本實現準確基因型預測、或是區分體細胞與雜合種系變異等。此外,混合覆蓋策略偏向發現常見等位基因,許多稀有等位基因可能會被遺漏。
假設: 30x 的覆蓋度對 200 人定序,其餘個體以 8x 覆蓋度進行定序,僅需要 73 Tb 的數據量,是全覆蓋策略的一半。

(右) 混和定序策略 (mixed sequencing approach)

一部分樣本 (10~20%) 以三代定序進行中到高覆蓋度定序,其餘樣本使用二代定序。採用哪種方法的決定將影響檢測人群中常見(紅色符號)或罕見(灰色符號)變異的能力。該決定還取決於可用預算、現有數據和樣本 DNA 可用性。混和定序策略的原理類似於混合覆蓋策略,可有效闡明易患癌症的種系 SV,其中二代定序用於驗證 SV。有些研究團隊使用 SVCollector [6] 自動選擇樣本進行三代定序,其識別的 SV 以現有的二代定序數據集中對 SV 的斷點坐標進行基因分型(例如,插入)。通過這種方式,可以獲得已識別變體的穩健等位基因頻率,但依然可能會遺漏其他樣本中包含的稀有變體。
假設: 30x 的覆蓋度對 200 人定序,其餘個體使用二代定序數據,僅需要 18 Tb 的數據量,是最經濟實惠的選項。

最新案例:



迄今為止,最大規模且以人類為中心的三代定序研究於 2021 發表於 Nature Genetics [7],本篇研究利用 Nanopore 平台檢測 3,622 位冰島人基因體多樣性,發現每位冰島人平均擁有 22,636 個結構變異,包含了 13,353 個插入及 9,474 個缺失變異。這些變異中,含有 133,886 個可信的等位基因結構變異。接著,在 166,281 位冰島人中,驗證這些變異與疾病之間的關係。研究結果發現,擁有 PCSK9 基因第一個外顯子缺失者,其低密度脂蛋白的濃度較一般人平均濃度低。而另一個基因 ACAN,有長度為 57 bp 的多個重複序列,包含了 11 個等位基因型,其重複次數與個體身高有著顯著相關。這篇研究證實了,三代定序長讀長的特點,可以有效的在族群間利用全基因體定序找到有意義的結構變異,甚至解密這些結構變異對於人類表型的影響。[8]

當然,除了本篇的冰島人基因體定序計畫,還有阿布達比的 100,000 人基因定序計畫、NIH All of Us 研究計劃和 NIH 阿茲海默症和相關癡呆症中心 (CARD) 在美國和中國、阿布扎比和卡塔爾的類似研究,都可以從中看出三代定序的應用層面逐漸擴大與普及。

除了人類層面的研究之外,三代定序已在族群規模上應用,以發現與作物 [9] [10]、果蠅 [11] 和鳴禽 [12] 的表型相關的結構變異。在分析26個玉米基因體的研究中 [13] 發現了更多的 SV 參與疾病的發生而不是賦予重要的農藝性狀。

總結:

三代定序有利於提高變異單倍型的連續性、準確性和範圍,評估複雜的小變異,並已應用於尋找與疾病相關的等位基因 [14] [15] [16],相信隨著該領域的不斷進步,可能會有更多的研究跟進。


參考資料:
  1. Carress, H., Lawson, D.J. & Elhaik, E. Population genetic considerations for using biobanks as international resources in the pandemic era and beyond. BMC Genomics 22, 351 (2021). https://doi.org/10.1186/s12864-021-07618-x
  2. ​Patron, J., Serra-Cayuela, A., Han, B., Li, C. & Wishart, D. S. Assessing the performance of genome-wide association studies for predicting disease risk. PLoS ONE 14, e0220215 (2019).
  3. Zook, J. M. et al. A robust benchmark for detection of germline large deletions and insertions. Nat. Biotechnol. 38, 1347–1355 (2020).
  4. Chaisson, M. J. P. et al. Multi-platform discovery of haplotype-resolved structural variation in human genomes. Nat. Commun. 10, 1784 (2019).
  5. De Coster, W., Weissensteiner, M.H. & Sedlazeck, F.J. Towards population-scale long-read sequencing. Nat Rev Genet 22, 572–587 (2021). https://doi.org/10.1038/s41576-021-00367-3
  6. Ranallo-Benavidez, T. R. et al. Optimized sample selection for cost-efficient long-read population sequencing. Genome Res. https://doi.org/10.1101/ gr.264879.120 (2021). This article describes a method for optimized sample selection given an existing variation catalogue.
  7. Beyter, D., Ingimundardottir, H., Oddsson, A. et al. Long-read sequencing of 3,622 Icelanders provides insight into the role of structural variants in human diseases and other traits. Nat Genet 53, 779–786 (2021). https://doi.org/10.1038/s41588-021-00865-4
  8. https://www.facebook.com/groups/883166995753861/posts/970577807012779
  9. Alonge, M. et al. Major impacts of widespread structural variation on gene expression and crop improvement in tomato. Cell 182, 145–161.e23 (2020). This study reports the population-scale sequencing for a plant (tomato) and details the impact of the detected variation on phenotypes.
  10. 33. Liu, Y. et al. Pan-genome of wild and cultivated soybeans. Cell 182, 162–176.e13 (2020).
  11. Chakraborty, M., Emerson, J. J., Macdonald, S. J. & Long, A. D. Structural variants exhibit widespread allelic heterogeneity and shape variation in complex traits. Nat. Commun. 10, 4872 (2019).
  12. genomics of structural variation in a songbird genus. Nat. Commun. 11, 3403 (2020). A large-scale sequencing study in crows highlights segregation of structural variation in natural populations.
  13. Hufford, M. B. et al. De novo assembly, annotation, and comparative analysis of 26 diverse maize genomes. bioRxiv, https://doi.org/10.1101/2021.01.14.426684 (2021).
  14. Hiatt, S. M. et al. Long-read genome sequencing for the diagnosis of neurodevelopmental disorders. bioRxiv https://doi.org/10.1101/2020.07.02.185447 (2020).
  15. de la Morena-Barrio, B. et al. Long-read sequencing resolves structural variants in SERPINC1 causing antithrombin deficiency and identifies a complex rearrangement and a retrotransposon insertion not characterized by routine diagnostic methods. bioRxiv https://doi.org/10.1101/2020.08.28.271932 (2020).
  16. Sone, J. et al. Long-read sequencing identifies GGC repeat expansions in NOTCH2NLC associated with neuronal intranuclear inclusion disease. Nat. Genet. 51, 1215–1221 (2019).
 
圖爾思生物科技 / 微生物體研究中心
吳雁韻 文案
 
 
 
 
 
回上一頁
標籤
三代定序
聯絡我們
CONTACT US
立即前往

抱歉,為了您的瀏覽體驗及安全性,本網站不支援IE瀏覽器,請參考下方常用瀏覽器。