© 2021 BIOTOOLS Co., Ltd. All Rights Reserved

latest news

最新消息

13 2022.07

【不只是人類基因體,T2T時代來臨囉!】

     原創文章     引用請註明出處

時光飛逝,在四月的時候發表了人類完整基因體序列 (傳送門:人類完整基因體問世),其實不只是人類,其他物種也陸續發表了染色體從端粒到端粒的完整序列文獻。這篇文章就來跟大家淺談這些文獻的內容吧!



1. 稻米[1]
  •  背景介紹:
    在2021年發表的文獻中,使用了 PacBio HiFi 和 CLR 模式組裝了兩個無缺口稻米基因體 ZS97, MH63 (傳送門:Molecular Plant Rice WGS[2]。本文組裝不同譜系的父本 HZ、母本 XL628S 及其雜交子代 J4155S、LK638S,新增共四個從端到端稻米基因體。
  • 組裝平台:
    Nanopore, PacBio HiFi 
  • 組裝結果:
    使用 Nanopore 數據直接組裝出 12 個無缺口的 contigs,接著使用 PacBio HiFi 數據及短讀長數據拋光 Nanopore 組裝出的結果。Illumina 比對率從 98.83% 上升至 99.66%,覆蓋率超過 99.97%。組裝出的基因體完整度 BUSCO 值從 98.7% 上升至 99.97%。單比較不同平台組裝結果來看,PacBio HiFi 數據擁有較高 BUSCO 值 (98.9% for HiFi and 98.8% for ONT)、較高的比對率 (99.17% for HiFi and 98.81% for ONT),可以從數據看出 PacBio 定序結果擁有較高的準確度。然而,組裝的連續性則以 Nanopore 定序結果大勝 (12 contigs for ONT and 786 contigs for HiFi draft assemblies)。
 

2. 西瓜[3]
  • 背景介紹:
    西瓜是世界上重要經濟作物且受歡迎的水果,為二倍體含有 22 個染色體,目前世界各地的西瓜基因體多樣性偏低,了解西瓜的泛基因體將有助於改良與育種。第一個西瓜基因體草圖於 2013 年時發布,在 2019 年時,有發布幾個高品質西瓜參考基因體文獻。然而,每個基因體仍有空缺待補齊[4-5]
  • 組裝平台: Nanopore 21.08 Gb (57.1x), PacBio HiFi 20.62 Gb (55.9x), Bionano
  • 組裝結果: 以 N50 來比較,PacBio HiFi 得到 16 kb、Nanopore 的為 77 kb,而高準確度 PacBio HiFi 結果使得組裝出來的 contigs 可達 32.5 Mb,相較於 2019 年的文獻,長度為 14 倍。Nanopore 長片段定序不負期望的也以 11 個 contigs 組出 11個染色體,gap-free 的 ONT 片段被用來填補 PacBio 初步組裝出的參考基因體序列不足之處。最後使用長度為七個鹼基對的端粒重複序列搜索基因體序列,辨識出所有共 22 個端粒,完成第一個無缺口西瓜基因體序列。
 

3. 阿拉伯芥[6] 
  • 背景介紹: 阿拉伯芥為植物生物學及遺傳學領域的流行模式生物,含有五條染色體。2021 年的 8 月份發表了一篇阿拉伯芥的 T2T(telomere-to-telomere)文獻[7],該篇文獻提供了阿拉伯芥從端粒到端粒的第三、第五號完整染色體序列,也組裝出無缺口的第四號染色體序列 (核仁組織重複序列區域尚不完整)。而本篇文獻為首篇阿拉伯芥含有著絲粒序列的參考文獻,但是在第二及第四號染色體近端粒區域序列仍不完整[6]。在 2022 年最新文獻中,發表了阿拉伯芥 T2T 基因體 Col-PEK,完整提供第一、三、五號染色體從端粒到端粒的完整序列[8]
  • 組裝平台: Nanopore 73.6 Gb (56x), PacBio HiFi 14.6 Gb (111.3x), Hi-C, Bionano
  • 組裝結果: 研究採用先前發表的 Nanopore 及 PacBio 序列,搭配本文的組裝及驗證流程,把 Col-0 基因體序列修改成準確度更高且更接近完整的 Col-CEN v1.2。使用 R9, R10 Nanopore、PacBio HiFi、Illumina 序列搭配人類 T2T 計畫的分析方法,進行反覆拋光後,可將著絲粒內及附近區域序列準確度分別提升至 QV 45.99 及 51.71。最後再使用Hi-C 與 Bionano 等技術驗證結構上的準確度。
 

4. 澳洲堅果 [9]
  • 背景介紹: 澳洲堅果相較於其他植物基因體,擁有相似的基因體大小 (約 800 Mb) 但是相對較低的雜合性序列。在 2021 年的一篇研究文獻中發現,使用 PacBio CCS (circular consensus sequencing) 相較於CLR (continuous long reads) 模式,可以得到更加連續的基因體序列[10]。本篇則使用 PacBio 加上 Hi-C 技術,組出近乎完整的澳洲堅果基因體。
  • 組裝平台: PacBio HiFi, Hi-C
  • 組裝結果: PacBio 數據共組裝成 779 個 contigs,其中最長的為 71.9 Mb、平均長度為 1 Mb、組裝出的 BUSCO 值為 99.6%。將這些 contigs 依照長度分成三組來看的話,> 1 Mb contigs 有三十個,只用這些片段組裝的話可以得到 N50 值 46 Mb、BUSCO 值為 99.1%。其中 9 個大於 46Mb 的 contigs 中,有 8 個可以直接對應到 Hi-C 組裝出的染色體,剩餘的一個可以對應到第 2 號染色體的主要部分。剩餘的 6 個染色體則可由 14 個 4 到 46 Mb 大小不等的 contigs 組裝出來。除此之外,本文也有發現數據量越足夠的情況下,越能夠組裝出接近完整基因體。例如:18x 讀深數據組裝出來的基因體,比起 10x 讀深數據更接近 PacBio + Hi-C 組裝出的近似完整基因體序列。
 

5. 香蕉 [11] 
  • 背景介紹: 香蕉為單子葉植物,在植物基因體中算是中等大小的植物 (約 500 Mb)。從野生型到食用型、從二倍體到三倍體的出現,香蕉基因體已發布 4 個遺傳基因體。近期的研究指出,雜交的步驟使得香蕉產生鑲嵌基因型。本文研究的基因體最早發布在 2012 年,當時是由 Sanger, Illumina 定序數據組裝而成,當時基因體組裝完成約 63%[12]。第二個版本於 2016 年發布,加入 Illumina long-insert sequences,組裝出 11 個染色體含括 76% 基因體[13]。第三個版本即為本篇使用 Nanopore 技術組裝而成。
  • 組裝平台: Nanopore 93 Gb (177x), Bionano
  • 組裝結果: 定序使用 PromethION 單片晶片產出約 93 Gb 的數據,5.2 M reads 的 N50 為 31.6 kb,超過 75 kb以上讀長覆蓋基因體約 17 倍。組裝用的 contigs 與先前發布的第一和第二版相比,數量分別從 29, 437 下降至 19,312 至 124 個,大幅降低 237 倍;N50 長度從 28,319 上升至 32,091,396,增加 1,133 倍。而且,此次定序最長的 7 個 contigs 皆為染色體等級 (長度範圍從 32.1-47.7 Mb)。後續使用 Bionano 技術驗證組裝結果,11 個染色體中有 8 個以單一 scaffold 組成,剩下的 4 個染色體由 2 個 scaffolds 組成。組好的基因體僅剩 15 個位於高度重複序列區域的缺口。最後,其中有 5 條染色體達到 T2T 組裝等級。



參考資料
1. Zhang, Yilin, et al. "The telomere-to-telomere gap-free genome of four rice parents reveals SV and PAV patterns in hybrid rice breeding." Plant biotechnology journal (2022).
2. Song, Jia-Ming, et al. "Two gap-free reference genomes and a global view of the centromere architecture in rice." Molecular Plant 14.10 (2021): 1757-1767.
3. Deng, Yun, et al. "A telomere-to-telomere gap-free reference genome of watermelon and its mutation library provide important resources for gene discovery and breeding." Molecular Plant (2022).
4. Guo, Shaogui, et al. "Resequencing of 414 cultivated and wild watermelon accessions identifies selection for fruit quality traits." Nature genetics 51.11 (2019): 1616-1623.
5. Wu, Shan, et al. "Genome of ‘Charleston Gray’, the principal American watermelon cultivar, and genetic characterization of 1,365 accessions in the US National Plant Germplasm System watermelon collection." Plant biotechnology journal 17.12 (2019): 2246-2258.
6. Naish, Matthew, et al. "The genetic and epigenetic landscape of the Arabidopsis centromeres." Science 374.6569 (2021): eabi7489.
7. Wang, Bo, et al. "High-quality Arabidopsis thaliana genome assembly with nanopore and HiFi long reads." Genomics, proteomics & bioinformatics (2021).
8. Hou, Xueren, et al. "A near-complete assembly of an Arabidopsis thaliana genome." Molecular Plant (2022).
9. Sharma, Priyanka, et al. "De novo chromosome level assembly of a plant genome from long read sequence data." The Plant Journal 109.3 (2022): 727-736.
10. Sharma, Priyanka, et al. "Improvements in the sequencing and assembly of plant genomes." bioRxiv (2021).
11. Belser, Caroline, et al. "Telomere-to-telomere gapless chromosomes of banana using nanopore sequencing." Communications biology 4.1 (2021): 1-12.
12. D’hont, Angélique, et al. "The banana (Musa acuminata) genome and the evolution of monocotyledonous plants." Nature 488.7410 (2012): 213-217.
13. Martin, Guillaume, et al. "Improvement of the banana “Musa acuminata” reference sequence using NGS data and semi-automated bioinformatics methods." BMC genomics 17.1 (2016): 1-12.


 
圖爾思生物科技 / 微生物體研究中心
許瑄珉 文案
 
回上一頁
標籤
三代定序
聯絡我們
CONTACT US
立即前往

抱歉,為了您的瀏覽體驗及安全性,本網站不支援IE瀏覽器,請參考下方常用瀏覽器。