30
2022.08
三代Metagenome,物種資訊不只多還有更多
原創文章 引用請註明出處
長讀長的三代定序在總體基因體 (Metagenome) 研究上,到底有什麼優勢呢?
在2020年的一篇文獻中,利用電腦模擬方式去比較二代定序以及三代定序技術去定序真核生物總體基因體。結果發現長讀長可以增加動植物基因體的召回率 (recall rate),當讀長從 300 bp 增加至 4,000 bp 時,召回率可增加三倍以上[1]。
而在分類的準確度上,三代定序在非微生物群落中提升的效果更加明顯。原因是因為三代定序的錯誤率,整體來說還是較二代定序高。所以,當微生物研究主要著重在細菌彼此之間的 6% 差異時,二代跟三代技術拿來做物種分類時沒有那麼大的準確度差異。但是分析大基因體像是動植物時,因為物種序列間差距大,此時長片段的優勢就不會因為定序錯誤率而被抵銷掉,顯現出物種分類上更高的準確度[1]。
接下來舉例幾篇文章跟大家說明 Nanopore Sequencing 在總體基因體定序的應用。
【文獻一號:Nanopore定序腸道總體基因體】[2]
首先,研究團隊利用含有八種等量細菌的商業化混和物 (ZymoBIOMICS) 建立二代加三代雜合式定序流程。此流程定序結果可達 94.54 – 99.75% 的高度完整性、0 – 6.97% 的低汙染率、>97.6% 重組細菌基因體平均核苷酸一致性。雜合式組裝比起純二代組裝結果可以有更長的 contigs,而純三代定序雖然可以直接組成環狀基因體,但其編碼密度 (coding density) 較雜合式定序結果低。
接著,以雜合式定序方法檢測近百位健康者腸道狀況。使用三代合併二代定序的策略,使得定序結果比起純二代定序減少了 17.3% contigs、多出 5.1% 組裝序列、增加 N50 長度約三倍左右。組裝出的 metagenome-assembled genomes (MAGs),623 個可對應至 UHGG database 的 MAGs 中,有 208 個在雜合式組裝結果有較好的品質,剩下的 67 個為新的基因體。
雜合式定序策略也較純二代定序更容易發現結構變異。有趣的是,相比之下,沒有結構變異的組別,其細菌豐度跟代謝物之間的關聯性高度相關;而具有結構變異的細菌基因體中,彼此間關聯性不具顯著意義。可見結構變異在腸道微生物體研究中的重要性。
【文獻二號:ONT 鑑定嚴重氣喘患者氣管感染】[3]
目前的嚴重氣喘研究中,透過總體基因體定序氣管微生物尚未至「物種」層級。本篇將 Nanopore 三代定序、二代定序 Illumina MiSeq、病原體特異性 RT-qPCR 檢測、“黃金檢測標準”痰培養方法進行比較。其中流感嗜血桿菌 (H. influenzae) 是患者氣管中最普遍的微生物。定序結果發現 Nanopore 覆蓋度遠優於 Illumina MiSeq,在所有樣本中的任何定序深度都能提供更廣的流感嗜血桿菌基因體覆蓋度。而流感嗜血桿菌的豐度可用來預測對此症狀唯一標靶療法阿奇黴素的反應。
本篇文獻顯現了 Nanopore 定序技術的優勢,除了卓越的操作特性、快速分析樣品,還可提供流感嗜血桿菌近乎完整的基因體覆蓋率,在物種識別上達到種的層級,並與 Illumina MiSeq 數據高度一致。這些特性適用於大型族群研究的生物標誌驗證。
【文獻三號:ONT 湖水總體基因體】[4]
目前以次世代定序研究微生物總體基因體雖然能解決需培養的障礙,但仍需克服一些課題才能使 MAG 分析更加準確、可靠並且獲取更多訊息。例如短讀長組裝通常因為 contig 較短而非完整基因體序列,容易遺漏基因體特徵相關的重要信息,像是操縱子、基因順序和啟動子/調節區域等。截至 2021 年 3 月,NCBI 發布的 84,768 個 MAG 中僅有 177 個是完整的。另外一個問題是片段化的 MAG 有時會含有未知污染物序列,進而影響 MAG 後續組裝與分析的正確性。
本篇文獻結合了三代定序 Nanopore 以及二代定序 Illumina進行組裝,MAG 平均 N50 從短讀長的 12.4、6.0 和 7.2 kb,增加到 476.5、269.5 和 91.2 kb,增加 10-40 倍。定序結果共重建了 Shunet 湖的 233 個 MAG,包含 6 個新的細菌目、20 個科、66 個屬和 154 個物種,包含恢復了六個完整的 MAG。也在這些完整的 MAG 中確定了獨特而有趣的代謝特徵,大幅擴展了當前的細菌基因體的類別。
參考資料
1. Pearman, William S., Nikki E. Freed, and Olin K. Silander. "Testing the advantages and disadvantages of short-and long-read eukaryotic metagenomics using simulated reads." BMC bioinformatics 21.1 (2020): 1-15.
2. Chen, Liang, et al. "Short-and long-read metagenomics expand individualized structural variations in gut microbiomes." Nature Communications 13.1 (2022): 1-12.
3. Jabeen, Maisha F., et al. "Identifying Bacterial Airways Infection in Stable Severe Asthma Using Oxford Nanopore Sequencing Technologies." Microbiology Spectrum 10.2 (2022): e02279-21.
4. Chen, Yu-Hsiang, et al. "Salvaging high-quality genomes of microbial species from a meromictic lake using a hybrid sequencing approach." Communications biology 4.1 (2021): 1-12.
長讀長的三代定序在總體基因體 (Metagenome) 研究上,到底有什麼優勢呢?
在2020年的一篇文獻中,利用電腦模擬方式去比較二代定序以及三代定序技術去定序真核生物總體基因體。結果發現長讀長可以增加動植物基因體的召回率 (recall rate),當讀長從 300 bp 增加至 4,000 bp 時,召回率可增加三倍以上[1]。
而在分類的準確度上,三代定序在非微生物群落中提升的效果更加明顯。原因是因為三代定序的錯誤率,整體來說還是較二代定序高。所以,當微生物研究主要著重在細菌彼此之間的 6% 差異時,二代跟三代技術拿來做物種分類時沒有那麼大的準確度差異。但是分析大基因體像是動植物時,因為物種序列間差距大,此時長片段的優勢就不會因為定序錯誤率而被抵銷掉,顯現出物種分類上更高的準確度[1]。
接下來舉例幾篇文章跟大家說明 Nanopore Sequencing 在總體基因體定序的應用。
【文獻一號:Nanopore定序腸道總體基因體】[2]
- 期刊:Nature Commmunications
- 年份:2022
- 定序規格:Nanopore 8 Gb + Illumina 76 Gb
- ONT優勢:
1. 組裝的 N50 及 contigs 更長
2. 可直接組裝出環形基因體
3. 結構變異偵測率提升 - 主要成就:
1. 組裝出的 Metagenome-Assembled Genomes (MAGs),其中三成在雜合式組裝結果中有較好的品質,一成為新發現的基因體。
2. 利用結構變異將微生物做分群可顯著降低微生物之間關聯性。
- 文章摘要:
首先,研究團隊利用含有八種等量細菌的商業化混和物 (ZymoBIOMICS) 建立二代加三代雜合式定序流程。此流程定序結果可達 94.54 – 99.75% 的高度完整性、0 – 6.97% 的低汙染率、>97.6% 重組細菌基因體平均核苷酸一致性。雜合式組裝比起純二代組裝結果可以有更長的 contigs,而純三代定序雖然可以直接組成環狀基因體,但其編碼密度 (coding density) 較雜合式定序結果低。
接著,以雜合式定序方法檢測近百位健康者腸道狀況。使用三代合併二代定序的策略,使得定序結果比起純二代定序減少了 17.3% contigs、多出 5.1% 組裝序列、增加 N50 長度約三倍左右。組裝出的 metagenome-assembled genomes (MAGs),623 個可對應至 UHGG database 的 MAGs 中,有 208 個在雜合式組裝結果有較好的品質,剩下的 67 個為新的基因體。
雜合式定序策略也較純二代定序更容易發現結構變異。有趣的是,相比之下,沒有結構變異的組別,其細菌豐度跟代謝物之間的關聯性高度相關;而具有結構變異的細菌基因體中,彼此間關聯性不具顯著意義。可見結構變異在腸道微生物體研究中的重要性。
【文獻二號:ONT 鑑定嚴重氣喘患者氣管感染】[3]
- 期刊:Microbiology Spectrum
- 年份:2022
- 定序規格:6 samples per Nanopore flow cell
- ONT優勢:
1. 較佳的基因體定序覆蓋率
2. 與二代定序相比,有高度的一致性
3. 可以看到『種』的層級 - 主要成就:
1. Nanopore 可快速分析樣品、對優勢菌種流感嗜血桿菌達到近乎完整的基因體覆蓋、在物種水平上識別細菌等特性,使得該技術能應用於確定嚴重氣喘中氣管感染的患病率。
- 文章摘要:
目前的嚴重氣喘研究中,透過總體基因體定序氣管微生物尚未至「物種」層級。本篇將 Nanopore 三代定序、二代定序 Illumina MiSeq、病原體特異性 RT-qPCR 檢測、“黃金檢測標準”痰培養方法進行比較。其中流感嗜血桿菌 (H. influenzae) 是患者氣管中最普遍的微生物。定序結果發現 Nanopore 覆蓋度遠優於 Illumina MiSeq,在所有樣本中的任何定序深度都能提供更廣的流感嗜血桿菌基因體覆蓋度。而流感嗜血桿菌的豐度可用來預測對此症狀唯一標靶療法阿奇黴素的反應。
本篇文獻顯現了 Nanopore 定序技術的優勢,除了卓越的操作特性、快速分析樣品,還可提供流感嗜血桿菌近乎完整的基因體覆蓋率,在物種識別上達到種的層級,並與 Illumina MiSeq 數據高度一致。這些特性適用於大型族群研究的生物標誌驗證。
【文獻三號:ONT 湖水總體基因體】[4]
- 期刊:Communications Biology
- 年份:2021
- 定序規格:Nanopore 5-13 Gb + Illumina 43-52 Gb
- ONT優勢:
1. N50 值增加 10-40 倍
2. 組裝完整基因體
3. 提升高複雜性樣品的 Metagenome-Assembled Genome (MAG) 組裝品質
4. 短讀長數據僅需搭配額外的三分之一長讀長數據,可以檢索基因體訊息,例如基因順序等。 - 主要成就:
1. 合併二代加三代定序研究湖水樣品總體基因體,本文共重建 233 個 MAGs,新發現 6 個目、20 個科、66 個屬、154 個物種,大幅提升對當地微生物的了解。
2. 組裝上除了長度的提升外,也組裝出 6 個完整基因體。
- 文章摘要:
目前以次世代定序研究微生物總體基因體雖然能解決需培養的障礙,但仍需克服一些課題才能使 MAG 分析更加準確、可靠並且獲取更多訊息。例如短讀長組裝通常因為 contig 較短而非完整基因體序列,容易遺漏基因體特徵相關的重要信息,像是操縱子、基因順序和啟動子/調節區域等。截至 2021 年 3 月,NCBI 發布的 84,768 個 MAG 中僅有 177 個是完整的。另外一個問題是片段化的 MAG 有時會含有未知污染物序列,進而影響 MAG 後續組裝與分析的正確性。
本篇文獻結合了三代定序 Nanopore 以及二代定序 Illumina進行組裝,MAG 平均 N50 從短讀長的 12.4、6.0 和 7.2 kb,增加到 476.5、269.5 和 91.2 kb,增加 10-40 倍。定序結果共重建了 Shunet 湖的 233 個 MAG,包含 6 個新的細菌目、20 個科、66 個屬和 154 個物種,包含恢復了六個完整的 MAG。也在這些完整的 MAG 中確定了獨特而有趣的代謝特徵,大幅擴展了當前的細菌基因體的類別。
參考資料
1. Pearman, William S., Nikki E. Freed, and Olin K. Silander. "Testing the advantages and disadvantages of short-and long-read eukaryotic metagenomics using simulated reads." BMC bioinformatics 21.1 (2020): 1-15.
2. Chen, Liang, et al. "Short-and long-read metagenomics expand individualized structural variations in gut microbiomes." Nature Communications 13.1 (2022): 1-12.
3. Jabeen, Maisha F., et al. "Identifying Bacterial Airways Infection in Stable Severe Asthma Using Oxford Nanopore Sequencing Technologies." Microbiology Spectrum 10.2 (2022): e02279-21.
4. Chen, Yu-Hsiang, et al. "Salvaging high-quality genomes of microbial species from a meromictic lake using a hybrid sequencing approach." Communications biology 4.1 (2021): 1-12.
圖爾思生物科技 / 微生物體研究中心
許瑄珉 文案