12
2022.10
Nanopore 定序錯誤率真的高? 聽大家說不如聽專家說~
原創文章 引用請註明出處
你是否聽過 Nanopore 定序的蛋白通道活性非常不穩定?
你是否聽過 Nanopore 定序的蛋白通道活性非常不穩定?
你是否持續聽到身邊的人說 Nanopore 定序錯誤率好高高?
你是否聽到大家都說 Nanopore 的數據需要合併 Illumina 的數據進行校正才足夠準確?
但是,
你是否查證過這些消息是 Nanopore 定序剛進入定序市場的評價還是現今最新的 Nanopore 數據的現在進行式呢?
你知道針對 Nanopore 數據已經推出了許多工具可以將序列校正至~ 1% 的錯誤率嗎?
你知道現在最新 Nanopore 定序的原始序列準確度已經達到了 99.6% 了嗎?
如果你不知道,那你可就錯過了太多~
我們科學家~
一向不道聽塗說,判斷一件事情的事實一定根據證據來佐證!
對於數據的準確性判斷,絕對比新生兒應該喝母乳還是配方奶還要不含糊。
所以,
聽大家說,不如聽專家說。
本篇文章將會帶大家分享發表在 nature communications 上使用工具將 Nanopore 定序的數據進行校正後進行基因體組裝與轉錄體研究的文獻們,讓我們一起來瞧瞧 Nanopore 定序在 DNA 樣品及 RNA 樣品上定序的準確度以及後續分析的結果是如何吧!
- 請注意分享文獻數據為 2021 年發表。
- 以下 oxford nanopore technologies 簡稱為 ONT。
【高準確率 ONT 基因體組裝】
【ONT 最新發表晶片與試劑】
在進入本文前,先跟大家介紹目前用於從長讀長序列中進行從頭基因體組裝的兩種策略是“先校正後組裝”和“先組裝後校正”。前者常見組裝工具如 Falcon、 Canu 和 MECAT; 而後者常見組裝工具如 miniasm、 Flye、wtdbg2、Shasta、Smartdenovo 和 Raven。由於校正的計算成本很高,“先校正後組裝”的方法通常比“先組裝後校正”的方法慢。然而,“先組裝後校正”方法使用容易出錯的原始序列直接組裝基因體會增加基因體序列中的組裝錯誤,進而影響參考基因體的品質並導致下游分析的偏差,特別是在較複雜的基因體區域中。反之,“先校正後組裝”的方法可以提供基因體高度連續和準確的組裝結果。
因此,第一篇的研究團隊開發了一種兼具 ONT 數據校正與從頭組裝的工具--- NECAT,其包括了漸進式校正、適應性序列篩選和比對選擇以及兩階段組裝以克服 ONT 數據中的複雜錯誤,快速將 ONT 數據校正到高準確度。
研究團隊總共使用九個物種數據集的 ONT 原始數據評估了 NECAT 校正的性能,包含大腸桿菌、釀酒酵母、黑腹果蠅、擬南芥、萊茵衣藻、水稻、S . pennellii、NA12878 (rel3,4 )和 NA12878(rel6),評估其在校正速度、校正數據大小、校正序列的準確性和連續性,以及校正序列中帶有高錯誤率 (high-error-rate subsequences , HERS) 的序列。
如下表,與同樣為“先校正後組裝”的常用組裝工具Canu 相比,NECAT 的組裝速度提高了 2.5–258 倍,且在校正後大大保留了大部分的原始序列,平均高達 94%,比 Canu 僅保留 40% 要高得多,直接提升了 N50 與 N75 的指標數值。而 NECAT 經過兩輪的錯誤校正,平均錯誤率進一步降低 1.53~9.01%,Canu 平均錯誤率則落在 3.13~12.05%。
表明 ONT 數據可以透過使用高品質的 ONT 組裝工具來進行序列的校正,以保留大部分的定序數據進行結構變異檢測,可以大大減少結構變異的誤報。
「PS」 NECAT 載點。
【ONT 高準確率無參考序列轉錄體分析】
「PS」 NECAT 載點。
【ONT 高準確率無參考序列轉錄體分析】
ONT 定序技術除了應用在基因體研究,在轉錄體研究更是具有相當大的優勢。使用長讀長技術對轉錄體進行定序已被證明是了解細胞轉錄環境的有效方法。不同於短讀長,長讀長技術可以直接對大多數轉錄本進行端到端定序,克服了短讀長在複雜轉錄體組裝的困境,長讀長技術徹底改變了轉錄體分析,大大提高了研究轉錄啟動、終止和可變剪接等轉錄機制多樣性的能力。
第二篇分享的研究團隊提出一種新的校正方法--- isONcorrect,可將 ONT 轉錄體定序數據的錯誤率降低至 ~1%,實現了 cDNA 全長轉錄體定序應用於無參考序列轉錄體分析的可行性。IsONcorrect 能夠在校正過程中聯合使用基因中的所有亞型,因此能夠在低定序深度下進行序列的校正。研究團隊使用果蠅 cDNA 數據,合成數據集:PCS109 spikein (SIRV) 數據,人類 PCS108 cDNA 數據和模擬數據集(SIM-full、SIM-ca)來驗證 isONcorrect 校正的能力。在果蠅數據集上,原始數據的初始 mismatch% 率為 7.0%,而 isONcorrect 進一步將 mismatch% 降至 1.1%。總體而言,所有數據皆顯示了一致的結果,可將 mismatch% 降低至 0.4% 和 1.1% 之間。
isONcorrect 演算法的潛在優勢之一是即使每個轉錄本只有一個序列,它也能夠利用不同剪接異構體之間共享的外顯子進行校正錯誤序列的校正,證明了應用低成本的 ONT 技術進行無參考轉錄體分析的可行性。
「PS」 IsONcorrect 載點。
「PS」 IsONcorrect 載點。
其實,ONT 的數據已經被許多國際知名的大型計畫採用,例如: T2T 聯盟、脊椎動物體計畫、泛癌症全基因體聯盟與國家型BioBank等。ONT 極長的序列對於基因體的組裝或結構變異的發現具有極大的優勢,其平易近人的價格與攜帶上的便利性,拓展了科學家應用的可能性。雖然,ONT初期進入定序市場時準確率的確是慘不忍睹,但這其實跟每個公司角色定位是相關的,ONT 是一個很開放的公司,比起將產品發展到盡善盡美再釋出到市場上接受考驗, ONT 更傾向於將 Beta 版的產品先行釋出到市場,收集市場的反應再做修正以取得先機。同理而言,在 ONT 數據校正的工具上,ONT 開放許多第三方校正工具來進行數據的校正。在基因體應用,本篇文章所分享的 NECAT 組裝工具比起常用的 Canu 組裝工具,最低可將原始序列錯誤率降至 1.53%; 而在轉錄體的應用,isONcorrect 也可將原始序列錯誤率降至 ~1% 左右,ONT 數據準確率的提高,也大大拓展了在不同領域應用的範圍。
【ONT 最新發表晶片與試劑】
值得注意的是,ONT 於 2022 年發表了最新推出的 Kit14 試劑,搭配 R10.4 晶片系列,不經過任何校正流程原始讀長準確度最高可達到 99.6% (準確模式),詳細介紹傳送門
總而言之,ONT 是一個快速發展中的技術,每年的年度會議發表總是能讓參與者感到驚艷,而如今 ONT 的準確度隨著晶片與試劑的推陳出新以及分析軟體的跟進已經不再是該技術的短處,搭配其鞭長莫及的讀長 (最長讀長紀錄: 4 Mb),及甲基化分析與發展中的氨基酸定序技術,相信 ONT 定序技術在未來一定能夠帶來更多新穎的技術幫助科學家們揭開目前懸而未決的謎題。
參考資料
- Chen, Y., Nie, F., Xie, SQ. et al. Efficient assembly of nanopore reads via highly accurate and intact error correction. Nat Commun 12, 60 (2021). https://doi.org/10.1038/s41467-020-20236-7
- Sahlin, K., Medvedev, P. Error correction enables use of Oxford Nanopore technology for reference-free transcriptome analysis. Nat Commun 12, 2 (2021). https://doi.org/10.1038/s41467-020-20340-8
圖爾思生物科技 / 微生物體研究中心
吳雁韻 文案
http://www.toolsbiotech.com/
© BIOTOOLS. All Rights Reserved