© 2021 BIOTOOLS Co., Ltd. All Rights Reserved

latest news

最新消息

22 2021.04

【三代定序 新知分享】Homopolish_移除Nanopore定序系統性錯誤

【三代定序 新知分享】Homopolish: 移除Nanopore定序系統性錯誤的好工具

第三代定序,其定序片段從原本二代定序的300-600 bp,增加到上百個Kb,又被稱為長讀長定序。三代定序的主要廠商之一Nanopore,因其定序原理,使得超長片段定序為主要特色。近期,更有定序片段長達4Mb,以及定出目前世上最大基因體-昆士蘭肺魚基因體等突破。然而,該技術一直引人詬病的最大點,在於定序準確度不夠。從2014年,Nanopore公布的數據中,發現其raw reads準確度約在80%,隨著建庫試劑、奈米孔道與演算法的提升,最新數據顯示,raw reads準確度可達99.1%。在今天的文章中,和大家分享Homopolish這個拋光打磨工具,可以使得細菌基因體達到Q50,甚至更高的準確度!

【Homopolish】
這篇文獻中使用幾種不同的校正工具。Racon藉由partial order alignment (POA) with vectorization;Medak基於bidirectional long-short-term memory (LSTM) trained。而Homopolish技術為support vector machine (SVM)-based,利用同源序列(homologous sequence)去校正Nanopore定序時產生的系統性錯誤。其流程如下圖一。



圖ㄧ


【Metagenomic dataset results】

此樣品中含7隻不同細菌,使用常見校正工具Racon+Medaka或MarginPolish+HELEN,以及Homolosh去比較定序結果的準確度(Q值)。可以從總基因體分析結果看到,使用Racon+Medaka時準確度落於Q36-38,而MarginPolish+HELEN準確度約為Q37-46。當Homopolish與Racon或MarginPolish合併使用時,其準確度可達Q38-50。若是將Homopolish加入Racon+Medaka或MarginPolish+HELEN流程時,三個校正工具的使用下,準確度上升至Q40-90,如下圖二。



圖二


此外,本篇研究中發現,利用Racon或MarginPolish在檢測細菌基因體變異時,deletion會有false detection的現象。從原始Flye產出439個deletion,經由Racon或者MagrinPolish處理後,deletion分別上升至2417和637個。而此現象可以藉由後續加入Homopolish去修正,deletion下降至120和146個,如下表一。




表一


【Bacterial isolates dataset results】

接著,作者想要測試不同校正工具在分析單菌基因體時,其效果如何。在實際應用層面上,研究常需要將舊有的數據進行重新分析。在這段篇幅中,作者也使用了舊版basecaller工具(如:Albacore)產出的單菌基因體數據,去看是否能使用Homopolish達成好的校正結果。當使用Homoploish+Racon時,其準確度可達Q26-33,較Racon+Medaka Q23-29高。有趣的是,使用HELEN作為打磨拋光工具,在此組數據上,校正效果並不好,此現象也可以在病毒基因體分析中觀察到。MagrinPolish+HELEN其準確度落於Q20-27,與先前metagenomics結果相衝突,可能是因為HELEN的訓練數據大多從單一來源ZymoBIOMICS而來。結果如圖三所示。



圖三


【R10.3 flow cell results】

Nanopore的定序孔道從R9.4演化到R10.3,其改變為R10.3在同一孔道中讀兩次序列,可以增加其定序準確度與重複序列的辨識度。在上述內容中,皆使用R9.4的數據做分析。接著,作者將R10.3 metagenomics數據進行分析,其Flye數據準確度坐落於Q28-42,的確比R9.4的Q22-26高。加入工具校正後,單使用Racon無法有效提升其準確度, Medaka使得準確度提升至Q30-50, HELEN可將準確度提升至Q40-90。若合併使用Medaka與Homopolish,可將數據準確度提升至Q33-90,證實Homopolish可以有效提升R10.3數據的準確度,如圖四。實際上,隨著basecaller的進步、演算法的優化,以及後續打磨拋光工具的應用,目前不管是R9.4或者是R10.3數據,皆可達到Q50以上的準確度。而就通量上來比較的話,R9.4是比R10.3佳的。


圖四


本篇研究中,除了將Homopolish應用於細菌基因體外,也分析了病毒(Lambda phage)與真菌(S. cerevisiae)基因體,準確度可由Q24有效提升至Q38。說明了Homopolish在小基因體組裝上,其準確度是較其他工具高的。不過,該工具在真核生物基因體上的成效尚待測試。



【原文連結】Homopolish: a method for the removal of systematic errors in nanopore sequencing by homologous polishing

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-021-02282-6

 



>了解更多三代定序服務

 

回上一頁
標籤
三代定序
聯絡我們
CONTACT US
立即前往

抱歉,為了您的瀏覽體驗及安全性,本網站不支援IE瀏覽器,請參考下方常用瀏覽器。