08
2021.09
組裝界的小李飛刀: Shasta toolkit就是要快狠準
原創文章 引用請註明出處
古龍大大在《小李飛刀》之中說道:「小李飛刀,例無虛發,只出一刀,無人能擋,只因天下武功無堅不摧,唯快不破」。 而Shasta就是那把刀! 我們不說空話,讓證據說話,且聽小編娓娓道來~
Shasta是一個用於Oxford Nanopore Technologies(ONT)定序數據的從頭組裝和矯正算法,由加州大學聖克魯茲分校(UCSC)和陳-扎克伯格倡議計劃(CZI)聯合開發。 Shasta的初登場,發表於2019年nature biotechnology,研究團隊使用Shasta將由ONT產出的數據進行從頭組裝、校正且使用Hi-C做支架組裝,組裝結果搭配MarginPolish + HELEN拋光提升準確度,在9天內完成了11個人類基因體的從頭組裝。
Shasta toolkit 發表於2019年nature biotechnology
早期使用ONT進行這項工作需要53 片ONT MinION晶片,組裝需要超過 150,000 個 CPU 小時和數週的程式執行時間,而這樣的條件無法使人類基因體定序普及。而Shasta與PromethION的組合極大的改進人類基因體組裝的時間、人力以及成本。 Shasta測試的樣本皆由1K Genome Project與genome-in-a-bottle (GIAB)挑選,耗時9天,共產出2.3TB數據; 11個樣本平均覆蓋度48x-85x; read N50落在28kb-51kb (Fig. 1a-d)。
(Fig. 1)
Shasta於長讀長序列的組裝使用”運行長度編碼(RLE)”將序列以均聚物(homopolymer)形式壓縮儲存,在這種形式中,相同的連續鹼基被折疊,並且鹼基和重複次數被儲存。例如,GATTTACCA 將表示為 (GATACA, 113121)。這種表示對均聚物運行長度的錯誤不敏感,從而解決了ONT長讀長序列的主要錯誤模式,降低了序列錯誤而導致的雜訊,從而獲得更高的一致性比對(Fig. 1e)。 為了證明Shasta組裝的效果,研究團隊將Shasta與當代三個組裝軟體進行了比較: Wtdbg2、Flye和 Canu。 組裝的結果如Fig. 2
(Fig. 2)
可以看出Canu始終產生最長的Contig NG50, Flye 是第二長, Shasta緊隨其後,而Wtdbg2 產生最短Contig NG50的組裝結果。 雖然在連續度這一參數的考量下,Shasta的表現不如Canu,但連續度並不是衡量基因體組裝的唯一標準。 研究團隊使用QUAST 將組裝結果與人類參考基因體GRCh38進行比對,Shasta與GRCh38組裝不一致的數量較Canu和Wtdbg2組裝軟體少1.2到2倍,並與Flye的結果相當。這一結果表明,Shasta在不一致性這個指標上的表現要優於其他組裝工具。(Fig. 3)
(Fig. 3)
Shasta除了組裝的不一致性較低外,在運行速度更是有卓越的表現,將Shasta、Wtdbg2 和 Flye 在亞馬遜雲端伺服器(AWS)上運行以合理地比較它們的成本和運行時間,Shasta平均花費5.25小時完成每個組裝,每個樣品的平均成本為 70 美元。相比之下,Wtdbg2 耗時7.5倍,成本是3.7倍,而Flye耗時11.9倍,成本是9.9倍。至於Canu,由於將其移植到AWS 的預期成本和複雜性,Canu 組裝在大型機構計算集群上運行,消耗高達19,000美元(預估值),且每個組裝大約需要 4-5 天。 (Fig. 4)
(Fig. 4)
除了Shasta,研究團隊同時還開發了一個基於神經網路的基因體拋光工具,該工具旨在提高以單個鹼基為水平的準確度。這個工具流程包含兩個模組:MarginPolish和HELEN。MarginPolish結合了forward-backward算法和一個成對的Hidden Markov模型,從而計算出一個成對比對的統計量。而HELEN利用一個多任務迴歸神經網路來預測鹼基種類和讀長。 為了證明MarginPolish和HELEN的有效性,研究團隊將它們與最先進的ONT組裝拋光工作流程進行了比較:Racon和Medaka。MarginPolish和HELEN除了拋光後錯誤率較Racon和Medaka組合低以外(Fig. 5),在AWS上,MarginPolish和HELEN單個樣本的總成本為107美元,平均需要29小時的程式執行時間。相比之下,Racon和Medaka單個樣本的總成本為621美元,平均需要142個小時程式執行時間。(Fig. 6)
(Fig. 5)
(Fig. 6)
由此可知,利用Shasta進行組裝搭配MarginPolish和HELEN進行拋光能夠在約24小時內以大約180美元的價格完成單個人類基因體組裝,較上述常用工具快幾個級距,成本也低幾個級距。 總體而言,根據標準化對比的結果,我們不難看出,Shasta確實為基因體組裝提供了新的方法。在此前,Canu被認為是三代定序基因體組裝的「金標準」,而本篇所提供的結果也支持了Canu的組裝品質。在一些指標上,Shasta的表現並不優於 Canu,但由於Shasta的高效性和實用性,非常適用於初期組裝的快速原型設計和參數探索,是一個非常有用的工具。
參考資料
1. Shafin, K., Pesout, T., Lorig-Roach, R. et al. Nanopore sequencing and the Shasta toolkit enable efficient de novo assembly of eleven human genomes. Nat Biotechnol 38, 1044–1053 (2020). https://doi.org/10.1038/s41587-020-0503-6
古龍大大在《小李飛刀》之中說道:「小李飛刀,例無虛發,只出一刀,無人能擋,只因天下武功無堅不摧,唯快不破」。 而Shasta就是那把刀! 我們不說空話,讓證據說話,且聽小編娓娓道來~
Shasta是一個用於Oxford Nanopore Technologies(ONT)定序數據的從頭組裝和矯正算法,由加州大學聖克魯茲分校(UCSC)和陳-扎克伯格倡議計劃(CZI)聯合開發。 Shasta的初登場,發表於2019年nature biotechnology,研究團隊使用Shasta將由ONT產出的數據進行從頭組裝、校正且使用Hi-C做支架組裝,組裝結果搭配MarginPolish + HELEN拋光提升準確度,在9天內完成了11個人類基因體的從頭組裝。
Shasta toolkit 發表於2019年nature biotechnology
早期使用ONT進行這項工作需要53 片ONT MinION晶片,組裝需要超過 150,000 個 CPU 小時和數週的程式執行時間,而這樣的條件無法使人類基因體定序普及。而Shasta與PromethION的組合極大的改進人類基因體組裝的時間、人力以及成本。 Shasta測試的樣本皆由1K Genome Project與genome-in-a-bottle (GIAB)挑選,耗時9天,共產出2.3TB數據; 11個樣本平均覆蓋度48x-85x; read N50落在28kb-51kb (Fig. 1a-d)。
(Fig. 1)
Shasta於長讀長序列的組裝使用”運行長度編碼(RLE)”將序列以均聚物(homopolymer)形式壓縮儲存,在這種形式中,相同的連續鹼基被折疊,並且鹼基和重複次數被儲存。例如,GATTTACCA 將表示為 (GATACA, 113121)。這種表示對均聚物運行長度的錯誤不敏感,從而解決了ONT長讀長序列的主要錯誤模式,降低了序列錯誤而導致的雜訊,從而獲得更高的一致性比對(Fig. 1e)。 為了證明Shasta組裝的效果,研究團隊將Shasta與當代三個組裝軟體進行了比較: Wtdbg2、Flye和 Canu。 組裝的結果如Fig. 2
(Fig. 2)
可以看出Canu始終產生最長的Contig NG50, Flye 是第二長, Shasta緊隨其後,而Wtdbg2 產生最短Contig NG50的組裝結果。 雖然在連續度這一參數的考量下,Shasta的表現不如Canu,但連續度並不是衡量基因體組裝的唯一標準。 研究團隊使用QUAST 將組裝結果與人類參考基因體GRCh38進行比對,Shasta與GRCh38組裝不一致的數量較Canu和Wtdbg2組裝軟體少1.2到2倍,並與Flye的結果相當。這一結果表明,Shasta在不一致性這個指標上的表現要優於其他組裝工具。(Fig. 3)
(Fig. 3)
Shasta除了組裝的不一致性較低外,在運行速度更是有卓越的表現,將Shasta、Wtdbg2 和 Flye 在亞馬遜雲端伺服器(AWS)上運行以合理地比較它們的成本和運行時間,Shasta平均花費5.25小時完成每個組裝,每個樣品的平均成本為 70 美元。相比之下,Wtdbg2 耗時7.5倍,成本是3.7倍,而Flye耗時11.9倍,成本是9.9倍。至於Canu,由於將其移植到AWS 的預期成本和複雜性,Canu 組裝在大型機構計算集群上運行,消耗高達19,000美元(預估值),且每個組裝大約需要 4-5 天。 (Fig. 4)
(Fig. 4)
除了Shasta,研究團隊同時還開發了一個基於神經網路的基因體拋光工具,該工具旨在提高以單個鹼基為水平的準確度。這個工具流程包含兩個模組:MarginPolish和HELEN。MarginPolish結合了forward-backward算法和一個成對的Hidden Markov模型,從而計算出一個成對比對的統計量。而HELEN利用一個多任務迴歸神經網路來預測鹼基種類和讀長。 為了證明MarginPolish和HELEN的有效性,研究團隊將它們與最先進的ONT組裝拋光工作流程進行了比較:Racon和Medaka。MarginPolish和HELEN除了拋光後錯誤率較Racon和Medaka組合低以外(Fig. 5),在AWS上,MarginPolish和HELEN單個樣本的總成本為107美元,平均需要29小時的程式執行時間。相比之下,Racon和Medaka單個樣本的總成本為621美元,平均需要142個小時程式執行時間。(Fig. 6)
(Fig. 5)
(Fig. 6)
由此可知,利用Shasta進行組裝搭配MarginPolish和HELEN進行拋光能夠在約24小時內以大約180美元的價格完成單個人類基因體組裝,較上述常用工具快幾個級距,成本也低幾個級距。 總體而言,根據標準化對比的結果,我們不難看出,Shasta確實為基因體組裝提供了新的方法。在此前,Canu被認為是三代定序基因體組裝的「金標準」,而本篇所提供的結果也支持了Canu的組裝品質。在一些指標上,Shasta的表現並不優於 Canu,但由於Shasta的高效性和實用性,非常適用於初期組裝的快速原型設計和參數探索,是一個非常有用的工具。
參考資料
1. Shafin, K., Pesout, T., Lorig-Roach, R. et al. Nanopore sequencing and the Shasta toolkit enable efficient de novo assembly of eleven human genomes. Nat Biotechnol 38, 1044–1053 (2020). https://doi.org/10.1038/s41587-020-0503-6
圖爾思生物科技 / 微生物體研究中心
吳雁韻 文案