08 2021．09

組裝界的小李飛刀: Shasta toolkit就是要快狠準

原創文章引用請註明出處

古龍大大在《小李飛刀》之中說道：「小李飛刀，例無虛發，只出一刀，無人能擋，只因天下武功無堅不摧，唯快不破」。而Shasta就是那把刀! 我們不說空話，讓證據說話，且聽小編娓娓道來~

Shasta是一個用於Oxford Nanopore Technologies(ONT)定序數據的從頭組裝和矯正算法，由加州大學聖克魯茲分校（UCSC）和陳-扎克伯格倡議計劃（CZI）聯合開發。 Shasta的初登場，發表於2019年nature biotechnology，研究團隊使用Shasta將由ONT產出的數據進行從頭組裝、校正且使用Hi-C做支架組裝，組裝結果搭配MarginPolish + HELEN拋光提升準確度，在9天內完成了11個人類基因體的從頭組裝。

Shasta toolkit 發表於2019年nature biotechnology

早期使用ONT進行這項工作需要53 片ONT MinION晶片，組裝需要超過 150,000 個 CPU 小時和數週的程式執行時間，而這樣的條件無法使人類基因體定序普及。而Shasta與PromethION的組合極大的改進人類基因體組裝的時間、人力以及成本。 Shasta測試的樣本皆由1K Genome Project與genome-in-a-bottle (GIAB)挑選，耗時9天，共產出2.3TB數據; 11個樣本平均覆蓋度48x-85x; read N50落在28kb-51kb (Fig. 1a-d)。

(Fig. 1)

Shasta於長讀長序列的組裝使用”運行長度編碼(RLE)”將序列以均聚物(homopolymer)形式壓縮儲存，在這種形式中，相同的連續鹼基被折疊，並且鹼基和重複次數被儲存。例如，GATTTACCA 將表示為 (GATACA, 113121)。這種表示對均聚物運行長度的錯誤不敏感，從而解決了ONT長讀長序列的主要錯誤模式，降低了序列錯誤而導致的雜訊，從而獲得更高的一致性比對(Fig. 1e)。為了證明Shasta組裝的效果，研究團隊將Shasta與當代三個組裝軟體進行了比較: Wtdbg2、Flye和 Canu。組裝的結果如Fig. 2

(Fig. 2)

可以看出Canu始終產生最長的Contig NG50， Flye 是第二長， Shasta緊隨其後，而Wtdbg2 產生最短Contig NG50的組裝結果。雖然在連續度這一參數的考量下，Shasta的表現不如Canu，但連續度並不是衡量基因體組裝的唯一標準。研究團隊使用QUAST 將組裝結果與人類參考基因體GRCh38進行比對，Shasta與GRCh38組裝不一致的數量較Canu和Wtdbg2組裝軟體少1.2到2倍，並與Flye的結果相當。這一結果表明，Shasta在不一致性這個指標上的表現要優於其他組裝工具。(Fig. 3)

(Fig. 3)

Shasta除了組裝的不一致性較低外，在運行速度更是有卓越的表現，將Shasta、Wtdbg2 和 Flye 在亞馬遜雲端伺服器(AWS)上運行以合理地比較它們的成本和運行時間，Shasta平均花費5.25小時完成每個組裝，每個樣品的平均成本為 70 美元。相比之下，Wtdbg2 耗時7.5倍，成本是3.7倍，而Flye耗時11.9倍，成本是9.9倍。至於Canu，由於將其移植到AWS 的預期成本和複雜性，Canu 組裝在大型機構計算集群上運行，消耗高達19,000美元（預估值），且每個組裝大約需要 4-5 天。 (Fig. 4)

(Fig. 4)

除了Shasta，研究團隊同時還開發了一個基於神經網路的基因體拋光工具，該工具旨在提高以單個鹼基為水平的準確度。這個工具流程包含兩個模組：MarginPolish和HELEN。MarginPolish結合了forward-backward算法和一個成對的Hidden Markov模型，從而計算出一個成對比對的統計量。而HELEN利用一個多任務迴歸神經網路來預測鹼基種類和讀長。為了證明MarginPolish和HELEN的有效性，研究團隊將它們與最先進的ONT組裝拋光工作流程進行了比較：Racon和Medaka。MarginPolish和HELEN除了拋光後錯誤率較Racon和Medaka組合低以外(Fig. 5)，在AWS上，MarginPolish和HELEN單個樣本的總成本為107美元，平均需要29小時的程式執行時間。相比之下，Racon和Medaka單個樣本的總成本為621美元，平均需要142個小時程式執行時間。(Fig. 6)

(Fig. 5)

(Fig. 6)

由此可知，利用Shasta進行組裝搭配MarginPolish和HELEN進行拋光能夠在約24小時內以大約180美元的價格完成單個人類基因體組裝，較上述常用工具快幾個級距，成本也低幾個級距。總體而言，根據標準化對比的結果，我們不難看出，Shasta確實為基因體組裝提供了新的方法。在此前，Canu被認為是三代定序基因體組裝的「金標準」，而本篇所提供的結果也支持了Canu的組裝品質。在一些指標上，Shasta的表現並不優於 Canu，但由於Shasta的高效性和實用性，非常適用於初期組裝的快速原型設計和參數探索，是一個非常有用的工具。

參考資料
1. Shafin, K., Pesout, T., Lorig-Roach, R. et al. Nanopore sequencing and the Shasta toolkit enable efficient de novo assembly of eleven human genomes. Nat Biotechnol 38, 1044–1053 (2020). https://doi.org/10.1038/s41587-020-0503-6

圖爾思生物科技 / 微生物體研究中心

吳雁韻文案

http://www.toolsbiotech.com/

回上一頁