© 2021 BIOTOOLS Co., Ltd. All Rights Reserved

latest news

最新消息

10 2021.11

懶人…聰明人工具包- microPIPE 無腦組裝高品質細菌基因體

     原創文章     引用請註明出處

20211110-1.jpg
Nanopore DNA以及直接RNA定序於國際太空站運行,圖片來源: NASA’s Johnson Space Center。

Oxford Nanopore Technology (ONT) 的願景是實現 “任何人、任何地方對任何生物的分析”,而 ONT 的願景也於 2016 超狂的於國際太空站實現 [1],成為第一個於外太空進行定序的定序儀。試想,連外太空都征服了,地球上還有哪個角落是不能的呢?

鑒於 ONT 於技術上一次次的突破,許多科學家甚至是投資者都對其寄予厚望,這點可以從 ONT 首次於 2021 年 9 月底在倫敦交易所 IPO,首日便飆漲超過 45%,市值達 50 億英鎊 (68.4億美元) [2]。成為倫敦近年來金額最高的生物技術上市公司窺見一二。

但是,你各位發現 BUG 了嗎?

“任何人、任何地方對任何生物的分析” → 名詞拆解一下
任何人 → 我是人類…OK der !
任何地方 → 太空都去了…OK der !
任何生物 → 只要以DNA為遺傳物質…OK der!
分析 → !?!?!?!?@#$%*&#@...

對生資小白們來說,定序完的數據猶如燙手山芋般完全不知如何是好。 幸好,還好,太好,有科學家發現我們的窘境需求。於是,microPIPE 於 2021 年 6 月應運而生。
20211110-2.png

microPIPE 由 QCIF 生物資訊學家和昆士蘭大學的研究人員開發。microPIPE 使用來自 ONT 和 Illumina 的定序數據, 為自動化、可重複、端到端的高品質細菌基因體組裝工作流程。microPIPE 在公開數據上的測試表明,無需人工干預即可實現完整的環狀染色體和質體重建。

QCIF 生物資訊學家 Valentine Murigneux 表示: “ microPIPE 在基因體重建的每一步都採用了性能最佳的生物資訊學工具。”

接下來我們就來看看, microPIPE 的工作流程包含哪些步驟? 又有那些選手加入評比?
20211110-3.png
(Fig. 1) 組裝階段的總工作流程和工具比較

組裝流程總共分為五個階段,涵蓋鹼基判定、組裝和拋光等步驟。使用 ST131 譜系的大腸桿菌 EC958 進行 microPIPE 每個步驟的驗證。ST131 已使用 PacBio、Illumina 和 454 焦磷酸定序進行了多次定序,代表了一個經過廣泛策劃和高度準確的參考基因體, 為用於軟體和流程驗證的理想數據集。

鹼基判定 (Basecalling)
考慮到 microPIPE 未來的穩定性與準確性,因此 microPIPE 團隊捨棄了尚在研究版本的 Bonito、Flappie 和 Runnie; 已折舊的 Albacore ; 以及不再更新的 Scrappie ,選擇ONT 推薦並且穩定發布和維護的 basecaller-Guppy 。 測試同時使用 GPU 及 CPU 運行 Guppy 的 “fast” 和 “highaccuracy” 模式進行比較,考量到 GPU 設備的門檻較高,microPIPE 於鹼基判定步驟選擇了CPU與“fast”模式搭配的組合。儘管使用 CPU 和 “fast” 鹼基判定時原始序列的準確性較低,但經過組裝和拋光後其數據品質可與 GPU 生成的品質相當。

條碼區分 (Demultiplexing)
Demultiplexing 步驟測試了三個工具:Deepbinner、Guppy_barcoder 和 qcat。測試結果 qcat 能夠對 89% 的序列進行分類,而 Guppy_barcoder 為 84%,Deepbinner 為 75%。儘管 qcat 能夠保留最多的序列,但ONT近期發表聲明棄用 qcat 不再進行維護 [3] 。因此,Guppy_barcoder 被選為 MicroPIPE 的默認 Demultiplexing 工具。但 qcat 仍然可以在 microPIPE 中被選用。

過濾 (Filtering)
過濾步驟測試了兩種過濾工具:Filtlong 和 Japsa。Filtlong 的優點是通用性高,可以根據許多要求進行過濾,例如 reads 長度、品質、reads 保留的百分比以及使用外部參考的選項。而 Japsa 主要根據 reads 長度和品質進行過濾。比較的結果,Japsa 較 Filtlong 保留了更多的 reads,但 N50 長度和品質較低。此外,兩種工具的運行時間相同。因此 microPIPE 默認 Japsa 為過濾步驟的主要工具,但 Filtlong 也可於 microPIPE 流程中選用。

長讀長數據組裝 (Long-read-only assembly)
長讀長數據組裝步驟競爭激烈的納入了六種主流的組裝工具,並根據完整的 EC958 參考基因體標準評估了速度、完整性和正確性,組裝結果應包含 1 個染色體(5,109,767 bp)和 2 個質體( 135,602 bp 和 4080 bp)。(Fig. 2) 組裝結果 Raven、Redbean 和 Shasta 皆沒有組裝較小的 ~ 4 kb 質體; Canu 的組裝較預期結果大得多; Canu 和 Unicycler 都具有額外的 contigs。有趣的是,Flye 和 Canu 都組裝了第三個以前未知的小質體,大小約為 1.8 kb,經過與 Illumina 數據的比較證實了它的存在,其可能在原始組裝中被遺漏。 在組裝速度方面,Shasta、Redbean 和 Raven 不到 30 分鐘的時間內即完成組裝,是最快的組裝工具。而剩下的 Flye 比 Canu 快四倍,比 Unicycler 快兩倍。 鑒於 Flye 可產生環化結果、完整組裝包含新小質體的基因體、組裝速度具競爭力,且無需人工干預即可從長讀長數據生成了最好的 de novo 組裝,microPIPE 選擇了 Flye 作為默認組裝工具。
20211110-4.png
(Fig. 2) 六個組裝工具比較
代表contigs增加的大小
需要手動修剪以進行環化
錯誤組裝處
⌛ 噬菌體尾部蛋白倒置位置


拋光 (Polishing)
由於 ONT 數據的準確率相比 NGS 還是較低,因此拋光步驟在長讀長數據的生成仍然被認為是必要的。 在拋光步驟,microPIPE 團隊針對上一階段 Flye 生成的 de novo 組裝結果測試了三種不同工具(Racon/Medaka、NextPolish 和 Nanopolish)的拋光能力。同時還測試了使用 Illumina 短讀長數據(NextPolish 和 Pilon)進行的拋光工具。 測試結果發現將長讀長序列先使用 Racon 和 Medaka(四次 Racon 和一次 Medaka)進行拋光,再加入短讀長序列並使用 NextPolish(兩次)進行拋光的組合實現了最準確的組裝結果。其準確度遠超越僅使用長讀長序列或短讀長序列的結果。(Fig. 3)
20211110-5.png
(Fig. 3) EC958 ONT Flye組裝的拋光結果比較

混合組裝 (Hybrid assembly)
microPIPE 除了使用長讀長數據進行組裝,也開發了能夠同時使用長讀長和短讀長數據的混合組裝步驟,包括 Unicycler、MaSuRCA 和 SPAdes。 但將上列組裝結果與 Flye → Racon → Medaka → NextPolish 完成的基因體進行比較,發現它們的性能並不優於當前的方法,但保留其選項供使用者選擇。

microPIPE最終流程 (Final pipeline)
microPIPE 的最終流程如下圖 (Fig. 5):
20211110-6.png
(Fig. 5) 自動化流程microPIPE中的步驟和默認工具

microPIPE 的另一個重要特點是它的模組化:microPIPE 是使用 Singularity 容器圖像和生物資訊學工作流管理器 Nextflow 構建在模組中的 ,管道的每一步都使用特定的容器圖像,因此能夠允許其根據未來的新工具開發進行相對應的更改和調整,以適應不斷推陳出新的ONT分析工具。

microPIPE 旨在創建了一個簡單、最少的手動操作和可重複的高品質基因體組裝流程。
開發者之一的Scott表示: “過去幾年 ONT 數據品質的提高非常顯著,雖然我們發現最好的組裝是通過結合 ONT 和 Illumina 數據實現的,但在不久的將來,僅 ONT 數據就足以獲得高品質的完整基因體。”

最後,在此獻上聰明懶人專用的自動化細菌基因體組裝流程資訊與連結:
Availability and requirements
Project name: MicroPIPE
Project home page: https://github.com/BeatsonLab-MicrobialGenomics/micropipe
Operating system(s): Linux/Unix/Mac
Programming language: Nextflow, Python
Other requirements: Java 8 or higher, Singularity 2.3.x or higher, Oxford Nanopore Technologies community access (Guppy)
License: GNU GPL-v3
Any restrictions to use by non-academics: None



參考資料

 1. DNA sequencing in microgravity on the International Space Station (ISS) using the MinION,https://nanoporetech.com/resource-centre/dna-sequencing-microgravity-international-space-station-iss-using-minion
2. Oxford Nanopore surges 45% in rare London biotech listing,https://www.reuters.com/business/oxford-nanopore-eyes-47-billion-market-value-london-debut-2021-09-30/
3. qcat GitHub:https : //github.com/nanoporetech/qcat
4. microPIPE GitHub: https://github.com/BeatsonLab-MicrobialGenomics/micropipe
5. Murigneux, V., Roberts, L.W., Forde, B.M. et al. MicroPIPE: validating an end-to-end workflow for high-quality complete bacterial genome construction. BMC Genomics 22, 474 (2021). https://doi.org/10.1186/s12864-021-07767-z

 
圖爾思生物科技 / 微生物體研究中心
吳雁韻 文案
 
回上一頁
標籤
三代定序
聯絡我們
CONTACT US
立即前往

抱歉,為了您的瀏覽體驗及安全性,本網站不支援IE瀏覽器,請參考下方常用瀏覽器。