06
2021.10
誠實豆沙包: 三代數據分析面臨的挑戰
原創文章 引用請註明出處
噓~
小編是吃了誠實豆沙包才寫的這篇文章,自從三代定序問世後,各式各樣三代定序的好處,隨處綻放在各式各樣的文獻,可是! 在定序技術一年又一年的進步中,處理龐大數據的各式分析工具有沒有跟上且發展成熟呢?
本篇文章不僅點出三代數據分析面臨的挑戰,還彙整了目前三代定序使用的 567+ 種分析工具,你各位但凡有一點生資背景的客倌,認真服用,增長十年功力不是夢! (免責聲明: 不保證功力增長,端看個人造化)
目前在長讀長定序領域佔據主導地位的技術有兩種: Pacific Biosciences (PacBio) 單分子即時 (SMRT) 定序和 Oxford Nanopore Technologies (ONT) 定序。PacBio 和 ONT 定序技術分別於 2011 年和 2014 年發布,到如今, PacBio 和 ONT 已經適用於越來越多的應用; 包含de novo 組裝、Mapping 確認、轉錄本異構體發現、結構變異檢測和鹼基修飾檢測等。而這兩大平台產生的數據與二代定序在長度、準確度上皆有所不同,因此需要考慮使用長讀長數據特性的專用分析工具。
這邊提供一個即時更新的長讀長數據分析工具資料庫: long-read-tools.org ,其彙整了已發表、預印本、線上儲存庫與社交媒體上搜索到的長讀長數據分析工具 (Fig. 1)。除此之外,除了真正的長讀長定序技術 PacBio 和 ONT ,此資料庫同時也收錄了合成型長讀長技術,如: 連接序列 (linked reads) 、鄰近連接策略 (proximity ligation strategies) 、光學映射 (optical mapping) 等技術之分析工具,可偕同與 PacBio 與 ONT 技術組合使用。據統計,其中大部分的分析工具是為了 ONT 而開發 (Fig. 2)。
long-read-tools.org 資料庫根據分析工具的功能,將其歸類成 35 組,其中錯誤校正、拋光、變異檢測與從頭組裝類別為分析工具的最大宗 (Fig. 3)。也是本篇著重的重點。接下來會針對三代定序的鹼基判定、錯誤校正和拋光、結構變異檢測等,重點說明主要使用的分析工具以及目前挑戰。
(Fig. 1)
(Fig. 2)
(Fig. 3)
鹼基判定 (Basecalling)
鹼基判定為任何長讀長數據分析的第一步,將原始訊號轉換為核酸序列。 PacBio 定序原始訊號為影片,在數據處理的過程中會將影片轉換為脈衝訊號 (pulses) ,再將脈衝訊號轉換為核酸序列,而 PacBio 的鹼基判定分析工具主要為內部開發,當前的鹼基判定分析流程為 ”CCS” 。
而 ONT 定序的原始訊號為在 4 kHz 下測量的電流強度值, ONT 的鹼基判定目前是一個活躍的研究領域,其演算法正在快速發展。據統計, long-read-tools.org 資料庫,與鹼基判定相關的 40 種分析工具中, ONT 鹼基判定就佔據了 36 種。 其中,ONT 開發的鹼基判定工具: Guppy ,提供最好的準確度和最穩定的性能,另外開發中的鹼基判定工具: Flappie 、 Scrappie 、 Taiyaki 、 Runnie 以及 Bonito ,可用於特徵測試,例如: 均聚物準確度、變異檢測或鹼基修飾檢測,但開發中的鹼基判定工具不一定會針對速度或整體準確度進行最佳化。由於鹼基判定工具的能力可以根據樣本的特徵進行訓練而提升,因此,值得注意的是,鹼基判定在真實數據的有效準確度可能低於原廠宣稱的準確度,例如: ONT開發的鹼基判定工具目前使用人類、酵母和細菌 DNA 的混合物進行訓練,所以其鹼基判定的能力在非 CG 甲基化豐富的植物 DNA 上的表現可能較差。而 Guppy 的更新頻率也恰恰說明,鹼基判定工具目前仍然是一個活躍的開發領域。 P.S. ONT 僅於 2019 年,更新了 12 個 Guppy 版本。
錯誤校正(Error correction)
PacBio 與 ONT 技術均提供比短讀長定序更低的原始讀長準確度,故準確度的提升一直是三代定序改善的重點。 PacBio 準確率的提升主要依靠同一個分子被多次定序後產生的 subreads 重複疊加來進行校正。在 2019 年, PacBio 推出的 CCS 流程,在 subreads > 3 條時,準確度可達 Q20 ( 99% 的準確度); 在 subreads > 8 條時,準確度可達 Q30 ( 99.9% 的準確度)。值得注意的是,如果定序技術產生的錯誤為隨機性,理論上可藉由提升定序深度而得到無錯誤的校正後序列。儘管如此, CCS 序列仍然保有錯誤鹼基序列,而且於均聚物序列中的插入/缺失檢測有偏差現象 [1] 。
而ONT 的準確率與長度無關,其取決於核酸分子通過奈米孔洞的最佳速度,通常在定序過程的後期會降低,進而影響定序的品質 [2] 。為了提升定序的準確度, ONT 於 2021 年推出 Q20+ 試劑,將原始讀長準確度提升至 99.3% [3]。 儘管目前三代定序的準確度已經足夠符合多數的應用,但在一些需要高精準度的應用,例如: 從頭組裝、變異檢測或內含子-外顯子邊界定義等,可以考慮使用下列兩種方法進行錯誤校正:
(1) 非混和方法 (Fig. 4左) : 如果基因體只包含所有可能的 k- mer 的一小部分,長讀長序列中的罕見 k- mer 可能代表定序錯誤,基於 k- mer 過濾的代表工具為wtdbg2。或是也可以將所有長讀長序列對齊後進行校正,代表工具為Canu與FLAS等。
(2) 混和方法 (Fig. 4右) : Alignment-based 方法,直接將短讀長序列對齊到長讀長序列,從而產生經校正之長讀長序列,代表工具為 LSC 、 proovread 、 nanoCORR 等。 Assembly-based 方法,短讀長序列首先用於建構 de Bruijn 圖或組裝,再將其用於長讀長序列組裝,代表工具為 FMLRC 、 LoRDEC 、 Jabba 等。
值得注意的是, assembly-based 的方法在校正序列品質和速度方面往往優於 alignment-based 的方法,其中, FMLRC 工具在兩個基準研究 [ 4, 5 ] 中有最好的表現。
(Fig. 4)
拋光 (polishing)
拋光指的是從 contigs 序列中移除錯誤的過程。策略上, PacBio 可使用 Arrow ; ONT 則可使用 Nanopolish 來提升校正後序列的準確度。或者也可以選擇使用 Racon 、 Pilon 等工具混和短讀長序列幫助拋光 (Fig. 5) 。拋光的流程通常包含多工具疊代混和拋光,以糾正錯誤使先前模糊的區段可以被準確的對齊。值得注意的是,根據 BUSCO 分數衡量,過多的疊代會降低組裝的品質。
(Fig. 5)
儘管三代定序的準確度不斷提高,但錯誤校正與拋光的流程依然是必要的。 long-read-tools.org 提供了 137 種校正與拋光工具供使用者選擇組合使用。值得注意的是,三代定序目前缺乏權威性的錯誤校正分析工具,大多數校正組裝皆需要結合多種工具,以足夠的耐心與細心摸索。其中有些工具不適合深度定序或大型基因體,且大多數工具為單倍體組裝而設計,在等位基因變異、重複或基因家族等區域無法適用。
結構變異檢測 (structural variation)
≥50bp 的變異統稱為結構變異,包含插入、缺失、重複、倒置、易位等變異,這類變異無法很好的使用短讀長技術檢測,所以儘管結構變異是基因體之間多樣性的重要來源,並且與人類健康相關,但在先前一直沒有得到充分研究。 三代定序的長讀長特性使其能跨越基因體上的複雜區域,有助於結構變異檢測與從頭組裝。但在三代定序的價格議題上,大型基因體所需的定序深度仍然所費不菲。因此,對於定序深度上的建議,先前文獻報導適度的定序深度可能就足夠了: 8.6x PacBio 定序深度 [6] 和 15-17x ONT 定序深度 [7 , 8] 已經被證明可以有效檢測人類的致病變異。當然,針對雜合性或嵌合性基因體則需要增加定序深度。值得注意的是,目前基準資料集的註釋中,尤其是僅有短讀長數據的資料集可能缺少結構變異的註釋,造成長讀長SV caller的性能驗證極度複雜。因此,必須有其他方法對新發現的結構變異進行驗證。
P.S. 本文資訊量有點多,如果想要直接觀看”目前三代定序可能遇到的挑戰”內容,可以於文章頁面搜尋” 值得注意的是”,小編都貼心埋好關鍵字方便看倌們直接搜尋了~ 不過,當你看到這句話時也代表你已經看完整篇文章了XDDD 文章的最後不得不再次推崇 long-read-tools.org 長讀長數據分析工具資料庫,網站針對 5 種不同定序技術、 35 種不同應用的分析工具等做了詳盡的分類,也提供了多個基準研究來源,實用度勘比含笑半步癲,實在是居家旅行、升等畢業、必備良藥~!
參考資料
1. Wenger AM, Peluso P, Rowell WJ, Chang P-C, Hall RJ, Concepcion GT, Ebler J, Fungtammasan A, Kolesnikov A, Olson ND, et al. Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome. Nat Biotechnol. 2019;37(10):1155–62.
2. Oxford Nanopore Technologies. Refuelling a sequencing run. 2019. https://community.nanoporetech.com/posts/refuelling-a-sequencingru. Accessed 12 Dec 2019
3. https://nanoporetech.com/accuracy
4. Zhang H, Jain C, Aluru S. A comprehensive evaluation of long read error correction methods. bioRxiv. 2019. https://doi.org/10.1101/519330. https://www.biorxiv.org/content/early/2019/01/13/519330.full.pdf.
5. Fu S, Wang A, Au KF. A comparative evaluation of hybrid error correction methods for error-prone long reads. Genome Biol. 2019;20(1): 26. https://doi.org/10.1186/s13059-018-1605-z.
6. Merker JD, Wenger AM, Sneddon T, Grove M, Zappala Z, Fresard L, et al. Long-read genome sequencing identifies causal structural variation in a Mendelian disease. Genet Med. 2018;20(1):159–63. https://doi.org/10.1038/gim.2017.86.
7. Cretu Stancu M, Van Roosmalen MJ, Renkens I, Nieboer MM, Middelkamp S, De Ligt J, et al. Mapping and phasing of structural variation in patient genomes using nanopore sequencing. Nat Commun. 2017;8(1):. https://doi.org/10.1038/s41467-017-01343-4.
8. De Coster W, De Rijk P, De Roeck A, De Pooter T, D’Hert S, Strazisar M, et al. Structural variants identified by oxford nanopore promethion sequencing of the human genome. Genome Res. 2019. https://doi.org/10.1101/gr.244939.118.
9. Amarasinghe, S.L., Su, S., Dong, X. et al. Opportunities and challenges in long-read sequencing data analysis. Genome Biol 21, 30 (2020). https://doi.org/10.1186/s13059-020-1935-5
10. https://long-read-tools.org/index.html
噓~
小編是吃了誠實豆沙包才寫的這篇文章,自從三代定序問世後,各式各樣三代定序的好處,隨處綻放在各式各樣的文獻,可是! 在定序技術一年又一年的進步中,處理龐大數據的各式分析工具有沒有跟上且發展成熟呢?
本篇文章不僅點出三代數據分析面臨的挑戰,還彙整了目前三代定序使用的 567+ 種分析工具,你各位但凡有一點生資背景的客倌,認真服用,增長十年功力不是夢! (免責聲明: 不保證功力增長,端看個人造化)
目前在長讀長定序領域佔據主導地位的技術有兩種: Pacific Biosciences (PacBio) 單分子即時 (SMRT) 定序和 Oxford Nanopore Technologies (ONT) 定序。PacBio 和 ONT 定序技術分別於 2011 年和 2014 年發布,到如今, PacBio 和 ONT 已經適用於越來越多的應用; 包含de novo 組裝、Mapping 確認、轉錄本異構體發現、結構變異檢測和鹼基修飾檢測等。而這兩大平台產生的數據與二代定序在長度、準確度上皆有所不同,因此需要考慮使用長讀長數據特性的專用分析工具。
這邊提供一個即時更新的長讀長數據分析工具資料庫: long-read-tools.org ,其彙整了已發表、預印本、線上儲存庫與社交媒體上搜索到的長讀長數據分析工具 (Fig. 1)。除此之外,除了真正的長讀長定序技術 PacBio 和 ONT ,此資料庫同時也收錄了合成型長讀長技術,如: 連接序列 (linked reads) 、鄰近連接策略 (proximity ligation strategies) 、光學映射 (optical mapping) 等技術之分析工具,可偕同與 PacBio 與 ONT 技術組合使用。據統計,其中大部分的分析工具是為了 ONT 而開發 (Fig. 2)。
long-read-tools.org 資料庫根據分析工具的功能,將其歸類成 35 組,其中錯誤校正、拋光、變異檢測與從頭組裝類別為分析工具的最大宗 (Fig. 3)。也是本篇著重的重點。接下來會針對三代定序的鹼基判定、錯誤校正和拋光、結構變異檢測等,重點說明主要使用的分析工具以及目前挑戰。
(Fig. 1)
(Fig. 2)
(Fig. 3)
鹼基判定 (Basecalling)
鹼基判定為任何長讀長數據分析的第一步,將原始訊號轉換為核酸序列。 PacBio 定序原始訊號為影片,在數據處理的過程中會將影片轉換為脈衝訊號 (pulses) ,再將脈衝訊號轉換為核酸序列,而 PacBio 的鹼基判定分析工具主要為內部開發,當前的鹼基判定分析流程為 ”CCS” 。
而 ONT 定序的原始訊號為在 4 kHz 下測量的電流強度值, ONT 的鹼基判定目前是一個活躍的研究領域,其演算法正在快速發展。據統計, long-read-tools.org 資料庫,與鹼基判定相關的 40 種分析工具中, ONT 鹼基判定就佔據了 36 種。 其中,ONT 開發的鹼基判定工具: Guppy ,提供最好的準確度和最穩定的性能,另外開發中的鹼基判定工具: Flappie 、 Scrappie 、 Taiyaki 、 Runnie 以及 Bonito ,可用於特徵測試,例如: 均聚物準確度、變異檢測或鹼基修飾檢測,但開發中的鹼基判定工具不一定會針對速度或整體準確度進行最佳化。由於鹼基判定工具的能力可以根據樣本的特徵進行訓練而提升,因此,值得注意的是,鹼基判定在真實數據的有效準確度可能低於原廠宣稱的準確度,例如: ONT開發的鹼基判定工具目前使用人類、酵母和細菌 DNA 的混合物進行訓練,所以其鹼基判定的能力在非 CG 甲基化豐富的植物 DNA 上的表現可能較差。而 Guppy 的更新頻率也恰恰說明,鹼基判定工具目前仍然是一個活躍的開發領域。 P.S. ONT 僅於 2019 年,更新了 12 個 Guppy 版本。
錯誤校正(Error correction)
PacBio 與 ONT 技術均提供比短讀長定序更低的原始讀長準確度,故準確度的提升一直是三代定序改善的重點。 PacBio 準確率的提升主要依靠同一個分子被多次定序後產生的 subreads 重複疊加來進行校正。在 2019 年, PacBio 推出的 CCS 流程,在 subreads > 3 條時,準確度可達 Q20 ( 99% 的準確度); 在 subreads > 8 條時,準確度可達 Q30 ( 99.9% 的準確度)。值得注意的是,如果定序技術產生的錯誤為隨機性,理論上可藉由提升定序深度而得到無錯誤的校正後序列。儘管如此, CCS 序列仍然保有錯誤鹼基序列,而且於均聚物序列中的插入/缺失檢測有偏差現象 [1] 。
而ONT 的準確率與長度無關,其取決於核酸分子通過奈米孔洞的最佳速度,通常在定序過程的後期會降低,進而影響定序的品質 [2] 。為了提升定序的準確度, ONT 於 2021 年推出 Q20+ 試劑,將原始讀長準確度提升至 99.3% [3]。 儘管目前三代定序的準確度已經足夠符合多數的應用,但在一些需要高精準度的應用,例如: 從頭組裝、變異檢測或內含子-外顯子邊界定義等,可以考慮使用下列兩種方法進行錯誤校正:
(1) 非混和方法 (Fig. 4左) : 如果基因體只包含所有可能的 k- mer 的一小部分,長讀長序列中的罕見 k- mer 可能代表定序錯誤,基於 k- mer 過濾的代表工具為wtdbg2。或是也可以將所有長讀長序列對齊後進行校正,代表工具為Canu與FLAS等。
(2) 混和方法 (Fig. 4右) : Alignment-based 方法,直接將短讀長序列對齊到長讀長序列,從而產生經校正之長讀長序列,代表工具為 LSC 、 proovread 、 nanoCORR 等。 Assembly-based 方法,短讀長序列首先用於建構 de Bruijn 圖或組裝,再將其用於長讀長序列組裝,代表工具為 FMLRC 、 LoRDEC 、 Jabba 等。
值得注意的是, assembly-based 的方法在校正序列品質和速度方面往往優於 alignment-based 的方法,其中, FMLRC 工具在兩個基準研究 [ 4, 5 ] 中有最好的表現。
(Fig. 4)
拋光 (polishing)
拋光指的是從 contigs 序列中移除錯誤的過程。策略上, PacBio 可使用 Arrow ; ONT 則可使用 Nanopolish 來提升校正後序列的準確度。或者也可以選擇使用 Racon 、 Pilon 等工具混和短讀長序列幫助拋光 (Fig. 5) 。拋光的流程通常包含多工具疊代混和拋光,以糾正錯誤使先前模糊的區段可以被準確的對齊。值得注意的是,根據 BUSCO 分數衡量,過多的疊代會降低組裝的品質。
(Fig. 5)
儘管三代定序的準確度不斷提高,但錯誤校正與拋光的流程依然是必要的。 long-read-tools.org 提供了 137 種校正與拋光工具供使用者選擇組合使用。值得注意的是,三代定序目前缺乏權威性的錯誤校正分析工具,大多數校正組裝皆需要結合多種工具,以足夠的耐心與細心摸索。其中有些工具不適合深度定序或大型基因體,且大多數工具為單倍體組裝而設計,在等位基因變異、重複或基因家族等區域無法適用。
結構變異檢測 (structural variation)
≥50bp 的變異統稱為結構變異,包含插入、缺失、重複、倒置、易位等變異,這類變異無法很好的使用短讀長技術檢測,所以儘管結構變異是基因體之間多樣性的重要來源,並且與人類健康相關,但在先前一直沒有得到充分研究。 三代定序的長讀長特性使其能跨越基因體上的複雜區域,有助於結構變異檢測與從頭組裝。但在三代定序的價格議題上,大型基因體所需的定序深度仍然所費不菲。因此,對於定序深度上的建議,先前文獻報導適度的定序深度可能就足夠了: 8.6x PacBio 定序深度 [6] 和 15-17x ONT 定序深度 [7 , 8] 已經被證明可以有效檢測人類的致病變異。當然,針對雜合性或嵌合性基因體則需要增加定序深度。值得注意的是,目前基準資料集的註釋中,尤其是僅有短讀長數據的資料集可能缺少結構變異的註釋,造成長讀長SV caller的性能驗證極度複雜。因此,必須有其他方法對新發現的結構變異進行驗證。
P.S. 本文資訊量有點多,如果想要直接觀看”目前三代定序可能遇到的挑戰”內容,可以於文章頁面搜尋” 值得注意的是”,小編都貼心埋好關鍵字方便看倌們直接搜尋了~ 不過,當你看到這句話時也代表你已經看完整篇文章了XDDD 文章的最後不得不再次推崇 long-read-tools.org 長讀長數據分析工具資料庫,網站針對 5 種不同定序技術、 35 種不同應用的分析工具等做了詳盡的分類,也提供了多個基準研究來源,實用度勘比含笑半步癲,實在是居家旅行、升等畢業、必備良藥~!
參考資料
1. Wenger AM, Peluso P, Rowell WJ, Chang P-C, Hall RJ, Concepcion GT, Ebler J, Fungtammasan A, Kolesnikov A, Olson ND, et al. Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome. Nat Biotechnol. 2019;37(10):1155–62.
2. Oxford Nanopore Technologies. Refuelling a sequencing run. 2019. https://community.nanoporetech.com/posts/refuelling-a-sequencingru. Accessed 12 Dec 2019
3. https://nanoporetech.com/accuracy
4. Zhang H, Jain C, Aluru S. A comprehensive evaluation of long read error correction methods. bioRxiv. 2019. https://doi.org/10.1101/519330. https://www.biorxiv.org/content/early/2019/01/13/519330.full.pdf.
5. Fu S, Wang A, Au KF. A comparative evaluation of hybrid error correction methods for error-prone long reads. Genome Biol. 2019;20(1): 26. https://doi.org/10.1186/s13059-018-1605-z.
6. Merker JD, Wenger AM, Sneddon T, Grove M, Zappala Z, Fresard L, et al. Long-read genome sequencing identifies causal structural variation in a Mendelian disease. Genet Med. 2018;20(1):159–63. https://doi.org/10.1038/gim.2017.86.
7. Cretu Stancu M, Van Roosmalen MJ, Renkens I, Nieboer MM, Middelkamp S, De Ligt J, et al. Mapping and phasing of structural variation in patient genomes using nanopore sequencing. Nat Commun. 2017;8(1):. https://doi.org/10.1038/s41467-017-01343-4.
8. De Coster W, De Rijk P, De Roeck A, De Pooter T, D’Hert S, Strazisar M, et al. Structural variants identified by oxford nanopore promethion sequencing of the human genome. Genome Res. 2019. https://doi.org/10.1101/gr.244939.118.
9. Amarasinghe, S.L., Su, S., Dong, X. et al. Opportunities and challenges in long-read sequencing data analysis. Genome Biol 21, 30 (2020). https://doi.org/10.1186/s13059-020-1935-5
10. https://long-read-tools.org/index.html
圖爾思生物科技 / 微生物體研究中心
吳雁韻 文案