© 2021 BIOTOOLS Co., Ltd. All Rights Reserved

latest news

最新消息

26 2022.01

【平台大亂鬥:比較二代與三代平台之間的再現性、準確性和實用性 (下)】

     原創文章     引用請註明出處

在上個月的文章【平台大亂鬥:比較二代與三代平台之間的再現性、準確性和實用性 (上)】中,介紹不同平台之間定序人類基因體 RM8392 細胞株的結果,比較了數據品質、覆蓋率、錯誤配對率等指標性數值。在這篇文章中,將為大家介紹不同平台定序人類基因體後,分析單核苷酸變異、插入/缺失序列、結構變異以及定序細菌總基因體的結果[1]。同上篇,在文章最末端會總結下集的結論。

定序平台包含:
二代定序平台
Illumina (HiSeq 4000, HiSeq X10, NovaSeq 6000, MiSeq)
ThermoFisher Scientific (Ion PM/S5)
BGI (BGISEQ-500/MGISEQ-2000)
GenapSys GS111

三代定序平台
Oxford Nanopore Technologies (Flongle/MinION/PromethION)
Pacific Biosciences (CCS mode)


【單核苷酸與插入/缺失變異】
變異分析上使用了多個工具如 DeepVariant、GATK HaplotypeCaller、Sentieon Haplotyper、Strelka2 來分析二代平台定序結果。使用 Clair2 做三代定序結果的分析。可見各工具準確度與敏感度如圖 1A。以二代平台來說,BGISEQ-500、MGISEQ-2000、NovaSeq 2×250bp 擁有最高的準確度及召回率 (recall rates);而 HiSeq 2500、HiSeq 4000 表現最差。三代定序 PacBio CCS 模式搭配 Clair2 比起二代定序結果,擁有最佳的單核苷酸與插入/缺失變異偵測率。以分析工具表現來看,DeepVariant 擁有最高準確率、Strelka2 精確度與 DeepVariant 差不多但是擁有較低的敏感度、GATK HaplotypeCaller 跟 Sentieon Haplotyper 準確度相較其他工具來說更低。

接著比較各區域的變異偵測率,結果如圖 1B。不同平台間最容易偵測區域為 L1、L2、長串聯重複序列 (long tandem repeats, LTRs),而較難偵測區域依序為衛星序列、 Alu 重複序列、低複雜度區域、簡單重複序列。
Image 1 【圖一】


除了分析上的準確度與敏感度外,各平台間偵測到的變異數量比較如圖 2A-B。以單核苷酸變異來看,HiSeq 2500 和 Nanopore捕捉到最少真陽性變異;反之,MGISEQ-2000 和 NovaSeq 試劑類可以捕捉到最多數目的真陽性單核苷酸變異 (圖 2A)。插入/缺失變異 (indel) 來看的話,Nanopore 有最差的偵測數目,接著依序為 PacBio、HiSeq 2500、HiSeq 4000、10X。同單核苷酸變異偵測率,MGISEQ-2000 和 NovaSeq 類儀器可以捕捉到最多數目的真陽性插入/缺失變異 (圖 2B)。捕捉到的變異數目與片段大小也視覺化如圖 2C。總結來說,在小片段變異上,NovaSeq 和 MGISEQ-2000 捕捉到最多數量的插入序列,接著為 Illumina 平台、BGISEQ-500;以缺失變異來說,各平台間除了 Nanopore 之外,大致上效率差不多。

同一研究也比較各平台定序臨床相關基因的結果,以 CLINVAR 跟孟德爾遺傳資料庫 (Online Mendelian Inheritance in Man databases) 為參考。結果以 NovaSeq 類機型擁有最好的準確度 (accuracy),而 PacBio 機型擁有最高的精確度 (precision)。
Image 2 【圖二】


【結構變異】
為了建立可信的結構變異資料庫,使用三個 PacBio 資料庫加上三個 Nanopore 資料庫,共六個資料庫,平均每個資料庫含約 22,000 個結構變異。當一候選結構變異同時出現在六個資料庫中的兩個時,即視為可信的結構變異,此筆資料後來統整為 HG002 Ref 參考資料庫。二代定序平台共定序 32 個樣品,平均結構變異為 12,435 個,偵測到的結構變異依照種類可分為缺失 (7,315個)、易位 (3,454個)、重複 (978個)、倒位 (686個) 及插入 (2個)。扣除掉偽陽性的變異,6,965 個結構變異中,有 27.59% (1,921個) 的結構變異可於HG002 Ref 中找到,於圖 3A中可看到各樣品的結構變異分布。總結二代平台間的結構變異數量,依序為 HiSeq X10 (3,751個)、HiSeq 4000 (3,714個)、HiSeq 2500 (3,294個);而偽陽性結構變異數量分別為 249、223 及 208 個。也就是說二代和三代定序找到的結構變異之間重複性約三成,而二代定序平台找到的結構變異中,近 5% 是偽陽性。若評估影響個體間結構變異偵測的因素,依序為:使用的分析工具、定序的平台、生物重複性等 (圖 3B)。
Image 3 【圖三】


【細菌總基因體研究】
不同於 GC 比例較平衡的人類基因體,本文使用的細菌總基因體標準品由 10 隻不同 GC 比例的細菌組成。可以從定序結果中發現,不管是平台間或者平台內的細菌組成百分比皆有差異 (圖4A)。而同平台的重複上機結果大多相似,除了 Ion Torrent PGM 的組間差異較大 (圖4B)。以三代定序來說,Nanopore 兩個機型 Flongle、MinION 跑出來的結果高度一致,與二代定序的 Illumina 結果最相近。而 ThermoFisher PGM 與其同公司的平台 S5 系統間一致性不高,與 GenapSys GS111 結果較相近。除了平台間的差異外,細菌總基因體分類上的差異明顯與該菌 GC 比例高度相關,偏低或者偏高 GC 比例的細菌,其分類上常被低估其百分比,而 GC 比例適中及革蘭氏陰性菌的百分比則容易被高估 (圖4C)。
Image 4 【圖四】


最後總結一下針對本文介紹的幾個指標給的建議,包含以下幾點:
(1) 若要辨識已知變異,分析工具建議:雖然 DeepVariant 是使用淋巴細胞株訓練出的工具,可能在使用上會有擬合過度 (overfitting) 的現象發生,但擁有最高的敏感度與精確度。而 Strelka2 擁有和DeepVariant 差不多的精確度、GATK Haplo typeCaller 擁有和DeepVariant 差不多的敏感度。
(2) 在已知變異中,L1/L2/STR 區域的變異召回率最高,簡單重複序列及低複雜度區域則最難被捕捉到變異。
(3) 插入/缺失變異的偵測率因平台不同而有所差異,尤其是插入序列偵測率在不同平台間表現差很多。表現較好的平台為 NovaSeq 6000 (2×250-bp 試劑);最差的為 Nanopore,接著表現依序漸增為 BGISEQ-500、Illumina HiSeq 系列和 PacBio CCS 模式。
(4) 結構變異的偵測率與分析工具高度相關,可使用 Delly、Manta、Lumpy,最後使用 SURVIVOR 做合併。影響因素除了分析工具之外,定序平台為第二大影響因素,接著為同儀器樣品重複上機次數。
(5) 人類基因體平均約 20,000 個結構變異,約七成為缺失,其他分別為易位 (14%)、插入 (6%)、重複 (5%) 和倒位 (4%)。 (6) 在細菌總基因體研究中,其映射率與細菌 GC 比例有關。偏高及偏低的 GC 比例使得上機分類結果與標準品相比,有低估的現象發生。


參考資料

1. Foox, Jonathan, et al. "Performance assessment of DNA sequencing platforms in the ABRF Next-Generation Sequencing Study." Nature Biotechnology 39.9 (2021): 1129-1140.
圖爾思生物科技 / 微生物體研究中心
許瑄珉 文案 
 
回上一頁
標籤
三代定序
聯絡我們
CONTACT US
立即前往

抱歉,為了您的瀏覽體驗及安全性,本網站不支援IE瀏覽器,請參考下方常用瀏覽器。