14
2022.09
【FDA真實挑戰賽到底是多真實?!】
原創文章 引用請註明出處
今天這篇文章小編感覺是不小心收了 PacBio 紅包而寫的?!
開玩笑的啦~ 人家 PacBio 就真的有實力,我們只是據實以告而已。
本文以 2022 年 5 月發表在 Cell Genome的 FDA 真實挑戰賽 V2 為主軸[1],跟大家分享 FDA 真實挑戰賽在做什麼,以及這次參賽選手們的表現如何~
今天這篇文章小編感覺是不小心收了 PacBio 紅包而寫的?!
開玩笑的啦~ 人家 PacBio 就真的有實力,我們只是據實以告而已。
本文以 2022 年 5 月發表在 Cell Genome的 FDA 真實挑戰賽 V2 為主軸[1],跟大家分享 FDA 真實挑戰賽在做什麼,以及這次參賽選手們的表現如何~
- 什麼是FDA真實挑戰賽?
其中較有名的就是 FDA 真實挑戰賽 (Precision FDA Truth Challenge),這個挑戰賽的目的結合基因體研究的科學家們,一起將現有的方法達到更準確且一致的結果,以朝向更佳的個人化醫療夢想。挑戰賽採自願制,通常為期一個月的投稿時間。受邀請的創新者們依照挑戰賽規定的樣品及目的,可以選擇自己想要的定序平台及分析方法,以達到最接近真實答案的結果。
以第一屆真實挑戰賽來說,主要比較偵測指定人類樣品基因變異的表現,可分成單核苷酸多型性 (Single-Nucleotide Polymorphism, SNP)、序列的插入與刪除 (insertion/deletion, indel),分別評比針對這些變異的表現、召回率 (recall rate)、準確度等項目的結果。而第二屆的真實挑戰賽因為加入了三代定序平台,使得參賽者的工具排列組合更加有彈性。平台上的使用可分為二代定序 Illumina、三代定序 Nanopore, PacBio 三個平台,可以單一使用也可以合併使用,而生物資訊分析工具也比先前更強大更多選擇。
- 定序的樣品是何方神聖?
定序的樣品則以 NIST ID 命名為 HG001、HG002 … 以此類推,HG001 為 NA12878 細胞株,HG002 至 HG004 為阿什肯納茲猶太人家族檢體,這些樣品皆以 hg38 資料庫為參考去偵測變異。而 FDA 真實挑戰賽則在 GIAB 尚未發布正確答案之前,先行請大家投搞定序相對應的樣品,並在 GIAB 公布序列後,在競賽結果「對答案」來找出獲勝者。以第一屆挑戰賽來說,定序的樣品為 HG002,第二屆挑戰賽的樣品為 HG003、HG004。
- 參賽者是誰?
第一屆 FDA 真實挑戰賽結果:
第二屆 FDA 真實挑戰賽結果:
- 比賽結果如何?
以全基因體區域來看,擁有最好表現的為合併使用三個平台的投稿,接著依序為只使用 PacBio、Illumina、Nanopore。而在全比賽類別中,單一平台使用以 PacBio HiFi 表現最為優良。而在較難定序的區域中,表現排名依序為 PacBio HiFi、Nanopore、Illumina。可見 Nanopore 雖然擁有相對 PacBio HiFi 較高的錯誤率,但其長讀長的優勢還是在這方面較二代定序突出。以分析策略來看,二代定序搭配 statistical methods that utilized graph-based 擁有最佳表現,而三代定序則為 deep-learning-based 方法。
上圖中可見不同技術 Illumina (green)、Nanopore (purple)、PacBio (pink)、multiple platforms (orange) 在全區域、較難對照區域、白血球抗原序列中的表現。也可從右圖中看到整體來說,多平台的橘色點以及 PacBio 的粉紅色點有較佳的表現。
除此之外,在一些過去被認為比較難辨識變異的區域像是人類白血球抗原序列 (human leukocyte antigen, HLA),以 Seven Bridges 提供的 Illumina graph-based pipeline[5] 則表現得特別好。三代定序 Nanopore – NonoCaller Medaka 也在 MHC 區域有不錯的表現,特別是 SNVs 的部分。整體來說,三代定序在表現上比起只用純二代定序的結果好很多。
上圖中可見黑線之上的點顯示比起全區域或者較難對照區域,在 MHC 區域有較好表現的投稿組別,像是 Seven Bridges。
上圖比較不同版本跟挑戰賽的結果,可以從比較中看出 SNV 錯誤率以 V1 跟V4 版本做比較,其錯誤率大幅降低約 10 倍左右。而 V4 對基因體的總覆蓋率也從 V3 的 85% 上升至 92%,特別增加較難對照區域以及 MHC 區域的覆蓋率。可見定序技術及生物資訊分析方法這幾年的進步。
1. Olson, Nathan D., et al. "PrecisionFDA Truth Challenge V2: Calling variants from short and long reads in difficult-to-map regions." Cell Genomics 2.5 (2022): 100129.
2. Genome In A Bottle (GIAB) official website. https://jimb.stanford.edu/giab
3. PrecisionFDA Truth Challenge V1 challenge results. https://precision.fda.gov/challenges/truth/results
4. PrecisionFDA Truth Challenge V2 challenge results. https://precision.fda.gov/challenges/10/results
5. Rakocevic, Goran, et al. "Fast and accurate genomic analyses using genome graphs." Nature genetics 51.2 (2019): 354-362.
圖爾思生物科技 / 微生物體研究中心
許瑄珉 文案