© 2021 BIOTOOLS Co., Ltd. All Rights Reserved

latest news

最新消息

19 2021.08

【三代定序 新知分享】我全都要!! PacBio HiFi reads讓你好貪心也沒關係

【三代定序 新知分享】我全都要 !! PacBio HiFi reads讓你好貪心也沒關係

小編相信大家都生活在這個社會這~麼久了,一定有學習到這樣一個亙古不變的經驗:

如果想要省時間,一定就會耗費比較多的能量; 如果想要用比較少的能量來完成一件事,時間就一定會拉得很長。

即使今天找到了一個又省時間又省能量的方法,卻一定不省錢 !

省時/省力/省錢的選擇總是在生活中處處考驗著我們,而且目前看來是沒有辦法達成一個平衡。

這樣一個道理,在定序的世界也是一樣,準確性高的卻奈何讀長短、而讀長長的卻又錯誤百出。

但是! 這些情況都是發生在2019年以前,自從PacBio能夠產出HiFi reads後,想要得到又長又準確的序列已經不是夢想,除此之外在2021年推出的Sequel IIe除了提升了8倍的數據量並且還可以直接產出HiFi reads,雖然相比NGS的定序成本仍然顯得昂貴,但相比之前三代定序的價格的確又接近平價了一些。


(Fig. 1)

 

揪~竟PacBio的HiFi reads是什麼? 讀長長又準確的證據是哪裡來的? 跟CCS reads又有什麼差異? 主要能貢獻在哪些應用? 又要多少的數據量才會足夠呢?

來 ! 板凳準備好,讓我們繼續看下去~

 

首先,我們可以從PacBio定序流程的改善來探討HiFi reads為什麼能夠達到那麼高的準確

率 (PacBio定序原理文章連結: 魚與熊掌皆可兼得–Pacbio定序原理淺談)。

 

PacBio Sequel平台定序的CCS模式可以通過Subreads的疊加將錯誤進行校正,得到高準確率的CCS reads,其中CCS reads依照Subreads疊加數量的不同,準確度也會有所差異(Fig. 2)。而Q30 HiFi reads經由高達10次以上的Subreads疊加,可將準確率提升至99.9%,與一般大於3條Subreads疊加即可獲得的CCS reads有準確度上的差異。另外,在insert長度部分,下列文獻提到於Sequel平台CCS read主要應用於短於2 kb的DNA,而HiFi reads insert長度則落在1kb-20kb以內。

注意: 一般HiFi reads Q值定義為Q20。

 

(Fig. 2)

 

(Fig. 3)

 

PacBio HiFi reads的出世最早是在於PacBio與Google、NIST等多家知名研究機構發表於《Nature Biotechnology》的合作文章“Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome”

(Fig. 4)

 

文獻中提到能夠產生HiFi reads一個主要的創新機轉就是”pre-extension”,藉由在影片定序數據蒐集之前即先進行polymerase合成,剔除DNA受損的SMRTbell以確保在定序數據開始蒐集之後每個SMRTbell皆能獲得最長的讀長,如此一來即可使得每一個分子Subreads的疊加數量增加,經過校正後產生高準確率(99.8%)的一致性(consensus)序列,準確率等同於二代定序,平均讀長卻可達到10kb以上!

針對HiFi reads偵測SNVs、Indel、結構變異、定相以及De Novo組裝的能力,本篇研究選用已經建立了極高準確度的基準變異數據庫Genome in a Bottle的人類參考樣品HG002/NA24385進行驗證。

 

HiFi Reads對於SNVs和Indel的偵測能力

根據GIAB基準評估,SNV的全基因體準確率為99.468%,召回率為99.559%。而indel部分,準確率為78.977%,召回率為81.248%。HiFi reads使用Google的DeepVariant於對於 SNV實現了99.914%的全基因體準確率和99.959%的召回率。而indel部分,則實現了96.901%的準確率和95.980%的召回率。(Fig. 5) (Fig. 6)

 

(Fig. 5)

 

 

(Fig. 6) 黃色區域是共有SNVs/Indels數量,紅色是DeepVariant獨有的SNVs/Indels,

藍色是GIAB benchmark獨有的SNVs/Indels。顯示二者一致性極高

 

 

HiFi Reads對於小型變異進行定相(phasing)的能力

使用WhatsHap對DeepVariant進行定相。幾乎所有(99.64%)體染色體雜合變異都被分成N50 為206 kb的19,215 個區塊。(Fig. 7)
 


(Fig. 7)

 

HiFi Reads對於結構變異的偵測能力

同時使用基於映射方法(pbsv和Sniffles)以及基於組裝方法(Paftools)對大於50bp的插入和缺失進行檢測,HiFi reads對結構變異檢測的敏感度可達96.13%,專一性則是達95.99%。此外,HiFi Reads也可以精確的確定結構變異的斷點和長度。(Fig. 8)

 

 

(Fig. 8) 黃色區域是共有結構變異數量,紅色是HiFi reads獨有的結構變異,藍色是GIAB benchmark獨有的結構變異。顯示二者一致性極高

 

 

HiFi Reads於De Novo組裝的能力

使用FALCON、Canu和wtdbg2演算法進行HiFi Reads的De Novo組裝,來自HG002的父本與母本的短讀長數據被用來進行定相,產生高度連續且幾乎完整的組裝,N50從12.10到19.99 Mb,基因體大小從2.67到3.04 Gb。組裝果與HG002標準結果高度一致,一致性達到Q44-Q48,大大超過了先前PacBio發布的數據(Q40)以及Nanopore + Illumina (Q29)的組裝結果。(Fig. 9) (Fig. 10)

 

(Fig. 9)

 

(Fig. 10)

 


最後,各位看倌一定會好奇這些應用到底需要多少的數據量呢?
本篇文獻貼心的指出了Variant Calling和De Novo組裝各自需要的最小數據量:

 

Variant Calling和De Novo組裝數據量需求

(1) SNV: >15倍覆蓋度,DeepVariant的準確率和召回率可保持在99.5%以上,若覆蓋率<10 倍,則品質急遽下降。(Fig.11a)

(2) Indel: 當覆蓋度低至17倍時,DeepVariant仍然可以與典型的NGS性能(>90%)相媲美。(Fig.11b)

(3) 結構變異(SV): pbsv的準確率於評估內的覆蓋度都在95%以上。召回率則在覆蓋度>15 倍時高於90%至,並且在10倍以下急劇衰減。(Fig.11c)

(4) 定相: 使用WhatsHap進行定相,覆蓋度>10 倍時,phase block N50保持在150 kb以上。(Fig.11d)

(5) 混合單倍型(Mixed-haplotype): 於覆蓋率高於15 倍時,wtdbg2組裝的大小一致,高於2.7Gb,contig N50約為15 Mb,一致性高於Q42。(Fig.11e~g)

 

(Fig.11)

 

相信看到這裡客倌們應該都有被HiFi reads的威力震懾到了吧?

文章的最後小編統整一下CCS reads、HiFi reads以及Q30 HiFi reads的差異,讓大家可以放在心裡方便以後做市場上面規格的比較喔 !

- CCS reads: 指的是同一條分子模板經過多次讀取而合併為一條reads,沒有Q值的定義,pass數越多,Q值則越高。

- HiFi reads: insert長度最長可達20kb,且Q值達Q20之CCS reads,準確率達99%。

- Q30 HiFi reads: insert長度最長可達20kb,且Q值達Q30之CCS reads,準確率達99.9%。

希望本篇文章有幫助到各位理解近年來鋒頭崛起的HiFi reads,有任何問題大家留言詢問喔!

 

參考資料

1. PacBio官網

2. Wenger, A.M., Peluso, P., Rowell, W.J. et al. Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome. Nat Biotechnol 37, 1155–1162 (2019).

https://doi.org/10.1038/s41587-019-0217-9

 

 

 

更多PacBio三代定序應用服務

回上一頁
標籤
三代定序
聯絡我們
CONTACT US
立即前往

抱歉,為了您的瀏覽體驗及安全性,本網站不支援IE瀏覽器,請參考下方常用瀏覽器。