31
2020.08
PICRUSt2 功能預測分析
原創文章 引用請註明出處
先前於 PICRUSt功能預測提琴圖/箱型圖 一文中介紹過 PICRUSt (Phylogenetic Investigation of Communities by Reconstruction of Unobserved States) 是一種基於標記基因序列來預測基因功能的工具,其 2013 年發表後至今已有四千多次的文獻引用[1]。如今,釋出了升級版本 PICRUSt2[2, 3],於各方面改善 PICRUSt1 原有的分析限制。以下為此次升級的重點介紹:
(一) 解決 16S 序列於 PICRUSt1 中進行功能預測的限制 在 PICRUSt1 分析流程中,限制 16S 序列採用 OTU clustering 且註釋資料庫必須為 Greengenes。而在 PICRUSt2 中放寬了這樣的限制,讓序列也能採用 Denoising 方法所得到的 ASVs 且無論使用任何資料庫進行注釋都能進行功能預測分析。如下圖 (同文獻中 Fig. 1b)所示,幾乎所有的 ASVs 都能獲得預測功能結果。 此外,PICRUSt2 也新增能讓使用者採用自定義的參考資料庫進行分析的方法,讓整個分析執行上彈性更大。
(二) 功能註釋資料庫擴大
PICRUSt2 預設的基因體資料庫包含了 41,926 個細菌和古菌基因體( IMG 資料庫, 2017/11/8)。從四萬多個基因體中去除重複的 16S rRNA 基因,產生了最終的 20,000 個 16S rRNA 基因序列叢集。相較於 PICRUSt1 當時所使用的 IMG 資料庫共 2,011 基因體,在 PICRUSt2 有近乎 20 倍的增加。於下圖(同文獻中 Fig. 1c)可見 PICRUSt1 與 PICRUSt2 於不同階層下的 Taxa 數目與基因體數目。除了 IMG 資料庫,PICRUSt2 所使用的 KEGG 資料庫中的 KO 數目也相較於 PICRUSt1 增加了 1.5 倍。
(三) 產出 MetaCyc 資料庫預測結果
PICRUSt2 預設使用 MetaCyc 資料庫進行 Pathway 預測,這將能與 Shotgun metagenomics (MGS) 的結果進行比較。因 MetaCyc 亦是 MGS 基因功能分析常見的資料庫,例如 MGS 分析中廣泛使用的工具 HUMAnN2 預設就採用 MetaCyc 資料庫。PICRUSt2 Pathway 的豐度計算方式不同於 PICRUSt1 會產出不同 Pathway-Level 的豐度結果,其核心產出以預測的 EC number 豐度為主,並基於 EC number 比對 MetaCyc 資料庫進而計算出 Pathway 的豐度(同 HUMAnN2 計算方法),以降低產出假陽性 Pathways 的可能性[4]。 在文獻中經比較測試,整體而言 PICRUSt2 相較於 PICRUSt1 和其他功能預測工具更為準確。而在得到功能預測結果後,常會進行的組間功能預測出的豐度比較。在此,官方建議可採用具使用者介面的 STAMP 或是 ALEDx2 方法進行統計檢驗。除上述這兩個常見的方法外,為了能視覺化呈現組間的功能預測差異分析圖表,下回我們將介紹 FishTaco 這分析工具如何呈現功能分析的視覺化。
參考文獻
圖爾思生物科技 / 微生物體研究中心
(一) 解決 16S 序列於 PICRUSt1 中進行功能預測的限制 在 PICRUSt1 分析流程中,限制 16S 序列採用 OTU clustering 且註釋資料庫必須為 Greengenes。而在 PICRUSt2 中放寬了這樣的限制,讓序列也能採用 Denoising 方法所得到的 ASVs 且無論使用任何資料庫進行注釋都能進行功能預測分析。如下圖 (同文獻中 Fig. 1b)所示,幾乎所有的 ASVs 都能獲得預測功能結果。 此外,PICRUSt2 也新增能讓使用者採用自定義的參考資料庫進行分析的方法,讓整個分析執行上彈性更大。
(二) 功能註釋資料庫擴大
PICRUSt2 預設的基因體資料庫包含了 41,926 個細菌和古菌基因體( IMG 資料庫, 2017/11/8)。從四萬多個基因體中去除重複的 16S rRNA 基因,產生了最終的 20,000 個 16S rRNA 基因序列叢集。相較於 PICRUSt1 當時所使用的 IMG 資料庫共 2,011 基因體,在 PICRUSt2 有近乎 20 倍的增加。於下圖(同文獻中 Fig. 1c)可見 PICRUSt1 與 PICRUSt2 於不同階層下的 Taxa 數目與基因體數目。除了 IMG 資料庫,PICRUSt2 所使用的 KEGG 資料庫中的 KO 數目也相較於 PICRUSt1 增加了 1.5 倍。
(三) 產出 MetaCyc 資料庫預測結果
PICRUSt2 預設使用 MetaCyc 資料庫進行 Pathway 預測,這將能與 Shotgun metagenomics (MGS) 的結果進行比較。因 MetaCyc 亦是 MGS 基因功能分析常見的資料庫,例如 MGS 分析中廣泛使用的工具 HUMAnN2 預設就採用 MetaCyc 資料庫。PICRUSt2 Pathway 的豐度計算方式不同於 PICRUSt1 會產出不同 Pathway-Level 的豐度結果,其核心產出以預測的 EC number 豐度為主,並基於 EC number 比對 MetaCyc 資料庫進而計算出 Pathway 的豐度(同 HUMAnN2 計算方法),以降低產出假陽性 Pathways 的可能性[4]。 在文獻中經比較測試,整體而言 PICRUSt2 相較於 PICRUSt1 和其他功能預測工具更為準確。而在得到功能預測結果後,常會進行的組間功能預測出的豐度比較。在此,官方建議可採用具使用者介面的 STAMP 或是 ALEDx2 方法進行統計檢驗。除上述這兩個常見的方法外,為了能視覺化呈現組間的功能預測差異分析圖表,下回我們將介紹 FishTaco 這分析工具如何呈現功能分析的視覺化。
參考文獻
[1] Langille, M. G.I.; Zaneveld, J.; Caporaso, J. G.; McDonald, D.; Knights, D.; a Reyes, J.; Clemente, J. C.; Burkepile, D. E.; Vega Thurber, R. L.; Knight, R.; Beiko, R. G.; and Huttenhower, C. (2013). Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology, 1-10. 8 2013.
[2] Douglas, G. M., Maffei, V. J., Zaneveld, J., Yurgel, S. N., Brown, J. R., Taylor, C. M., Huttenhower, C., &Langille, M. G. I. (2020). PICRUSt2: An improved and customizable approach for metagenome inference. BioRxiv, 672295. https://doi.org/10.1101/672295
[3] Douglas, G. M., Maffei, V. J., Zaneveld, J. R., Yurgel, S. N., Brown, J. R., Taylor, C. M., et al. (2020). PICRUSt2 for prediction of metagenome functions. Nature Biotechnology, 38(6), 685–688.
[4]https://github.com/picrust/picrust2/wiki/Frequently-Asked-Questions#how-can-i-run-categorize_by_functionpy-like-in-picrust1
圖爾思生物科技 / 微生物體研究中心
張美虹 文案
© BIOTOOLS. All Rights Reserved