【Metagenome小學堂】我該採取什麼策略進行 Metagenome 分析?
| | 好的生物資訊分析,帶你上天堂 | |
好的 Metagenome 結果不只需要好的樣品和定序品質,強大的生物資訊分析更是不可或缺,如何有效從序得到的短讀⻑序列中拼湊出微生物的正確樣貌,進而了解菌相組成與其中的愛恨糾葛,首要工作是選用適當的分析流程。
想像一下,如果每個物種都代表一個完整的拼圖,每個樣品就像是一大袋裝滿拼圖的袋子,定序數據就像是從袋子取出一堆來自不同組的拼圖,生物資訊分析就像是組裝拼圖、企圖還原袋中內容物的過程。就像拼拼圖採取不同策略一樣,目前 Metagenome 分析方法主要分為兩大類:基於參考基因組資料庫的分析 (reference-based analysis) 和基於序列組裝的分析 (assembly-based analysis)。
|| Reference-based analysis
Reference-based analysis 將序列與已建立的微生物基因體資料庫進行比對,進而快速得到與資料庫相符的物種與功能註釋等資訊,此類方法分析速率較高,但會受限於資料庫的完整性和正確性,若資料庫不夠完善,可能會遺漏新物種,對新基因的研究能力也較低。以拼圖為比喻,資料庫就好像是一些已知拼圖的外框,使用這些外框來拼拼圖的速度會比直接組裝來的快,也有機會使用較低的定序資源來進行分析。
分析流程在移除宿主基因體後,透過 MetaPhlAn 將序列比對 ChocoPhlAn 資料庫,ChocoPhlAn 是經過專門優化的資料庫,從約 100 萬微生物基因體中識別出約 510 萬個 SGB(Species-levelGenome Bins)標記基因(marker genes),藉由序列比對和標準化計算估算人類或小鼠樣品的微生物菌相組成。
|| Assembly-based analysis
Assembly-based analysis 不需依賴已知的參考基因組,直接將序列組裝成較⻑的片段 (contigs) ,再進行基因預測、分類和註釋等後續分析,可以更全面地分析樣本中的組成與訊息,有較高的機會發現新物種或新基因,適合探索性研究但十分依賴組裝正確度,相較於 Reference-based analysis 使用的計算資源龐大,資料分析也更為複雜,同時需要足夠的序列進行組裝,較高的定序深度可以增加組裝的連續性和準確性,得到更完整的結果。
組裝流程在組裝後會依照序列特徵進行分群 (Binning),就像是在拼圖初步組裝後依照顏色進行分類一樣,序列特徵包含像是四碼核酸頻率、定序深度、覆蓋分布、GC 含量或關鍵基因種類,依照這些特徵可以將不同整類基因體進行分群,後續再依分群結果進行資料庫比對,此法就不受資料庫的限制,有機會找到新物種或新基因。
|| 我該使用什麼方法
如同人生的選擇一樣,分析方法並沒有最正確,只有最適合的,依照實驗目的以及資源選擇合適的分析方式,Reference-based analysis 快速且相對簡單,常用於監測已知的微生物群落結構、物種豐度變化,或分析樣本中已知微生物的功能特性。Assembly-based analysis 適用於新環境或微生物多樣性極高的樣本,或需探討未知基因、功能群的研究。