12 2025．03

【Metagenome小學堂】我該採取什麼策略進行 Metagenome 分析?

| | 好的生物資訊分析，帶你上天堂 | |

好的 Metagenome 結果不只需要好的樣品和定序品質，強大的生物資訊分析更是不可或缺，如何有效從序得到的短讀⻑序列中拼湊出微生物的正確樣貌，進而了解菌相組成與其中的愛恨糾葛，首要工作是選用適當的分析流程。

想像一下，如果每個物種都代表一個完整的拼圖，每個樣品就像是一大袋裝滿拼圖的袋子，定序數據就像是從袋子取出一堆來自不同組的拼圖，生物資訊分析就像是組裝拼圖、企圖還原袋中內容物的過程。就像拼拼圖採取不同策略一樣，目前 Metagenome 分析方法主要分為兩大類：基於參考基因組資料庫的分析 (reference-based analysis) 和基於序列組裝的分析 (assembly-based analysis)。

|| Reference-based analysis

Reference-based analysis 將序列與已建立的微生物基因體資料庫進行比對，進而快速得到與資料庫相符的物種與功能註釋等資訊，此類方法分析速率較高，但會受限於資料庫的完整性和正確性，若資料庫不夠完善，可能會遺漏新物種，對新基因的研究能力也較低。以拼圖為比喻，資料庫就好像是一些已知拼圖的外框，使用這些外框來拼拼圖的速度會比直接組裝來的快，也有機會使用較低的定序資源來進行分析。

分析流程在移除宿主基因體後，透過 MetaPhlAn 將序列比對 ChocoPhlAn 資料庫，ChocoPhlAn 是經過專門優化的資料庫，從約 100 萬微生物基因體中識別出約 510 萬個 SGB（Species-levelGenome Bins）標記基因（marker genes），藉由序列比對和標準化計算估算人類或小鼠樣品的微生物菌相組成。

|| Assembly-based analysis

Assembly-based analysis 不需依賴已知的參考基因組，直接將序列組裝成較⻑的片段 (contigs) ，再進行基因預測、分類和註釋等後續分析，可以更全面地分析樣本中的組成與訊息，有較高的機會發現新物種或新基因，適合探索性研究但十分依賴組裝正確度，相較於 Reference-based analysis 使用的計算資源龐大，資料分析也更為複雜，同時需要足夠的序列進行組裝，較高的定序深度可以增加組裝的連續性和準確性，得到更完整的結果。

組裝流程在組裝後會依照序列特徵進行分群 (Binning)，就像是在拼圖初步組裝後依照顏色進行分類一樣，序列特徵包含像是四碼核酸頻率、定序深度、覆蓋分布、GC 含量或關鍵基因種類，依照這些特徵可以將不同整類基因體進行分群，後續再依分群結果進行資料庫比對，此法就不受資料庫的限制，有機會找到新物種或新基因。

|| 我該使用什麼方法

如同人生的選擇一樣，分析方法並沒有最正確，只有最適合的，依照實驗目的以及資源選擇合適的分析方式，Reference-based analysis 快速且相對簡單，常用於監測已知的微生物群落結構、物種豐度變化，或分析樣本中已知微生物的功能特性。Assembly-based analysis 適用於新環境或微生物多樣性極高的樣本，或需探討未知基因、功能群的研究。

特點	Assembly-based Analysis	Reference-based Analysis
數據處理	將序列組裝成 contigs	將序列回貼到已知 reference genome
數據深度與覆蓋率	對數據深度、覆蓋度要求較高	相對較低的數據深度仍可有效分析
計算資源	需要較多的計算資源	相對較少的計算資源
結果的完整性和連續性	有機會建立完整基因或基因組	受限於參考基因組的完整性與準確性
新基因的發現	有較大機會發現新基因或新物種	受限於參考資料庫的完整性
適用性	適用於未知或多樣化的微生物群落	依賴已知的 reference genome，適合已知或多樣性的樣本

	Metagenome Shotgun sequencing
	Mapping-based	Assembly-based
PROS	Fast, scales to large datasets Less sequencing depth Sub-species level resolution Gene function analysis	Identifying novel genomic and gene diversity Profiling unknown/novel species Detailed gene function analysis
CONS	Unable to detect novel species or sequences not previously documented in existing databases Risk of host contamination	Assembly can’t proceed unless sufficient gene coverage is sequenced Extremely resource-intensive Risk of host contamination High cost

回上一頁

您瀏覽過的文章

2025．03．12