© 2021 BIOTOOLS Co., Ltd. All Rights Reserved

latest news

最新消息

12 2025.03

【Metagenome小學堂】我該採取什麼策略進行 Metagenome 分析?

| | 好的生物資訊分析,帶你上天堂 | |

 

好的 Metagenome 結果不只需要好的樣品和定序品質,強大的生物資訊分析更是不可或缺,如何有效從序得到的短讀⻑序列中拼湊出微生物的正確樣貌,進而了解菌相組成與其中的愛恨糾葛,首要工作是選用適當的分析流程。

 

想像一下,如果每個物種都代表一個完整的拼圖,每個樣品就像是一大袋裝滿拼圖的袋子,定序數據就像是從袋子取出一堆來自不同組的拼圖,生物資訊分析就像是組裝拼圖、企圖還原袋中內容物的過程。就像拼拼圖採取不同策略一樣,目前 Metagenome 分析方法主要分為兩大類:基於參考基因組資料庫的分析 (reference-based analysis) 和基於序列組裝的分析 (assembly-based analysis)。

 

|| Reference-based analysis

 

Reference-based analysis 將序列與已建立的微生物基因體資料庫進行比對,進而快速得到與資料庫相符的物種與功能註釋等資訊,此類方法分析速率較高,但會受限於資料庫的完整性和正確性,若資料庫不夠完善,可能會遺漏新物種,對新基因的研究能力也較低。以拼圖為比喻,資料庫就好像是一些已知拼圖的外框,使用這些外框來拼拼圖的速度會比直接組裝來的快,也有機會使用較低的定序資源來進行分析。

 

分析流程在移除宿主基因體後,透過 MetaPhlAn 將序列比對 ChocoPhlAn 資料庫,ChocoPhlAn 是經過專門優化的資料庫,從約 100 萬微生物基因體中識別出約 510 萬個 SGB(Species-levelGenome Bins)標記基因(marker genes),藉由序列比對和標準化計算估算人類或小鼠樣品的微生物菌相組成。

 

|| Assembly-based analysis 

 

Assembly-based analysis 不需依賴已知的參考基因組,直接將序列組裝成較⻑的片段 (contigs) ,再進行基因預測、分類和註釋等後續分析,可以更全面地分析樣本中的組成與訊息,有較高的機會發現新物種或新基因,適合探索性研究但十分依賴組裝正確度,相較於 Reference-based analysis 使用的計算資源龐大,資料分析也更為複雜,同時需要足夠的序列進行組裝,較高的定序深度可以增加組裝的連續性和準確性,得到更完整的結果。

 

組裝流程在組裝後會依照序列特徵進行分群 (Binning),就像是在拼圖初步組裝後依照顏色進行分類一樣,序列特徵包含像是四碼核酸頻率、定序深度、覆蓋分布、GC 含量或關鍵基因種類,依照這些特徵可以將不同整類基因體進行分群,後續再依分群結果進行資料庫比對,此法就不受資料庫的限制,有機會找到新物種或新基因。

 

|| 我該使用什麼方法


如同人生的選擇一樣,分析方法並沒有最正確,只有最適合的,依照實驗目的以及資源選擇合適的分析方式,Reference-based analysis 快速且相對簡單,常用於監測已知的微生物群落結構、物種豐度變化,或分析樣本中已知微生物的功能特性。Assembly-based analysis 適用於新環境或微生物多樣性極高的樣本,或需探討未知基因、功能群的研究。
 

特點

Assembly-based Analysis

Reference-based Analysis

數據處理

將序列組裝成 contigs

將序列回貼到 已知 reference genome

數據深度與覆蓋率

對數據深度、覆蓋度要求較高

相對較低的數據深度仍可有效分析

計算資源

需要較多的計算資源

相對較少的計算資源

結果的完整性和連續性

有機會建立完整基因或基因組

受限於參考基因組的完整性與準確性

新基因的發現

有較大機會發現新基因或新物種

受限於參考資料庫的完整性

適用性

適用於未知或多樣化的微生物群落

依賴已知的 reference genome,適合已知或多樣性的樣本

 

 

Metagenome Shotgun sequencing

 

Mapping-based

Assembly-based

PROS

  • Fast, scales to large datasets

  • Less sequencing depth

  • Sub-species level resolution

  • Gene function analysis

  • Identifying novel genomic and gene diversity

  • Profiling unknown/novel species

  • Detailed gene function analysis

CONS

  • Unable to detect novel species or sequences not previously documented in existing databases

  • Risk of host contamination

  • Assembly can’t proceed unless sufficient gene coverage is sequenced

  • Extremely resource-intensive

  • Risk of host contamination

  • High cost

回上一頁
聯絡我們
CONTACT US
立即前往

抱歉,為了您的瀏覽體驗及安全性,本網站不支援IE瀏覽器,請參考下方常用瀏覽器。