【單細胞定序 新知分享】scPhere深度學習模型,清楚呈現高複雜scRNA數據
【單細胞定序 新知分享】scPhere深度學習模型,清楚呈現高複雜scRNA數據
隨著單細胞RNA定序技術的發展與演進,實驗通量持續提升並且應用單細胞RNA定序的研究規模逐漸擴大時,面對高度複雜且包含多批次組成的單細胞數據,如何將資料降維處理並清楚呈現,一直都是單細胞定序分析相當重要的課題。甫於今年五月發表在《Nature Communications》期刊,研究團隊提出了基於深度學習的運算模型─ scPhere,將單細胞RNA定序數據投射在二維以上的超維球面或雙曲線空間,能更為清楚地呈現高度複雜的單細胞數據。
【深度生成模型 ─ scPhere】
scPhere是基於深度學習模型的分析方法,輸入單細胞RNA定序數據以及其他數量不等的干擾因子 (健康或是疾患、不同批次或實驗條件等),經過機器學習分析影響細胞基因表現的批次差異,再根據訓練得到的計算模型將個別細胞投射在超維球面或雙曲線空間的表面上。計算模型也能用以分析新的數據,得到下列的資訊:
(1) 評估各類變因 (例如:疾病) 對於單細胞基因表現的影響
(2) 從新的個體取得單細胞定序數據後,將先前演算的模型做為分析參考的依據,將新的細胞數據映射 (mapping) 至資料集內
(3) 將細胞映射放置於球面空間上,清楚呈現不同細胞分群差異及分布
Figure 1
【與現有降維分析方法的比較 (小型資料集)】
目前單細胞RNA定序分析經常使用的降維分析方法包括t-SNE、UMAP、PHATE,當分析呈現的細胞數較多時,會觀察到細胞分布存在重疊以及相似細胞過度擁擠集中的結果,較難以清楚辨別存在細微差異的不同細胞次分群
應用scPhere分析相同的資料集 (Fig 2a),並與上述目前經常使用的方法做比較,scPhere能夠清楚呈現不同的細胞次分群,並且沒有明顯的重疊或是過度擁擠的細胞分布。
Figure 2
【與現有降維分析方法的比較 (大型資料集)】
基於深度學習模型的scPhere,能夠輸入大量干擾因子 (健康或是疾患、不同批次或實驗條件等) 分析單細胞RNA定序數據,因此特別適合用來分析組成批次多元的大型資料集,以下使用兩種大型資料集做為範例:
(1)總計35,699顆小鼠視網膜神經節細胞,包含45個細胞次分群 (Fig3a-h)
(2)來自Human Cell Landscape,總計599,926顆細胞,分別來自59種人類組織,可細分出102個細胞次分群 (Fig3i-p)
在組成複雜的大型資料集,scPhere能夠更好的呈現並保證數據層級結構的完整性,即便細胞數來到數十萬顆,也不會觀察到細胞於t-SNE分析呈現的擁擠分佈。
Figure 3
參考文獻
Ding, J., Regev, A. Deep generative model embedding of single-cell RNA-Seq profiles on hyperspheres and hyperbolic spaces. Nat Commun 12, 2554 (2021).
https://doi.org/10.1038/s41467-021-22851-4