08
2020.07
單細胞定序分析介紹 (七): 細胞的命運PHATE or Fate
PHATE分析計算流程
單細胞資料分析當中,最關鍵的步驟可以說是細胞聚類的結果;而細胞聚類牽涉到許多數學模型的設計,不論是高維資料轉換(降維)、去除雜訊(denoising)以萃取核心訊息等,都會影響到最後細胞分群結果,也因此不斷有方法推陳出新以求真實呈現細胞的聚類分佈。細胞的命運fate,阿不是,是PHATE(Potential of Heat diffusion for Affinity-based Transition Embedding)[1] 是一種新的降維方式,在介紹這個新的方法之前小編想要跟大家回顧一下過往單細胞分析常見的降維方法,如此在解釋其優點比較容易理解。
PCA
Principal Component Analysis 是歷史悠久的一種線性降維方法,做法是將資料點投射在一個新的維度,在此空間找出能夠解釋最大變異程度新資料點的代表性組合(即為主成分),藉此數學計算,故能將差異較大的資料點分開,找出群聚間的關係;然而 PCA 卻不太適用於複雜的資料(例如單細胞資料,一個基因代表一個維度空間),線性計算方法不足以在人肉眼可見的 2D/3D 圖片當中,將如此複雜且多維度的資料點做區隔,因此細胞點若以 PCA 方式呈現,會發現細胞會有相疊的現象。 為了解決這個問題,後來才衍伸出 t-SNE、UMAP 方法,對於細胞聚類展現較佳的視覺呈現。
t-SNE
t-SNE,t-distributed stochastic neighbour embedding [2, 3],是一種非線性降維方法,此方法是改良自 SNE (stochastic neighbour embedding)的計算,相對於 SNE 主要是改變了 (1)代價函數 cost function 的計算(考慮對稱性) (2)分佈規則(改為t-分佈假設)。計算概念是取得每個資料點跟其他資料點的距離,平均兩點之間的相互距離之後做 scaling,並假設資料點為 t-分佈,最後盡可能將相近分數的資料點排列在一起。
(說明影片:https://www.youtube.com/watch?v=NEaUSP4YerM)
UMAP
計算大量資料的時候 t-SNE 可能會耗費許多時間,所以後來提出 UMAP,Uniform Manifold Approximation and Projection [4] 的方法,除了節省計算時間,效果甚至可能比 t-SNE 好。 UMAP 跟 t-SNE 一樣是一種非線性降維方法,主要是引入 manifold 的概念,並且有下列幾種假設 [5]:
PCA
Principal Component Analysis 是歷史悠久的一種線性降維方法,做法是將資料點投射在一個新的維度,在此空間找出能夠解釋最大變異程度新資料點的代表性組合(即為主成分),藉此數學計算,故能將差異較大的資料點分開,找出群聚間的關係;然而 PCA 卻不太適用於複雜的資料(例如單細胞資料,一個基因代表一個維度空間),線性計算方法不足以在人肉眼可見的 2D/3D 圖片當中,將如此複雜且多維度的資料點做區隔,因此細胞點若以 PCA 方式呈現,會發現細胞會有相疊的現象。 為了解決這個問題,後來才衍伸出 t-SNE、UMAP 方法,對於細胞聚類展現較佳的視覺呈現。
t-SNE
t-SNE,t-distributed stochastic neighbour embedding [2, 3],是一種非線性降維方法,此方法是改良自 SNE (stochastic neighbour embedding)的計算,相對於 SNE 主要是改變了 (1)代價函數 cost function 的計算(考慮對稱性) (2)分佈規則(改為t-分佈假設)。計算概念是取得每個資料點跟其他資料點的距離,平均兩點之間的相互距離之後做 scaling,並假設資料點為 t-分佈,最後盡可能將相近分數的資料點排列在一起。
(說明影片:https://www.youtube.com/watch?v=NEaUSP4YerM)
UMAP
計算大量資料的時候 t-SNE 可能會耗費許多時間,所以後來提出 UMAP,Uniform Manifold Approximation and Projection [4] 的方法,除了節省計算時間,效果甚至可能比 t-SNE 好。 UMAP 跟 t-SNE 一樣是一種非線性降維方法,主要是引入 manifold 的概念,並且有下列幾種假設 [5]:
- The data is uniformly distributed on Riemannian manifold;
- The Riemannian metric is locally constant (or can be approximated as such);
- The manifold is locally connected.
上面這些假設是為了讓整個資料 manifold 形成一個類似 topology 的結構,相似的資料點在低維度空間當中會有相似的topology。
(說明影片:https://www.youtube.com/watch?v=nq6iPZVUxZU)
t-SNE 或是 UMAP 貌似解決了 PCA 的問題,但是,這兩種方法可以達到聚類良好的效果的同時僅保留了局部結構(local structure),忽略了全局結構(global structure),白話文意思是:
t-SNE 或是 UMAP 貌似解決了 PCA 的問題,但是,這兩種方法可以達到聚類良好的效果的同時僅保留了局部結構(local structure),忽略了全局結構(global structure),白話文意思是:
只找出資料點遠近的「關係」,但不考慮遠近的「距離」
以單細胞分析為例,不論 t-SNE 或是 UMAP 圖,我們只能得知某群細胞是相似的所以聚類在一起,但無法從圖中比較這群細胞跟其他細胞、或這群細胞裡各點的遠近關係。
PHATE
Potential of Heat diffusion for Affinity-based Transition Embedding 是2019 年底發表於Nature的文章[1],這個方法宣稱可以同時保留局部結構(local structure)以及全局結構(global structure),並且對於隱含樹狀結構的資料會有更好的解釋。
PHATE
Potential of Heat diffusion for Affinity-based Transition Embedding 是2019 年底發表於Nature的文章[1],這個方法宣稱可以同時保留局部結構(local structure)以及全局結構(global structure),並且對於隱含樹狀結構的資料會有更好的解釋。
以下是PHATE主要計算概念:
以 EBs(Embryoid bodies)單細胞資料為例,以27天做為分界,平均蒐集大約 31,000 顆細胞。PCA 圖中的PC1,依稀可以看到細胞分佈會受到不同細胞分化(天數)影響,但是沒有更細微的聚類資訊可以參考 ;然而在 t-SNE 當中雖然細胞聚類明確,卻並沒有保留整體細胞因天數逐漸分化的資訊。透過 PHATE 的處理,除了培養時間資訊明確(PHATE1),細胞培養後期分化,似乎也能見到細微的訊息(PHATE2)。
單細胞技術的發展非常迅速,未來有其他好用的工具及方法,再分享給大家。
參考資料
1. Moon, K.R., et al., Visualizing structure and transitions in high-dimensional biological data. Nature Biotechnology, 2019. 37(12): p. 1482-1492.
2. Van der Maaten, L.J.P. and G.E. Hinton, Visualizing High-Dimensional Data Using t-SNE. Journal of Machine Learning Research, 2008. 9(nov): p. 2579-2605.
3. Kobak, D. and P. Berens, The art of using t-SNE for single-cell transcriptomics. Nature Communications, 2019. 10(1): p. 5416.
4. Leland McInnes, John Healy, and J. Melville, UMAP: Uniform manifold approximation and projection for dimension reduction. 2018. https://arxiv.org/abs/1802.03426.
5. https://umap-learn.readthedocs.io/en/latest/
圖爾思生物科技 / 微生物體研究中心
謝馥媺 文案