02
2020.06
單細胞定序分析介紹 (六): 細胞標記 SingleR介紹
原創文章 引用請註明出處
上一篇文章介紹了細胞標記可參考的資料庫,這邊小編要來詳細介紹SingleR[1] --- 自動化標記細胞的套件。SingleR內建參考資料數據,包含細胞對應的基因表現量表、每一顆細胞的 cell type 註解(一個 cell type 可能有多個重複)。注意,小編這裡介紹的是舊版本(v1.0.1),新版本已整合至bioconductor,方法及說明可能略有不同,若對新版本感興趣請參閱對應內容:https://www.bioconductor.org/packages/release/bioc/html/SingleR.html。
SingleR步驟
SingleR有兩種模式定義細胞類型:
- 對每一顆細胞個別分析,進行後面計算。
- 對每一個 cluster 分析,進行後面計算。每一個 cluster 的表現量為該 cluster 內所有細胞表現量的總和。預設10類,euclidean distance + ward method;亦可根據 Seurat 分群結果。
[step 1]:Spearman correlations
選用參考資料當中 variable genes 作為標的、計算跟測試資料的 Spearman correlation。
- Variable genes 定義:相比其他 cell types,在某 cell type 具有較高表現量(中位數)的前N個基因。
- Variable genes 數目(N):有兩種模式 “de” & “sd” 可以定義,預設使用 “de”。 “de” 這個方法會使多 cell types 時用少量 genes、少 cell types 時用大量 genes,分布如下圖。
例如,參考資料 Immgen 總共有 253 個 cell types,N 一開始設定就是 20,到最後一步只剩一個 cell type 的時候,就會以 top 500 個 genes(N=500)計算參考資料跟測試資料的細胞相關性。
[step 2]:Aggregation of scores by cell types
參考資料當中相同 cell type 的細胞可能有重複,也因此與測試細胞會有多筆相關性分數,所以每一輪會挑出 80th 百分位的分數,使得最終測試細胞跟 cell type 只有一個相關性分數。
[step 3]:Fine-tuning
這一步主要是區分相似度較近的 cell types,例如下面第二張圖片可以看到 T regulatory cells 或 CD4+ T memory cell 對於這一顆測試細胞有接近的分數,究竟要判斷為哪類細胞? SingleR Fine-tuning 的做法是把前一步結果做「逐步淘汰」,去掉分數最差的值、或是比最高分低超過 0.05 分的其他 cell type 去掉。接著剩下來的 cell type 又回到 step 1,重複直到收斂,最後剩下的 cell type 即是測試細胞的標記結果。下面的圖是某一顆細胞經過[step1 ~ step3]多次迭代的結果,最後這顆細胞就會被標記為 T regulatory cells (Treg)。
結語
SingleR 自帶參考資料,對於初步檢視未知樣本的 cell type 有很大的幫助;而這也延伸出值得注意的問題是,參考資料對於測試資料的「適用性」,舉個最暴力的例子就是:使用SingleR 的人類資料,但測試樣本來自老鼠,SingleR 一樣會算出結果,但這就是不合理標記。也因此,SingleR 並沒有硬性規定參考資料,使用者亦可已匯入自定義的 cell type 資料做 training。另外,SingleR 的方法只有「最佳解」,沒有「無解」,對於每一顆細胞都一定會標記一個細胞類別,沒有 unknown 這個類別。
總結來說,自動化細胞標記需要注意的是 (1) 參考資料-reference dataset (2) 分類模型-classifier。兩者是相輔相成的,如果樣本細胞組織來源跟參考資料的細胞組織來源相同,那麼標記結果的正確性會大大提高,然而分類模型若無法合理劃分不同細胞類型則功虧一簣。至於哪一個 cell type annotation 工具比較好,這裡有一篇比較性文章[2],就給大家參考囉。
參考資料
參考資料
1. Aran, D., et al., Reference-based analysis of lung single-cell sequencing reveals a transitional profibrotic macrophage. Nature Immunology, 2019. 20(2): p. 163-172.
2. Abdelaal, T., et al., A comparison of automatic cell identification methods for single-cell RNA sequencing data. Genome Biology, 2019. 20(1): p. 194.
圖爾思生物科技 / 微生物體研究中心
謝馥媺 文案