13
2019.11
單細胞定序分析介紹 (三): Batch Effect
原創文章 引用請註明出處
Schematics of batch-effect correction by MNN [1]
繼前兩篇的單細胞分析介紹(一)、單細胞分析介紹(二)之後,相信大家對單細胞分析有一定的認識,聽到單細胞眼睛都亮起來了對吧?那麼我們今天要更進一步介紹的是批次效應 (batch effect) ,這個問題在其他類型的資料已被廣泛討論,目前在單細胞分析領域來說也是很夯的議題。 所以...什麼是批次效應呢?批次效應來源是什麼?為什麼要校正批次效應?單細胞定序分析有什麼校正批次效應的方法呢?小編聽到大家的疑惑了,我就在這裡逐步幫大家解惑吧!
批次效應 (Batch Effect)來源
批次效應是源自許多不同的技術上 (technical) 因素,而造成樣本群上的不同,例如:非同時處理的樣本、不同實驗人員的操作...等。而這些資料如果沒有處理就直接分析,會導致我們錯誤解讀樣本;也就是說,明明是技術上造成的差異,卻讓我們以為不同處理的樣本間具有生物意義上的差異。 下圖為一篇 Review Paper 展示的批次效應在校正前後的細胞分群資料 [2] ,這些細胞來自六個樣本,兩隻老鼠的三個組織:十二指腸 (duodenum)、空腸 (jejunum)、迴腸 (ileum) [3]。所以這六筆資料的 batch effect 可能來自:老鼠的差異 (m1, m2)、組織來源不同 (duodenum, jejunum, ileum)。校正前(左圖)會看到細胞分群受到樣本來源影響:不同來源的樣本即使聚類在同一群,卻還是會因為樣本來源不同而有層次性的區分。而經過 ComBat [4] 校正後(右圖)就沒有那麼明顯的界線劃分。
目前有很多方法可以校正單細胞資料的批次效應,小編要介紹給大家的方法有:ComBat [4]、Mutual Nearest Neighbor (MNN) [1] 、 Seurat CCA Alignment [5] 以及 Seurat Integration [6]。小編在這裡就先簡單介紹每個方法的概念,有興趣推薦大家可以翻翻原文囉~
(1) ComBat
這是一篇 2006 年發表的 Paper,當時針對 microarray 研究而設計的方法,應用於 small batch size 的樣本時較穩定。Combat 使用的方法是 Empirical Bayes (EB) method,主要是透過估計參數的先驗分布,計算每個基因在每個批次的平均值跟變異數後,再依據這些值做調整(見下圖公式)。單細胞批次效應校正方法提出之前,有不少人使用這個方法。
(1) ComBat
這是一篇 2006 年發表的 Paper,當時針對 microarray 研究而設計的方法,應用於 small batch size 的樣本時較穩定。Combat 使用的方法是 Empirical Bayes (EB) method,主要是透過估計參數的先驗分布,計算每個基因在每個批次的平均值跟變異數後,再依據這些值做調整(見下圖公式)。單細胞批次效應校正方法提出之前,有不少人使用這個方法。
(2) Mutual Nearest Neighbor (MNN)
本篇文章的封面圖片就是 MNN 方法的示意圖。這個方法有三種假設:(1) 至少有一個細胞群體在不同 batches 都存在 (2) batch effect 向量跟不同的 biological subspace 呈現正交關係(見封面照片圖(a)) (3) batch effect 造成的 variation 遠比 biological-effect 小。基於這些假設,接著就是去找細胞在每個 batch 內最近的鄰居,如果彼此都是最近的鄰居,他們就叫做 mutual nearest partner (見封面照片圖(b)灰色box)。
本篇文章的封面圖片就是 MNN 方法的示意圖。這個方法有三種假設:(1) 至少有一個細胞群體在不同 batches 都存在 (2) batch effect 向量跟不同的 biological subspace 呈現正交關係(見封面照片圖(a)) (3) batch effect 造成的 variation 遠比 biological-effect 小。基於這些假設,接著就是去找細胞在每個 batch 內最近的鄰居,如果彼此都是最近的鄰居,他們就叫做 mutual nearest partner (見封面照片圖(b)灰色box)。
(3) Seurat Alignment
Seurat 一開始提出的方式是利用 Canonical Correlation Analysis (CCA),目的是要找出不同樣本間相似的基因-基因關係結構(Canonical Vector, CC),進而對這些向量進行 alignment。這些向量可暫時視為 "Metagene",在 alignment 過程中,會用到「動態時間扭曲」(dynamic time warping),縮放向量以校正 metagene 向量在群裡中變化的密集程度,找到mapping pair。
(4) Seurat Integration
今年(2019)六月的時候,Seurat 團隊發表在 Cell 期刊發表的方法主要是想解決「樣本整合 (integrate information across different modalities)、資料轉移 (label transfer)」的問題。透過尋找"Anchor",在 shared space 當中將訊息轉移,使用的演算法除了原有 CCA 外還加入 MNN 的概念。(阿~太文謅謅了,我來給點活生生的例子吧!)
Seurat 一開始提出的方式是利用 Canonical Correlation Analysis (CCA),目的是要找出不同樣本間相似的基因-基因關係結構(Canonical Vector, CC),進而對這些向量進行 alignment。這些向量可暫時視為 "Metagene",在 alignment 過程中,會用到「動態時間扭曲」(dynamic time warping),縮放向量以校正 metagene 向量在群裡中變化的密集程度,找到mapping pair。
(4) Seurat Integration
今年(2019)六月的時候,Seurat 團隊發表在 Cell 期刊發表的方法主要是想解決「樣本整合 (integrate information across different modalities)、資料轉移 (label transfer)」的問題。透過尋找"Anchor",在 shared space 當中將訊息轉移,使用的演算法除了原有 CCA 外還加入 MNN 的概念。(阿~太文謅謅了,我來給點活生生的例子吧!)
好的!比方說在 Seurat 的官網上的例子 [7] 意圖將四個跨平台的單細胞資料整合成一個參考資料集,並把其中三個整合 (CelSeq + CelSeq2 + SMART-Seq2) 投射到剩下一筆資料 (Fluidigm C1) 當中,而因為範例的資料已知 Cell type,所以才能看 Transfer 後細胞有無正確標記:總共 638 顆細胞,被正確transfer的 cell type 為620顆 (正確率超過97%)。
後記
隨著單細胞定序技術的迅速發展,也湧現許多資料分析方法,看得小編頭昏眼花但也好興奮阿 ~本次討論的批次效應不管應用在哪一種資料都相當被重視,當然除了方法很多可以使用之外,也有文章討論處理批次效應的陷阱,像是樣本大小、成分不均 ,在設計實驗的時候都得避免 [8]。另外值得注意的是,如果細分校正的演算法,小編在前面提到的Review [2] 則是將 ComBat 和其他方法分開討論,因為 ComBat 是基於 linear method,而 MNN 和 Seurat 的方法則是 non-linear approach。這兩種在假設上能處理的雜訊比較不同。好了今天就介紹到這了,未來單細胞分析有發表更新更好的工具小編再來跟大家分享~
參考文獻 [1] Haghverdi, L., Lun, A. T. L., Morgan, M. D., & Marioni, J. C. (2017). Correcting batch effects in single-cell RNA sequencing data by matching mutual nearest neighbours. doi: 10.1101/165118 [2] Luecken, M. D., & Theis, F. J. (2019). Current best practices in single‐cell RNA‐seq analysis: a tutorial. Molecular Systems Biology, 15(6). doi: 10.15252/msb.20188746 [3] Haber, A. L., Biton, M., Rogel, N., Herbst, R. H., Shekhar, K., Smillie, C., … Regev, A. (2017). A single-cell survey of the small intestinal epithelium. Nature, 551(7680), 333–339. doi: 10.1038/nature24489 [4] Johnson, W. E., Li, C., & Rabinovic, A. (2006). Adjusting batch effects in microarray expression data using empirical Bayes methods. Biostatistics, 8(1), 118–127. doi: 10.1093/biostatistics/kxj037 [5] Butler, A., Hoffman, P., Smibert, P., Papalexi, E., & Satija, R. (2018). Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nature Biotechnology, 36(5), 411–420. doi: 10.1038/nbt.4096 [6] Stuart, T., Butler, A., Hoffman, P., Hafemeister, C., Papalexi, E., Mauck, W. M., … Satija, R. (2019). Comprehensive Integration of Single-Cell Data. Cell, 177(7). doi: 10.1016/j.cell.2019.05.031 [7] https://satijalab.org/seurat/v3.0/integration.html
[8] Nygaard, V., Rødland, E. A., & Hovig, E. (2015). Methods that remove batch effects while retaining group differences may lead to exaggerated confidence in downstream analyses. Biostatistics, 17(1), 29–39. doi: 10.1093/biostatistics/kxv027