01
2019.10
單細胞定序分析介紹 (一): Cell Ranger
原創文章 引用請註明出處
單細胞定序的研究發展至今已經十幾年了。從下面這張圖[1]顯示每年新發表的單細胞定序技術,可偵測到的細胞數目近乎指數成長,每一年與前一年相比都是10倍上升,這也揭示單細胞定序發展的潛力。今天要跟大家介紹一個由 10x Genomics 公司所開發的分析流程化軟體Cell Ranger [2],功能有:比對參考序列 reads (alignment)、feature-barcode 矩陣 (feature-barcode matrices)[註]、聚類分析結果 (clustering analysis)、基因表現量分析 (gene expression analysis),目前最新版本為 Cell Ranger 3.1 (只支援Linux系統)。
Cell Ranger 指令介紹:
- cellranger mkfastq
- cellranger count 這個指令是最核心的步驟!這一步會比對樣本 FASTQ 跟參考序列的位置 (目前官方只提供人或老鼠的參考序列),並決定哪些 barcode 是背景值、哪些 barcode 是 cell-associated [3],產生下游分析的基因表現量表。早期的Cell Ranger 版本 (Cell Ranger v2.x and earlier)是假設 cell-associated barcode 應該會比背景 barcode 具有較多的 transcript counts,所以會設定一個閾值直接區分背景值及真實細胞barcode。而新版的 Cell Ranger (Cell Ranger v3.x) 則會分為兩步驟:
(1) 跟舊版一樣的假設,先找出 high RNA content 的 barcode,這些先被歸類為真實細胞。
(2) 將一群「可能是空的 GEMs (Gel Bead in Emulsions)」挑出來,利用圖靈估計 (Simple Good-Turing smoothing) 對其基因建立一個 background model [4]。第一步剩下的 GEMs 的基因就跟這個 background model 比較,與這個 model 差異較大的就被歸類為真實細胞。而這個做法其實就是要挑出 low RNA content 的細胞。
下圖是 10x 官網提供的比較 [3] (左:Cell Ranger 2.2,右:Cell Ranger 3.0),綠色/藍色代表被判定為真實細胞,灰色代表背景值,樣本是混合 300 high RNA content 293T cells + 2000 low RNA content PBMC cells。圖是排序過的值,可以這樣解讀:有多少個 X(軸) barcode 帶有 Y(軸) 的UMI count。下圖可以看到,新版的 Cell Ranger 能夠將 low RNA content 細胞也挑出來,所以會比舊版細胞數還要多。
- cellranger aggr
- cellranger reanalyze 最後這個功能比較進階,讓使用者可以彈性的重新計算、改變參數設定,例如有一群特定想看的細胞、想要排除的基因;或是聚類分析的參數,例如設定多少個 PC (principle components)、幾個 k-means clusters…等的。但是這個步驟目前不支援 Feature Barcoding analysis,所以 output 並不會看到一個新的基因表現量表,唯一能夠體現差異的是附帶的可視化 Loupe 檔案,結果可能會跟前面不同。 下圖為基本的Cell Ranger單樣本分析流程示意圖
後記
今天介紹的這個 Cell Ranger 軟體提供使用者一個自動化的分析流程,能夠產生初步的單細胞分析結果,並且在官網上記錄各種疑難雜症讓使用者搜尋參考。特別是 Alignment 步驟,Cell Ranger 包裹被普遍使用的 STAR aligner,給使用者一個不囉嗦的分析選擇,這對於沒有特別參數設定需求的試用者來說,非常方便。不過也因為這樣簡單方便,其他客製化流程就必須配合別的套件進行分析。對於 Cell Ranger 有興趣的話,不妨前往至 10x 官網參觀看看囉!
參考文獻
[1] Svensson, V., Vento-Tormo, R., & Teichmann, S. A. (2018). Exponential scaling of single-cell RNA-seq in the past decade. Nature Protocols, 13(4), 599–604
[2] https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger
[3] https://kb.10xgenomics.com/hc/en-us/articles/115003480523-How-are-barcodes-classified-as-cell-associated- [4] https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/3.0/algorithms/overview
[2] https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger
[3] https://kb.10xgenomics.com/hc/en-us/articles/115003480523-How-are-barcodes-classified-as-cell-associated- [4] https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/3.0/algorithms/overview
[5] https://kb.10xgenomics.com/hc/en-us/articles/115004217543-How-does-cellranger-aggr-normalize-for-sequencing-depth-among-multiple-libraries-
[6] https://kb.10xgenomics.com/hc/en-us/articles/360000559571-How-can-I-remove-batch-effects-among-samples-
[6] https://kb.10xgenomics.com/hc/en-us/articles/360000559571-How-can-I-remove-batch-effects-among-samples-