【單細胞定序 新知分享】DISCO- 整合型單細胞圖譜參考資料庫
【單細胞定序 新知分享】DISCO- 整合型單細胞圖譜參考資料庫
DISCO (Deeply Integrated Single-Cell Omics data) 是甫於2022年初發表的單細胞數據資料庫,深度整合多個單細胞技術平台將近4593例樣品,累積超過一千八百萬顆細胞的研究數據,涵蓋將近107種的組織/細胞/類器官 (organoid),其中也包含相當多來自COVID-19相關研究計畫的資料。可以系統性地探索公開發表的單細胞研究數據,也提供細胞類型註釋 (Cell type identification)的附加功能,讓研究者可以上傳分析自己的研究數據,得知細胞次分群的細胞來源資訊。
單細胞RNA定序技術讓研究者得以在細胞層級剖析細胞異質性 (cellular heterogeneity),發掘罕見的細胞類型並研究其基因表現,隨著技術發展和普及,過去十年應用單細胞RNA定序技術的研究計畫也呈現指數型成長,目前公開資料庫上已經累積大量的樣品數據及研究計畫 (Figure 1A),涵蓋多種疾病、樣品類型及組織來源,甚至使用的技術平台也相當多元 (Figure 1B)。
Figure 1. Statistics of single-cell studies. (A) The growth in number of single-cell projects and samples.(B) Top diseases, platforms, sample types, and tissues in the single-cell field.
大量單細胞RNA定序數據的產出,讓科學家可以整合出人類細胞圖譜的資料庫,最為知名的就是人類細胞圖譜計畫 (Human Cell Atlas) (建議文章:人體版的Google Map-人類細胞圖譜計畫)。但並不是所有的資料庫都能夠提供經過整合及批次效應校正後的數據供後續分析使用,不同資料庫間Metadata及 Cell type描述也存在一定程度的歧異,未經統一的註釋將造成後續判讀的困難。
為了解決上述的問題,來自新加坡的研究團隊基於自行開發的演算法,建立了一個深度整合且內容經過校正的綜合型資料庫 DISCO (Deeply Integrated Single-Cell Omics data) (https://www.immunesinglecell.org/),讓研究者可以系統性地檢索整合後的公開數據,也提供自動化細胞類型註釋 (Cell type identification)的附加功能,可以上傳自己的研究數據與公開資料整合分析。接下來將從資料處理、整合、可視化呈現等環節,介紹該資料庫。
-
資料處理
DISCO的資料是來自公開資料庫中有包含原始序列資訊的樣品 (Fastq, Bam, SRA等),整合多個單細胞技術平台將近4593例樣品,累積超過一千八百萬顆細胞的研究數據,涵蓋將近107種的組織/細胞/類器官 (organoid),將原始數據以自動化流程重新分析,包含序列映射 (Mapping)及細胞品質管控等。因為後續資料整合的需要,除了抓取原始序列資訊外,也取回包含樣品類型、組織來源、疾病狀態等其他Metadata,經人工校正彙整出一致且固定格式的資訊。
此外,由於細胞類型註釋在不同來源的資料集之間並未統一,研究團隊蒐羅並統整84個單細胞資料集,基於各類細胞獨特的基因表現,自行建立了細胞類型註釋的參考資料庫,也將細胞類型註釋的完整名稱再經過人工整理校正統一,結合自行開發的 CELLiD (CELL type iDentification)分析套件,可以根據整合後的細胞類型註釋,自動化鑑別不同細胞次分群的細胞類型,在不同資料集之間取得一致的註釋資訊。(Figure 2, Data process)
-
資料整合
完成Metadata整理及細胞類型註釋後,為了將不同來源的資料集整合,並校正可能的批次效應,研究團隊基於Seurat自行改善開發出FastIntegration套件,有效提升處理的效能,最高每週可以處理合併將近四百萬顆細胞,蒐集的資料可以整合出一個完整人類細胞圖譜,並可以根據組織、細胞類型或是疾病狀態再細分為27個sub-atlas。(Figure 2, Data integration)
-
資料可視化呈現及分析工具
整合後的DISCO資料庫,可以在網站頁面上查詢個別sub-atlas的細胞組成及分布,檢視特定細胞類型的Marker gene及表現量,提供表格及SVG格式圖片的匯出,建立資料庫使用到的分析套件也開放研究者使用 (Figure 2, Data visualization & Online tools),網站上可供使用的三項套件:
- FastIntegration 可以讓研究者自行選擇資料庫內處理後的數據整合分析。
- CELLiD 則是基於團隊建立的完整細胞圖譜,以自動化流程快速且準確地預測細胞類型。僅需要配合格式要求整理出Cluster與對應的基因表現量,便可以直接上傳分析,鑑別不同細胞次分群的細胞類型 (Figure 3)
- CellMapper 允許研究者自行上傳數據並映射到指定的sub-atlas,觀察細胞分布。
Figure 2. The data processing pipeline, and the database content and tools of DISCO.
Figure 3 CELLiD 操作介面
DISCO整合大量的樣品數據,可以因應不同的研究領域,讓研究者自行選擇並整合數據執行分析 (FastIntegration),資料庫所收集整理的細胞類型註釋資訊也開放給研究者使用 (CELLiD),讓研究者可以上傳自己的數據鑑別細胞類型,能幫助研究者判讀複雜多層次的單細胞RNA定序數據。CellMapper 則允許研究者自行上傳數據並投射到指定的sub-atlas,是其他資料庫無法提供的功能。友善的網站介面,讓研究者可以系統性地探索已經公開發表的單細胞研究數據,而團隊也會持續維護並定期更新資料庫的內容,希望可以納入更多類型的單細胞定序數據。
-
文獻參考