27
2019.11
GSEA 分析
原創文章 引用請註明出處
基因表現研究從過去的 Microarray (Gene Expression Profile) 到 NGS (RNA-seq) 分析皆需要探究所謂的功能富集 (Functional Enrichment),而不管是做 GO 或 Pathway (KEGG / IPA / DAVID) 分析,皆需要透過基因表現的差異 (Over Representation Analysis, ORA)篩選出一組基因列表,藉由列表與功能資料庫比對計算獲得富集的資訊。但這個方式可能會因為人為的設定閥值 (例如:2-foldchange & p-value < 0.05) 而漏掉關鍵的基因資訊,因而一定程度造成分析結果的偏頗。
為了克服這個問題,Broad Institute 團隊提出了 Gene Set Enrichement Analysis (GSEA) 的分析方法[1],特點是不需設定一個篩選門檻值挑出差異基因,而是根據整體表現量的趨勢做分析,不會因門檻值的設定而遺漏可能有顯著意義的生物路徑 (Pathway),如此可以一定程度解決實際參與調控但表現量差異不顯著而被忽略的問題。另外,通常某個實驗處理對 Pathway 中的基因有一致的變化趨勢,但大部分的基因可能變化較弱而難以被挑選出來,而 GSEA 有機會找出因上游基因的細微變化影響而導致下游基因劇烈改變的 pathway,這是過去採用差異表現基因分析所無法發現的。
Question 1:表現量差異不顯著的基因真的不參與調控嗎?
Question 2:目標基因過少,真的代表實驗對生物路徑沒有特異性影響嗎?
>> 事實上處理對生物路徑存在影響,只是僅有少數基因變化較為顯著!
Question 1:表現量差異不顯著的基因真的不參與調控嗎?
Question 2:目標基因過少,真的代表實驗對生物路徑沒有特異性影響嗎?
>> 事實上處理對生物路徑存在影響,只是僅有少數基因變化較為顯著!
另外,ORA 並沒有考慮到實驗數值,而將每個基因都視為同等重要,然而不同基因的貢獻程度可能有所不同(即表現量差異大的可能比較重要),GSEA 會依據實驗數值對所有基因做排序,與預先定義的基因集相比找出差異不明顯但趨勢一致的功能基因集,這恰恰解決了 ORA 潛在的問題。
截至 2019.11.27 已被引用 18,867 次
GSEA 開發團隊提供人類基因集資料庫 MSigDB (Molecular Signatures Database),目前已更新至 v7.0 (August 2019),包含了 8 個大類共 22,596 gene sets[2,3]。另外還有如 GSKB 提供多種物種的基因群[4],此外也能使用自定義的基因群進行分析。
GSEA 究竟如何運作的呢?小編就來說明一下它的基本概念。下圖左方有兩組資料 (可能是加藥 vs. 沒加藥 or 疾病 vs. 健康),若是以 ORA 方式篩選就會採用一固定的門檻值 (cut-off),但可能會漏掉實際有參與調控的重要基因。
因此,圖中間呈現的 GSEA 方法會先計算所有基因在兩種狀態的 fold-change 或 signal-to-noise並根據結果排序基因 (gene rank),與特定基因集比對,若基因存在則 ES score 會加分,反之則減分形成折線圖 (Enrichment Profile),最終會找到一個最高/最低峰稱為 Maximum Enrichment score,而此位置與起始點 (可能是最左或最右)間的範圍稱之為 Leading-edge subset,亦即參與調控此基因集的重要基因群 (ES 貢獻最大的 Gene List)。
ORA 相比 (圖右方),GSEA 在 Geneset 2 & Geneset 3 可找到可能被 ORA 濾除但卻重要的基因,這就是 GSEA 的優勢所在。另外,GSEA 利用 permutation testing 隨機抓取相同數量的基因作為基因集,並計算得到其隨機的 ES,去估算實際 ES 出現的可能性 (P value),以確保這 ES 不是隨機就會發生。
因此,圖中間呈現的 GSEA 方法會先計算所有基因在兩種狀態的 fold-change 或 signal-to-noise並根據結果排序基因 (gene rank),與特定基因集比對,若基因存在則 ES score 會加分,反之則減分形成折線圖 (Enrichment Profile),最終會找到一個最高/最低峰稱為 Maximum Enrichment score,而此位置與起始點 (可能是最左或最右)間的範圍稱之為 Leading-edge subset,亦即參與調控此基因集的重要基因群 (ES 貢獻最大的 Gene List)。
ORA 相比 (圖右方),GSEA 在 Geneset 2 & Geneset 3 可找到可能被 ORA 濾除但卻重要的基因,這就是 GSEA 的優勢所在。另外,GSEA 利用 permutation testing 隨機抓取相同數量的基因作為基因集,並計算得到其隨機的 ES,去估算實際 ES 出現的可能性 (P value),以確保這 ES 不是隨機就會發生。
註:通常以 (1) FDR < 0.25 (2) |NES| > 1 or p-value < 0.05 作為 GSEA 基因富集的篩選標準
後續分析可以用各種適用於 RNA-seq 下游分析的方法,例如 (1) 探究 leading-edge subset 中每個基因的功能、疾病關聯和文獻研究的結果 (2) 藉由篩選出的 enriched geneset 探討 Geneset-Geneset interaction,找到重要的 sub-geneset 、關鍵的 hub gene 或可能參與的相關調控路徑。
參考文獻
參考文獻
[1] Subramanian, A., et al., Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences, 2005. 102(43): p. 15545-15550.
[2] Liberzon, A., et al., Molecular signatures database (MSigDB) 3.0. Bioinformatics, 2011. 27(12): p. 1739-1740.
[3] Liberzon, A., et al., The molecular signatures database hallmark gene set collection. Cell sys-tems, 2015. 1(6): p. 417-425. [4] Bares V, G.X., GSKB: A gene set database for pathway analysis in mouse. bioRxiv, 2018.