© 2021 BIOTOOLS Co., Ltd. All Rights Reserved

latest news

最新消息

10 2021.12

【RNAseq 3小學堂】Read Count 標準化方法

     原創文章     引用請註明出處
#RNAseq #標準化 #雲平台 #3小學堂
 
|| 3分鐘速解RNAseq分析,本周介紹Read count 標準化方法 ||

小編偷偷問一個問題喔~ 你知道圖爾思 RNAseq 報告有3種標準化的表格,分別是: FPKM、TPM、RLE/TMM 。

看到這,是不是被這群不知是誰的標準化方法搞混了呢?又為什麼RLE後面還有接一個TMM呢?
 
直覺的想,定序結果比對參考基因體之後,就可以知道每個基因各自被定序的數量。那究竟為什麼要標準化基因表現量呢?
 
|| RNASeq 基因表現會受到定序深度基因長度RNA 組成,這3個因素影響 ||
 
這些差異造成基因量若未經過一定的標準化程序,就容易造成比較上的偏誤並產生偽陽性 (False-positvie)。以下以圖示的方式呈現三個因素經標準化前後的差異。
 
Norm-1_RNAseq.gif
 
FPKM & TPM
在觀察基因表現量的時候,常用到的數值是 FPKM (fragment per kilobase per million) 和 TPM(transcript per million),兩者的計算會考慮到 transcript 的長度,不過 FPKM 並沒有考慮到樣品之間定序深度的差異, TPM 則會把所有樣品的序列總和標準化為 1M total reads,讓所有樣品的水平相同。
 
|| 建議使用TPM比較樣品內的不同基因表現量喔!||
 
Norm-2_RNAseq.png
 
不過,以上並沒有考慮到樣品 RNA 組成因此在進行樣本間表現量比較的時候可能會發生偏差,因此在進行樣品間處理比較分析時,會建議採用 RLE/TMM 標準化。
 
RLE/TMM
還記得在基因差異表現量分析有談到在進行有重複和無重複分析的時候,會使用不同的分析方法,RLE和TMM的標準化方式分別對應到分析流程中的有無生物重複分析。
DESeq2 → 有生物性重複,使用 RLE (relative log expression) 標準化
DEGseq → 無生物性重複,使用 TMM (trimmed mean of M-values) 標準化 (edgeR套件)
 
後續的 GO/KEGG 富集分析GSEA WGCNA 也都是使用 RLE/TMM 標準化後 DEG 統計的結果進行分析。
 
|| 建議使用 RLE/TMM  比較基因在不同樣品間的表現差異 ||
 
詳細的標準化過程在此就不多贅述,每個標準化方法都有其適用的狀況,可參考以下圖表,或點此參考原始資料網站。
Norm-3_RNAseq.png 

繪製圖片的標準化
 
另外要提醒的一點是,繪製圖片時對數字的處理也稱為標準化!
 
有些圖片在繪製的時候會為了更好的呈現數值,會額外進行標準化處理,常見的幾個方法是:
 
  1. 取對數 loge(N+1) -> 取 log 主要是為了避免極端值的影響,+1的目的在於避免 0 無法取對數的情形 ( 0 取 log 產生 -Inf)
  2. 計算 Z-score 是為了對中心值,讓圖片的顏色更可以描述表現量的變化(避免被極端值影響),所謂的 z-score 是對整個資料做標準化,使資料分布平均=0,變異數=1,程式預設會針對樣品內所有表現基因做 z-score 標準化,可以觀察樣品內的基因表現差異
Norm-4_RNAseq.png
 
咦~是不是感到有一點點熟悉呢~沒錯這兩個標準化選項都可以在雲平台的 heatmap 功能自由進行調整喔~!
 
介紹了這麼多這麼棒的分析內容,要有好的分析報告首要是有好的數據,下一回,告訴你在解讀分析報告之前,如何評估數據的好壞。
 

 
圖爾思生物科技/微生物體研究中心
顏維萱/沈筱凌 
回上一頁
聯絡我們
CONTACT US
立即前往

抱歉,為了您的瀏覽體驗及安全性,本網站不支援IE瀏覽器,請參考下方常用瀏覽器。