26
2016.08
都是Excel惹的禍 - 20%的基因體研究論文出錯
原創文章 引用請註明出處
從事基因體研究的科學家都曾遇到一個同樣的問題:使用Excel處理基因列表的時候,常會因為Excel的自動格式改正功能而造成基因名稱的錯誤,這些錯誤皆由於Excel將某些基因名稱改為日期或數值格式,而往往研究人員在研究時或發表文章前因忽略Excel的自動轉換而導致錯誤 [1, 2]。
發表在Genome Biology的一篇論文:Gene name errors are widespread in the scientific literature 就利用大量的文獻資料說明此問題的嚴重性 [2]。 論文中使用2005~2015年間發表於18種不同期刊中的3,597篇論文所包含的35,175個Excel表格進行分析,發現其中有704篇論文中的基因名稱都有問題,受影響的比例接近了20%。這些錯誤皆歸因於 Excel 會將某些基因名稱格式化為日期或者浮點數值,例如:Excel會自動將 SEPT2 轉換為 2-Sep (2016/09/02)、MARCH1 轉換為 1-Mar (2016/03/01)。而這些問題都可能大大影響了研究分析的結果與正確性,例如說後續的疾病與功能分析、分子網絡分析、調控與代謝路徑分析等。
另外,研究人員還發現出錯比例與impact factor呈現正相關,這可能歸因於高點數文章分析時會使用大量的資料研究所致。
小編認為,這些錯誤目前似乎除了等微軟正視這個問題並修正,只能靠研究者本身在輸入資料前為每個欄位設置正確格式,並於分析前後、投稿前後都需嚴格檢查是否因Excel格式轉換而導致名稱上的錯誤,讓我們一起更謹慎的使用 Excel 處理基因名稱與資料吧!
參考文獻:
[1] Zeeberg BR, Riss J, Kane DW, Bussey KJ, Uchio E, Linehan WM, et al. Mistaken identifiers: gene name errors can be introduced inadvertently when using Excel in bioinformatics. BMC Bioinformatics. 2004;5:80.
[2] Ziemann, M., Eren, Y., & El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology, 2016, 17(1), 1–3.
圖爾思生物科技 / NGS事業部
郭育倫 文案
© BIOTOOLS. All Rights Reserved
插圖來源於網路(侵刪)