25
2021.07
【三代定序技術應用於精神疾病領域-文獻分享】
原創文章 引用請註明出處
先前的部落格中有提到三代定序中的多項應用,包含全長16S核醣體RNA定序、基因結構變異偵測、Iso-seq轉錄體的定序、單菌基因體組裝、Cas9技術等運用。今天主要來說說三代定序技術在精神疾病相關上的發展。主要內容會做一些文獻分享包含重複序列偵測的好工具NanoSatellite、藥物代謝相關基因定序以及全基因體定序中白血球抗原分型。
(1) 重複序列的偵測
過去使用次世代定序時,因其技術限制,有許多高重複序列、高GC區域很難被定序,而這些序列約佔人類基因體15%以上[1]。目前臨床上,約有超過50種疾病與串聯重複序列(Tandem Repeat, TR)相關,而有40種左右為神經相關疾病。 在臨床上,與疾病相關的串聯重複序列檢測時是更複雜的,原因如下:
1. 單一TR可能與多種疾病相關[2]。
2. TR不同的重複次數使得片段可以從幾bp大至kb等級,而重複序列的次數又與疾病的嚴重程度、發病年齡有關[3]。
3. TR中可能有單一序列的改變,如GCT變為GTT也會影響重複序列的穩定性與相關表型[4]。
4. CpG區域的甲基化可能也會對疾病的發展有所影響[5]。
接下來介紹的這個工具為Nanopore所屬的工具NanoSatellite (原理如圖一),搭配PromethION做全基因體定序(WGS),可以準確的辨識串聯重複序列[6]。文章中,檢測與阿茲海默症高度相關的ABCA7重複序列,該序列為高GC含量序列,重複單位為25 bp,可達300-10,000 bp,會因為單核苷酸的替換或插入,而影響疾病表徵。檢測樣本為6位阿茲海默症患者、1位額顳葉型失智症患者、1位有癡呆家族史者、2位健康高齡者以及先前已被定序過的NA19240 dataset。
首先比較了三種base-callers分別合併tandem-genotypes演算法分析的結果。結果顯示如圖二,Albacore低估了重複序列的次數,使得其準確度最低 (2A)。Scrappie有較高的TR長度評估準確度,但無法辨識重複次數大於229次的序列 (2B)。Guppy “flip-flop”則有高準確度、低標準偏差等特性。而NanoSatellite演算法,直接運用dynamic time warping (DTW)技術解讀PromethION原始電流訊號,準確度可達90.5%,可偵測最多的重複次數,以及達到100%檢測率。除了可以定序超長重複片段之外,也可以偵測單核苷酸等級改變 (substitutions)。在等位基因的檢測上也有傑出的表現,包含:(1)源自同一 VNTR (variable number of tandem repeats)等位基因的不同長度定序片段之間的一致性、(2)區分兩個長度接近但具有不同序列組成的等位基因,以及(3)不同人之間等位基因的表現。最後,文章也比較了50個其他常見疾病相關TR的分析結果。
【圖一】
【圖二】 紅點表示正股、藍點表示負股、虛線為利用南方墨點法所檢測出的結果。
(2) 藥物代謝相關基因定序
除了與疾病相關的基因表現外,藥物代謝也是常見研究領域,像是TPMI台灣精準醫療計畫,用晶片檢測多個藥物易感性基因,目的在於讓每個人享有量身訂製的醫療及健康照護。接下來要介紹的是與抗憂鬱、抗精神病藥物代謝有關的基因CYP2D6。CYP2D6約4,400 bp,共含9個外顯子,根據1000 Genomes Project指出,在2500位受試者中,CYP2D6有140個以上的SNV及7個插入/缺失異常[1],加上其重複序列、基因拷貝數目與結構變異、假基因(pseudogenes)等特性,使得次世代定序發布的結果中,CYP2D6的序列有超過20%是不可信的。 這篇研究中,總結CYP2D6 基因體結構、等位基因、單倍體定相等資訊,最後還比較次世代定序與三代定序PacBio技術檢測的結果,如圖三[7]。 1. 以全基因體定序(WGS)數據結果來看:千人基因計畫(1000 Genomes Project, 1KG)及in-house數據,皆發現有些基因座的數據有序列未對齊的現象(misalignment error)。 2. 以次世代定序做標靶定序來看:全外顯子定序(WES)及PGRNseq targeted capture數據中,有些序列明顯被對應到CYP2D7、CYP2D8 pseudogenes,顯示這些方法對於CYP2D6的特異性不夠高。 3. 以長讀長定序PacBio做標靶定序來看:定序結果並沒有將CYP2D6序列錯誤分配到CYP2D7或CYP2D8基因上,克服了次世代定序有的瓶頸。而在結果中產生的隨機定序錯誤,可以利用PacBio CCS模式來降低其錯誤率,或是其他生資工具校正,如Amplicon Long-read Error Correction (ALEC)。 除了CYP2D6的解密外,長讀長定序也成功定序其他臨床相關基因,如:會影響血清素吸收,與神經生物學息息相關的SLC6A4基因[8]。在2019年時,也有文獻指出,三代定序完整定序八成左右(約152個),在臨床上有高度重要性、過去無法用次世代定序完整定序的基因[9]。
【圖三】
(3) 全基因體定序應用於HLA typing
接下來要介紹的這篇是比較精神分裂症常用藥物Clozapine服用後,產生副作用以及未產生副作用的族群,其基因表現是否有差異[10]。文獻中定序67位無副作用服用藥物者、42位產生心肌炎副作用的服用藥物者。先使用次世代定序進行全基因體定序,發現4個P值小於1x10-6的SNP位點,雖不達臨床上統計意義標準,但其中一個位點於GNA15基因,與心臟衰竭高度相關。而其他共96個SNP位點,被認為可以對應66% clozapine引起心肌炎的基因變異。 白血球抗原分型(HLA-typing)結果中,共發現9個與心肌炎副作用相關的亞型。後續使用三代定序去做進一步的亞型序列分析,使得分型上可達HLA八位數的解析度。多了可辨別同義核苷酸的差別以及5端、3端或內含子等非轉譯區的變異。最後,更使用回歸分析Clozapine與心肌炎副作用之間的關係。發現當臨床因子和基因檢測相結合時,與單獨只用臨床因子評估相比,可以多解釋更大一部份的風險(72.6%)。
參考資料
1. 1000 Genomes Project Consortium. "A global reference for human genetic variation." Nature 526.7571 (2015): 68.
2. Brookes, K. J. "The VNTR in complex disorders: the forgotten polymorphisms? A functional way forward?." Genomics 101.5 (2013): 273-281.
3. Paulson, Henry. "Repeat expansion diseases." Handbook of clinical neurology 147 (2018): 105-123.
4. Matsuura, Tohru, et al. "Interruptions in the expanded ATTCT repeat of spinocerebellar ataxia type 10: repeat purity as a disease modifier?." The American Journal of Human Genetics 78.1 (2006): 125-129.
5. Oberlé, I., et al. "Instability of a 550Base Metylation Abnormal Pair in DNA Fragile X Syndrome." Science (1991): 1097-1102.
6. De Roeck, Arne, et al. "NanoSatellite: accurate characterization of expanded tandem repeat length and sequence through whole genome long-read sequencing on PromethION." Genome biology 20.1 (2019): 1-16.
7. Yang, Yao, et al. "Sequencing the CYP2D6 gene: from variant allele discovery to clinical pharmacogenetic testing." Pharmacogenomics 18.7 (2017): 673-685.
8. Iurescia, Sandra, Davide Seripa, and Monica Rinaldi. "Role of the 5-HTTLPR and SNP promoter polymorphisms on serotonin transporter gene expression: a closer look at genetic architecture and in vitro functional studies of common and uncommon allelic variants." Molecular neurobiology 53.8 (2016): 5510-5526.
9. Wenger, Aaron M., et al. "Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome." Nature biotechnology 37.
10 (2019): 1155-1162. 10. Lacaze, Paul, et al. "Genetic associations with clozapine-induced myocarditis in patients with schizophrenia." Translational psychiatry 10.1 (2020): 1-10.
先前的部落格中有提到三代定序中的多項應用,包含全長16S核醣體RNA定序、基因結構變異偵測、Iso-seq轉錄體的定序、單菌基因體組裝、Cas9技術等運用。今天主要來說說三代定序技術在精神疾病相關上的發展。主要內容會做一些文獻分享包含重複序列偵測的好工具NanoSatellite、藥物代謝相關基因定序以及全基因體定序中白血球抗原分型。
(1) 重複序列的偵測
過去使用次世代定序時,因其技術限制,有許多高重複序列、高GC區域很難被定序,而這些序列約佔人類基因體15%以上[1]。目前臨床上,約有超過50種疾病與串聯重複序列(Tandem Repeat, TR)相關,而有40種左右為神經相關疾病。 在臨床上,與疾病相關的串聯重複序列檢測時是更複雜的,原因如下:
1. 單一TR可能與多種疾病相關[2]。
2. TR不同的重複次數使得片段可以從幾bp大至kb等級,而重複序列的次數又與疾病的嚴重程度、發病年齡有關[3]。
3. TR中可能有單一序列的改變,如GCT變為GTT也會影響重複序列的穩定性與相關表型[4]。
4. CpG區域的甲基化可能也會對疾病的發展有所影響[5]。
接下來介紹的這個工具為Nanopore所屬的工具NanoSatellite (原理如圖一),搭配PromethION做全基因體定序(WGS),可以準確的辨識串聯重複序列[6]。文章中,檢測與阿茲海默症高度相關的ABCA7重複序列,該序列為高GC含量序列,重複單位為25 bp,可達300-10,000 bp,會因為單核苷酸的替換或插入,而影響疾病表徵。檢測樣本為6位阿茲海默症患者、1位額顳葉型失智症患者、1位有癡呆家族史者、2位健康高齡者以及先前已被定序過的NA19240 dataset。
首先比較了三種base-callers分別合併tandem-genotypes演算法分析的結果。結果顯示如圖二,Albacore低估了重複序列的次數,使得其準確度最低 (2A)。Scrappie有較高的TR長度評估準確度,但無法辨識重複次數大於229次的序列 (2B)。Guppy “flip-flop”則有高準確度、低標準偏差等特性。而NanoSatellite演算法,直接運用dynamic time warping (DTW)技術解讀PromethION原始電流訊號,準確度可達90.5%,可偵測最多的重複次數,以及達到100%檢測率。除了可以定序超長重複片段之外,也可以偵測單核苷酸等級改變 (substitutions)。在等位基因的檢測上也有傑出的表現,包含:(1)源自同一 VNTR (variable number of tandem repeats)等位基因的不同長度定序片段之間的一致性、(2)區分兩個長度接近但具有不同序列組成的等位基因,以及(3)不同人之間等位基因的表現。最後,文章也比較了50個其他常見疾病相關TR的分析結果。
【圖一】
【圖二】 紅點表示正股、藍點表示負股、虛線為利用南方墨點法所檢測出的結果。
(2) 藥物代謝相關基因定序
除了與疾病相關的基因表現外,藥物代謝也是常見研究領域,像是TPMI台灣精準醫療計畫,用晶片檢測多個藥物易感性基因,目的在於讓每個人享有量身訂製的醫療及健康照護。接下來要介紹的是與抗憂鬱、抗精神病藥物代謝有關的基因CYP2D6。CYP2D6約4,400 bp,共含9個外顯子,根據1000 Genomes Project指出,在2500位受試者中,CYP2D6有140個以上的SNV及7個插入/缺失異常[1],加上其重複序列、基因拷貝數目與結構變異、假基因(pseudogenes)等特性,使得次世代定序發布的結果中,CYP2D6的序列有超過20%是不可信的。 這篇研究中,總結CYP2D6 基因體結構、等位基因、單倍體定相等資訊,最後還比較次世代定序與三代定序PacBio技術檢測的結果,如圖三[7]。 1. 以全基因體定序(WGS)數據結果來看:千人基因計畫(1000 Genomes Project, 1KG)及in-house數據,皆發現有些基因座的數據有序列未對齊的現象(misalignment error)。 2. 以次世代定序做標靶定序來看:全外顯子定序(WES)及PGRNseq targeted capture數據中,有些序列明顯被對應到CYP2D7、CYP2D8 pseudogenes,顯示這些方法對於CYP2D6的特異性不夠高。 3. 以長讀長定序PacBio做標靶定序來看:定序結果並沒有將CYP2D6序列錯誤分配到CYP2D7或CYP2D8基因上,克服了次世代定序有的瓶頸。而在結果中產生的隨機定序錯誤,可以利用PacBio CCS模式來降低其錯誤率,或是其他生資工具校正,如Amplicon Long-read Error Correction (ALEC)。 除了CYP2D6的解密外,長讀長定序也成功定序其他臨床相關基因,如:會影響血清素吸收,與神經生物學息息相關的SLC6A4基因[8]。在2019年時,也有文獻指出,三代定序完整定序八成左右(約152個),在臨床上有高度重要性、過去無法用次世代定序完整定序的基因[9]。
【圖三】
(3) 全基因體定序應用於HLA typing
接下來要介紹的這篇是比較精神分裂症常用藥物Clozapine服用後,產生副作用以及未產生副作用的族群,其基因表現是否有差異[10]。文獻中定序67位無副作用服用藥物者、42位產生心肌炎副作用的服用藥物者。先使用次世代定序進行全基因體定序,發現4個P值小於1x10-6的SNP位點,雖不達臨床上統計意義標準,但其中一個位點於GNA15基因,與心臟衰竭高度相關。而其他共96個SNP位點,被認為可以對應66% clozapine引起心肌炎的基因變異。 白血球抗原分型(HLA-typing)結果中,共發現9個與心肌炎副作用相關的亞型。後續使用三代定序去做進一步的亞型序列分析,使得分型上可達HLA八位數的解析度。多了可辨別同義核苷酸的差別以及5端、3端或內含子等非轉譯區的變異。最後,更使用回歸分析Clozapine與心肌炎副作用之間的關係。發現當臨床因子和基因檢測相結合時,與單獨只用臨床因子評估相比,可以多解釋更大一部份的風險(72.6%)。
參考資料
1. 1000 Genomes Project Consortium. "A global reference for human genetic variation." Nature 526.7571 (2015): 68.
2. Brookes, K. J. "The VNTR in complex disorders: the forgotten polymorphisms? A functional way forward?." Genomics 101.5 (2013): 273-281.
3. Paulson, Henry. "Repeat expansion diseases." Handbook of clinical neurology 147 (2018): 105-123.
4. Matsuura, Tohru, et al. "Interruptions in the expanded ATTCT repeat of spinocerebellar ataxia type 10: repeat purity as a disease modifier?." The American Journal of Human Genetics 78.1 (2006): 125-129.
5. Oberlé, I., et al. "Instability of a 550Base Metylation Abnormal Pair in DNA Fragile X Syndrome." Science (1991): 1097-1102.
6. De Roeck, Arne, et al. "NanoSatellite: accurate characterization of expanded tandem repeat length and sequence through whole genome long-read sequencing on PromethION." Genome biology 20.1 (2019): 1-16.
7. Yang, Yao, et al. "Sequencing the CYP2D6 gene: from variant allele discovery to clinical pharmacogenetic testing." Pharmacogenomics 18.7 (2017): 673-685.
8. Iurescia, Sandra, Davide Seripa, and Monica Rinaldi. "Role of the 5-HTTLPR and SNP promoter polymorphisms on serotonin transporter gene expression: a closer look at genetic architecture and in vitro functional studies of common and uncommon allelic variants." Molecular neurobiology 53.8 (2016): 5510-5526.
9. Wenger, Aaron M., et al. "Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome." Nature biotechnology 37.
10 (2019): 1155-1162. 10. Lacaze, Paul, et al. "Genetic associations with clozapine-induced myocarditis in patients with schizophrenia." Translational psychiatry 10.1 (2020): 1-10.
圖爾思生物科技 / 微生物體研究中心
許瑄珉 文案