基于表达数量性状位点(eQTL)定位分析策略的结直肠癌遗传易感性研究
发布时间:2018-12-12 00:14
【摘要】:研究背景结直肠癌(colorectal cancer, CRC)是当今全球第三大恶性肿瘤,严重威胁人类的健康。2015年我国CRC新发病例37.6万例,死亡病例19.1万例,五年生存率仅为44%左右,CRC已成为我国当前亟待解决的重大公共卫生问题之一,而其发病率和死亡率居高不下的根本原因在于对其生物学病因机制缺乏突破性认识。CRC是一种由遗传因素和环境因素长期共同作用引起的复杂性疾病,其中,遗传因素决定了肿瘤的易感性。全基因组关联研究(genome-wide association study, GWAS)目前已识别出一系列与CRC发病风险相关的单核苷酸多态性(single nucleotide polymorphism, SNP)位点,但该研究不能全面揭示CRC发生发展的生物学机制,且这些位点很有可能并非真正的致病位点。因此,需要对这些易感位点进行深入挖掘,找出真正的致病位点并阐明其生物学机制。GWAS遗传易感位点约80%位于基因组非编码区,提示其中的致病位点可能对基因表达存在调控功能,而表达数量性状位点(expression quantitative trait loci, eQTL)分析可定位影响一个或多个基因表达水平的遗传变异,因此,eQTL为评估非编码区SNP的生物学机制提供了一个有效可行的策略。eQTL具有组织特异性,在肿瘤组织中进行eQTL分析时,需要考虑体细胞及表观遗传对基因表达的影响。GWAS公共数据库、DNA元件百科全书(Encyclopedia of DNA elements, ENCODE)数据库以及癌症基因组图谱(The Cancer Genome Atlas, TCGA)数据库等的建立有助于科学家们在已有成果基础上进行数据深度解析,探寻真正致病的遗传变异,对进一步阐明CRC的发生发展机制具有重要意义。研究目的1.利用TCGA数据库探索CRC GWAS遗传易感区域内的eQTL;2.分析这些eQTL与中国汉族人群CRC发生风险的关联;3.寻找这些eQTL中真正致病的遗传变异,并进行功能学研究初探。研究方法1.从TCGA数据库下载CRC相关数据集,人群分层分析后采用两次线性回归模型,在校正了体细胞拷贝数变异和甲基化对基因表达水平的影响后,评估CRCGWAS遗传易感区域内标签SNP及连锁不平衡SNP与基因表达水平的关联性,即整合的顺式和反式eQTL分析,并通过ENCODE^ Cistrome等生物信息学工具进行模块分析,找出反式eQTL中存在中间媒介——转录因子(transcription factor, TF)的遗传位点。2.整合eQTL分析所获得的SNP位点通过HaploView软件排除冗余后,采用Sequenom MassARRAY中通量基因分型平台,对北京地区768例CRC病例和768例健康对照进行基因分型检测,采用非条件logistic回归分析筛选出阳性关联SNP。3.通过RegulomeDB、rSNPBase、ANNOVAR、GWAVA等多种生物信息学预测工具,对阳性关联SNP紧密连锁区域进行综合分析,筛选出潜在功能性位点。4.对这些潜在功能性位点,使用TaqMan基因分型技术进行两阶段病例对照研究,共纳入1833例CRC病例和2758例健康对照,分析其与CRC发病风险的关联。5.对综合以上分析所获得的潜在功能性位点,利用双荧光素酶报告基因实验和凝胶迁移或电泳迁移率实验进行生物学功能探索,以确认其在遗传病因中的重要作用机制。研究结果1.TCGA数据库中254个欧洲人种CRC个体进行整合顺式eQTL分析发现54个SNP与8个受调控基因组成的58对eQTL关联(经错误发现率校正后P0.1),其中有5个基因在肿瘤组织和正常组织中存在差异表达。反式eQTL及模块分析共发现15个SNP及相应的2个TF (MYC、ATF1)。2. Haploview软件删除冗余位点后,共有16个候选SNP纳入第一阶段中国人群关联研究。经Bonferroni校正后,共发现5个SNP(rs6983267、rs174449、rs11169524. rs4768924、rs4500718)在多个模型下与CRC发病风险存在统计学关联。分别以各自主要等位基因为参照,加性模型下的结果分别为:rs6983267,比值比(odds ratio, OR)=1.32,95%置信区间(confidence interval, CI)=1.14-1.53,P=0.0002; rs174449, OR=0.70,95% CI=0.59-0.83, P=4.25×10-5; rs11169524, OR=1.33,95% CI=1.13-1.55, P=0.0004; rs4768924, OR=0.75,95% CI=0.64-0.88,P=0.0003; rs4500718,OR=0.68,95% CI=0.57-0.81,P=2.28×10-5。3.使用多种生物信息学工具综合分析后,从rs11169524、rs4768924、rs4500718这3个阳性关联SNP紧密连锁区域各筛选出一个最具潜在功能的SNP(rs61926301,rs12424860,rs16260)。4.第一阶段北京地区人群关联分析,发现rs61926301,rs12424860与CRC发病风险的关联具有统计学意义,加性模型结果分别为:OR=1.34,95% CI=1.14-1.57, P=0.00035; OR=0.74,95% CI=0.63-0.86,P=9.82×10-5。第二阶段武汉地区人群关联分析,只有rs61926301与CRC发病风险显著相关,加性模型结果为OR=1.22, 95% CI=1.09-1.37, P=0.0006。两独立样本合并后,rs61926301 GT遗传变异在各个模型下均与CRC发病风险升高显著相关(共显性模型:GT vs GG:OR=1.27,95% CI=1.12-1.44,P=0.0003; TT vs GG:OR=1.59,95% CI=1.29-1.96,P=1.1×10-5;显性模型:OR=1.32,95% CI=1.17-1.49,6隐性模型:OR=1.41,95% CI=1.16-1.72,P=0.0006;加性模型:OR=1.26,95% CI=1.15-1.38, P=1.0×10-6)。5.双荧光素酶报告基因实验结果显示含rs61926301 T等位基因的片段较含G等位基因的片段有更高的启动子活性(PSW4800.0001; PHCT116=0.0224),同时凝胶迁移或电泳迁移率实验也显示含rs61926301 T等位基因的片段较含G等位基因的片段有更强的TF结合能力。研究结论1.位于ATF1基因5’非翻译区的rs61926301 GT遗传变异与中国人群CRC发病风险增加显著相关。2. rs61926301 GT遗传变异可能是通过提高所在区域的启动子活性,使其与相应TF的结合能力增强,导致其调控的ATF1、DIP2B等靶基因表达水平升高,继而增加了CRC的发病风险。该位点的功能为本研究首次发现,其更加深入的生物学作用机制仍有待进一步的研究探索。创新点1.本研究利用TCGA数据库中254例CRC样本的基因型、RNA测序等相关数据对CRC GWAS遗传易感位点进行深度挖掘,在节约实验成本的基础上,样本量也较以往的研究更大,eQTL分析的效能更高。2.本研究将影响肿瘤组织基因表达的体细胞遗传和表观遗传因素也考虑在内,采用整合eQTL的方法,更好地探究生殖系遗传变异对靶基因的调控作用,结果可信度更高。3.本研究通过中国人群病例对照关联研究筛选、多种生物信息学功能预测及功能学实验验证等多种方法对eQTL分析所发现的遗传位点进行深入挖掘,找到隐藏其中的真正的致病位点并进行了功能学初探。
[Abstract]:......
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:R735.34
,
本文编号:2373505
[Abstract]:......
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:R735.34
,
本文编号:2373505
本文链接:https://www.wllwen.com/yixuelunwen/zlx/2373505.html