基于基因芯片的lincRNA SNPs与胃癌的关联性研究及其发病风险预测模型的构建

发布时间：2020-05-01 15:56

【摘要】：【目的】通过SNP基因芯片结合生物信息学方法,研究芯片中与胃癌相关长链非编码RNA(lnc RNA)单核苷酸多态性位点(single nucleotide polymorphisms,SNPs)的分布特征,继而探索与胃癌发生相关的新的基因间长链非编码RNA(linc RNA)SNPs,从而筛选与胃癌关系最为密切的linc RNA SNPs,并通过比较和分析胃癌病例组和对照组候选的linc RNA SNPs,研究其与胃癌发病风险的关系。在前期研究的基础上筛选与胃癌相关的环境危险因素和遗传因素,构建胃癌的发病风险预测模型,为仙游当地胃癌高危人群的筛查提供工具。【方法】1.应用1:1配对病例对照研究方法,利用Affymetrix生产的900K Axiom Precision Medicine Research Array对来自福建仙游的96例男性胃腺癌患者和96例健康对照的外周血白细胞中的总DNA进行单核苷酸多态性检测。利用HGNC数据库筛选出芯片中长链非编码RNA(lnc RNA)的SNPs,进而利用SPSS 20.0和Excel软件对lnc RNA的SNPs位点进行卡方检验,筛选胃腺癌组与对照组有统计学差异的SNPs,并采用卡方检验分析lnc RNA的SNPs的分布情况,结合生物信息学(linc RNA数据库)进一步筛选新的基因间长链非编码RNA(linc RNA)的SNPs,并分析linc RNA SNPs的分布情况。2.在SNP基因芯片筛选的基础上,选取最小等位基因频率(MAF)=0.10~0.40、哈代温伯格平衡检验P0.05的SNPs与db SNP数据库做交集,通过查阅文献以及构建基因模型,筛选出候选linc RNA SNPs。增加胃腺癌组和对照组的样本量各622例,采用Sequenom Mass ARRAY技术检测候选SNPs位点的基因型,运用COX模型进行条件Logistic回归分析各linc RNA SNPs与胃癌的关联。3.对课题组现场流行病学数据和大样本SNPs结果数据进行分析,筛选与胃癌发病相关的环境因素和遗传因素,借助怀卡托智能分析环境(Waikato Environment for Knowledge Analysis,WEKA)平台中的5种统计模式识别算法,即贝叶斯网络(Bayes Net)、逻辑判别(Logistic)、支持向量机(SMO)、决策树C4.5算法(C4.5)和随机森林(Random Forest),分别构建3种不同类型变量(环境因素、遗传因素和同时加入环境因素和遗传因素)的胃癌发病风险预测模型,比较5种模型的判别正确率、真阳性率、假阳性率、精确率、反馈率、F-测量和ROC曲线下面积等的差异性,并通过组内回代、外推预测和交叉验证来评价模型的适用性,筛选出适合仙游县地区理想的发病风险模型或组合模型。【结果】1.从SNP基因芯片中筛选出与胃癌相关的lnc RNA位点共131670个,涉及85%以上的lnc RNA。(1)lnc RNA的SNPs的分布特征:在胃腺癌组和对照组中具有统计学差异的SNPs共3068个,其中1837个位点分布在基因间lnc RNA(linc RNA);在8号染色体长臂端和20号染色体短臂端形成基因突变热点区域,而23号染色体是一个基因突变保守区域。(2)linc RNA的SNPs的分布特征:对筛选出有差异的linc RNA的转录本的构成比分析,发现单个转录本的linc RNA较多,占总体43.46%;对linc RNA SNPs的连锁位点靶基因进行GO富集分析,发现靶基因集合富集在β-连环素结合位点的分子功能上。2.进一步筛选出与胃癌关系最密切的位点共有10个,对这10个候选SNPs扩大样本量分析发现:LINC00687基因多态性位点rs2795025与胃癌易感性相关,携带rs2795025 CC基因型增加胃癌的发病风险(ORa=1.94,95%CI:1.12,3.34)。LINC02122基因多态性位点rs10036719和rs12516079与胃贲门癌易感性相关,携带rs10036719 GG基因型增加患贲门癌的发病风险(ORa=1.84,95%CI:1.05,3.23);携带rs12516079 AG和GG基因型降低贲门癌的发病风险(携带AG基因型ORa=0.48,95%CI:0.27,0.84,携带GG基因型ORa=0.54,95%CI:0.30,0.98)。联合作用分析结果显示:同时携带rs10036719和rs12516079的不良基因型者发生贲门癌的风险较高(OR=2.07,95%CI:1.69,2.53)。3.在5种统计模式识别贝叶斯网络(Bayes Net)、逻辑判别(Logistic)、支持向量机(SMO)、决策树C4.5算法(C4.5)、随机森林(Random Forest)相互比较中,Logistic建立的模型的筛检效果最好,其判别正确率为75.60%,ROC曲线下面积为0.826,且模型的组内回代、外推预测和交叉验证表明Logistic模型的变化差异小,模型的稳定性较好。在3种不同类型变量的胃癌发病风险预测模型中,遗传因素构建的模型,其判别正确率和ROC曲线下面积最差,环境因素构建的模型次之,同时加入环境因素和遗传因素构建的模型最优。初步构建包含环境因素和遗传因素的胃癌发病风险评分模型:Y=19×年龄+11×性别+8×吸烟-8×饮酒-12×饮茶+10×进食速度快+7×高盐饮食+9×暴饮暴食+10×喜烫食+13×喜硬食-5×食用水果+5×食用腌菜-7×rs10205233-3×rs10134160-3×rs12882235+1×rs2795035。该评分模型的ROC曲线下面积为0.715,灵敏度0.699,特异度0.627。【结论】1.通过SNP基因芯片可以筛选与胃癌关系密切的lnc RNA基因多态性位点,其中基因间长链非编码RNA(linc RNA)的SNPs与胃癌关系最为密切。通过基因芯片筛选lnc RNA SNPs方法,性价比高且现实可行。2.本次研究新发现3个linc RNA SNPs与胃癌关系密切。LINC00687基因多态性位点rs2795025与胃癌易感性相关,携带rs2795025 CC基因型增加胃癌的发病风险。LINC02122基因多态性位点rs10036719和rs12516079与胃贲门癌易感性相关,携带rs10036719 GG基因型增加患贲门癌的发病风险;携带rs12516079AG和GG基因型降低贲门癌的发病风险,SNP可能作为遗传标记用来筛查高危人群。3.胃癌发病风险预测模型中同时纳入环境因素(吸烟、饮酒、饮茶、进食速度快、高盐饮食、暴饮暴食、喜烫食、喜硬食、食用水果和食用腌菜)和遗传因素(rs10205233),其模型的筛检能力最优。在五种胃癌发病风险预测模型中,Logistic构建的胃癌发病风险预测模型的筛检能力更好,适用于仙游县胃癌高危人群的筛查。改善环境的危险因素,针对不良基因型携带者给予健康教育和指导,可以有效地控制和降低胃癌的发病率。
【图文】：

分型,芯片,双盲法,种类分布

图 1.1 Poly High Resolution SNP 分型方法3 基因分型方法比较采用双盲法，前两批采用 MALDI-TOF 检测的 42 个 SNPs 与芯片中到 5 个位点，比较这 5 个位点分型结果，发现两种方法检测结果一致型失败率低，说明芯片分型结果可靠，如表 1.11 所示。表 1.11 基因芯片分型与 Sequenom Mass ARRAY 分型检测方法一致率比较P ID rs10431294 rs2515402 rs2724377 rs7290134 rs1805034 基数 38 38 124 124 118 碱基数 36 36 121 124 117 率（%） 94.74 94.74 97.58 100 99.15 芯片中差异长链非编码 RNA（lncRNA） SNPs 分布特征的1 lncRNA SNPs 种类分布特征的分析在本研究中基因芯片中 lncRNA 的 SNPs 位点共有 131670 个，发现在

转录本,数目,靶基因,富集

图 1.2 lincRNA 的转录本数目构成比个转录本；2 表示两个转录本；3 表示三个转录本；4 表示四个转上的转录本lincRNA SNPs 的连锁位点靶基因富集分析释文件，选取 lincRNA SNPs 上下游 250kb 范围内连锁位共 252 个），运用 DAVID 在线软件对靶基因进行富集分包括三个部分：细胞组分即细胞中的位置，指基因产物位物组中，，如糙面内质网等；分子功能描述在分子生物学上；生物学过程是由分子功能有序地组成的，具有多个步骤数据库得到以上靶基因集合中 159 个基因的生物学过程注胞组成成分注释信息和 158 个基因的分子功能注释信息cRNA SNPs 连锁位点靶基因富集在 β-连环素结合位点的计学差异，见表 1.14、1.15、1.16。KEGG 富集分析未见
【学位授予单位】：福建医科大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：R735.2

【参考文献】