当前位置:主页 > 科技论文 > 基因论文 >

基于深度学习的阿兹海默症基因表达模式识别与样本分类

发布时间:2020-04-01 18:05
【摘要】:阿兹海默症(Alzheimer’s Disease,AD)是一种在老年人中高发的进行性神经退行性疾病,病因未明,病程不可逆。早期诊断与治疗是延缓病情发展的一般措施,对于延长患者存活时间和提高生活质量具有重要意义。目前对AD的分类和轻度认知障碍(Mild Cognitive Impairment,MCI)转化预测研究,主要集中于对影像数据和生化标记物的分析。外周血基因表达数据可以及时反映生理状态和疾病的发展状态,对于AD早期诊断具有潜在的应用价值,但是由于数据获取和分析上存在的挑战还没有得到有效的转化应用。深度学习算法的提出和在多个领域中的成功应用,为基因表达数据的分析和AD相关特征的识别与分类提供了强力的工具。本论文利用堆叠去噪自编码器(stacked-denoise autoencoder,SDAE)开展提取阿兹海默症基因表达特征的研究,辅助AD分类和MCI转化预测。本文将深度学习算法应用于微阵列基因表达数据的分析。使用国际上应用广泛的ADNI(Alzheimer′s disease neuroimaging initiative)专业数据库中的基因表达数据,构建了3层的堆叠去噪自编码器来提取阿兹海默症的基因表达特征,通过使用10折交叉验证实验来优化网络结构参数,确定最优的三个隐层节点数分别为5000、500、50,受损水平分别为0.1,0.2,0.1。利用SDAE提取的基因表达特征构建SVM(Support Vector Machine)分类器,对246名健康人与498名MCIAD患者的基因表达数据进行分类分析,与原始探针、主成分分析(PCA)和差异表达分析三种特征提取方法进行对比,结果表明,基于SDAE特征的分类结果在准确率、精确率、召回率和AUC这4个性能指标上均要优于三种对照的方法。如果将SDAE的三层特征组合,对阿兹海默症的分类准确率达到100%。对SDAE提取的特征进行进一步的分析,找出对分类贡献较大的节点,以降低特征维度。使用改进的SVM RFE特征选择方法,从SDAE第一层隐层的5000个节点中,选择43个高贡献节点作为特征,对相同数据集进行分类,其ROC曲线表明在分类性能上只有微弱的下降;同时,使用非高贡献节点为特征的分类性能有大幅度的下降,表明了高贡献节点方法对于样本分类的有效性。提取43个高贡献节点中的5437个高权重探针进行功能分析,KEGG通路富集分析显示,高权重探针显著富集于阿兹海默症、帕金森症和亨廷顿症这三个通路,表明这些基因与这三种神经性疾病的高度相关;同时通路聚类结果表明,非酒精性脂肪肝也与这三个通路具有较强的相关性,隐含着它们存在共同的分子机制。比较高权重探针作为特征和基于高权重探针构建的SDAE特征的分类结果,发现SDAE特征节点的分类效果更好。将这些SDAE特征应用于GSE6613数据集的分析,其分类性能明显优于采用原始探针数据、主成分分析和差异表达分析等方法,进一步验证了SDAE特征节点具有较好的分类效果,SDAE更为有效地提取了基因表达数据中的分类特征。对ADNI数据库中80名MCI转化为AD的患者和271名MCI未转化为AD患者构建基于堆叠去噪自编码器的MCI转化预测模型。与原始探针值、主成分分析和差异表达分析方法进行比较,SDAE模型可以显著地提升预测结果。采用SDAE三层组合特征,分类准确率为0.8577,精确率为0.8720,召回率为0.9240,AUC值为0.91。对SDAE第一隐层的5000个节点进行特征筛选,以338个高权重探针形成52个新特征,其分类性能下降较大,准确率只有0.7746。但是相比主成分分析和差异表达分析,SDAE特征对于MCI转化预测仍然具有优势。本文立足于对基因表达数据的特征提取和分类预测,构建了基于堆叠去噪自编码器的AD分类和MCI转化预测模型,取得了良好的效果,再一次表明了SDAE在表达数据特征提取中的优越性,对于整合更多生物标志物辅助AD早期诊断具有重要意义。
【图文】:

自编码


第二章 基于堆叠去噪自编码器的阿兹海默症分类二章 基于堆叠去噪自编码器的阿兹海默症分类于 ADNI 数据库中的阿兹海默症基因表达数据,构建了堆叠去噪自兹海默症的基因表达模式。利用提取的特征,训练支持向量机分类器的分类,并与主成分分析、差异表达分析等方法进行比较。算法原理 堆叠去噪自编码器 Rumelhart[70]提出了自动编码器(AutoEncoder, AE),,它是一种特殊的如图 2-1 所示。自编码器对输入向量 x 进行编码计算,形成隐藏层的行解码,形成重构后的信息 z,通过最小化 x 与 z 的误差完成训练。监督学习算法,它的输入向量等于输出向量,通过中间隐层可以学习中间隐层的信息可以应用于其他机器学习问题,例如分类。

自编码,去噪


图 2-2 去噪自编码器结构[72]Vincent 提出了 AE 的改良版——去噪自编码器(Denoising AutoEncoder, DAE)[72],如图 2-2 所示。根据吉布斯采样原理,从剩余集合中预测任意变量的子集是完全获得一个集合的变量间联合分布的充分条件。因此,为了使隐藏层发现更多鲁棒的特征,去噪自编码器使用受损的输入来训练自编码器重构输入。在实现过程中,就是以一定概率分布(通常使用二项分布)将原始输入向量中的值随机置 0,以此受损的数据 x'去计算 y,z,但是目标函数仍然是 ( , )。这样,DAE 就相当于在原始数据的监督下,学习了这个破损的数据,从而生成更具代表性的特征。置 0 数据占总体的比例称为受损水平。图 2-3 堆叠去噪自编码器预训练过程[71]
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R749.16;TP18

【参考文献】

相关期刊论文 前4条

1 杨亚超;许凡宇;范vd;;早晚期轻度认知功能障碍和阿尔茨海默病的MRI分析及MRI与MMSE评分的相关性研究[J];中国当代医药;2015年29期

2 岑桂英;郭圣文;池敏越;匡翠立;牛传筱;赖春任;;轻度认知障碍的早期检测与转化预测研究进展[J];生命科学;2015年02期

3 冯春花;徐晓云;;轻度认知障碍的转化及相关因素研究进展[J];国际神经病学神经外科学杂志;2013年04期

4 曹文君;侯国强;李运明;张威;张扬;陈长生;;基因集分析方法统计理论探讨[J];中国卫生统计;2013年04期

相关博士学位论文 前1条

1 陈玖;基于神经影像特征的遗忘型轻度认知损害患者痴呆转化模型构建与临床应用研究[D];东南大学;2017年

相关硕士学位论文 前3条

1 孔莉莉;Arc基因与我国汉族人群阿尔茨海默病的遗传相关性研究[D];安徽大学;2017年

2 杨利红;基于主成分分析的模糊时间序列研究[D];大连海事大学;2017年

3 李珊;衰老相关的外周全血基因表达与DNA甲基化标志物的可重复性[D];电子科技大学;2014年



本文编号:2610785

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2610785.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户96aba***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com