利用人工神经网络模型预测原发性高血压的研究
发布时间:2017-03-30 18:22
本文关键词:利用人工神经网络模型预测原发性高血压的研究,由笔耕文化传播整理发布。
【摘要】: 前言 原发性高血压(essential hypertension, EH)是常见的心血管疾病之一,近年来,随着我国经济发展,生活节奏明显增快,产生了一系列的不健康的生活方式,导致我国心脑血管疾病死亡率、发病率和患病率持续上升。高血压既是一种独立的疾病,又是引发心脑血管疾病的重要危险因素,发生高血压危象及高血压脑病等严重并发症时可危及生命。因此,高血压的防治工作不容忽视。 国内外研究表明,高血压是一种多因子疾病,致病因素多,各因素间关系复杂,是高血压研究的重要特点。目前疾病预测的方法以传统的Logistic回归(Logistic regression, LR)为主,Logistic回归模型要求变量满足独立性且不能处理变量之间的共线性问题。因此,应用Logistic回归模型进行预测高血压这样的复杂疾病具有一定的局限性。人工神经网络(Artificial Neural Networks,ANNs),简称为神经网络(NNs),是模拟生物神经网络进行信息处理的一种数学模型。神经网络具有强大的解决共线性效应和变量间的交互作用的能力,善于处理非线性的、模糊的、含有噪声的数据情况。目前,人工神经网络在医学上的应用还远没有传统的Logistic回归那么广泛。 本研究所选择的现场是辽宁省彰武县农村,经调查该人群高血压标化患病率高达35%,全国罕见。本研究利用这些调查数据建立BP人工神经网络(backpropagation ANNs)预测模型,并与Logistic回归模型进行比较,利用受试者工作特征曲线(receiver operator characteristic curve, ROC曲线)评价人工神经网络模型的预测性能。以探讨和评价ANNs用于疾病预测的效果和特点,为高血压等复杂疾病的预测探索新的方法,同时对农村高血压病的防治也有一定的参考价值。 研究对象与方法 一、研究对象的选择 本研究利用之前在辽宁省彰武县农村进行的EH流行病学调查的资料进行统计、预测分析。该调查采用整群多级随机抽样的方法总计调查5208人,最后30岁以上常住人群共计4126名调查对象被纳入本次研究,其中女1942人,男2184人。 二、调查内容和检测指标 在现场以问询和测量的方式填写调查表,调查内容主要包括:一般特征,吸烟史,饮酒史等;测量血压、体重、身高等 现场每人采血5ml(隔夜空腹),经离心后分离血清,分装冰冻保存用于血清指标检测。 三、诊断标准和测量方法: 高血压诊断是根据1999年WHO/ISH公布的高血压诊断标准:收缩压≥140mmHg和/或舒张压≥90 mmHg或既往确诊的原发性高血压者。血压测量及其他血清生化检测指标由专业医护人员在标准条件下进行测量。 胆固醇、甘油三酯、HDL、LDL、血清钠、血清钾、血清铁、血清钙等指标的水平采用日本第一化学提供的7150型全自动生化分析仪,用比色法进行分析。血糖水平采用美国强生公司生产的稳捷基础型血糖分析仪,用滴血法进行分析。 四、神经网络模型的建立 ANNs模型采用含有一个隐含层的三层BP神经网络模型。模型输入层的神经元为单因素分析中P0.05的与高血压相关的因素,输出层有1个神经元(即按照诊断标准判断研究对象是否患高血压),隐含层的神经元个数通过实验根据均方误差择优确定。隐含层的激活函数为tansig,输出层的激活函数为logsig。 本研究将4126例资料按照性别、年龄进行均衡后按3:1的比例随机分为训练总集(3096例)和测试集(1030例)两部分,分别用于模型的建立和测试。为了防止ANNs过渡拟合,在ANNs模型的训练过程中,又将训练总集(3096例)按3:1的比例随机分为训练集(2334例)和检验集(762例),利用检验集时时地检查训练效果。 五、资料统计分析方法 用Matlab7.1软件编程建立ANNs预测模型。用spss13.0统计软件建立二分类非条件Logistic回归的高血压预测模型和绘制模型预测识别的ROC曲线。预测概率的判别标准为0.5,即p≥0.5时预测结果为患高血压,否则为不患高血压。统计学显著性水平规定为α=0.05。 结果 一、非条件单因素Logistic回归模型进行高血压预测 对调查数据进行高血压的单因素分析,筛选出p0.05的因素作为预测模型的输入变量,共22个因素与高血压有关。 二、非条件多因素Logistic回归模型进行高血压预测 (一)建立非条件多因素Logistic回归模型 对训练总集的3096例样本进行非条件多因素Logistic回归分析,将单因素筛选出的指标作为自变量(身高、体重已转化为BMI故未进入模型),以研究对象是否患高血压为因变量建立多因素Logistic回归模型。模型采用最大似然估计前进法进行逐步回归分析,入选变量的标准是p0.05,剔除变量的标准是p0.10。经逐步回归后,共有9个因素进入模型,模型改善情况检验(x2=4.335)和整个模型检验(x2=1439.457)。整个训练总集的分类一致率为78.42%,特异度为80.45%,灵敏度为76.62%, (二)利用非条件多因素Logistic回归模型预测 用上述Logistic回归模型预测测试集(1030例)研究对象是否患高血压。经模型预测,测试集一致率为77.48%,特异度为80%,灵敏度为74.85%。三、BP神经网络模型进行预测 (一)建立BP神经网络模型 建立一个三层的BPANNs模型,以单因素筛选出的全部22个因素作为输入变量,其隐含层设为22个神经元,输出层1个神经元(即是否患EH)。目标误差取0.01,学习速率取0.1,最大训练周期2000。经过17步训练,此时训练中均方误差MSE为0.126262,梯度Gradient为137.276/le-010,网络的训练由于检验集均方误差达到极小值而结束。测试训练好的BPANNs模型的拟合效果,训练集的分类一致率为81.06%,检验集的分类一致率为77.95%,整个训练总集的分类一致率为80.30%,特异度为84.48%,灵敏度为76.16%。 (二)利用BP神经网络模型进行预测 用上述BPANNs模型预测测试集(1030例)研究对象是否患高血压,测试结果见表5。其测试集分类一致率为78.83%,特异度为81.57%,灵敏度为76.42%。 四、BP神经网络模型与Logistic回归模型高血压预测比较 (一)预测结果的比较 神经网络模型的分类一致率、灵敏度、特异度均高于Logistic回归模型。 (二)ROC曲线面积比较 利用SSPS13.0绘出多因素Logistic回归模型和BPANNs模型的ROC曲线,多因素Logistic回归模型的ROC曲线下面积为0.782,95%可信区间为[0.768,0.797],BPANNs模型的ROC曲线下面积为0.800,95%可信区间为[0.786,0.814]。 讨论 高血压的病因复杂,影响高血压患病的危险因素是多方面的,一些危险因素之间可能存在交互作用、多重共线性,这些复杂的关系影响预测模型的拟合,严重干扰了高血压的预测和病因研究工作。因此本研究利用辽宁省彰武县农村人群的调查资料建立高血压的神经网络预测模型,并与传统方法的Logistic回归模型相比较,以探讨神经网络模型预测高血压发病的能力。 神经网络模型建立过程中各函数、参数的设置并没有统一的标准,需要针对具体问题具体分析。本研究建立的模型是以误差反向后传学习算法而得名的BP神经网络,它是医学领域应用最广泛的一种神经网络,集中体现了神经网络中最精华的部分。因为对于任何在闭区间内的一个连续函数都可以用单隐含层的BP神经网络逼近,所以本研究采用了含有一个隐含层的三层BP神经网络。考虑到输入层神经元个数过多对样本量的要求较高,所以只选择了与高血压密切相关的因素作为输入变量,即单因素分析中p0.05的因素。对于输入变量中的多分类变量(如民族)采取设置哑变量的处理方法,以方便模型更好的利用数据信息。隐含层的神经元个数和训练函数是根据试验来确定的,试验显示,相对于其他取值,神经元个数为22训练函数为trainlm时均方误差既小又稳定,网络的初始权值取(0~1)区间的随机数,由于初始值不同建立ANNs模型也不同,所以经多次试验选出最优的模型。为了避免过度拟合,本研究利用检验集在训练过程中随时监督训练。 在本研究中,神经网络模型的分类一致率、灵敏度、特异度均高于Logistic回归模型,Logistic回归模型的分类一致率为77.48%,神经网络模型为78.83%。可以看出神经网络模型的预测能力略优于Logistic回归模型。本研究利用ROC曲线来评价两种模型的预测效果,Logistic回归模型和ANNs模型的AUC分别为0.782,0.800,同样提示,对于高血压这样的致病因素多而且各因素间关系复杂的疾病,神经网络模型的拟合效果略好一些。 神经网络尚存在一些问题有待解决。首先,神经网络的建立随着参数、函数、初始值等的设置而变化,这些设置的正确性缺乏理论依据,只能依靠经验和试验来确定;其次,神经网络不能像Logistic回归模型那样有一个公认的模型输入变量的准入和剔出原则;再次,各因素对因变量作用的医学解释尚不明确,以及其假设检验方法和可信区间等问题仍有待进一步研究。 结论 试验表明对于高血压这样的复杂疾病,神经网络预测模型的预测能力略优于Logistic回归模型。因此可以作为Logistic回归模型的必要补充,神经网络在复杂疾病的预测方面具有广阔应用前景。
【关键词】:神经网络 高血压预测 Logistic回归
【学位授予单位】:中国医科大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:R544.1
【目录】:
- 一、摘要4-16
- 中文论著摘要4-9
- 英文论著摘要9-16
- 二、英文缩略语16-17
- 三、论文17-30
- 前言17-18
- 研究对象与方法18-21
- 结果21-27
- 讨论27-29
- 结论29-30
- 四、本研究创新性的自我评价30-31
- 五、参考文献31-33
- 六、附录33-48
- 综述33-47
- 致谢47-48
- 个人简介48
【参考文献】
中国期刊全文数据库 前10条
1 陈建新;西广成;王伟;赵慧辉;陈静;;数据挖掘分类算法在冠心病临床应用的比较[J];北京生物医学工程;2008年03期
2 赵一鸣;分类与回归树——一种适用于临床研究的统计分析方法[J];北京大学学报(医学版);2001年06期
3 马海英;;基于神经网络及Logistic回归的混合信用卡评分模型[J];华东理工大学学报(社会科学版);2008年02期
4 庞蓓蕾;刘力松;;高血压病患者饮食结构的调查分析[J];护理学杂志;2006年21期
5 熊友珍;王旋;;高血压的危险因素及研究进展[J];湖南环境生物职业技术学院学报;2008年01期
6 傅传喜;马文军;梁建华;王大虎;王声ng;;高血压危险因素logistic回归与分类树分析[J];疾病控制杂志;2006年03期
7 许雷;费新军;曹源;姚志扬;庄家毅;;连云港市城区居民高血压患病现状及危险因素分析[J];疾病控制杂志;2006年06期
8 薛海峰;闫宏;王骋;尹慧;;膳食营养素摄入量与高血压关系研究[J];齐齐哈尔医学院学报;2007年06期
9 杨艳军;曾俊涛;;海口地区高校教师高血压患病率与相关因素调查[J];中国热带医学;2008年09期
10 邸茹杰,华琦;青少年原发性高血压临床特点分析与运动干预[J];中国临床康复;2003年15期
本文关键词:利用人工神经网络模型预测原发性高血压的研究,,由笔耕文化传播整理发布。
本文编号:277805
本文链接:https://www.wllwen.com/yixuelunwen/xxg/277805.html
最近更新
教材专著