当前位置:主页 > 医学论文 > 内分泌论文 >

基于改进邻域粗糙集和随机森林算法的糖尿病预测研究

发布时间:2020-11-01 13:48
   糖尿病已成为全球危害性较大的慢性疾病之一,而中国更是全球糖尿病第一大国,近年来患病率还呈现出逐年增高的趋势,严重影响人类健康。并且随着医疗服务水平的不断提高,人们对医疗诊断效率以及准确率有了更高的要求。目前该疾病的诊断主要是在化验的基础上由医生人工诊断完成,但是糖尿病的潜伏期较长,而且各地区医疗资源不协调。针对以上这些问题,论文采集了国家人口与健康科学数据共享服务平台某医院糖尿病数据,并针对邻域粗糙集的只依赖单属性计算重要度的不足,提出了改进的邻域粗糙集(INRS)属性约简算法,后将其与随机森林(RF)组成分类预测模型应用在糖尿病数据上,形成了高精度的糖尿病预测模型,旨为医生临床诊断和疾病研究等提供辅助支持,提高临床诊断治疗水平。本文分别使用MATLAB和WEKA实现糖尿病数据的改进的邻域粗糙集(INRS)属性约简和随机森林(RF)分类预测。后面为探讨该组合模型的成效,分别从属性约简和分类器选择两个方面进行了对比分析。首先从属性约简效果分析,分别以不约简、粗糙集约简、邻域粗糙集约简和改进的邻域粗糙集算法建立特征模型,并将约简后的数据使用随机森林分类器评估效果,发现约简后的数据明显比不约简好,分类更准确,而改进后的邻域粗糙集虽然属性个数比未改进的多,但分类准确率最优,说明改进算法有改善。然后从分类器选择效果分析,对INRS约简后的数据使用随机森林算法、BP算法、C4.5算法及Naive Byes算法分类器从建模耗时、误差、分类准确率、ROC面积四个方面进行对比分析,发现综合效果最优的是随机森林分类器。综上,本论文中的基于改进的邻域粗糙集和随机森林的组合模型得到的糖尿病预测模型的分类准确率达到92.05%,其综合效果甚佳。通过本次研究希望后续可以将糖尿病预测功能添加到医院的诊疗系统中,进而辅助医生对糖尿病诊断做出科学的诊断决策。
【学位单位】:首都经济贸易大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:R587.1;TP18
【部分图文】:

技术路线图


技术路线图

生成过程,森林


图 2-1 随机森林生成过程图主要包括以下几步:1)从原始样本数据 D 中采用有放回抽样的方式形成 k 个样本kD[26]2)假设原始样本中属性个数为 a ,每个样本选择 a 中的 m 个特征,利用最佳分割点方式建立决策树。3)重复以上过程 次,产生 棵决策树4)对获得的分类结果采用多数投票方式确定最优分类结果[25]2.2.2 Naive Bayes朴素贝叶斯分类器(NBC)是贝叶斯分类器中应用最广泛的模型之一[27]。它具有非常高的学习效率,只需要扫描训练数据就可以估计所有的概率。研究者们对比分析了不同的分类算法的优缺点,得出结论:NaiveBayes 的分类效果比神经网络和决策树还要好[28]。Naive Bayes 算法主要思想依赖于一假设:属性条件独立性假设,即对已知类别,假

神经网络模型


它不需要关于表达式映射数学方程的先验知识,就能够以训练和入和输出模式映射关系[29]。络采用经典的 BP 算法,而 BP 算法则是以梯度最速下降法为基础,以误函数,使神经网络算法具有学习和记忆的能力[30]。一个简单的三层 BP 神现从 n 维到 m 维的任意一个映射,其思想清晰、编程简单、结构简单、性强,因此在很多领域得到了广泛的应用。主要应用领域有模式识别、智能断、图像识别处理、最优计算、信息处理、财务预测、市场分析和业务管神经网络的分类结果往往伴随不稳定的现象且易产生过拟合[31]。P 神经网络由输入层、输出层和一个或多个隐藏层组成[32]。它是由输入层隐藏层,通过每个单元的动作函数操作后,隐藏层会将信息传递到输出层的结果[33]。BP 神经网络模型如图 2-1 所示,BP 网络采用梯度下降法,梯于梯度的误差函数为每两个节点加权,并计算误差的权重贡献,然后根据改权重以实现学习的目的。法模型如下:
【参考文献】

相关期刊论文 前10条

1 嵇灵;牛东晓;汪鹏;;基于相似日聚类和贝叶斯神经网络的光伏发电功率预测研究[J];中国管理科学;2015年03期

2 刘增明;陈运非;蒋海青;;基于PCA-BP神经网络方法的供应商选择[J];工业工程与管理;2014年01期

3 李玲;周学平;李国春;王韵琴;;运用数据挖掘技术探讨周仲瑛教授诊疗类风湿性关节炎经验[J];中国中西医结合杂志;2013年12期

4 吴信东;叶明全;胡东辉;吴共庆;胡学钢;王浩;;普适医疗信息管理与服务的关键技术与挑战[J];计算机学报;2012年05期

5 刘伟伟;;基于遗传算法的粗糙集知识约简[J];科技经济市场;2010年06期

6 程雪峰;敖华飞;顾建;王勤;毛小慧;;特发性突聋风险预测中关联规则的应用[J];上海交通大学学报(医学版);2009年12期

7 唐晓茜;余颖;伍青生;;决策树法用于心脏病高发人群的挖掘研究[J];中国卫生统计;2008年05期

8 陈健美;宋顺林;朱玉全;宋余庆;陈耿;程鹏;桂长青;;一种基于贝叶斯和神经网络的医学图像组合分类方法[J];计算机科学;2008年03期

9 黄富银,张钦廷,吕成荣,蔡伟雄,吴家声,汤涛,汪建君;精神病犯服刑能力评定量表研究[J];法医学杂志;2005年03期

10 艾艳,汤志亚,王敏;基于BP神经网络的短期降水预报[J];河南教育学院学报(自然科学版);2004年03期


相关硕士学位论文 前7条

1 梁海龙;基于邻域粗糙集的属性约简和样本约减算法研究及在文本分类中的应用[D];太原理工大学;2015年

2 雒洋洋;早期溢流漏失地面监测诊断系统研究与设计[D];西南石油大学;2014年

3 梁世磊;基于Hadoop平台的随机森林算法研究及图像分类系统实现[D];厦门大学;2014年

4 李友坤;BP神经网络的研究分析及改进应用[D];安徽理工大学;2012年

5 贾丽娜;基于改进区分矩阵的属性约简算法研究与应用[D];辽宁工程技术大学;2011年

6 龚萍;基于数据挖掘的移动梦网数据业务分析系统的设计与实现[D];北京邮电大学;2007年

7 张欣;递归神经网络的研究及在非线性动态系统辨识中的应用[D];太原理工大学;2005年



本文编号:2865625

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/nfm/2865625.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户58410***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com