当前位置:主页 > 科技论文 > 数学论文 >

基于六种统计学习方法和Adaboost视角下血糖值预测

发布时间:2021-12-24 12:53
  糖尿病是一种严重影响人体免疫力的慢性病,可以控制却不能根治。合理的运用一些统计方法对血糖值进行预测,有利于糖尿病的预防和控制,对我国人民群众整体的身体素质水平的提高具有重要贡献。本文在预测血糖的过程中,一共使用了6种不同的统计学习方法对血糖值进行预测,即主成分分析(PCA)、梯度提升决策树(GBDT)、支持向量回归(SVR)、核岭回归(KRR)、Adaboost集成、投票回归(VotingRegressor),并形成6种集成模型。其中有关血糖值的数据来源于天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测。首先对数据进行预处理,将处理后的数据导入Python,然后将含有5642个样本值的一组血糖值数据按照7:3的比例随机分成两组,分别称为训练集和测试集,最后运用训练集中的数据使用6种统计学习方法建立回归模型,利用测试集中的数据预测血糖值,并对模型进行检验。文章最后分别从模型精度和模型效率两个方面对6种集成模型对比分析发现:Ada-VotingRegressor模型的精度最高,测试集和训练集的均方误差相对最小,且测试集和训练集的均方误差相差最小,模型简单,拟合度高;但当考虑到模型效率时,... 

【文章来源】:武汉科技大学湖北省

【文章页数】:65 页

【学位级别】:硕士

【部分图文】:

基于六种统计学习方法和Adaboost视角下血糖值预测


SVR算法流程图

重要性,变量,综合指标


武汉科技大学硕士学位论文14作回归。为了更清楚的看出这些综合指标中哪些指标的相对重要性更高,我们将对这些指标进行变量特征重要性分析。3.2变量特征重要性分析变量特征重要性的大小是依据决策树中节点的增益来判断的,某个特征作为节点的次数越多,我们就认为它的相对重要性越高。图3.1中,横轴表示相对重要性的大小,纵轴表示变量的重要性,从图中我们可以看出第7个综合指标是18个新指标中相对重要性最高的,超过了90%,其次就是第1个和第8个综合指标的相对重要性较高,分别达60%和40%左右,第10个综合指标的相对重要性几乎为0。图3.1清晰的说明了在众多综合指标中,哪几个综合指标的相对重要性较大,从而间接指出原指标中那些指标对血糖的影响较高,为人们避免患糖尿病提供了科学依据。图3.1变量的特征重要性3.3基于GBDT回归的血糖值预测将这18个综合指标导出到新的Excel表格中,然后将数据读入python,按照7:3的比例划分用于训练数据建立回归模型的训练集和预测血糖值的测试集。表3.2中Y代表训练集中血糖的真实值,即标签,而Y*则代表用训练集中的数据预测的血糖值,其中,建立的回归模型的训练集均方误差为0.005358,得出预测的具体结果如表3.2所示。

学习曲线,学习曲线,均方误差


武汉科技大学硕士学位论文19从表4.7中可以看出:在训练集上,SVR比KRR的预测精确度低0.000274,在测试集上,SVR比KRR的预测精确度低0.000163。可见,无论是在训练集上还是在测试集上,KRR的均方误差都略小于SVR。其次,作出SVR和KRR的学习曲线,以横坐标表示训练的样本的大小,纵坐标表示均方误差(MSE),如图4.1所示。图4.1SVR和KRR学习曲线图图4.1中,横坐标表示训练的样本的大小,纵坐标表示均方误差(MSE)。从图4.1可以看出:其一,随着样本量的不断增加,SVR和KRR的学习曲线均呈递减趋势,SVR和KRR的均方误差都在不断减少。其二,KRR的学习曲线整体在SVR的下方,这表明:无论使用多大样本量进行预测,KRR进行预测的均方误差均小于SVR的均方误差约0.000425。因此,KRR的预测精度要高于SVR,这与表4.7的结果相符。最后,为了对比SVR和KRR预测血糖值的效率,本文分别计算出模型拟合和预测的时间,结果如表4.8所示。表4.8SVR和KRR拟合预测时间模型类别训练集拟合时间(s)测试集预测时间(s)SVR103.3710.453KRR189.7021.256由表4.8可知,KRR的拟合时间几乎是SVR的1.8倍,预测时间更几乎接近SVR的2.8倍,这说明KRR在对血糖值进行预测时,预测的精度要高于SVR的同时,训练和预测时间也同样高于SVR。

【参考文献】:
期刊论文
[1]大数据时代医疗信息安全现状分析和发展对策[J]. 刘磊,郑姗姗.  包头医学. 2020(01)
[2]基于XGBoost对肺鳞癌和肺腺癌的分类预测[J]. 冷菲,李巍.  首都医科大学学报. 2019(06)
[3]支持向量机和人工神经网络在冠状动脉旁路移植术后晚期静脉移植血管病患病风险预测中的应用[J]. 凤思苑,巩晓文,崔壮,高静,李长平,刘媛媛,刘寅,马骏.  中国卫生统计. 2019(04)
[4]人工智能技术在机械电子工程领域的应用[J]. 尚忠华.  科技风. 2019(17)
[5]基于Adaboost模型的江苏省冬小麦产量预测[J]. 张顺航,张凤航,李金泽.  现代农业科技. 2019(12)
[6]社区2型糖尿病合并脑卒中患病率及相关因素调查分析[J]. 高薇,刘开翔,谢席胜,占志朋,赵玉章,冯胜刚,刘涛.  西部医学. 2019(04)
[7]妊娠相关暴发性1型糖尿病1例报道[J]. 遆红燕,康芳芳,郭亚莉,张韶君.  中西医结合心脑血管病杂志. 2019(07)
[8]1型糖尿病视网膜病变的综合防治[J]. 张弘哲,于伟泓.  中国医刊. 2019(04)
[9]RGB三通道缺陷检测投票分类器方法[J]. 李全杰,程良伦,吴珍珍,蒋俊钊.  计算机工程与设计. 2019(02)
[10]基于GM-SVR的小样本条件下化工设备可靠性预测[J]. 赵江平,丁洁,陈敬龙.  中国安全生产科学技术. 2019(01)

硕士论文
[1]基于因子分析耦合XGBoost模型的血糖值回归与分类预测[D]. 余力.武汉科技大学 2019
[2]基于CEEMDAN-ELM的短期血糖预测模型研究[D]. 郭占丽.郑州大学 2017
[3]基于最小二乘法AR模型在血糖预测中的研究[D]. 安邦.郑州大学 2015
[4]基于ARIMA和BPNN的组合预测模型在血糖预测中的应用[D]. 雍永强.郑州大学 2015
[5]数据驱动的血糖预测方法研究[D]. 莫雪.北京化工大学 2014
[6]血糖预测模型及低血糖预警技术研究[D]. 申艳蕊.郑州大学 2014
[7]数据驱动的血糖预测方法及其应用[D]. 吴向伟.北京化工大学 2013
[8]重症监护病人的数据驱动模型预测血糖控制[D]. 江旭.北京化工大学 2013



本文编号:3550518

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/3550518.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6b775***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com