社区居民糖尿病风险预测系统的设计与实现
发布时间:2020-10-19 12:37
近些年来,我国的经济发展迅速,国民生活方式相对于之前也有很大的改变,全球得糖尿病的人数增加特别快,并且有很多人患病后并不知道,对患病人的健康危害特别大,同时高昂的治疗费用拖垮了很多家庭,严重降低了家庭的幸福指数。目前大部分医疗机构对糖尿病的诊断还是依靠医生的个人经验和体检数据为准,这样进行疾病诊断是有一定的弊端的,需要医生具有高超的医术和充沛的经历,否则很可能会误诊、漏诊,如果不能在最好的时机进行医治,很可能会加重病情的恶化,这种现象是我们都不愿意看到的。目前智慧医疗成为了时代的趋势,如果将糖尿病和机器学习结合,采用机器学习算法来辅助医生诊断,将会很大程度上提高诊断的科学性,有效的克服医生凭经验诊断的主观性的问题。针对以上所述,本文依托于实验室项目,构建了糖尿病风险预测模型并设计实现了糖尿病风险预测系统。具体内容包括(1)算法选择:本文通过查阅文献,对糖尿病的特点进行研究,研究了很多现存的疾病风险预测模型,然后结合原始数据样本特点,选择了随机森林、XGBoost和CatBoost三种算法进行建模。(2)数据预处理:针对原始数据中出现的各种各样的不利于模型预测的问题,为了保证在建模中能够发挥最佳的效果,本文去除各种存在的问题,调整数据的格式,把数据处理成适合于进行建模的数据形式。(3)特征选择:预处理后的数据维度仍然很大,这么多的字段不利于建模,并且存在很多字段对建模没有太大作用,所以本文进行特征选择,使用IV值分析进行特征选取,最终选出11个特征作为最后的模型输入变量。(4)建模并实验分析:使用(3)中所述方法选择的特征,使用(1)中所述三种算法分别进行建模,并对最后的模型进行调优,每个模型都得出其最优的预测结果,使用精确率、召回率、F1值和运行时间四个指标对模型进行评价比较,并选出CatBoost算法模型嵌入到糖尿病风险预测系统中。(5)系统设计与实现:对糖尿病风险预测系统进行充分的需求分析,完成系统设计与实现,并对系统进行功能测试。
【学位单位】:中国科学院大学(中国科学院沈阳计算技术研究所)
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP311.52;R587.1
【部分图文】:
图 2.1 集成学习原理图Figure 2.1 Integrated Learning Schema关于弱学习算法可以提升至强学习算法的理论,最早是由 L.G.Valiant 等人提出的。基于这种理论,如果两者等价,那么不用去费尽心机的去寻找预测效果特别好的算法,只需要找一个预测效果很低的弱学习算法,然后通过各种提升,最终就可以成为一个强学习算法,然后再用于预测。近年来,研究人员在集成学习方面,特别是分类集成方面进行了大量的探索和创新。大部分的集成学习模型都可以归为三大类:分类集成学习模型、半监督集成学习模型和非监督集成学习模型。 糖尿病风险预测模型归根结底是个二分类问题,这里只探讨分类集成学习模型,主要分为 boosting 和 bagging。2.3.1.1 Bagging从图 2.2 可以看出,bagging 采取的是并行计算方式,很多个弱学习器进行
第 2 章 相关技术研究这个样本放回去,这样的话,每次被采集到的概率为 1 m,这样采集 m 次,最终可以得到 m 个样本的采样集,整个样本集中没有被选中一次的样本所占比例为:mm)1(1 ...(2.3)当数据集足够大时,(2.3)式的概率约等于 36.8%,即约有 63.2%被选为作为样本子集。每个弱学习器的训练样本都是随机采样的,各个训练样本之间都是不同的,这样得到多个不同的弱学习器之间具有比较大的差异,进而提高了整个模型的泛化能力,减少了模型过拟合的风险。基于 Bagging 的模型的方差较小,但是偏差较大,故对基分类器的准确性要求较高。
社区居民糖尿病风险预测系统的设计与实现2.3.1.2 BoostingBoosting 算法最先是 RoberT.Schapire 提出,采用的是串行计算的方式。其思想是通过每次调整样本的权重来降低学习器分类的误差。根据 boosting 的思想,理论上可以将一个预测精度不高的弱学习器提升至一个预测精度任意高的强学习器。
【参考文献】
本文编号:2847208
【学位单位】:中国科学院大学(中国科学院沈阳计算技术研究所)
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP311.52;R587.1
【部分图文】:
图 2.1 集成学习原理图Figure 2.1 Integrated Learning Schema关于弱学习算法可以提升至强学习算法的理论,最早是由 L.G.Valiant 等人提出的。基于这种理论,如果两者等价,那么不用去费尽心机的去寻找预测效果特别好的算法,只需要找一个预测效果很低的弱学习算法,然后通过各种提升,最终就可以成为一个强学习算法,然后再用于预测。近年来,研究人员在集成学习方面,特别是分类集成方面进行了大量的探索和创新。大部分的集成学习模型都可以归为三大类:分类集成学习模型、半监督集成学习模型和非监督集成学习模型。 糖尿病风险预测模型归根结底是个二分类问题,这里只探讨分类集成学习模型,主要分为 boosting 和 bagging。2.3.1.1 Bagging从图 2.2 可以看出,bagging 采取的是并行计算方式,很多个弱学习器进行
第 2 章 相关技术研究这个样本放回去,这样的话,每次被采集到的概率为 1 m,这样采集 m 次,最终可以得到 m 个样本的采样集,整个样本集中没有被选中一次的样本所占比例为:mm)1(1 ...(2.3)当数据集足够大时,(2.3)式的概率约等于 36.8%,即约有 63.2%被选为作为样本子集。每个弱学习器的训练样本都是随机采样的,各个训练样本之间都是不同的,这样得到多个不同的弱学习器之间具有比较大的差异,进而提高了整个模型的泛化能力,减少了模型过拟合的风险。基于 Bagging 的模型的方差较小,但是偏差较大,故对基分类器的准确性要求较高。
社区居民糖尿病风险预测系统的设计与实现2.3.1.2 BoostingBoosting 算法最先是 RoberT.Schapire 提出,采用的是串行计算的方式。其思想是通过每次调整样本的权重来降低学习器分类的误差。根据 boosting 的思想,理论上可以将一个预测精度不高的弱学习器提升至一个预测精度任意高的强学习器。
【参考文献】
相关期刊论文 前1条
1 徐枭喻;王梅新;汪惠才;;糖尿病前期人群筛查方法与风险预测模型的研究进展[J];护理研究;2017年35期
本文编号:2847208
本文链接:https://www.wllwen.com/yixuelunwen/nfm/2847208.html
最近更新
教材专著