基于SMOTE和XGBoost的Ⅰ型与Ⅱ型糖尿病分类方法研究
发布时间:2024-02-04 00:24
严重危害人类生命健康的疾病之一就包括有糖尿病,共有四种类型:Ⅰ型糖尿病、Ⅱ型糖尿病、特异型糖尿病和妊娠糖尿病。医生根据患者的临床表现以及医学检测结果来判断。而Ⅰ型与Ⅱ型糖尿病在临床表现上有一些相似症状难以判断,不同医生可能判定结果不同。论文针对Ⅰ型与Ⅱ型糖尿病分类问题,提出利用动态血糖检测仪(CGMS)对糖尿病患者进行时间序列血糖浓度数据的采集,对患者数据进行特征提取及分类工作,为糖尿病分类提供新的分类模型。但由于患者基数不同,往往被确诊为Ⅰ型糖尿病的患者远少于Ⅱ型糖尿病患者,导致样本数据类别比例失衡,属于类不平衡数据,因此针对类不平衡数据论文提出SMOTE及其改进算法进行处理,然后再对处理后的数据进行分类模型的训练及测试。论文的主要工作为:1.对CGMS仪器中得到的患者的原始数据进行预处理,利用PCA技术对数据进行不同维度的特征提取,将PCA阈值设为85%、90%、95%、99%和MLE,最终获得五组不同特征组;2.构建针对Ⅰ型与Ⅱ型糖尿病严重的类不平衡数据,论文提出了SMOTE+XGBoost算法的分类模型。针对PCA获得的五组特征组,首先进行SMOTE及其两种改进算法Border...
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
本文编号:3894888
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
图2.1集成学习思想图示
特征提取及分类的相关技术172.5.2boosting集成学习简介机器学习中的监督学习算法的目的是为了选择出一个稳定性等各方面性能较好的模型,进行数据预测等操作时,使用单个弱监督模型的效果可能会不佳,因此,往往会训练多个模型来解决这一问题,之后将这多个模型进行组合成为更全面的模型....
图3.1某患者1天血糖曲线
基于SMOTE+XGBoost的糖尿病分类模型233基于SMOTE+XGBoost的糖尿病分类模型本文提出运用数据挖掘技术来对糖尿病患者的分型提供技术支持,帮助临床中对Ⅰ型与Ⅱ型糖尿病患者进行分类。论文提出的基于SMOTE+XGBoost的糖尿病分类模型在进行模型的训练及测试之前....
图3.2某患者3天865个记录点的血糖曲线
基于SMOTE+XGBoost的糖尿病分类模型24图3.2某患者3天865个记录点的血糖曲线导入Excel表格后的患者数据中存在有缺失值和异常值的情况,缺失值是由于患者佩戴或摘除仪器时造成少部分数据缺失或在测量过程中人为摘除仪器造成大部分数据丢失,针对缺失值现象则将该患者数据丢弃....
图3.3BorderlineSMOTE算法样本类别
?椒ǎ?碆orderline-SMOTE1和Borderline-SMOTE2。BorderlineSMOTE算法是基于SMOTE算法的基础上进行改进的过采样算法,改进算法仅对样本边界上的少数类进行分析并合成新的样本。BorderlineSMOTE算法的思想是将少数类样本分为了3....
本文编号:3894888
本文链接:https://www.wllwen.com/yixuelunwen/nfm/3894888.html
最近更新
教材专著