基于数据挖掘的T2DM患者胰岛素用药预测模型建立
发布时间:2022-01-15 04:17
目的:我国糖尿病患者人数多、危害大、经济负担重,且以2型糖尿病(Type2 Diabetes Mellitus,T2DM)为主。然而,目前胰岛素初始方案的制定未能充分考虑个体化治疗。本研究通过收集真实世界中需要长期使用胰岛素类药物的T2DM患者医疗数据,采用数据挖掘和机器学习方法,建立T2DM患者胰岛素治疗方案个体化的预测模型,以辅助基层医疗机构进行T2DM患者的胰岛素治疗。方法:本研究收集了四川省人民医院内分泌科、老年内分泌科和草堂内分泌科2016年1月至2019年6月的T2DM住院患者医疗数据。通过数据预处理后,获得可用于建模的数据集。随后,应用随机森林算法进行了特征选择,并应用支持向量机、随机森林、梯度提升决策树和XGBoost四种机器学习算法分别建立了胰岛素用药方案的种类预测模型、剂量预测模型和比例预测模型,分别对胰岛素用药方案的种类选择、每日总剂量以及胰岛素类药物之间的剂量比例进行预测,并通过模型评价和比较筛选出性能最佳的模型。结果:通过纳入排除标准进行筛选后,获得1048例目标病例数据以及111个变量,包括定性变量31个,定量变量80个。种类预测模型中XGBoost表现最好...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:92 页
【学位级别】:硕士
【部分图文】:
文献筛选流程及结果
第三章胰岛素种类预测模型的建立21都是有放回的抽样;5.一个新的数据输入后,根据所有决策树的预测结果投票表决来确定最终的分类或取值。有两个参数在构建RF的过程中是至关重要的:第一个是在整个RF中决策树的棵数;第二个是树节点可选择的个数,即m值。RF的主要优点在于:①大多数数据集都可以拿来直接运行的通用模型;②可处理离散值、连续值以及大量的缺失值;③能够选择重要特征,能够检测到特征间的互相影响;④适用于样本或特征数量极大的情况。主要缺点在于:①相比于决策树,RF结果不易于解释;②计算量相对较大。3.1.3梯度提升决策树梯度提升决策树[80](GradientBoostingDecisionTree,GBDT)和RF类似,GBDT也是会训练多棵决策树的分类器,只是训练的策略不同。GBDT的核心思想在于每一棵新建决策树学习的是之前所有决策树的整体预测值和实际值之间的误差,称之为残差。GDBT是通过不断减小训练过程产生的残差来达到将数据分类或者回归的算法。GBDT的训练过程如图3-1所示:图3-1GBDT的训练过程通过多轮迭代,每轮迭代都会产生一个弱分类器,GBDT的弱分类器一般为CART回归树,每个弱分类器都是在上一轮分类器的残差基础上进行训练。最终的分类器是将每轮训练所得到的弱分类器通过加权求和得到。模型最终可以描述为:m1()(;)MmmFxTx(3-6)若模型一共训练M轮,每轮产生一个弱分类器T(x;θm)。则弱分类器的损失函数为:
第三章胰岛素种类预测模型的建立25观平均ROC曲线下面积为0.72,准确度、精确度、召回率和F1值分别为:0.5476、0.7202、0.5762和0.6402。3-2未进行特征选择时种类预测模型中各算法的评估指标模型微观平均ROCAUC宏观平均ROCAUC准确度精确度召回率F1值SVM0.650.620.37140.67800.38100.4878RF0.610.600.25240.81540.25240.3855GBDT0.720.710.52380.71780.55710.6273XGBoost0.730.720.54760.72020.57620.6402图3-2未进行特征选择时SVM用于种类预测模型的ROC曲线
【参考文献】:
期刊论文
[1]建立真实世界数据与研究技术规范,促进中国真实世界证据的生产与使用[J]. 孙鑫,谭婧,王雯,高培,彭晓霞,温泽淮,王丽,吴晶,舒啸尘,王杨,罗剑锋,李玲,李幼平,姚晨,赵琨,陈英耀,翟所迪,詹思延,吴久鸿,郭剑非,吕志强,谢锋,Gordon Guyatt. 中国循证医学杂志. 2019(07)
[2]基于数据挖掘技术构建适宜基层应用的2型糖尿病视网膜病变风险预测模型研究[J]. 陈韦冰,张巧玲,徐小红,郭艳芳,廖美艳,刘峥,徐国平. 中国实用医药. 2019(02)
[3]中国2型糖尿病防治指南(2017年版)[J]. Chinese Diabetes Society;. 中国实用内科杂志. 2018(04)
[4]2010-2015年上海地区119家医院胰岛素及其类似物的应用现状分析[J]. 石卫峰,归成,范国荣,刘玮. 中南药学. 2017(11)
[5]2型糖尿病患者糖尿病视网膜病变风险预测模型的建立和初步验证[J]. 吕喆,陈亦棋,沈丽君,林丽,陈立锋,李亮,吴韩飞,黎楚岚,毛剑波. 中华眼底病杂志. 2017 (03)
[6]基于社区2型糖尿病患者的心脑血管事件5年风险预测模型[J]. 张振堂,杨洋,韩福俊,陈向华,季晓康,王永超,王淑康,孙苑潆,李敏,陈亚飞,王丽,薛付忠,刘言训. 山东大学学报(医学版). 2017(06)
[7]基层医疗机构胰岛素治疗中存在的问题及其对策[J]. 许樟荣. 中华糖尿病杂志. 2017 (01)
[8]中国糖尿病医学营养治疗指南(2013)[J]. 糖尿病天地(临床). 2016(07)
[9]2型糖尿病患者下肢动脉狭窄预测模型的建立[J]. 鲁郡,张际晨,尤文,于雪梅,顾明君. 上海交通大学学报(医学版). 2016(07)
[10]中国2型糖尿病患者胰岛素剂量的荟萃分析[J]. 蔡晓凌,杨文嘉,高学营,周灵丽,韩学尧,纪立农. 中国糖尿病杂志. 2016(06)
博士论文
[1]Logistic回归、决策树和神经网络在预测2型糖尿病并发末梢神经病变中的性能比较[D]. 李长平.中国人民解放军军事医学科学院 2009
硕士论文
[1]社区2型糖尿病患者心脑血管事件风险预测模型的研究[D]. 杨洋.山东大学 2017
[2]基于数据挖掘的辅助预防和治疗2型糖尿病的研究[D]. 叶广健.兰州理工大学 2016
[3]2型糖尿病患者心脑血管疾病风险评分模型的构建及意义[D]. 孟祥英.第二军医大学 2016
[4]基于数据挖掘技术预测2型糖尿病慢性并发症[D]. 李戈.天津医科大学 2004
本文编号:3589882
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:92 页
【学位级别】:硕士
【部分图文】:
文献筛选流程及结果
第三章胰岛素种类预测模型的建立21都是有放回的抽样;5.一个新的数据输入后,根据所有决策树的预测结果投票表决来确定最终的分类或取值。有两个参数在构建RF的过程中是至关重要的:第一个是在整个RF中决策树的棵数;第二个是树节点可选择的个数,即m值。RF的主要优点在于:①大多数数据集都可以拿来直接运行的通用模型;②可处理离散值、连续值以及大量的缺失值;③能够选择重要特征,能够检测到特征间的互相影响;④适用于样本或特征数量极大的情况。主要缺点在于:①相比于决策树,RF结果不易于解释;②计算量相对较大。3.1.3梯度提升决策树梯度提升决策树[80](GradientBoostingDecisionTree,GBDT)和RF类似,GBDT也是会训练多棵决策树的分类器,只是训练的策略不同。GBDT的核心思想在于每一棵新建决策树学习的是之前所有决策树的整体预测值和实际值之间的误差,称之为残差。GDBT是通过不断减小训练过程产生的残差来达到将数据分类或者回归的算法。GBDT的训练过程如图3-1所示:图3-1GBDT的训练过程通过多轮迭代,每轮迭代都会产生一个弱分类器,GBDT的弱分类器一般为CART回归树,每个弱分类器都是在上一轮分类器的残差基础上进行训练。最终的分类器是将每轮训练所得到的弱分类器通过加权求和得到。模型最终可以描述为:m1()(;)MmmFxTx(3-6)若模型一共训练M轮,每轮产生一个弱分类器T(x;θm)。则弱分类器的损失函数为:
第三章胰岛素种类预测模型的建立25观平均ROC曲线下面积为0.72,准确度、精确度、召回率和F1值分别为:0.5476、0.7202、0.5762和0.6402。3-2未进行特征选择时种类预测模型中各算法的评估指标模型微观平均ROCAUC宏观平均ROCAUC准确度精确度召回率F1值SVM0.650.620.37140.67800.38100.4878RF0.610.600.25240.81540.25240.3855GBDT0.720.710.52380.71780.55710.6273XGBoost0.730.720.54760.72020.57620.6402图3-2未进行特征选择时SVM用于种类预测模型的ROC曲线
【参考文献】:
期刊论文
[1]建立真实世界数据与研究技术规范,促进中国真实世界证据的生产与使用[J]. 孙鑫,谭婧,王雯,高培,彭晓霞,温泽淮,王丽,吴晶,舒啸尘,王杨,罗剑锋,李玲,李幼平,姚晨,赵琨,陈英耀,翟所迪,詹思延,吴久鸿,郭剑非,吕志强,谢锋,Gordon Guyatt. 中国循证医学杂志. 2019(07)
[2]基于数据挖掘技术构建适宜基层应用的2型糖尿病视网膜病变风险预测模型研究[J]. 陈韦冰,张巧玲,徐小红,郭艳芳,廖美艳,刘峥,徐国平. 中国实用医药. 2019(02)
[3]中国2型糖尿病防治指南(2017年版)[J]. Chinese Diabetes Society;. 中国实用内科杂志. 2018(04)
[4]2010-2015年上海地区119家医院胰岛素及其类似物的应用现状分析[J]. 石卫峰,归成,范国荣,刘玮. 中南药学. 2017(11)
[5]2型糖尿病患者糖尿病视网膜病变风险预测模型的建立和初步验证[J]. 吕喆,陈亦棋,沈丽君,林丽,陈立锋,李亮,吴韩飞,黎楚岚,毛剑波. 中华眼底病杂志. 2017 (03)
[6]基于社区2型糖尿病患者的心脑血管事件5年风险预测模型[J]. 张振堂,杨洋,韩福俊,陈向华,季晓康,王永超,王淑康,孙苑潆,李敏,陈亚飞,王丽,薛付忠,刘言训. 山东大学学报(医学版). 2017(06)
[7]基层医疗机构胰岛素治疗中存在的问题及其对策[J]. 许樟荣. 中华糖尿病杂志. 2017 (01)
[8]中国糖尿病医学营养治疗指南(2013)[J]. 糖尿病天地(临床). 2016(07)
[9]2型糖尿病患者下肢动脉狭窄预测模型的建立[J]. 鲁郡,张际晨,尤文,于雪梅,顾明君. 上海交通大学学报(医学版). 2016(07)
[10]中国2型糖尿病患者胰岛素剂量的荟萃分析[J]. 蔡晓凌,杨文嘉,高学营,周灵丽,韩学尧,纪立农. 中国糖尿病杂志. 2016(06)
博士论文
[1]Logistic回归、决策树和神经网络在预测2型糖尿病并发末梢神经病变中的性能比较[D]. 李长平.中国人民解放军军事医学科学院 2009
硕士论文
[1]社区2型糖尿病患者心脑血管事件风险预测模型的研究[D]. 杨洋.山东大学 2017
[2]基于数据挖掘的辅助预防和治疗2型糖尿病的研究[D]. 叶广健.兰州理工大学 2016
[3]2型糖尿病患者心脑血管疾病风险评分模型的构建及意义[D]. 孟祥英.第二军医大学 2016
[4]基于数据挖掘技术预测2型糖尿病慢性并发症[D]. 李戈.天津医科大学 2004
本文编号:3589882
本文链接:https://www.wllwen.com/yixuelunwen/yiyaoxuelunwen/3589882.html
最近更新
教材专著