数据挖掘在新疆肺结核区域发病风险建模与预测中的应用
发布时间:2021-04-17 11:25
目的采用数据挖掘技术与方法构建生态学因素预测模型,探讨其在新疆涂阳肺结核区域发病风险(SMR)中的应用价值,为新疆结核病的精准防控提供方法学参考。方法分别采用Lasso和RFE对生态学指标进行筛选,构建Lasso回归和SVR模型,对比与评价建模效果。结果新疆西南部地区涂阳肺结核SMR较高, Lasso和RFE特征选择结果存在差异,SVR模型预测效果整体上优于OLS和Lasso回归模型,Lasso法结合SVR模型预测效果最优。结论依据不同地区、不同生态学现状SMR水平的差异,针对性地采取肺结核的预防与控制措施,对肺结核疫情的精准防控具有重要的实践意义。
【文章来源】:现代预防医学. 2020,47(04)北大核心
【文章页数】:6 页
【部分图文】:
Lasso的特征序列图
相比经典线性回归模型(OLS模型),采用不同特征选择的SVR回归与Lasso回归建模效果评价见表2:对于SVR回归建模,采用RFE与Lasso特征选择,效果略有不同,采用Lasso特征选择的RMSE值、MSE值略低,R2值略高,提示Lasso特征结果略好RFE;对于Lasso回归建模,RFE与Lasso两种特征选择方法建模结果接近。相比OLS回归模型与Lasso回归模型,SVR模型的建模效果较优。综合分析,基于Lasso特征选择SVR回归建模的效果最优。2.3.3 肺结核SMR的区域预测与残差分析
基于Lasso特征选择的SVR与Lasso回归建模的新疆涂阳肺结核SMR预测值区域分布结果见图5和图6:两种模型预测值与SMR值(图1)分布基本一致,均呈现出西南部地区SMR较高,北部、东部地区的SMR相对较低的趋势;SVR与Lasso回归建模残差分布图显示:两种模型残差较大的区域分布相似,多数分布在洛浦县、阿瓦提县、温宿县、尉犁县、托里县、沙湾县、独山子区,均为SMR高的区域,但SVR模型的残差值整体上略小于Lasso回归模型,提示SVR建模效果略优于Lasso建模。3 讨论
【参考文献】:
期刊论文
[1]分位数回归模型在新疆涂阳肺结核报告率生态学影响因素的应用分析[J]. 张伟文,贺湘焱,李奇凤,木哈达斯·吐尔逊依明,曹明芹. 现代预防医学. 2019(03)
[2]空间截面回归模型在肺结核病社会影响因素生态学分析中的应用[J]. 饶华祥,徐莉立,蔡芝锋,李永红,仇丽霞. 中国卫生统计. 2018(05)
[3]基于GIS的青海省结核病时空分布特征研究[J]. 马永成,王兆芬,李斌,马斌忠,马成强,申秀丽,张媛媛,汪海静,蒋明霞,王卫军. 中华疾病控制杂志. 2018(04)
[4]基于张量的正则化多线性回归算法及其应用[J]. 路子祥,黄嘉爽,屠黎阳,徐西嘉,张道强. 计算机科学与探索. 2018(07)
[5]支持向量机在传染病发病率预测中的应用[J]. 解合川,任钦,曾海燕,张兴裕,李晓松. 现代预防医学. 2013(22)
本文编号:3143368
【文章来源】:现代预防医学. 2020,47(04)北大核心
【文章页数】:6 页
【部分图文】:
Lasso的特征序列图
相比经典线性回归模型(OLS模型),采用不同特征选择的SVR回归与Lasso回归建模效果评价见表2:对于SVR回归建模,采用RFE与Lasso特征选择,效果略有不同,采用Lasso特征选择的RMSE值、MSE值略低,R2值略高,提示Lasso特征结果略好RFE;对于Lasso回归建模,RFE与Lasso两种特征选择方法建模结果接近。相比OLS回归模型与Lasso回归模型,SVR模型的建模效果较优。综合分析,基于Lasso特征选择SVR回归建模的效果最优。2.3.3 肺结核SMR的区域预测与残差分析
基于Lasso特征选择的SVR与Lasso回归建模的新疆涂阳肺结核SMR预测值区域分布结果见图5和图6:两种模型预测值与SMR值(图1)分布基本一致,均呈现出西南部地区SMR较高,北部、东部地区的SMR相对较低的趋势;SVR与Lasso回归建模残差分布图显示:两种模型残差较大的区域分布相似,多数分布在洛浦县、阿瓦提县、温宿县、尉犁县、托里县、沙湾县、独山子区,均为SMR高的区域,但SVR模型的残差值整体上略小于Lasso回归模型,提示SVR建模效果略优于Lasso建模。3 讨论
【参考文献】:
期刊论文
[1]分位数回归模型在新疆涂阳肺结核报告率生态学影响因素的应用分析[J]. 张伟文,贺湘焱,李奇凤,木哈达斯·吐尔逊依明,曹明芹. 现代预防医学. 2019(03)
[2]空间截面回归模型在肺结核病社会影响因素生态学分析中的应用[J]. 饶华祥,徐莉立,蔡芝锋,李永红,仇丽霞. 中国卫生统计. 2018(05)
[3]基于GIS的青海省结核病时空分布特征研究[J]. 马永成,王兆芬,李斌,马斌忠,马成强,申秀丽,张媛媛,汪海静,蒋明霞,王卫军. 中华疾病控制杂志. 2018(04)
[4]基于张量的正则化多线性回归算法及其应用[J]. 路子祥,黄嘉爽,屠黎阳,徐西嘉,张道强. 计算机科学与探索. 2018(07)
[5]支持向量机在传染病发病率预测中的应用[J]. 解合川,任钦,曾海燕,张兴裕,李晓松. 现代预防医学. 2013(22)
本文编号:3143368
本文链接:https://www.wllwen.com/yixuelunwen/chuanranbingxuelunwen/3143368.html
最近更新
教材专著