基于主成分的回归和决策树对高血压数据的处理
发布时间:2023-03-29 00:47
本文选取来自某市农村地区常住居民高血压流行病调查的样本数据,调查数据包括三个部分,分别为:2004-2006年的基线调查,2008年和2010年的两次随访,共46315条记录。本文选取了2004-2006年的基线调查的部分,研究高血压的相关因素与高血压的关系。高血压的影响因素有许多,例如:年龄,性别,饮食习惯等。由于影响因素太多,为了处理方便,本文采用主成分分析的方法,将多个指标化为少数互不相关的综合指标,实现对影响因素的降维。接着,通过对主成分分别进行回归分析和logistic回归分析,得到高血压的判定模型。并且,进行数据模拟。通过主成分回归和主成分logistic回归分析得到的模型中,主成分logistic回归,可以得出患病概率,进行一个很好的预测。以上是基于传统多元统计分析对这组数据的处理。同时,我们也基于现代流行的数据挖掘中的决策树算法,对该组数据进行处理,得到高血压的一个判别模型。根据该模型,可以根据居民的一些生活指标判断居民是否患有高血压,同时,根据这个模型可以给出一些防治的建议。本文通过两个模型找出一些生活中需要注意的因素,为居民高血压的防治给出一点有效的建议。并且实现数...
【文章页数】:55 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 国外研究现状
1.2 国内研究现状
1.3 本文目的及意义
1.4 本文主题框架
第2章 调查数据的初步处理
2.1 数据来源
2.2 数据处理的方法
2.3 清洗不合理样本
2.4 数据修正及补值
2.5 数据再次删选
2.6 预测数据的选取
第3章 主成分的回归结果
3.1 主成分的回归模型构建
3.2 本组数据的预处理
3.3 主成分分析
3.4 主成分回归分析
3.5 主成分的logistic回归
3.6 结果分析
第4章 决策树方法的结果
4.1 决策树算法简介
4.2 在决策树的方法下数据预处理
4.3 模型以及变量的选择
4.4 决策树模型分析结果
4.5 结果分析
第5章 模型对比及建议
5.1 模型在对该组数据处理的对比
5.2 高血压防治方面的建议
参考文献
致谢
附录
本文编号:3773642
【文章页数】:55 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 国外研究现状
1.2 国内研究现状
1.3 本文目的及意义
1.4 本文主题框架
第2章 调查数据的初步处理
2.1 数据来源
2.2 数据处理的方法
2.3 清洗不合理样本
2.4 数据修正及补值
2.5 数据再次删选
2.6 预测数据的选取
第3章 主成分的回归结果
3.1 主成分的回归模型构建
3.2 本组数据的预处理
3.3 主成分分析
3.4 主成分回归分析
3.5 主成分的logistic回归
3.6 结果分析
第4章 决策树方法的结果
4.1 决策树算法简介
4.2 在决策树的方法下数据预处理
4.3 模型以及变量的选择
4.4 决策树模型分析结果
4.5 结果分析
第5章 模型对比及建议
5.1 模型在对该组数据处理的对比
5.2 高血压防治方面的建议
参考文献
致谢
附录
本文编号:3773642
本文链接:https://www.wllwen.com/yixuelunwen/xxg/3773642.html
最近更新
教材专著