基于数据挖掘的疾病预测组合模型研究
发布时间:2021-08-05 00:10
随着医疗行业信息化发展,越来越多的医疗信息数据产生,医疗行业与大数据结合成为必然的趋势,医疗领域越来越多的产品将要应用到大数据技术,医生决策,病患诊断离不开大数据技术。生活水平的提高使得越来越多的人患有健康病,高血压和高血脂作为常见的慢性病易于引发脑卒中、心力衰竭、肾脏衰竭、心脑血管疾病等,而这些疾病的发生与多种因素有关,从各个因素能够预测疾病的发病风险。本文从预防医学的角度出发,以搭建组合疾病预测模型为目的,探究海量体检数据疾病风险发生的概率,并给出影响高血压这一疾病的指标危险程度。本文的主要工作如下:(1)提出了基于Choquet积分的数据挖掘模型的预测算法,算法不仅组合了不同的模型,并能够对不同组合进行筛选流程。预测模型非常多,每个模型的刻画数据的角度不同,考虑到模型对预测结果可能产生的影响,以及模型之间的交互作用也可能对预测结果产生影响。本文利用模糊积分衡量不同模型的模糊测度以及模型之间的交互作用,经实验分析,大大提高了预测的准确率。本文选择了五种模型,分别对五种数据挖掘领域的模型进行预测并评估,并通过模糊积分确定单模型权重和交互权重确定模型组合预测值,并进行比较,实验发现组合...
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
图1-1论文技术路线图??Fig?1-1?Technology?road?map?of?this?paper??
这可能因为人工出错导致的,平均值为126,符合正常水平,异常值??有一个记录为0的,有7个记录为“未査”的数据,这些数据都需要剔除,这属??于数据中的异常项。图3-1中为整体的收缩压趋势,按照数据进行排序,纵坐标??代表收缩压的具体值,横坐标代表个人ID。??30??
、未见异常、未查”等,以及有大量的“正常”和“无”的出现,这就需要后续??对数据的进一步处理,在此,本文初步统计和处理每种数据类型的规模,并对所??有特征进行空值统计。如图3-2所示,图中横坐标代表各个特征,纵坐标代表在??每个特征下的非空值的记录数,并对每个特征下的非空值数进行排序处理,可以??看到,大部分特征的空值过大,这些特征组成的矩阵会很稀疏,对于模型的预测??会产生不利的影响。对于空值过大的记录不做研宄。表3-3得出的数字、长短文??本特征将是本文接下来要研宄的疾病预测特征。??60000????/??50000?-??40000????30000?-?I??20000?-?I??10000?-?f??0-????—?? ̄0?500?1000?1500?2000?2500??图3-2样本空值统计??Fig?3-2?Number?of?null?values?for?the?sample??3.3疾病预测数据预处理??31??
本文编号:3322666
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
图1-1论文技术路线图??Fig?1-1?Technology?road?map?of?this?paper??
这可能因为人工出错导致的,平均值为126,符合正常水平,异常值??有一个记录为0的,有7个记录为“未査”的数据,这些数据都需要剔除,这属??于数据中的异常项。图3-1中为整体的收缩压趋势,按照数据进行排序,纵坐标??代表收缩压的具体值,横坐标代表个人ID。??30??
、未见异常、未查”等,以及有大量的“正常”和“无”的出现,这就需要后续??对数据的进一步处理,在此,本文初步统计和处理每种数据类型的规模,并对所??有特征进行空值统计。如图3-2所示,图中横坐标代表各个特征,纵坐标代表在??每个特征下的非空值的记录数,并对每个特征下的非空值数进行排序处理,可以??看到,大部分特征的空值过大,这些特征组成的矩阵会很稀疏,对于模型的预测??会产生不利的影响。对于空值过大的记录不做研宄。表3-3得出的数字、长短文??本特征将是本文接下来要研宄的疾病预测特征。??60000????/??50000?-??40000????30000?-?I??20000?-?I??10000?-?f??0-????—?? ̄0?500?1000?1500?2000?2500??图3-2样本空值统计??Fig?3-2?Number?of?null?values?for?the?sample??3.3疾病预测数据预处理??31??
本文编号:3322666
本文链接:https://www.wllwen.com/yixuelunwen/xxg/3322666.html
最近更新
教材专著