基于随机森林与支持向量机的心血管疾病预测研究
发布时间:2021-08-24 17:57
心血管疾病是一种多发的慢性疾病,在给患者的身体健康造成了严重的影响的同时,为社会和患者带来了沉重的医疗负担,对心血管疾病进行快速高效的预测将有助于患者及时发现疾病。由于在对患者病情进行快速分类预测的情境下,患者的不同病情信息的获取需要耗费不同的时间,因此如何根据这些具有差异的时间耗费对患者的病情信息进行阶段性划分并对病情信息进行高效的利用对于心血管疾病的分类预测具有重要的意义。目前对于心血管疾病进行预测的研究主要集中于两个方面,一个是关于心血管疾病风险评估模型的构建,但是此类研究需要大量的患者作为长期的随访对象,不适宜于进行快速高效的研究;另外一个是将心血管疾病的预测问题抽象成为机器学习中的问题,利用机器学习方法对心血管疾病进行特征选择以及预测。然而目前的研究对心血管疾病进行快速高效预测的情境未进行较多的考虑。因此本文针对心血管疾病预测研究的特点,在考虑时间耗费的前提下,利用机器学习方法构建心血管疾病的预测模型,对心血管疾病进行快速高效的预测。首先本文基于时间耗费分阶段对心血管疾病的危险因素进行组合;然后,为实现对信息的高效利用,针对心血管疾病数据中存在不相关以及冗余信息的问题,利用随...
【文章来源】:天津大学天津市 211工程院校 985工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
决策树的简单图示
第2章相关理论与方法13对ID3的改进[47],CART算法是由L.Breiman在1984年所设计出的二叉决策树生成算法[48]。对于这三种算法,ID3以及C4.5算法进行属性选择是基于使节点所包含的信息熵最小化进行的,其中C4.5算法在修建决策树时采用的是后剪枝方法,并在ID3的基础上将分类范围从分类的属性扩展到数字属性。而CART算法是以Gini指标作为属性选择的标准。在本文中,随机森林所采用的决策树算法为CART算法,使得集成的随机森林算法适用于医疗数据的处理。图2-1决策树的简单图示2.2.3随机森林原理2.2.3.1随机森林的生成随机森林是由数量众多的个体决策树组合而成的分类器,通过多数投票机制来确定最终的预测结果。随机森林的生成过程如下图所示:图2-2随机森林的生成
天津大学硕士学位论文24()(()),=tanhTijijKxxxx+(2-32)其中和为正实数。在以上四种和函数中,线性核函数比较方便快捷,但在分类准确性上表现不佳,而其他三种核函数虽然计算比较复杂,但是在分类性能上表现良好。其中RBF即径向基核函数是目前应用最广泛的核函数。图2-5支持向量机结构图2.3.3支持向量机的特点支持向量机作为一种广泛使用的分类器,具有以下特点:(1)支持向量机采用了核函数,使得其算法的复杂程度与特征空间的维数无关,避免了维度灾难的问题。(2)支持向量机在寻求最优分类超平面的过程是解决一个二次规划的过程,使得其寻求到的解是一个全局最优解,避免了局部最优解以及多解的发生。(3)支持向量机在寻求最优分类超平面的过程中,间隔最大化是其主要核心。(4)支持向量机的最优分类决策函数是由支持向量决定的,而大多数样本对于决策函数的确定是无意义的,这一特点使得支持向量机能够在大量样本中抓住主要样本,排除不必要的样本,简捷高效,具有良好的鲁棒性。(5)支持向量机以结构风险最小化为基础,在建模过程中最小化经验风险与置信范围,使得支持向量机具有良好的泛化能力。
【参考文献】:
期刊论文
[1]《中国心血管病报告2017》概要[J]. 陈伟伟,高润霖,刘力生,朱曼璐,王文,王拥军,吴兆苏,李惠君,顾东风,杨跃进,郑哲,蒋立新,胡盛寿. 中国循环杂志. 2018(01)
[2]中国城镇居民5种慢性疾病的经济负担和经济风险[J]. 刘明,孙利华,刘国恩. 北京大学学报(医学版). 2014(05)
[3]基于支持向量机的冠心病辅助诊断研究[J]. 吕晓燕,罗立民,李祥生,郭建军. 计算机工程与应用. 2008(36)
[4]国人缺血性心血管病发病危险的评估方法及简易评估工具的开发研究[J]. 国家“十五”攻关“冠心病、脑卒中综合危险度评估及干预方案的研究”课题组. 中华心血管病杂志. 2003(12)
[5]中国35~64岁人群心血管病危险因素与发病危险预测模型的前瞻性研究[J]. 王薇,赵冬,刘静,吴桂贤,曾哲淳,刘军,秦兰萍,孙佳艺,吴兆苏. 中华心血管病杂志. 2003(12)
硕士论文
[1]积分法诊断冠心病的临床研究[D]. 刘炎.安徽医科大学 2014
本文编号:3360457
【文章来源】:天津大学天津市 211工程院校 985工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
决策树的简单图示
第2章相关理论与方法13对ID3的改进[47],CART算法是由L.Breiman在1984年所设计出的二叉决策树生成算法[48]。对于这三种算法,ID3以及C4.5算法进行属性选择是基于使节点所包含的信息熵最小化进行的,其中C4.5算法在修建决策树时采用的是后剪枝方法,并在ID3的基础上将分类范围从分类的属性扩展到数字属性。而CART算法是以Gini指标作为属性选择的标准。在本文中,随机森林所采用的决策树算法为CART算法,使得集成的随机森林算法适用于医疗数据的处理。图2-1决策树的简单图示2.2.3随机森林原理2.2.3.1随机森林的生成随机森林是由数量众多的个体决策树组合而成的分类器,通过多数投票机制来确定最终的预测结果。随机森林的生成过程如下图所示:图2-2随机森林的生成
天津大学硕士学位论文24()(()),=tanhTijijKxxxx+(2-32)其中和为正实数。在以上四种和函数中,线性核函数比较方便快捷,但在分类准确性上表现不佳,而其他三种核函数虽然计算比较复杂,但是在分类性能上表现良好。其中RBF即径向基核函数是目前应用最广泛的核函数。图2-5支持向量机结构图2.3.3支持向量机的特点支持向量机作为一种广泛使用的分类器,具有以下特点:(1)支持向量机采用了核函数,使得其算法的复杂程度与特征空间的维数无关,避免了维度灾难的问题。(2)支持向量机在寻求最优分类超平面的过程是解决一个二次规划的过程,使得其寻求到的解是一个全局最优解,避免了局部最优解以及多解的发生。(3)支持向量机在寻求最优分类超平面的过程中,间隔最大化是其主要核心。(4)支持向量机的最优分类决策函数是由支持向量决定的,而大多数样本对于决策函数的确定是无意义的,这一特点使得支持向量机能够在大量样本中抓住主要样本,排除不必要的样本,简捷高效,具有良好的鲁棒性。(5)支持向量机以结构风险最小化为基础,在建模过程中最小化经验风险与置信范围,使得支持向量机具有良好的泛化能力。
【参考文献】:
期刊论文
[1]《中国心血管病报告2017》概要[J]. 陈伟伟,高润霖,刘力生,朱曼璐,王文,王拥军,吴兆苏,李惠君,顾东风,杨跃进,郑哲,蒋立新,胡盛寿. 中国循环杂志. 2018(01)
[2]中国城镇居民5种慢性疾病的经济负担和经济风险[J]. 刘明,孙利华,刘国恩. 北京大学学报(医学版). 2014(05)
[3]基于支持向量机的冠心病辅助诊断研究[J]. 吕晓燕,罗立民,李祥生,郭建军. 计算机工程与应用. 2008(36)
[4]国人缺血性心血管病发病危险的评估方法及简易评估工具的开发研究[J]. 国家“十五”攻关“冠心病、脑卒中综合危险度评估及干预方案的研究”课题组. 中华心血管病杂志. 2003(12)
[5]中国35~64岁人群心血管病危险因素与发病危险预测模型的前瞻性研究[J]. 王薇,赵冬,刘静,吴桂贤,曾哲淳,刘军,秦兰萍,孙佳艺,吴兆苏. 中华心血管病杂志. 2003(12)
硕士论文
[1]积分法诊断冠心病的临床研究[D]. 刘炎.安徽医科大学 2014
本文编号:3360457
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3360457.html