基于Gradient Boosting算法的海量健康数据挖掘研究与应用
【学位单位】:北京邮电大学
【学位级别】:硕士
【学位年份】:2017
【中图分类】:R-05;TP311.13
【部分图文】:
对于分类问题将采用多数投票的方式,对于回归问题可以直接求平均值。??可见,Bagging是一个并行训练过程,可以很自然地应用到大规模数据中,具体??算法训练流程如图2-2所示。如果选择决策树作为Bagging算法的弱分类器,则??可以得到Bagging算法最为流行的一种形式——随机森林,该算法和梯度提升算??法都在商业实践中广泛应用。在后续实验中,也将使用随机森林算法进行模型训??练,对比实验结果。??Boosting:主要是指?AdaBoost?(Adaptive?Boosting)算法,开始时每一个训??练样例等于权重1/n,然后对算法训练t轮,每次训练后对预测失败的训练样本??加大权重,让学习算法在后续的训练中更加关注较难训练的样例,这样不断优化??算法的侧重点,然后使用加权平均的方式得到强学习器。??D??'了????J-?丄?I??步:?n?D?D?D??创建多个数据集?u?u??????u?u??in?nr??第二步:A
做法是将数据集分成三部分,即训练集、验证集、测试集。训练集用于模型训练,??使选择的模型学习模型参数,得到最优模型,然后使用验证集进行模型选择和超??参数的调节,例如正则化系数等,选择出表现最优的模型,最后使用测试集对整??体的学习效果进行评估,作为模型的最终结果。这种方法能够较好地考虑到模型??的泛化能力,训练出来的模型具有很强的实用性。但缺点也很明显,该方法需要??大量的数据样本,而在现实中训练数据往往有限,标注后的带标签的数据更是少??之又少,人们出于充分利用数据的考虑设计了交叉验证方法。该方法的基本思想??是尽可能地充分使用数据,初始时将数据分为训练集和测试集后,再将训练集切??分成等量的几份,每次选择大部分数据作为数据集,然后使用少部分数据进行验??证,这样重复进行多次,然后求平均值作为该模型的最后性能。??当使用类似bagging的集成算法时,使用采样和更换技术生成新的训练集,??原始训练集的一部分数据未被使用,对于集成后的每一个学习器,都有一部分不??同的数据被排除在外,我们可以用这部分丢在训练集外的数据评估泛化误差,而??不必依赖于一个单独的验证集。这种评估方法并没有浪费新数据,也可以用于模??型选择,这种方式叫做袋外验证法(out?of?bag,OOB)。??
用数据挖掘算法,构造出一套肝部肿瘤筛查算法。具体的步骤包括从体检数据库??中抽取数据,数据预处理,特征选择,设计与训练模型,结果分类结果,人群效??果反馈六个步骤。完整的流程如图3-1所示:??HT? ̄ ̄? ̄ ̄? ̄ ̄11?数据标注?|? ̄ ̄? ̄ ̄?r^ ̄??5?^?体?!?体?型??2?康?K?数据编码转换?检|杜蹈?评??肿优?检???I?教特征编码?特?模?估??S??5?i?3转存数据仓库?i?I?■缺失值I?择练?I??g?库?収??理???反??[_J????11?数据釆样?|??????图3-1肝部肿瘤筛查流程图??23??
【相似文献】
相关期刊论文 前10条
1 ;SPOTLIGHTS[J];Human Rights;2011年05期
2 章光明;刘晋;贾慧珣;李康;;随机梯度boosting算法在代谢组学研究中的应用[J];中国卫生统计;2013年03期
3 孙笑微;李晓毅;戚勋;;基于Boosting的BP神经网络对SARS传播的预测[J];微计算机信息;2010年27期
4 ;Boosting a Less Known Job[J];Beijing Review;2011年52期
5 徐远平;汪尤利;;数据挖掘在高校突发公共卫生事件预警和控制中的应用[J];现代预防医学;2007年17期
6 陈明;;医学数据挖掘综述[J];医学信息;2008年01期
7 黄秋燕;金京皓;沈岳龙;郑晖;;数据挖掘在医学信息中的应用[J];医学信息(上旬刊);2010年08期
8 孙哲丰;王迎利;;中国药品电子监管数据挖掘现状的分析与思考[J];中国医药导刊;2014年06期
9 刘春艳,张爱连,胡铁军;数据挖掘及其在信息服务业应用的研究现状[J];医学情报工作;2004年06期
10 ;统计分析与数据挖掘的优秀工作平台[J];中国医院统计;2006年02期
相关博士学位论文 前10条
1 高尉;Boosting方法的理论研究[D];南京大学;2014年
2 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年
3 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年
4 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年
5 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年
6 邬文帅;基于多目标决策的数据挖掘方法评估与应用[D];电子科技大学;2015年
7 谢邦彦;整合数据挖掘与TRIZ理论的质量管理方法研究[D];首都经济贸易大学;2010年
8 何伟全;云南高校学生意外伤害因素关联规则挖掘及风险管控体系研究[D];昆明理工大学;2015年
9 段功豪;基于多结构数据挖掘的滑坡灾害预测模型研究[D];中国地质大学;2016年
10 白晓明;基于数据挖掘的复合材料宏—细观力学模型研究[D];哈尔滨工业大学;2016年
相关硕士学位论文 前10条
1 刘玉尧;基于Gradient Boosting算法的海量健康数据挖掘研究与应用[D];北京邮电大学;2017年
2 严爱玉;基于Stockwell变换与Boosting算法的自动癫痫检测[D];山东大学;2015年
3 贾璋衡;基于随机森林和boosting思想的推荐算法的研究[D];广西师范大学;2015年
4 郭连坤;基于多核Boosting多特征组合高光谱分类技术研究[D];西安科技大学;2015年
5 翟璐;一种基于Boosting算法的新模型在银行信用评级中的应用[D];北京交通大学;2016年
6 胡东;韭菜表面农药残留的可见—近红外光谱分析方法研究[D];西安科技大学;2015年
7 甘志鹏;基于非负编码Boosting的目标跟踪算法研究[D];西安电子科技大学;2015年
8 蔡小龙;正则化Boosting算法的一致性[D];湖北大学;2016年
9 曾庆尚;基于Boosting策略的启动子预测方法研究[D];烟台大学;2009年
10 姚睿;基于代价敏感Boosting算法的医学影像分析方法研究[D];上海交通大学;2011年
本文编号:2860385
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2860385.html