当前位置:主页 > 医学论文 > 医卫管理论文 >

基于Gradient Boosting算法的海量健康数据挖掘研究与应用

发布时间:2020-10-28 17:27
   大健康时代的到来让我们重新观察人类身处的健康环境,也越来越关注生活质量和身体健康,然而各种现代病却在不知不觉地向我们袭来。随着大数据、数据挖掘、人工智能领域的飞速发展,尤其是“互联网+医疗”概念的提出,人们可以利用数据挖掘技术探查隐藏在健康大数据背后的重要信息,为人类免受疾病困扰提供新的解决途径。肿瘤、癌症等疾病发病迅速,前期症状不明显,导致治愈率低,而预防肿瘤、癌症最有效的方式是做到“早发现、早治疗”。为此,本文基于健康体检数据(血常规、尿常规、问卷信息等),运用以Gradient Boosting为主的数据挖掘分类算法,构造重大疾病风险筛查和早期诊断模型,为疾病的确诊、治疗提供依据。论文主要研究Gradient Boosting算法,肝部肿瘤筛查模型的训练方法,梯度提升算法并行计算的实现和评估。首先对集成学习中Gradient Boosting算法进行研究,并提出适用于健康数据的特征选择和样本平衡方案,在处理健康数据样本非均衡的问题时,使用基于SMOTE的过采样方式,并调整验证评估指标;然后针对肝部肿瘤筛查场景,设计训练Gradient Boosting分类模型算法,提出完整的筛查模型效果反馈与优化方案;最后本文基于流行的XGBoost平台实现了 Gradient Boosting算法在疾病风险筛查模型中的并行化改造,并验证实验结果,对比运行时间等。论文验证了 Gradient Boosting算法在健康体检数据中能够达到重大疾病筛查和早期诊断的目的,该算法在相同数据集上比随机森林和逻辑回归表现优秀。还使用XGBoost平台帮助Gradient Boosting算法实现并行化计算,能够有效应对海量健康数据挖掘的需要。研究成果对于健康医疗、疾病预防有积极的意义。
【学位单位】:北京邮电大学
【学位级别】:硕士
【学位年份】:2017
【中图分类】:R-05;TP311.13
【部分图文】:

算法流程图


对于分类问题将采用多数投票的方式,对于回归问题可以直接求平均值。??可见,Bagging是一个并行训练过程,可以很自然地应用到大规模数据中,具体??算法训练流程如图2-2所示。如果选择决策树作为Bagging算法的弱分类器,则??可以得到Bagging算法最为流行的一种形式——随机森林,该算法和梯度提升算??法都在商业实践中广泛应用。在后续实验中,也将使用随机森林算法进行模型训??练,对比实验结果。??Boosting:主要是指?AdaBoost?(Adaptive?Boosting)算法,开始时每一个训??练样例等于权重1/n,然后对算法训练t轮,每次训练后对预测失败的训练样本??加大权重,让学习算法在后续的训练中更加关注较难训练的样例,这样不断优化??算法的侧重点,然后使用加权平均的方式得到强学习器。??D??'了????J-?丄?I??步:?n?D?D?D??创建多个数据集?u?u??????u?u??in?nr??第二步:A

网格图,交叉验证,网格,训练集


做法是将数据集分成三部分,即训练集、验证集、测试集。训练集用于模型训练,??使选择的模型学习模型参数,得到最优模型,然后使用验证集进行模型选择和超??参数的调节,例如正则化系数等,选择出表现最优的模型,最后使用测试集对整??体的学习效果进行评估,作为模型的最终结果。这种方法能够较好地考虑到模型??的泛化能力,训练出来的模型具有很强的实用性。但缺点也很明显,该方法需要??大量的数据样本,而在现实中训练数据往往有限,标注后的带标签的数据更是少??之又少,人们出于充分利用数据的考虑设计了交叉验证方法。该方法的基本思想??是尽可能地充分使用数据,初始时将数据分为训练集和测试集后,再将训练集切??分成等量的几份,每次选择大部分数据作为数据集,然后使用少部分数据进行验??证,这样重复进行多次,然后求平均值作为该模型的最后性能。??当使用类似bagging的集成算法时,使用采样和更换技术生成新的训练集,??原始训练集的一部分数据未被使用,对于集成后的每一个学习器,都有一部分不??同的数据被排除在外,我们可以用这部分丢在训练集外的数据评估泛化误差,而??不必依赖于一个单独的验证集。这种评估方法并没有浪费新数据,也可以用于模??型选择,这种方式叫做袋外验证法(out?of?bag,OOB)。??

流程图,流程图,特征编码,训练模型


用数据挖掘算法,构造出一套肝部肿瘤筛查算法。具体的步骤包括从体检数据库??中抽取数据,数据预处理,特征选择,设计与训练模型,结果分类结果,人群效??果反馈六个步骤。完整的流程如图3-1所示:??HT? ̄ ̄? ̄ ̄? ̄ ̄11?数据标注?|? ̄ ̄? ̄ ̄?r^ ̄??5?^?体?!?体?型??2?康?K?数据编码转换?检|杜蹈?评??肿优?检???I?教特征编码?特?模?估??S??5?i?3转存数据仓库?i?I?■缺失值I?择练?I??g?库?収??理???反??[_J????11?数据釆样?|??????图3-1肝部肿瘤筛查流程图??23??
【相似文献】

相关期刊论文 前10条

1 ;SPOTLIGHTS[J];Human Rights;2011年05期

2 章光明;刘晋;贾慧珣;李康;;随机梯度boosting算法在代谢组学研究中的应用[J];中国卫生统计;2013年03期

3 孙笑微;李晓毅;戚勋;;基于Boosting的BP神经网络对SARS传播的预测[J];微计算机信息;2010年27期

4 ;Boosting a Less Known Job[J];Beijing Review;2011年52期

5 徐远平;汪尤利;;数据挖掘在高校突发公共卫生事件预警和控制中的应用[J];现代预防医学;2007年17期

6 陈明;;医学数据挖掘综述[J];医学信息;2008年01期

7 黄秋燕;金京皓;沈岳龙;郑晖;;数据挖掘在医学信息中的应用[J];医学信息(上旬刊);2010年08期

8 孙哲丰;王迎利;;中国药品电子监管数据挖掘现状的分析与思考[J];中国医药导刊;2014年06期

9 刘春艳,张爱连,胡铁军;数据挖掘及其在信息服务业应用的研究现状[J];医学情报工作;2004年06期

10 ;统计分析与数据挖掘的优秀工作平台[J];中国医院统计;2006年02期


相关博士学位论文 前10条

1 高尉;Boosting方法的理论研究[D];南京大学;2014年

2 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年

3 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年

4 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年

5 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年

6 邬文帅;基于多目标决策的数据挖掘方法评估与应用[D];电子科技大学;2015年

7 谢邦彦;整合数据挖掘与TRIZ理论的质量管理方法研究[D];首都经济贸易大学;2010年

8 何伟全;云南高校学生意外伤害因素关联规则挖掘及风险管控体系研究[D];昆明理工大学;2015年

9 段功豪;基于多结构数据挖掘的滑坡灾害预测模型研究[D];中国地质大学;2016年

10 白晓明;基于数据挖掘的复合材料宏—细观力学模型研究[D];哈尔滨工业大学;2016年


相关硕士学位论文 前10条

1 刘玉尧;基于Gradient Boosting算法的海量健康数据挖掘研究与应用[D];北京邮电大学;2017年

2 严爱玉;基于Stockwell变换与Boosting算法的自动癫痫检测[D];山东大学;2015年

3 贾璋衡;基于随机森林和boosting思想的推荐算法的研究[D];广西师范大学;2015年

4 郭连坤;基于多核Boosting多特征组合高光谱分类技术研究[D];西安科技大学;2015年

5 翟璐;一种基于Boosting算法的新模型在银行信用评级中的应用[D];北京交通大学;2016年

6 胡东;韭菜表面农药残留的可见—近红外光谱分析方法研究[D];西安科技大学;2015年

7 甘志鹏;基于非负编码Boosting的目标跟踪算法研究[D];西安电子科技大学;2015年

8 蔡小龙;正则化Boosting算法的一致性[D];湖北大学;2016年

9 曾庆尚;基于Boosting策略的启动子预测方法研究[D];烟台大学;2009年

10 姚睿;基于代价敏感Boosting算法的医学影像分析方法研究[D];上海交通大学;2011年



本文编号:2860385

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2860385.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户33ce7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com