基于Hadoop的医保数据挖掘研究

发布时间:2021-11-13 13:57
  伴随计算机和互联网的广泛应用,人类产生、创造的数据量呈现出爆炸式的增长,我国已经成为全球数据总量最大,数据类型最丰富的国家之一。与此同时,人类也是数据的使用者,如何将数据进行相应的处理,使其转化成为有用的信息已经成为当前机器学习领域一项重要的研究内容,由此数据挖掘技术应运而生。医疗保险作为社保最重要的一部分,同时也是人们生活的基本保障,充分利用每天产生的海量医保数据,并对其进行数据挖掘,发现数据之间存在的联系,对提供疾病的临床支持和科学决策、改善医疗治疗效果以及辅助政策的定制和修改等都有实际意义。目前,国内外许多研究人员将数据挖掘技术应用于医保数据的研究工作中,包括医疗费用的分析、医保欺诈的识别、相关疾病的合理用药、医保系统的管理等。本文提出利用数据挖掘相关技术对不同的医保数据分别进行分析和预测两个实验,对心脑血管疾病数据进行探索分析得到心血管疾病与某些属性特征的内在关联。对糖尿病的血糖值进行预测,通过特征工程来不断更新候选的数据集,再经过训练得到学习能力较好的预测模型,通过交叉验证,以均方误差作为模型的评判标准,并得到血糖的预测值,提高预测的准确率。对数据的分析和预测是在普通计算机上... 

【文章来源】:沈阳工业大学辽宁省

【文章页数】:58 页

【学位级别】:硕士

【部分图文】:

基于Hadoop的医保数据挖掘研究


MapReduce架构图

结构图,结构图,数据挖掘


沈阳工业大学硕士学位论文10构如图2.5所示。图2.5Hadoop项目结构图Fig.2.5Hadoopprojectstructurediagram(1)Pig:在Hadoop集群上运行,是数据分析和评价的工具,它可以转换数据分析的请求,提供了编程接口,进行分布式运算。(2)Hive:作为Hadoop基础上的数据库,提供了与结构化查询语句相同的查询功能,向HDFS中添加数据并进行统计分析操作,将SQL语句转换一系列MapReduce作用并运行。(3)ZooKeeper:分布式的情况下为了确保一致性而提供协调服务,支持存储、协调、维护、共享等。(4)HBase:主要用于数据挖掘,是开源的、面向列的存储模型分布式数据库,可以与MapReduce协同使用[20]。(5)Chukwa:作为一个开源的分布式数据集合系统,将数据文件保存于HDFS中,以供操作。(6)Avor:作为数据序列化系统,主要负责数据通信功能中数据的编码,方便数据的传输,支持二进制和动态数据。2.2数据挖掘技术2.2.1数据挖掘的简介数据挖掘(DataMining-DM),就是从海量的数据之中使用一定的方法获取有价值的信息,可以作为知识发现的一个过程,也可以看作是信息技术自然发展的结果[21]。目前,数据挖掘技术已经得到各界的广泛应用并且技术日益成熟,同时该技术有很强的综合交叉性,对于它的学习涉及到的科目有很多,包括机器学习、高级数据库技术、识别模式、统计学、数据可视化分析、计算机网络等多个学科。2.2.2数据挖掘的步骤MapReduceHDFSZooKeeperCoreAvroPigChukwaHiveHBase

直方图,数据挖掘,目标数据,步骤


第2章相关技术综述11数据挖掘能够实现与用户于知识库之间的交互。将得到的知识转化为有趣易懂的模式呈现给用户,而且还可以作为新知识存储在知识库中以备接下来使用。数据挖掘的过程可大致分为如下三个部分:数据准备、数据挖掘、结果的表达和解释[22]。具体过程如图2.6所示。图2.6数据挖掘的步骤Fig.2.6Stepsofdatamining(1)数据准备1)数据收集:确定需要解决的问题类别,是回归问题还是分类问题。接下来需要确定的挖掘主题或数据分析对象,通过相关数据库、公开数据集的网站等其它数据源抽取数据。2)数据清理:对不完整、含噪声、不一致的数据进行统一的处理,以便提供良好的数据质量,优化挖掘效果。3)数据集成:将多个来源的数据进行合并,并将数据存储一致化的过程。4)数据规约:通过简化表示数据集来减少数据的维度,以此可以提高数据分析的精确度,加快数据计算的效率。5)数据变换和离散化:为了符合数据挖掘的各种形式,需要通过聚集、光滑、数据规范化等方法变换数据的形式;通过直方图、聚类、分箱操作等方法将数据离散化。(2)数据挖掘根据不同的数据,选择合适的工具进行分析,比如统计方法、分类、聚类、关联规则、时序模式或者智能推荐等,可以使用其中一种、多种算法组合或算法之间的对比进行数据分析或建模。(3)结果表达和解释1)模式评估:就是验证数据挖掘结果或模型的准确性。2)知识表示:将挖掘的结果转化为结论性的文字或直观的图表等展示给用户;根结果表达和解释数据挖掘数据集成数据选择预处理InformationKnowledge目标数据预处理后的数据数据源数据源数据数据准备数据挖掘结果的表达和解释

【参考文献】:
期刊论文
[1]基于LightGBM的血压检测方法研究[J]. 吴绍武,续育茹.  生物医学工程研究. 2019(03)
[2]基于自适应PSO的改进K-means算法及其在电子病历聚类分析应用[J]. 沐燕舟,丁卫平,高峰,余利国,张琼.  计算机与数字工程. 2019(08)
[3]中国心血管疾病防治的成果及展望[J]. 欧丽.  中国实用医药. 2019(23)
[4]中国人群血脂异常流行趋势和治疗控制现状[J]. 赵冬.  中华心血管病杂志. 2019 (05)
[5]机器学习算法在糖尿病预测中的应用[J]. 贺其,赵岗,菊云霞,周薏岚,李敏,董琪,赵凯.  贵州大学学报(自然科学版). 2019(02)
[6]ICU患者急性肾损伤发生风险的LightGBM预测模型[J]. 张渊,冯聪,李开源,张政波,曹德森,黎檀实.  解放军医学院学报. 2019(04)
[7]《中国心血管病报告2018》概要[J]. 胡盛寿,高润霖,刘力生,朱曼璐,王文,王拥军,吴兆苏,李惠君,顾东风,杨跃进,郑哲,陈伟伟.  中国循环杂志. 2019(03)
[8]我国医疗保险制度发展四十年:进程、经验与展望[J]. 仇雨临,王昭茜.  华中师范大学学报(人文社会科学版). 2019(01)
[9]中国2型糖尿病防治指南(2017年版)[J]. Chinese Diabetes Society;.  中国实用内科杂志. 2018(04)
[10]基于XGBoost算法的2型糖尿病精准预测模型研究[J]. 张洪侠,郭贺,王金霞,徐岩艳,吕斌,闫东,常佳,胡光瑞,王雪,李洪军,刘天戟,李燕林,赵志强,牛晓强.  中国实验诊断学. 2018(03)

硕士论文
[1]基于LightGBM的居民出行方式选择模型及应用研究[D]. 范德祥.华中科技大学 2018
[2]基于Hadoop的数据挖掘算法研究与实现[D]. 何健伟.北京邮电大学 2015
[3]基于Hadoop平台的医保数据挖掘[D]. 梁瑜.东北大学 2012



本文编号:3493144

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3493144.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0de16***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com