云平台下医疗大数据的FP-Growth算法的优化研究

发布时间：2021-11-08 19:58

　　随着医疗卫生行业的信息化发展事业的飞速发展,医疗数据已不是传统意义上大数据的数量上的“大”,其集成更加广泛、存储形式更加多样等等。医疗大数据具有巨大的潜在价值,尽管我国拥有着海量的大数据,但当下对数据的挖掘分析力度还不够,因此在各个医院大量信息还在“沉默不醒”。如何对日益增长的海量医疗数据进行有效的挖掘,显得尤为重要。本文采用Hadoop平台对挖掘关联规则算法进行研究和改进。自从韩家炜提出FP-Growth算法之后,许多国内外学者对该算法展开研究,并提出了很多改进算法,比如HPFP算法、MR-VER算法等。但仍然存在一些不足之处,例如,数据规模过大时无法构造基于内存的FP-tree、需要重复迭代遍历全局FP-tree造成资源浪费。针对此类问题,提出了基于数据划分且不生成全局FP-tree的PL-FPgrowth算法。该算法采用并行地挖掘局部FP-tree,解决了内存不足无法构造全局FP-tree的问题,在挖掘局部频繁项时,不需要挖掘其它节点数据信息,减少了节点间的通信开销。PL-FPgrowth算法运用MapReduce并行计算模型,但该算法存在构建和挖掘局部FP-tree时没有考虑局...

【文章来源】：华北水利水电大学河南省

【文章页数】：74 页

【学位级别】：硕士

【部分图文】：

Hadoop结构框架图

架构图,架构,数据块

2 相关技术研究的分片情况、DataNode 状态信息以及数据块的存储位置等。DataNode 在本地系统存储实际文件块数据，为文件系统中的客户端提供数据块的读取和写入请求。DataNode 节点为了保持其本地数据块信息的更新以及备份，会隔段时间向NameNode 节点发送心跳[37]。Sencondary NameNode 是辅助后台程序，用来监控HDFS 状态，每隔一段时间通过获取 HDFS 元数据快照的方式自动同步日志信息和元数据[38]。HDFS 架构如图 2-2 所示：

数据流程图,数据流程图,上传文件,客户端

图 2-3 HDFS 读取数据流程图Fig 2-3 HDFS read data flow diagram3．HDFS 数据写入流程（1）客户端向 NameNode 节点发送上传文件请求，NameNode 检查权限、检查目标文件是否已经存在。（2）NameNode 节点按照上传文件大小和配置信息，计算出文件需要切分成多少个数据块，这些数据块可以存放的 DataNode 节点列表以及 DataNode 位置信息和是否可上传的信息返回给客户端。（3）客户端将上传文件自动分割成适当的块，以 packet 为单位按照顺序依次将每一块数据信息写入。HDFS 写入数据流程如图 2-4 所示：

本文编号：3484104

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3484104.html

上一篇：智能时代未来儿童三位一体医药平台的搭建与应用
下一篇：医院人力资源管理工作对提升医院品质的探析和思考

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|