云平台下医疗大数据的FP-Growth算法的优化研究
发布时间:2021-11-08 19:58
随着医疗卫生行业的信息化发展事业的飞速发展,医疗数据已不是传统意义上大数据的数量上的“大”,其集成更加广泛、存储形式更加多样等等。医疗大数据具有巨大的潜在价值,尽管我国拥有着海量的大数据,但当下对数据的挖掘分析力度还不够,因此在各个医院大量信息还在“沉默不醒”。如何对日益增长的海量医疗数据进行有效的挖掘,显得尤为重要。本文采用Hadoop平台对挖掘关联规则算法进行研究和改进。自从韩家炜提出FP-Growth算法之后,许多国内外学者对该算法展开研究,并提出了很多改进算法,比如HPFP算法、MR-VER算法等。但仍然存在一些不足之处,例如,数据规模过大时无法构造基于内存的FP-tree、需要重复迭代遍历全局FP-tree造成资源浪费。针对此类问题,提出了基于数据划分且不生成全局FP-tree的PL-FPgrowth算法。该算法采用并行地挖掘局部FP-tree,解决了内存不足无法构造全局FP-tree的问题,在挖掘局部频繁项时,不需要挖掘其它节点数据信息,减少了节点间的通信开销。PL-FPgrowth算法运用MapReduce并行计算模型,但该算法存在构建和挖掘局部FP-tree时没有考虑局...
【文章来源】:华北水利水电大学河南省
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
Hadoop结构框架图
2 相关技术研究的分片情况、DataNode 状态信息以及数据块的存储位置等。DataNode 在本地系统存储实际文件块数据,为文件系统中的客户端提供数据块的读取和写入请求。DataNode 节点为了保持其本地数据块信息的更新以及备份,会隔段时间向NameNode 节点发送心跳[37]。Sencondary NameNode 是辅助后台程序,用来监控HDFS 状态,每隔一段时间通过获取 HDFS 元数据快照的方式自动同步日志信息和元数据[38]。HDFS 架构如图 2-2 所示:
图 2-3 HDFS 读取数据流程图Fig 2-3 HDFS read data flow diagram3.HDFS 数据写入流程(1)客户端向 NameNode 节点发送上传文件请求,NameNode 检查权限、检查目标文件是否已经存在。(2)NameNode 节点按照上传文件大小和配置信息,计算出文件需要切分成多少个数据块,这些数据块可以存放的 DataNode 节点列表以及 DataNode 位置信息和是否可上传的信息返回给客户端。(3)客户端将上传文件自动分割成适当的块,以 packet 为单位按照顺序依次将每一块数据信息写入。HDFS 写入数据流程如图 2-4 所示:
本文编号:3484104
【文章来源】:华北水利水电大学河南省
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
Hadoop结构框架图
2 相关技术研究的分片情况、DataNode 状态信息以及数据块的存储位置等。DataNode 在本地系统存储实际文件块数据,为文件系统中的客户端提供数据块的读取和写入请求。DataNode 节点为了保持其本地数据块信息的更新以及备份,会隔段时间向NameNode 节点发送心跳[37]。Sencondary NameNode 是辅助后台程序,用来监控HDFS 状态,每隔一段时间通过获取 HDFS 元数据快照的方式自动同步日志信息和元数据[38]。HDFS 架构如图 2-2 所示:
图 2-3 HDFS 读取数据流程图Fig 2-3 HDFS read data flow diagram3.HDFS 数据写入流程(1)客户端向 NameNode 节点发送上传文件请求,NameNode 检查权限、检查目标文件是否已经存在。(2)NameNode 节点按照上传文件大小和配置信息,计算出文件需要切分成多少个数据块,这些数据块可以存放的 DataNode 节点列表以及 DataNode 位置信息和是否可上传的信息返回给客户端。(3)客户端将上传文件自动分割成适当的块,以 packet 为单位按照顺序依次将每一块数据信息写入。HDFS 写入数据流程如图 2-4 所示:
本文编号:3484104
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3484104.html