当前位置:主页 > 医学论文 > 医卫管理论文 >

云平台下医疗大数据的FP-Growth算法的优化研究

发布时间:2021-11-08 19:58
  随着医疗卫生行业的信息化发展事业的飞速发展,医疗数据已不是传统意义上大数据的数量上的“大”,其集成更加广泛、存储形式更加多样等等。医疗大数据具有巨大的潜在价值,尽管我国拥有着海量的大数据,但当下对数据的挖掘分析力度还不够,因此在各个医院大量信息还在“沉默不醒”。如何对日益增长的海量医疗数据进行有效的挖掘,显得尤为重要。本文采用Hadoop平台对挖掘关联规则算法进行研究和改进。自从韩家炜提出FP-Growth算法之后,许多国内外学者对该算法展开研究,并提出了很多改进算法,比如HPFP算法、MR-VER算法等。但仍然存在一些不足之处,例如,数据规模过大时无法构造基于内存的FP-tree、需要重复迭代遍历全局FP-tree造成资源浪费。针对此类问题,提出了基于数据划分且不生成全局FP-tree的PL-FPgrowth算法。该算法采用并行地挖掘局部FP-tree,解决了内存不足无法构造全局FP-tree的问题,在挖掘局部频繁项时,不需要挖掘其它节点数据信息,减少了节点间的通信开销。PL-FPgrowth算法运用MapReduce并行计算模型,但该算法存在构建和挖掘局部FP-tree时没有考虑局... 

【文章来源】:华北水利水电大学河南省

【文章页数】:74 页

【学位级别】:硕士

【部分图文】:

云平台下医疗大数据的FP-Growth算法的优化研究


Hadoop结构框架图

架构图,架构,数据块


2 相关技术研究的分片情况、DataNode 状态信息以及数据块的存储位置等。DataNode 在本地系统存储实际文件块数据,为文件系统中的客户端提供数据块的读取和写入请求。DataNode 节点为了保持其本地数据块信息的更新以及备份,会隔段时间向NameNode 节点发送心跳[37]。Sencondary NameNode 是辅助后台程序,用来监控HDFS 状态,每隔一段时间通过获取 HDFS 元数据快照的方式自动同步日志信息和元数据[38]。HDFS 架构如图 2-2 所示:

数据流程图,数据流程图,上传文件,客户端


图 2-3 HDFS 读取数据流程图Fig 2-3 HDFS read data flow diagram3.HDFS 数据写入流程(1)客户端向 NameNode 节点发送上传文件请求,NameNode 检查权限、检查目标文件是否已经存在。(2)NameNode 节点按照上传文件大小和配置信息,计算出文件需要切分成多少个数据块,这些数据块可以存放的 DataNode 节点列表以及 DataNode 位置信息和是否可上传的信息返回给客户端。(3)客户端将上传文件自动分割成适当的块,以 packet 为单位按照顺序依次将每一块数据信息写入。HDFS 写入数据流程如图 2-4 所示:


本文编号:3484104

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3484104.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户060bc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com