基于Hadoop的云存储系统的研究与应用

发布时间：2017-04-25 15:51

本文关键词：基于Hadoop的云存储系统的研究与应用，由笔耕文化传播整理发布。

【摘要】：近年来,云计算和软件即服务(SaaS)的受关注度越来越高,云存储成为信息存储领域的一个研究热点。大多数现有的云存储系统是建立在分布式文件系统之上的,其中以HDFS分布式文件系统最被行业所接受,因为可以在其存储的海量数据上应用MapReduce编程模型进行数据挖掘,从而更好地发现数据中蕴含的潜在价值的信息。但是,目前HDFS分布式文件系统中存在着NameNode单点故障、备份节点数等问题,从而影响云存储系统的高可用性;并且关联规则挖掘算法中的并行化实现也有待进一步改进和优化。因此,针对以上问题,本文主要完成了以下工作:分析HDFS中NameNode相关的源码,并研究其工作流程和工作机制,提出基于Heartbeat+Avatar Node的HDFS高可用性方案,该方案具有热备和自动切换的特点。并分析AvatarNode的primary和standby角色相关源码,研究其工作流程和工作机制,提出SecondaryAvatarNode方案,从而增加一个轻量级备份节点,进一步提高云存储系统的高可用性。基于CLOSET+算法对PFP算法在挖掘闭频繁项集方面的不足之处进行优化,主要包括:对集群分组方法进行优化使得每个事务组分配得到的事务尽可能的平均,从而使每个并行的任务达到负载均衡;在挖掘的每一次递归过程中,针对稀疏、稠密数据集投影不同的FP-Tree结构,采用自底向上和由上向下相结合的方法,提高挖掘闭频繁项集的效率;通过使用超集检查的性质,提出基于滑动窗口的方式过滤局部的闭频繁项集,从而得到完备的闭频繁项集。通过搭建Hadoop集群实验平台,验证基于Heartbeat+AvatarNode的高可用性方案和SecondaryAvatarNode方案的有效性,同时分析基于CLOSET+算法对PFP算法在挖掘闭频繁项集方面进行改进和优化后的算法的效率,验证其基于Hadoop架构的挖掘闭频繁项集算法具有良好的扩展性。
【关键词】：HDFS 高可用性 MapReduce 闭频繁项集
【学位授予单位】：电子科技大学
【学位级别】：硕士
【学位授予年份】：2014
【分类号】：TP311.13;TP333
【目录】：

摘要5-6
ABSTRACT6-11
第一章绪论11-18
1.1 研究背景及意义11-13
1.2 国内外研究现状13-15
1.3 研究内容15-16
1.4 论文结构16-18
第二章云存储及挖掘频繁项集相关技术18-33
2.1 云计算18-20
2.1.1 云存储技术18-20
2.1.2 海量数据处理技术20
2.2 HADOOP介绍20-23
2.2.1 HDFS分布式文件系统21-22
2.2.2 MAPREDUCE编程模型22-23
2.3 高可用性的HDFS23-24
2.3.1 可用性23-24
2.3.2 HDFS的高可用性24
2.4 HDFS的元数据分析24-27
2.4.1 内存元数据结构25-26
2.4.2 磁盘元数据文件26-27
2.5 挖掘频繁项集27-32
2.5.1 数据挖掘27-28
2.5.2 关联规则中的挖掘闭频繁项集28
2.5.3 关FP-GROWTH算法及其并行化28-32
2.6 本章小结32-33
第三章基于HEARTBEAT与AVATARNODE的HDFS高可用性方案33-47
3.1 现有解决方案的比较33
3.2 AVATARNODE的方案分析及存在的问题33-39
3.2.1 NAMENODE的启动流程34-36
3.2.2 PRIMARY AVATARNODE的启动流程36-37
3.2.3 STANDBY AVATARNODE的启动流程37
3.2.4 元数据的一致性37-38
3.2.4.1 元数据目录树信息37-38
3.2.4.2 DATANODE与BLOCK数据块映射信息38
3.2.5 切换流程38
3.2.6 存在的问题38-39
3.3 基于HEARTBEAT与AVATARNODE的HDFS高可用性方案39-46
3.3.1 热备自动切换方案39-44
3.3.1.1 HEARTBEAT介绍39-40
3.3.1.2 基于HEARTBEAT与AVATARNODE的高可用性方案40-42
3.3.1.3 实验分析42-44
3.3.2 SECONDARYAVATARNODE方案44-46
3.4 本章小结46-47
第四章基于CLOSET+算法对PFP算法的改进与优化47-67
4.1 PFP算法介绍47-50
4.2 PFP算法在挖掘闭频繁项集时存在的问题50-51
4.3 对集群分组方法的改进51-55
4.3.1 不均匀分组51-52
4.3.2 不均匀分组的步骤描述52-53
4.3.3 测试结果53-55
4.4 基于CLOSET+算法的优化55-59
4.4.1 由上而下的投影策略55-58
4.4.2 优化后的算法描述58-59
4.5 对挖掘结果过滤的改进59-65
4.5.1 基于滑动窗.的过滤方式59-64
4.5.2 基于滑动窗.的过滤算法的描述64-65
4.6 本章小结65-67
第五章实验测试与分析67-72
5.1 实验数据67
5.2 实验环境67-68
5.3 实验结果分析68-71
5.3.1 与PFP算法的比较68-69
5.3.2 加速比对比实验69-71
5.4 本章小结71-72
第六章总结与展望72-74
6.1 本文总结72
6.2 未来的工作72-74
致谢74-75
参考文献75-79

【参考文献】

中国期刊全文数据库前1条

1 陈光鹏;杨育彬;高阳;商琳;;一种基于MapReduce的频繁闭项集挖掘算法[J];模式识别与人工智能;2012年02期

本文关键词：基于Hadoop的云存储系统的研究与应用，由笔耕文化传播整理发布。

，

本文编号：326536

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/326536.html

上一篇：数据中心基础设施能效管理系统关键模块设计与实现
下一篇：基于存储证据的云端数据完整性验证机制研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|