基于Hadoop的数据迁移与存储的研究

发布时间：2017-09-14 07:15

本文关键词：基于Hadoop的数据迁移与存储的研究

更多相关文章： Hadoop 数据迁移 数据存储 Hive HBase

【摘要】：大数据时代到来了,所有企业每天的信息储存量以ZB统计,越来越多的企业倾向于多层次的数据管理系统,将大量的数据转移到专业的数据管理平台,能够存储、计算和管理大规模数据的大数据平台。本文设计并实现了一个数据迁移存储系统。该系统能够实现企业日常数据管理任务中数据向Hadoop大数据平台的迁移和在Hadoop平台的自动化存储归档。等待迁移的数据有非结构化的数据文件也有存储在数据库中的结构化数据。结合待迁移数据的结构特点,考虑到迁移的安全性、完整性、效率及成本,通过对几种迁移方式的对比分析,本文最终采用基于FTP服务的开发实现了大量文件的跨平台迁移。这样的迁移方式保障了迁移本身的安全性,同时也使整个系统流程更加流畅清晰。为了实现数据存储归档的自动化,数据迁移需要携带参数配置文档来说明如何处理数据。在Hadoop平台程序自动的访问到达的数据文件,通过解析参数执行命令,相当于Hadoop平台的数据处理接口。Hadoop是现在比较主流的大数据平台架构。平台上用HDFS分布式文件系统来存储和管理数据文件,同时支持MapReduce分布式计算框架的编程,能够提供安全可靠的数据存储和高效灵活的数据计算。Hive和HBase是基于Hadoop的数据管理组件,两者本质不同且各有所长,本文实现了Hive与HBase的整合,结合两者的长处实现了一种高效、灵活的复合存储体系。经测试,系统能够支持完成数据的迁移存储,同时Hive与HBase的整合使平台的数据管理性能得到了优化。
【关键词】：Hadoop 数据迁移 数据存储 Hive HBase
【学位授予单位】：北京邮电大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TP311.13;TP333
【目录】：

摘要4-5
ABSTRACT5-7
目录7-9
第一章绪论9-15
1.1 课题背景和研究意义9-10
1.2 研究现状10-13
1.2.1 大数据平台11
1.2.2 数据迁移11-12
1.2.3 数据存储12-13
1.3 论文的主要内容及结构安排13-15
第二章系统相关技术分析15-32
2.1 Hadoop简介15-16
2.2 MapReduce关键技术分析16-19
2.2.1 MapReduce编程模型16
2.2.2 MapReduce的处理过程16-18
2.2.3 MapReduce的容错机制18-19
2.3 HDFS文件系统分析19-25
2.3.1 HDFS技术特点19-20
2.3.2 HDFS的体系结构20-21
2.3.3 HDFS的节点管理21-22
2.3.4 HDFS读写文件流程22-24
2.3.5 HDFS副本控制24-25
2.3.6 HDFS容错性25
2.4 HBase关键技术分析25-29
2.4.1 HBase技术特点26
2.4.2 HBase的体系结构26-27
2.4.3 HBase的数据模型27-28
2.4.4 数据查询流程分析28-29
2.5 Hive关键技术分析29-31
2.5.1 Hive技术特点29-30
2.5.2 Hive的体系结构30-31
2.5.3 Hive与传统数据库对比31
2.6 本章小结31-32
第三章数据迁移和存储系统设计32-54
3.1 系统整体架构设计32-34
3.1.1 背景与需求分析32-33
3.1.2 架构设计33-34
3.2 基于Hive与HBase整合的复合存储方案设计34-40
3.2.1 Hive与HBase的整合优势分析35-37
3.2.2 Hive与HBase的整合原理37-40
3.3 基于FTP的数据迁移设计40-47
3.3.1 数据迁移工具Sqoop40-42
3.3.2 基于FTP的数据迁移42-43
3.3.3 数据迁移流程设计43-47
3.4 异步数据存储处理接口设计47-52
3.4.1 日常任务分析47-49
3.4.2 数据存储的相关机制设计49-50
3.4.3 任务执行流程设计50-52
3.5 本章小结52-54
第四章数据迁移存储系统的实现54-70
4.1 Hive与HBase整合的实现54-58
4.1.1 整合的配置54-55
4.1.2 关联表55-58
4.2 数据迁移模块的实现58-65
4.2.1 基础设置及数据库的实现58-60
4.2.2 主要功能的实现60-65
4.3 数据存储模块的实现65-69
4.3.1 基础设置及数据库的实现65-66
4.3.2 主要功能实现66-69
4.4 本章小结69-70
第五章测试70-79
5.1 测试环境70-71
5.2 系统功能测试71-75
5.3 Hive与HBase整合查询性能测试75-77
5.4 本章小结77-79
第六章总结与展望79-81
6.1 本文的主要工作总结79
6.2 未来工作展望79-81
参考文献81-83
致谢83

【参考文献】

中国期刊全文数据库前2条

1 张兴旺;李晨晖;秦晓珠;;构建于廉价计算机集群上的云存储的研究与初步实现[J];情报杂志;2011年11期

2 许春玲;张广泉;;分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较与分析[J];苏州大学学报(工科版);2010年04期

，

本文编号：848620

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/848620.html

上一篇：面向航电系统的Power架构双核处理器系统设计
下一篇：基于OpenStack的云存储系统的研究与设计

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|