当前位置:主页 > 科技论文 > 计算机论文 >

HBase存储的研究与应用

发布时间:2017-07-18 20:07

  本文关键词:HBase存储的研究与应用


  更多相关文章: HBase Hadoop 数据库 存储 加载数据 查询


【摘要】:因特网的快速发展已经彻底改变了人们的生活。如今每时每刻都会有大量的数据被传到互联网上。伴随着数据规模越来越大,越来越多的数据存储业务场景开始考虑水平扩展,这样就可以删除和增加存储服务,而目前的关系型数据库更侧重在一台服务器上。海量数据的存储成为瓶颈,单台服务器无法加载大量数据。HBase是从Hadoop中分离出来的Apache顶级开源项目。由于它很好地用Java实现了Google的BigTable系统的大部分功能,所以在数据量激增的今天非常受欢迎。HBase的存储机制不同于传统关系型数据库,它是基于列存储的非关系型数据库,在海量数据存储与查询方面有很大的优势。因此,研究HBase的存储机制以及查询特性有很大的实际意义。 本文从HBase的存储机制入手,对其加载数据特点以及查询方式等内容进行了深入研究。主要工作包括以下内容: 1. HBase底层存储机制的研究。本文详细分析了HBase的底层存储机制,并以实际存储数据出发,对其存储特点进行了分析。HBase会彻底修改数据的存储格式,但需要耗费更多的存储空间以换得快速的查询效率。 2. HBase加载数据的研究。使用HBase之前,首先需要将海量数据加载到HBase当中。HBase本身带有几种不同的加载数据方式,各有特点。同时提供了接口允许用户自定义加载数据。文本借助MapReduce并行计算框架实现了HBase自定义并行加载数据方式,并且其具有较高的执行效率。 3. HBase查询效率的研究与分析。HBase的优势在于海量数据随机查询,但是由于其不支持SQL查询,对于复查的业务流程难以满足需求。但是其提供了与Hive整合的接口,允许将数据存储在HBase当中,但是用Hive进行查询。本文详细分析了HBase的查询特点,并实现了HBase与Hive整合查询。 4. HBase与MapReduce整合的研究与分析。相对于其他非关系型数据库,HBase最大的优势在于与Hadoop的天然结合。Hadoop是当前最流行的云计算技术之一。借助HBase的接口,本文实现了HBase与MapReduce的整合,使得算法可以直接以HBase作为输入、输出源。
【关键词】:HBase Hadoop 数据库 存储 加载数据 查询
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333
【目录】:
  • 摘要4-6
  • ABSTRACT6-10
  • 第一章 绪论10-19
  • 1.1 课题研究背景10-12
  • 1.2 国内外研究现状12-16
  • 1.3 论文相关工作16-17
  • 1.3.1 HBase底层存储机制以及向HBase加载数据的研究16
  • 1.3.2 HBase查询分析16-17
  • 1.3.3 HBase与MapReduce整合17
  • 1.4 论文组织结构17-19
  • 第二章 HBase存储机制及加载数据研究19-33
  • 2.1 HBase存储机制研究19-24
  • 2.1.1 HBase系统架构20-22
  • 2.1.2 HBase文件存储格式22-24
  • 2.2 HBase加载数据24-31
  • 2.2.1 自带加载数据方法25-28
  • 2.2.2 自定义加载数据28-31
  • 2.3 本章小结31-33
  • 第三章 HBase查询分析33-40
  • 3.1 简单查询对比分析33-36
  • 3.1.1 Hive对比分析33-35
  • 3.1.2 存储空间对比35-36
  • 3.2 HBase与Hive整合36-39
  • 3.2.1 整合操作36-38
  • 3.2.2 聚合查询对比38-39
  • 3.3 本章小结39-40
  • 第四章 HBase典型示范应用40-52
  • 4.1 电信网络寻呼黑洞40-44
  • 4.1.1 数据描述41-42
  • 4.1.2 传统解决方法描述42-44
  • 4.2 基于HBase的寻呼黑洞分析44-51
  • 4.2.1 建立数据表45-47
  • 4.2.2 加载数据47-48
  • 4.2.3 数据分析48-51
  • 4.3 本章小结51-52
  • 第五章 基于HBase的MapReduce处理52-62
  • 5.1 基于HBase的MapReduce实现原理52-54
  • 5.2 典型数据挖掘算法实现54-59
  • 5.2.1 Kmeans 算法54-56
  • 5.2.2 单变量假设检验56-59
  • 5.3 性能测试59-61
  • 5.4 本章小结61-62
  • 第六章 总结与展望62-64
  • 6.1 全文工作总结62-63
  • 6.2 展望未来63-64
  • 参考文献64-66
  • 致谢66-68
  • 攻读学位期间发表的学术论文目录68

【参考文献】

中国期刊全文数据库 前9条

1 王映东;匡艺;费江涛;;Bigtable系统的负载平衡技术研究[J];计算机安全;2009年02期

2 李慧莲;邹海燕;林宇年;;寻呼成功率优化方法探讨[J];电信技术;2013年05期

3 刘海涛;无线寻呼“黑洞”的查找和优化[J];通信世界;2004年33期

4 毛典辉;;基于MapReduce的Canopy-Kmeans改进算法[J];计算机工程与应用;2012年27期

5 程丽萍;孙传亮;;寻找寻呼黑洞小区提升寻呼成功率的方法[J];黑龙江科技信息;2013年20期

6 张晓清;费江涛;潘清;;分布式海量数据管理系统Bigtable主服务器设计[J];计算机工程与设计;2010年05期

7 张晓清;费江涛;潘清;;分布式海量数据管理系统Bigtable数据服务器设计[J];网络安全技术与应用;2009年03期

8 陈长生,徐勇勇;重复观测数据单变量方差分析的前提条件的检验[J];中国卫生统计;2000年02期

9 孙少陵;周大;钱岭;;云数据仓库高性能查询技术研究[J];邮电设计技术;2011年10期



本文编号:559533

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/559533.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户afdea***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com