当前位置:主页 > 科技论文 > 计算机论文 >

基于HBase的嵌套式数据存储系统设计与实现

发布时间:2017-07-29 04:12

  本文关键词:基于HBase的嵌套式数据存储系统设计与实现


  更多相关文章: 大数据存储 HBase 嵌套式存储 Dremel


【摘要】:随着互联网时代的来临,数据量迅猛增长,如何合理有效地存储和利用大数据显得尤为重要。针对大数据对于扩展能力及数据格式的需求,业界提出了NoSQL数据库的解决方案。NoSQL采用了分布式的存储架构和无模式的存储格式,以满足存储过程中容量不断增长的需求,同时更加灵活地为用户业务变更提供方便。但是正是由于NoSQL数据库在这些方面的设计调整,减弱了数据在存储过程中的关联性。导致使用NoSQL数据库进行大数据分析时,数据读取速度慢,查询过程更为复杂。针对NoSQL关于数据分析能力的不足,结合Dremel论文提出的嵌套式数据存储格式的思想,本文提出了基于HBase的嵌套式数据存储系统,来解决大数据存储和分析过程中遇到的问题。本文主要工作如下:1)基于HBase的嵌套式数据存储系统采用了HBase原有的分布式存储架构。继承HBase扩展性好、可用性高的特点。使用HMaster对于数据存储系统进行管理操作,利用HRegionServer对于每个子节点上的数据存储进行管理。2)对于HBase按列存储格式进行格式转换。重构HRegion类,添加数据转换模块,将HBase原有列式存储格式转换为嵌套式数据存储格式。利用基于Dremel实现的嵌套式数据存储文件格式Parquet对于数据进行持久化工作。3)实现基于HBase的嵌套式数据存储系统的存储和读取模块。完成基于HBase的嵌套式数据存储系统的读写功能。并强化了读取模块中的查询功能。4)通过数据分析实验验证基于HBase的嵌套式数据存储系统在数据分析过程中的性能提升。利用MapReduce计算框架对存储数据进行分析,其结果显示基于HBase的嵌套式存储系统按列查询性能比原HBase存储系统提升三分之一左右。当存储表中列数目增加时,基于HBase的嵌套式存储系统耗时增加更少。基于HBase的嵌套式数据存储系统可以满足对于大数据读写性能的要求,同时在进行大数据分析的过程中,减少了对于不必要数据的读取开销,降低了磁盘和CPU的损耗,加快了大数据的分析速度。
【关键词】:大数据存储 HBase 嵌套式存储 Dremel
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333
【目录】:
  • 摘要4-6
  • Abstract6-14
  • 第1章 绪论14-24
  • 1.1 课题背景14-15
  • 1.2 研究目的及意义15-19
  • 1.2.1 大数据存储特点15-16
  • 1.2.2 NoSQL数据库特点16
  • 1.2.3 NoSQL数据库中存储结构问题16-17
  • 1.2.4 NoSQL数据库数据查询中的问题17-19
  • 1.2.5 数据存储结构优化的作用19
  • 1.3 研究内容19-21
  • 1.3.1 研究目的19-20
  • 1.3.2 本文工作及创新点20-21
  • 1.4 文章结构21-22
  • 1.5 本章小结22-24
  • 第2章 大数据存储与应用综述24-40
  • 2.1 大数据存储技术24-29
  • 2.1.1 NoSQL24-25
  • 2.1.2 CAP理论25-27
  • 2.1.3 数据存储模型27-29
  • 2.2 大数据应用技术29-32
  • 2.2.1 离线数据处理29-31
  • 2.2.2 即时数据处理31
  • 2.2.3 流式数据处理31-32
  • 2.3 HBase32-34
  • 2.3.1 HBase架构32-34
  • 2.3.2 HBase存储34
  • 2.4 Google交互式分析系统Dremel34-39
  • 2.4.1 嵌套式数据35-37
  • 2.4.2 嵌套式数据存储格式37-38
  • 2.4.3 嵌套式数据读取原理38-39
  • 2.5 本章小结39-40
  • 第3章 基于HBase嵌套式数据存储系统架构设计40-48
  • 3.1 分布式集群架构40-42
  • 3.1.1 主从式分布式集群架构40-41
  • 3.1.2 环状式分布式集群架构41-42
  • 3.2 基于HBase嵌套式数据存储系统架构42
  • 3.3 数据管理类HRegion重构42-47
  • 3.3.1 HRegion重构相关类的设计43-46
  • 3.3.2 HRegion重构初始化过程设计46-47
  • 3.4 本章小结47-48
  • 第4章 基于HBase嵌套式数据存储系统格式转化48-55
  • 4.1 HBase表结构48-49
  • 4.2 HFile文件格式49-50
  • 4.3 Parquet文件格式50-51
  • 4.4 存储数据格式转换实现51-53
  • 4.5 存储数据格式转换实验53-54
  • 4.6 本章小结54-55
  • 第5章 基于HBase嵌套式数据存储系统设计与实现55-74
  • 5.1 嵌套式数据存储模块重构55-64
  • 5.1.1 HBase写入过程中关键类55-58
  • 5.1.2 HBase写入数据流程58-59
  • 5.1.3 Parquet存储数据过程59-60
  • 5.1.4 嵌套式数据存储模块类设计60-63
  • 5.1.5 嵌套式数据存储流程63-64
  • 5.2 嵌套式数据读取模块设计64-72
  • 5.2.1 HBase读取数据过程中关键类64-65
  • 5.2.2 HBase读取数据流程65-67
  • 5.2.3 Parquet读取数据过程67
  • 5.2.4 嵌套式数据存储系统读取格式模块设计67-69
  • 5.2.5 嵌套式数据读取模块类设计69-71
  • 5.2.6 嵌套式数据读取流程71-72
  • 5.3 本章小结72-74
  • 第6章 基于HBase嵌套式存储系统性能测试74-85
  • 6.1 基于HBase嵌套式数据存储系统读写性能分析74-79
  • 6.1.1 实验目的74
  • 6.1.2 实验环境准备74-76
  • 6.1.3 测试工具76-77
  • 6.1.4 实验过程77
  • 6.1.5 实验结果分析77-79
  • 6.2 基于HBase嵌套式数据存储系统数据分析性能分析79-84
  • 6.2.1 实验环境准备80-81
  • 6.2.2 实验目的81
  • 6.2.3 实验过程81-82
  • 6.2.4 实验结果分析82-84
  • 6.3 本章小结84-85
  • 第7章 总结与展望85-88
  • 7.1 本文工作总结85-86
  • 7.2 未来工作展望86-88
  • 7.2.1 嵌套式存储结构的扩展86
  • 7.2.2 嵌套式存储结构查询应用86-87
  • 7.2.3 数据按需选择CAP87-88
  • 参考文献88-91
  • 攻读硕士学位期间主要的研究成果91-92
  • 致谢92

【相似文献】

中国期刊全文数据库 前10条

1 ;永久性数据存储系统寻求合作[J];电脑与电信;2009年02期

2 杨则正;美国空军人员数据存储系统[J];管理科学文摘;1994年07期

3 李亮元;周银珍;;数据存储系统在银行的应用[J];金融电子化;2002年11期

4 陈端荣,裴先登,谢长生,让光林;体全息数据存储系统中的一种调制码研究[J];小型微型计算机系统;2003年01期

5 张展 ,何岷 ,徐广毅;嵌入式电子飞行仪表系统(一)——数据通信和数据存储系统设计[J];电子世界;2003年05期

6 杨光镇;中山电力数据存储系统方案[J];电力信息化;2004年05期

7 邢笠;;数字图书馆数据存储系统解决方案的探讨[J];浙江万里学院学报;2006年02期

8 沈兆龙;江兵;蔡建文;唐火红;邢卉;徐敏;黄文浩;;共焦双光头多层数据存储系统[J];光电工程;2007年07期

9 张李荪;;信息化建设中的数据存储系统建设[J];人民长江;2009年07期

10 李二补;;数据存储系统中可靠性及容错性研究[J];山西科技;2010年01期

中国重要会议论文全文数据库 前3条

1 江杨;;流数据存储系统体系结构研究[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年

2 章政海;;电厂数据存储系统总体构架研究[A];二○○九年全国电力企业信息化大会论文集[C];2009年

3 李非;邱天爽;迟戈;魏晶;;高速数据存储在CT成像系统中的应用研究[A];2008年医疗仪器学术年会暨理事会论文汇编[C];2008年

中国重要报纸全文数据库 前10条

1 惠闻;SAN应用不再难[N];网络世界;2000年

2 ;SAN——高瞻者的选择[N];网络世界;2001年

3 ;传统存储方式 面临变革[N];中国计算机报;2004年

4 ;突破存储的极限[N];中国电脑教育报;2004年

5 ;惠普简化行业数据存储系统[N];人民邮电;2005年

6 ;青岛大学医学院附属医 Centera 应用案例[N];中国电子报;2005年

7 陈旭兵;岳阳医院“分级存储”PACS构建[N];网络世界;2008年

8 程鸿;政府信息资源需层次化管理[N];计算机世界;2004年

9 刘燕;福建采购工商管理系统信息建设项目[N];政府采购信息报;2008年

10 IBM存储事业部 张英伟;用逻辑卷镜像安全备份[N];中国计算机报;2006年

中国博士学位论文全文数据库 前1条

1 陈海霞;计算机数据存储系统中读写头/盘间超薄气膜动力稳定性研究[D];华中科技大学;2004年

中国硕士学位论文全文数据库 前10条

1 林潘榕;基于连接顺序优化的分布式能耗数据存储系统的研究与实现[D];华南理工大学;2015年

2 朱伟健;基于数据属性的大数据存储系统研究与实现[D];华南理工大学;2015年

3 马浩田;基于HBase的嵌套式数据存储系统设计与实现[D];浙江大学;2015年

4 钟晓华;银行操作数据存储系统的分析与应用[D];内蒙古大学;2009年

5 黄丽华;江西电信公司运营数据存储系统的升级方案设计[D];南昌大学;2010年

6 张灿;云存储中的数据动态平衡技术研究[D];上海交通大学;2012年

7 王建光;大规模时间序列数据存储系统的研究与实现[D];华中科技大学;2013年

8 黄寅;高速数据存储系统的设计与应用[D];华中科技大学;2009年

9 苏文洲;容忍入侵的数据存储系统研究与设计[D];兰州大学;2006年

10 祁军;运营数据存储系统的设计与实现[D];南京邮电大学;2012年



本文编号:587413

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/587413.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8c775***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com