海量数据存储和准实时查询系统设计与实现
发布时间:2017-05-24 14:16
本文关键词:海量数据存储和准实时查询系统设计与实现,由笔耕文化传播整理发布。
【摘要】:海量数据的存储和实时查询正在成为时下研究的热点。公司生成的数据量极速增长,急需一个新的方法来存储和分析数据集。传统的数据库管理系统难以处理海量数据的规模,存储这样规模的数据比较缓慢,并且需要前期做更多的设计和准备。 本文利用Kafka消息队列、Storm流处理框架、HBase数据库等大数据技术,改进Impala大数据搜索引擎,设计并实现一个能够满足海量数据高吞吐量可靠存储和准实时查询需求的系统。系统具有高并发性、健壮性、动态伸缩和高容错性等特性,易于使用,支持高性能存储,改进的Impala搜索引擎可直接基于HBase快照查询,不再影响HBase的性能,可用于复杂的查询统计类需求。首先利用Protocol Buffer对数据序列化并推入Kafka消息队列,Storm流处理系统从Kafka队列拉取消息,KafkaSpout作为数据源向Storm组件发射消息流,本文实现的FilterBolt将过滤掉不安全的数据,HBaseBolt会最终将数据存储到分布式文件系统中,如果由于异常导致存储失败,会再次拉取这个消息处理,直至处理成功,提高了系统的高容错性。Impala集群和HBase集群共享同一个分布式文件系统,当数据存储在分布式文件系统后,系统基于分布式文件系统机架感知原理,将数据会同时分布到Impala和HBase集群中。改进的Impala引擎支持可直接查询HBase快照,保证了Impala和HBase不影响彼此之间的性能,提高了系统的实用性。 最后,本文搭建实验环境完成系统性能测试,监测系统存储的性能和对于异常情况的容错能力,最后与Hive+HBase系统性能进行比较。通过实验结果得出,本文构建的新系统提供高性能存储和可扩展性,实现了海量数据的准实时查询。
【关键词】:Kafka消息队列 Storm流处理框架 HBase分布式数据库 Impala搜索引擎 机架感知
【学位授予单位】:西南石油大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
- 摘要3-4
- Abstract4-5
- 目录5-7
- 第1章 绪论7-12
- 1.1 研究背景7
- 1.2 国内外研究现状7-9
- 1.2.1 存在的主要问题8-9
- 1.3 主要研究内容9-10
- 1.4 本文组织结构10-12
- 第2章 海量数据存储和查询系统关键技术研究12-25
- 2.1 KAFKA消息队列概述12-13
- 2.1.1 Kafka存储13
- 2.2 Storm流处理框架概述13-15
- 2.2.1 拓扑14-15
- 2.3 HBase分布式数据库简介15-17
- 2.3.1 HBase快照17
- 2.4 Impala系统分析17-23
- 2.4.1 Dremel关键技术17-19
- 2.4.2 Impala系统架构19-20
- 2.4.3 Impala客户端20-21
- 2.4.3.1 Impala支持SQL语言20-21
- 2.4.4 Impala执行计划树21-23
- 2.5 机架感知23-24
- 2.6 本章小结24-25
- 第3章 海量数据存储和准实时查询系统的设计和分析25-33
- 3.1 设计目标25
- 3.2 关键问题分析与解决25-29
- 3.2.1 安全策略25-26
- 3.2.2 容错性26
- 3.2.3 改进的Impala架构26-29
- 3.3 系统设计29-32
- 3.3.1 系统整体架构29-30
- 3.3.2 主要模块30-32
- 3.4 本章小结32-33
- 第4章 海量数据存储和准实时查询系统的实现33-41
- 4.0 发布和订阅消息模块实现33-34
- 4.1 数据加工处理34-36
- 4.2 数据存储36-37
- 4.3 数据查询37-40
- 4.4 本章小结40-41
- 第5章 海量数据存储和准实时查询系统的测试与结果分析41-48
- 5.1 实验系统搭建41-46
- 5.1.1 搭建实验环境41
- 5.1.2 Impala源码编译部署41-44
- 5.1.3 实验数据和测试用例设计44-46
- 5.2 测试结果与分析46-47
- 5.2.1 消息处理加工46-47
- 5.3 本章小结47-48
- 第6章 总结与展望48-50
- 致谢50-51
- 参考文献51-54
- 攻读硕士学位期间发表的论文及科研成果54
【参考文献】
中国期刊全文数据库 前5条
1 嵇智辉;倪宏;刘磊;;动态消息队列负载均衡策略的研究与应用[J];计算机工程;2009年08期
2 闵应骅;可信系统与网络[J];计算机工程与科学;2001年05期
3 孟小峰;慈祥;;大数据管理:概念、技术与挑战[J];计算机研究与发展;2013年01期
4 周强;陈岭;马骄阳;赵宇亮;吴勇;王敬昌;;基于改进DPhyp算法的Impala查询优化[J];计算机研究与发展;2013年S2期
5 张鹏;李鹏霄;任彦;林海伦;杨嵘;郑超;;面向大数据的分布式流处理技术综述[J];计算机研究与发展;2014年S2期
本文关键词:海量数据存储和准实时查询系统设计与实现,由笔耕文化传播整理发布。
,本文编号:391073
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/391073.html