基于云计算的灾害大数据管理方法研究与实现
本文关键词:基于云计算的灾害大数据管理方法研究与实现,,由笔耕文化传播整理发布。
【摘要】:随着物联网技术的飞速发展,由各类计算机或机器设备产生的数据量越来越多,已经远远超过了人类的想象,如何有效地存储和管理物联网上的海量数据信息已经成为了当今人们极为关注的重大问题之一。利用视频图像设备和传感器组来实现安全监测是物联网的重要应用之一,由此而采集到的视频图像和传感器信息在后期的灾害事故反演和分析上能够提供科学的数据支撑。为了使物联网上的这些海量数据能够最大限度地发挥其潜在价值,必须以一种有效的方式将其组织存储。本论文通过研究新兴的数据存储方式对比传统数据存储方式的优劣,提出了一种基于云计算的灾害大数据存储管理方法,以达到海量数据的快速存储和读取能力。本论文以云计算中代表性最强的Hadoop框架为基础,提出了视频图像小文件和传感器数据的存储管理方法及其理论依据。本论文最后进行了一系列的实验,以验证提出的存储管理方法,并对比分析了在海量灾害大数据管理方面的性能优势。本论文主要研究和实现的内容有以下几点:①分析了Hadoop框架中的HDFS(Hadoop Distributed File System)文件系统和HBase(Hadoop Database)数据库各自的存储特点和数据读写方式,并实现了以HDFS作为视频图像文件存储、以HBase作为图像文件元数据和传感器数据的持久化存储的方法,提高了存储效率。②以HDFS作为文件系统层存储视频图像小文件时,由于HDFS的设计初衷是用来处理大文件,存储海量的图像小文件会导致Name Node节点负载过重而影响hadoop集群的性能。因此,本论文提出了一种新的小文件合并存储策略,这种存储策略实现的是一种小文件缓存合并思想,即每个小文件在写入到HDFS之前先将其合并到一个大文件缓存中,待到缓存写满再输出缓存内容到HDFS。写入时,缓存区选择和维护过程由运行在客户端的小文件预处理模块决定,写入小文件的同时将其元数据信息写入到HBase;小文件读取时,先由HBase读取元数据信息,然后根据元数据来读取实际文件。③以HBase作为数据持久化层存储小文件的元数据和传感器数据。为了满足时间序列数据的多条件检索,本论文设计了一种利用二级索引实现反向索引表方法,在满足多条件查询需求的同时,也实现了数据存储和读取性能之间的平衡。另外,在HBase中集成了Mapreduce,使得HBase具有了统计分析海量数据的能力。④最后进行了一系列对比实验,以科学形象的数据表现了本论文提出的HDFS小文件合并算法和基于HBase的二级索引方法,相比较于其它方法在读写性能上的改进幅度,验证了这两种数据存储管理方法的正确性。
【关键词】:大数据存储 HDFS HBase 小文件存储 文件合并 二级索引 云计算 Hadoop
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333;TP311.13
【目录】:
- 摘要5-7
- Abstract7-12
- 第一章 绪论12-18
- 1.1 研究背景12-13
- 1.2 研究内容及意义13-14
- 1.3 国内外研究现状14-17
- 1.3.1 云计算的发展14-15
- 1.3.2 基于云计算的数据存储发展15-17
- 1.4 本论文组织结构17
- 1.5 本章小结17-18
- 第二章 相关理论和关键技术18-33
- 2.1 分布式文件系统18-20
- 2.1.1 分布式文件系统概述18-19
- 2.1.2 分布式文件系统与本地文件系统对比分析19-20
- 2.2 NoSQL数据库20-22
- 2.2.1 NoSQL数据库概述20-21
- 2.2.2 NoSQL与传统关系数据库对比分析21-22
- 2.3 HDFS分布式文件系统22-27
- 2.3.1 HDFS体系结构23-24
- 2.3.2 HDFS写文件24-26
- 2.3.3 HDFS读文件26-27
- 2.4 HBase数据库27-31
- 2.4.1 HBase架构27-29
- 2.4.2 HBase数据模型29-31
- 2.5 Mapreduce模型31-32
- 2.6 本章小结32-33
- 第三章 灾害大数据管理方法研究33-41
- 3.1 拟解决的关键问题33
- 3.2 图像文件存储33-35
- 3.2.1 数据库存储图像33-34
- 3.2.2 文件系统存储图像34
- 3.2.3 两种存储方法对比34-35
- 3.3 HDFS小文件问题35-36
- 3.4 小文件处理方法36-39
- 3.4.1 HAR文件36-37
- 3.4.2 SequenceFile37-39
- 3.5 本论文研究思路39
- 3.6 本章小结39-41
- 第四章 基于HDFS的小文件存储策略41-50
- 4.1 设计思路41-42
- 4.2 系统结构设计42-43
- 4.3 小文件缓存合并模型43-44
- 4.4 小文件元数据管理44-45
- 4.5 小文件的读写45-49
- 4.6 本章小结49-50
- 第五章 基于HBase的数据持久化存储50-60
- 5.1 时间序列数据50-51
- 5.2 基于HBase的传感器数据存储51-53
- 5.2.1 系统需求分析51
- 5.2.2 行健设计51-53
- 5.3 自定义辅助索引表53-57
- 5.3.1 系统架构53-54
- 5.3.2 索引表的建立54-55
- 5.3.3 基于索引表的数据检索55-57
- 5.4 基于Mapreduce的HBase数据统计分析57-58
- 5.5 本章小结58-60
- 第六章 性能测试与分析60-68
- 6.1 实验目的60
- 6.2 实验环境60
- 6.3 测试方法60-61
- 6.4 实验结果分析与结论61-67
- 6.4.1 HDFS性能测试61-64
- 6.4.2 HBase性能测试64-67
- 6.4.3 实验结论67
- 6.5 本章小结67-68
- 总结与展望68-70
- 参考文献70-73
- 读硕士学位期间取得的研究成果73-74
- 致谢74-75
- 附件75
【参考文献】
中国期刊全文数据库 前10条
1 雷亮;曾文碧;;图像存储技术研究[J];重庆科技学院学报(自然科学版);2009年01期
2 周奇年;陈玲玲;李革;;云计算与云数据管理[J];电信科学;2010年S1期
3 陈强璋;一种高效的二叉查找树——红黑树[J];华东师范大学学报(自然科学版);2000年03期
4 高邦仁;;“云”中的亚马逊[J];互联网周刊;2011年17期
5 刘正伟;文中领;张海涛;;云计算和云数据管理技术[J];计算机研究与发展;2012年S1期
6 刘强;崔莉;陈海明;;物联网关键技术与应用[J];计算机科学;2010年06期
7 王雪涛;刘伟杰;;分布式文件系统[J];科技信息(学术研究);2006年11期
8 赵洋;;淘宝TFS深度剖析[J];数字化用户;2013年03期
9 申德荣;于戈;王习特;聂铁铮;寇月;;支持大数据管理的NoSQL系统研究综述[J];软件学报;2013年08期
10 黄永勤;;国外大数据研究热点及发展趋势探析[J];情报杂志;2014年06期
中国硕士学位论文全文数据库 前5条
1 魏家宾;基于Hadoop的海量交易记录查询系统研究[D];南京邮电大学;2013年
2 卓海艺;基于HBase的海量数据实时查询系统设计与实现[D];北京邮电大学;2013年
3 常涛;改进型MapReduce框架的研究与设计[D];北京邮电大学;2011年
4 姚永刚;基于云计算的人机对话系统研究与实现[D];华南理工大学;2013年
5 刘晓静;基于HBase的海量小视频存储与检索系统的研究与实现[D];西安电子科技大学;2014年
本文关键词:基于云计算的灾害大数据管理方法研究与实现,由笔耕文化传播整理发布。
本文编号:265545
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/265545.html