基于Hadoop的时态信息存储与检索策略的研究
发布时间:2017-08-18 09:26
本文关键词:基于Hadoop的时态信息存储与检索策略的研究
更多相关文章: 时态信息 Hadoop HBase 存储模型 关系演算 索引
【摘要】:随着信息技术的深入发展,蜂拥而至的信息演变成了各个领域和行业分析、处理以及应用的关键,成为左右决策最重要的因素。几乎所有信息都显式或隐式地具备时态特征,探讨时态信息的存储与检索技术成为是时态信息处理的核心之一。当前架构在传统关系数据库之上的时态数据模型在进行超大规模和高并发的时态数据存储和处理时遭遇了性能瓶颈,暴露了诸多难以克服的问题,既无法满足对时态数据的高并发读写需求,同时也难以处理大量存在的类型复杂的非结构化数据,学者们开始逐步关注分布式系统基础架构Hadoop下的应用。Hadoop是一个开源的云计算架构,具有大规模扩展和水平分布的特点,可以提供动态的存储和计算能力,这就为海量时态数据的存储和快速检索提供了一个新思路。 针对海量非结构化时态信息,构建了在分布式环境下的数据存储模型并在此基础上提出一种基本的时态数据处理方法。使用Hadoop平台下的分布式、非结构化数据库HBase对时态数据进行存储,构造以时态集合为时态存储单元的时态数据存储模型;对于时态信息的查询需求,针对分布式处理特征和时态集合数据类型,提出一种在Map/Reduce编程计算模式下进行时态信息关系演算的实现方法;通过扩展时态区间关系运算,实现以时态集合为基本时态数据操作对象的交、并等关系运算,并以医疗时态数据作为研究实例,表明了所提出的时态数据存储模型和关系演算方案在分布式应用系统下的适用性。对于时态信息的快速检索需求,设计了多级分布式哈希索引表算法(tDHT),实现对时态列族的时态属性值的高效、快速的检索。通过将时态属性值向二维空间映射,实现时态数据向空间对象的转化,采用对空间数据的处理方法对时态数据区域进行划分,生成多级时态数据子区域,利用分布式哈希表思想设计HBase存储的多级索引表目录。 论文的创新之处包括:(1)针对传统的时态数据库在存储海量非结构化时态信息遭遇性能瓶颈,构建分布式存储结构HBase下的海量时态信息存储模型,设计了海量时态信息的存储架构;(2)对于存储体系中时态信息的查询、分析操作,提出一种在Map/Reduce编程模式下进行海量时态信息关系演算的方案,实现了以时态集合为操作对象的并、交以及笛卡尔积等时态关系演算过程;(3)针对海量时态信息的快速、高效检索需求,设计了多级分布式哈希索引表算法(tDHT),实现对时态列族的时态属性值的高效、快速检索。 根据设计方案,文章最后进行了相应的性能测试和数据分析,从实验结果可以看出,本文提出的海量时态信息的存储、查询与检索方案在云计算平台下展现了良好的适用性,较大程度上提高了对海量时态数据的处理能力,表现出了较好的性能。
【关键词】:时态信息 Hadoop HBase 存储模型 关系演算 索引
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333;TP391.3
【目录】:
- 摘要4-6
- ABSTRACT6-12
- 第一章 绪论12-17
- 1.1 课题研究背景及意义12-14
- 1.2 国内外研究现状14-15
- 1.3 本文的研究内容和论文结构15-17
- 1.3.1 本文的研究内容15-16
- 1.3.2 论文结构16-17
- 第二章 时态信息以及Hadoop相关技术概述17-31
- 2.1 时态信息的表示及时态关系17-18
- 2.2 时态数据库的发展18-19
- 2.2.1 时态数据库的发展现状18-19
- 2.2.2 实现时态数据库的方法19
- 2.3 Hadoop云计算框架19-24
- 2.3.1 Hadoop集群20-21
- 2.3.2 HDFS存储体系21-22
- 2.3.3 Map/Reduce并行编程模式22-24
- 2.4 HBase分布式数据库24-30
- 2.4.1 HBase概述24-25
- 2.4.2 HBase数据模型25-27
- 2.4.3 HBase系统架构27-30
- 2.5 本章小结30-31
- 第三章 海量时态信息的存储架构与查询方案31-48
- 3.1 HBase时态信息存储模型的设计31-33
- 3.1.1 时态信息的重构31-32
- 3.1.2 时态信息存储模型的构建32-33
- 3.2 时态信息存储系统的架构设计33-38
- 3.2.1 配置模块34-35
- 3.2.2 数据读写控制模块35
- 3.2.3 数据写入模块35
- 3.2.4 数据删除模块35-36
- 3.2.5 数据查询模块36-38
- 3.2.6 时态数据检索模块38
- 3.3 时态关系演算的实现方案38-47
- 3.3.1 关系代数的运算扩展39-42
- 3.3.2 基于Map/Reduce的时态集合关系演算42-47
- 3.4 本章小结47-48
- 第四章 基于HBase时态信息的索引策略48-56
- 4.1 时态集合的聚类策略48-51
- 4.1.1 时态集合的空间映射48-50
- 4.1.2 时态数据区域的划分策略50-51
- 4.2 基于HBase多级哈希索引表的设计51-55
- 4.2.1 一级索引表结构的设计53-54
- 4.2.2 多级索引表结构的设计54-55
- 4.3 本章小结55-56
- 第五章 仿真实验及数据分析56-62
- 5.1 测试环境部署56-58
- 5.2 实验方案及结果分析58-61
- 5.3 实验小结61-62
- 结论62-64
- 参考文献64-67
- 攻读学位期间发表的论文67-69
- 致谢69
【引证文献】
中国硕士学位论文全文数据库 前1条
1 陈磊;不确定时态信息的粒度建模及其时态关系研究[D];广东工业大学;2015年
,本文编号:693812
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/693812.html