云计算环境下面向大数据的在线聚集优化机制研究
发布时间:2017-04-11 01:20
本文关键词:云计算环境下面向大数据的在线聚集优化机制研究,,由笔耕文化传播整理发布。
【摘要】:随着社交网络、电子商务等新型互联网应用的蓬勃发展,产生了大量业务数据。这些数据具有规模庞大、增长迅速、结构多样等显著特点,是典型的大数据。针对大数据的查询处理是实现企业决策支持、业务报表分析等核心商业应用的基础,受到业界的广泛关注。如何快速、高效地实现大数据查询处理已成为当前研究热点及难点。云计算作为一种弹性、可扩展的分布式计算模式,可提供强大的计算、存储能力,逐渐成为大数据查询处理难题的重要解决方案。近年来,研究人员将在线聚集机制引入云计算环境,通过对随机样本的近似估计获取近似查询结果,在满足用户查询精度的前提下通过精度与性能的折中来实现查询性能的大幅提升。然而,现有云计算环境下的在线聚集机制并不能很好地支持倾斜数据集和高并发查询,导致样本采集效率和样本质量偏低,且具有较高的冗余计算开销,直接影响查询性能;同时基于中心极限定理的估计方法存在估计失效问题,降低了查询精度进而影响查询性能。本文针对云计算环境下在线聚集研究工作的不足,依次从底层数据管理、任务执行模式、在线聚集近似估计三个角度入手,分别围绕在线聚集数据预处理、多查询共享优化、近似估计失效等问题展开研究,旨在提高在线聚集整体执行性能,满足大数据查询处理对性能和精度的双重需求。综上所述,本文研究思路可概括如下:首先,在底层数据管理方面,面向倾斜数据提出一种基于内容的数据划分算法及数据块索引、放置策略,通过提高在线聚集的采样效率和样本质量、保证计算与存储负载均衡,实现在线聚集执行性能的大幅提升;其次,在任务执行模式方面,针对高并发查询请求提出两阶段共享策略,通过合并重复的采样及计算过程减少冗余开销,提高在线聚集的执行性能;再次,在近似估计方法方面,针对在线聚集近似估计失效问题,结合bootstrap采样方法提出一种混合近似查询框架,通过预测在线聚集失效概率实现查询模式的动态切换,进一步提高在线聚集执行性能;最后,基于东南大学云计算平台,结合上述理论研究成果设计并实现云计算在线聚集原型系统,基于真实电子商务数据对系统进行功能和性能测试以验证其可用性和有效性。本文对云计算环境下的在线聚集机制进行了深入探索,通过一系列实验以及在实际云计算环境中的运行结果表明,本文研究成果能够在保证用户查询精度的同时有效地提高在线聚集执行性能,可为电子商务报表统计、业务分析等典型大数据查询处理应用提供行之有效的解决方案,为大数据查询处理的发展做出有益贡献。
【关键词】:云计算 大数据查询处理 在线聚集 查询优化 近似估计 随机采样
【学位授予单位】:东南大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
- 摘要4-5
- ABSTRACT5-14
- 缩略词表14-15
- 第1章 引言15-29
- 1.1 研究背景15-20
- 1.2 研究动机20-23
- 1.3 研究思路23-24
- 1.4 研究目标与内容24-26
- 1.4.1 研究目标24
- 1.4.2 研究内容24-26
- 1.5 论文组织26-29
- 第2章 研究现状29-37
- 2.1 引言29
- 2.2 计算数据并行处理技术研究现状29-32
- 2.3 计算数据组织与管理技术研究现状32-33
- 2.4 在线聚集相关技术研究现状33-35
- 2.5 研究现状总结35-37
- 第3章 在线聚集数据预处理机制37-69
- 3.1 引言37-39
- 3.2 数据划分与数据块索引39-43
- 3.2.1 基于内容的数据划分策略40-42
- 3.2.2 基于红黑树的数据块索引机制42-43
- 3.3 两阶段数据混排43-45
- 3.3.1 两阶段数据混排算法44-45
- 3.4 数据块放置策略45-54
- 3.4.1 公平数据块放置算法46-50
- 3.4.2 多副本情况下公平放置算法的容错性分析50-54
- 3.5 实验系统实现54-62
- 3.5.1 数据预处理机制的实现54-55
- 3.5.2 基于MapReduce的在线聚集功能实现55-62
- 3.5.2.1 单表查询56-58
- 3.5.2.2 多表查询58-60
- 3.5.2.3 近似估计方法60-62
- 3.6 实验分析62-68
- 3.6.1 实验环境与部署62-63
- 3.6.2 实验结果63-68
- 3.7 小结68-69
- 第4章 在线聚集共享查询优化机制69-97
- 4.1 引言69-70
- 4.2 在线聚集共享查询框架70-72
- 4.2.1 共享查询系统架构70-71
- 4.2.2 共享方式71-72
- 4.3 两级查询共享策略72-83
- 4.3.1 第一级查询共享:共享采样73-74
- 4.3.2 第二级查询共享:共享统计量计算74-83
- 4.3.2.1 形式化描述76-77
- 4.3.2.2 统计量计算共享算法SLSA(second level sharing algorithm)77-82
- 4.3.2.3 算法复杂度分析82-83
- 4.4 实验系统实现83-87
- 4.4.1 单表查询85-87
- 4.4.2 多表查询87
- 4.5 实验分析87-95
- 4.5.1 实验环境与设置88-89
- 4.5.2 实验结果89-95
- 4.6 小结95-97
- 第5章 在线聚集动态切换机制97-119
- 5.1 引言97-98
- 5.2 混合近似查询框架98-101
- 5.2.1 近似查询模式分析99-100
- 5.2.2 系统架构100-101
- 5.3 动态切换机制101-107
- 5.3.1 在线聚集失效概率估算101-104
- 5.3.2 在线聚集失效概率模型的相关参数设定104-105
- 5.3.3 渐进近似估计105-107
- 5.4 实验系统实现107-112
- 5.4.1 单表查询107-110
- 5.4.2 多表查询110-112
- 5.5 实验分析112-117
- 5.5.1 实验环境与设置112-113
- 5.5.2 实验结果113-117
- 5.6 小结117-119
- 第6章 云计算在线聚集系统OLACLOUD的设计与实现119-141
- 6.1 引言119-120
- 6.2 OLACLOUD的设计与实现120-131
- 6.2.1 Hadoop平台介绍120-122
- 6.2.2 OLACloud总体设计122-123
- 6.2.3 OLACloud具体实现123-131
- 6.2.3.1 在线聚集数据预处理模块的实现124-126
- 6.2.3.2 在线聚集基本查询模块的实现126-128
- 6.2.3.3 在线聚集共享查询模块的实现128
- 6.2.3.4 在线聚集动态切换模块的实现128-131
- 6.2.3.5 在线聚集用户Portal模块的实现131
- 6.3 OLACLOUD的部署与测试131-140
- 6.3.1 系统部署环境132-133
- 6.3.2 系统测试数据集和查询用例133-134
- 6.3.3 系统功能与性能测试134-140
- 6.3.3.1 在线聚集用户Portal模块的功能测试135-137
- 6.3.3.2 在线聚集数据预处理模块的功能与性能测试137
- 6.3.3.3 在线聚集基本查询模块的功能与性能测试137-139
- 6.3.3.4 在线聚集共享查询模块的功能与性能测试139
- 6.3.3.5 在线聚集动态切换模块的功能与性能测试139-140
- 6.4 小结140-141
- 第7章 总结与展望141-145
- 7.1 论文总结141-142
- 7.2 下一步的研究方向142-145
- 参考文献145-151
- 致谢151-153
- 攻读博士期间论文发表情况153-155
- 攻读博士期间参与的科研项目155-157
- 作者简历157
本文关键词:云计算环境下面向大数据的在线聚集优化机制研究,由笔耕文化传播整理发布。
本文编号:297998
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/297998.html