当前位置:主页 > 科技论文 > 计算机论文 >

基于连接顺序优化的分布式能耗数据存储系统的研究与实现

发布时间:2017-05-14 19:03

  本文关键词:基于连接顺序优化的分布式能耗数据存储系统的研究与实现,由笔耕文化传播整理发布。


【摘要】:连接优化一直是关系型数据库领域的研究热点之一。对于同样的连接查询目的,数据库需要对执行方案进行规划与选择,使执行代价最小化,执行性能最大化。在分布式环境下,由于应用系统间数据模型、部署模型、以及并发模型的独特性,分布式数据库提供中间件级别的连接优化,难以满足所有应用场景的需求。在华南理工大学分布式能耗数据存储系统中,由于上层数据分析系统的需求,需要频繁地执行多关系跨库连接查询。研究发现,目前使用的分布式数据库中间件Presto所提供的连接优化方案并不适用于我们的应用场景,导致跨库连接查询的性能受制于查询语句的连接顺序。针对这一事实,本文对分布式环境下的连接优化技术进行研究,针对应用场景进行分析,并将优化方案集成于分布式数据库中间件Presto,最终应用到分布式能耗数据存储系统中。本文的主要研究工作有以下几个方面:首先,本文基于上层能耗分析系统对数据存储系统的需求,结合云端部署环境的优势与不足,应用了分布式存储系统的三层架构。三层架构的新存储系统不仅提高了原有存储系统的可用性,更是将原来零散的数据子库进行中心化维护,并向上层能耗分析系统提供分布式查询支持。其次,本文对分布式环境下连接优化技术进行研究,尤其是连接顺序优化技术。通过对搜索空间进行剪枝,对查询代价评估模型以及元数据获取方案进行优化,设计了适用于目前应用场景的连接顺序优化方案。再次,通过对分布式数据库中间件Presto进行研究,将连接顺序优化方案集成到Presto中,并将优化器实现上推到Github。最后,本文还设计了一系列的功能测试与性能测试,表明了新存储系统足以支撑上层分析系统的业务需求,并且在目前的应用场景下,对比原生中间件在跨库连接操作上拥有更优的查询性能。
【关键词】:分布式 连接顺序优化 Presto 分布式存储系统 三层架构
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333
【目录】:
  • 摘要5-6
  • ABSTRACT6-11
  • 第一章 绪论11-16
  • 1.1 论文研究背景11-12
  • 1.2 国内外研究现状12-14
  • 1.3 论文研究内容及意义14
  • 1.4 论文组织结构14-16
  • 第二章 技术调研16-29
  • 2.1 分布式存储架构16-20
  • 2.1.1 Real Application Cluster与PGXC16-18
  • 2.1.2 基于中间件的架构18-20
  • 2.2 连接优化技术调研20-27
  • 2.2.1 半连接优化20-23
  • 2.2.2 直接连接优化23-25
  • 2.2.3 连接顺序优化25-27
  • 2.3 本章小结27-29
  • 第三章 存储架构设计与实现29-35
  • 3.1 存储系统实现需求29
  • 3.2 部署环境分析29-31
  • 3.3 数据存储三层架构设计31-34
  • 3.3.1 方案优势分析32-33
  • 3.3.2 方案代价分析33-34
  • 3.4 本章小结34-35
  • 第四章 连接优化方案设计35-48
  • 4.1 数据特性分析35-38
  • 4.1.1 数据特征分析35-36
  • 4.1.2 适用性分析36-38
  • 4.2 基于代价模型的分布式连接顺序优化算法38-47
  • 4.2.1 搜索空间剪枝40-41
  • 4.2.3 连接代价评估41-45
  • 4.2.5 评估成本优化45-47
  • 4.3 本章小结47-48
  • 第五章 基于PRESTO的优化实现48-62
  • 5.1 PRESTO查询树构建分析48-51
  • 5.2 优化器模块化设计51-52
  • 5.3 优化器实现52-61
  • 5.3.1 查询树分析模块53-54
  • 5.3.2 查询树重写模块54-55
  • 5.3.3 优化分析模块55-61
  • 5.4 本章小结61-62
  • 第六章 系统测试与分析62-69
  • 6.1 测试环境说明62-64
  • 6.2 性能测试64-67
  • 6.3 功能测试67-68
  • 6.4 本章小结68-69
  • 结论与展望69-71
  • 研究工作总结69-70
  • 工作展望70-71
  • 参考文献71-75
  • 致谢75-76
  • 附件76

【参考文献】

中国期刊全文数据库 前5条

1 李桂杰;梅红;;多关系SQL查询中连接顺序的优化[J];杭州电子科技大学学报;2006年02期

2 魏士伟;黄文明;康业娜;周娅;;分布式数据库中基于半连接的查询优化算法研究[J];计算机应用;2007年S1期

3 陈树平;关系数据库中连接操作的代价[J];计算机与网络;2004年10期

4 冯凯平;;数据查询操作代价估计[J];计算机与现代化;2012年07期

5 张时鹏,陶世群;大规模数据库的一种新的分布式查询优化算法──二分劈开缩减[J];计算机工程与设计;1998年04期

中国博士学位论文全文数据库 前1条

1 刘霖;分布式存储系统中的能耗管理策略研究[D];华南理工大学;2013年

中国硕士学位论文全文数据库 前1条

1 李芳萍;基于半连接策略的分布式数据库查询优化理论研究及应用[D];中南大学;2008年


  本文关键词:基于连接顺序优化的分布式能耗数据存储系统的研究与实现,由笔耕文化传播整理发布。



本文编号:365975

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/365975.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5fe81***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com