分布式内存数据库系统的查询处理与优化

发布时间:2017-04-02 15:11

  本文关键词:分布式内存数据库系统的查询处理与优化,,由笔耕文化传播整理发布。


【摘要】:回顾数据库系统在过去四十余年的发展历史可以发现,数据库系统的演变总是被实际应用中不断增长的数据存储和数据操纵需求所驱动,而数据库系统架构的革新总是受到不断发展和进步的计算机硬件的巨大影响。如今,智能网络、智能交通等实际应用无时无刻不在收集着大量的数据,并向数据库系统寻求帮助,以对这些海量数据进行实时分析。传统的磁盘数据库系统主要由于受限于缓慢的磁盘I/O,不能在大规模数据上实现有效的实时数据分析。近年来,伴随着硬件制造技术的发展,拥有大容量内存和强大多处理器的服务器价格不断降低,对于很多实际应用而言,无论是从技术的角度还是从经济的角度,都可以考虑将数据装载到内存之中,以大幅度地提升数据查询性能。因此,在过去的十年中,全球涌现出MonetDb, Vectorwise, SAP HANA, HyPer等许多内存数据库系统,内存数据处理也迅速成为学术界的研究热点。尽管大量的研究工作都致力于提高集中式内存数据库系统的性能,但不容忽视的问题是:集中式内存数据库的性能受限于单台计算机有限的内存容量和处理器个数,难以满足日益增长的数据分析需求。与集中式内存数据库相比,分布式内存数据库系统运行在享有丰富内存空间和计算资源的集群之上,具有在大规模数据上进行实时分析的潜力。但与此同时,由于分布式内存数据库系统所运行的硬件环境与传统的数据库有本质区别,传统数据库技术并不能充分发挥集群中的硬件优势,导致低于预期的性能表现。因此,本文致力于研究分布式内存数据库系统中的查询处理技术,旨在通过充分利用集群中的各种硬件资源来提高分布式内存数据库系统的查询性能。本文的主要工作和主要贡献概括如下:1.通过对分布式内存数据库系统中查询处理性能的理论分析,指出了系统的性能瓶颈,明确了本文的优化策略。本文通过理论分析得到了查询代价模型,该模型指出分布式内存数据库系统中查询处理的性能瓶颈具有多样性和多变性。进一步讲,某个查询的性能瓶颈既可能是节点之间的网络数据通信,也可能是某个节点上的内存数据处理,还可能是节点之间不均衡的计算资源分配。查询处理的性能瓶颈取决于节点的负载情况,受到数据分布、硬件特征和算法实现等诸多因素的影响。受到上述结论启发,我们通过降低网络数据传输代价、提高单机内存数据处理性能和优化计算资源分配这三部分工作来提升分布式内存数据库系统的查询处理性能。2.分别对查询编译和查询执行进行了优化,有效地降低了查询处理过程中的网络数据传输代价。相对较慢的网路数据传输和高效的内存数据处理之间巨大的性能差距导致网络数据传输成为分布式内存数据库系统中主要的性能瓶颈。为解决这一问题,我们提出了MNDT算法。该算法在将逻辑查询计划转化为物理查询计划的过程中,尽可能地降低所生成的物理查询计划的网络数据传输量。此外,我们还设计一种新颖的数据交换算子,实现了节点之间高性能、可扩展、负载均衡的网络数据传输,进一步降低了查询过程中的网络数据传输代价。3.探讨了在新硬件架构下进行内存数据查询处理的主要性能瓶颈,并提出了NUMA感知的聚集算法。本文探讨内存数据处理中的性能瓶颈以及相应的解决策略,并对内存聚集运算进行了实例分析。经过深入的分析,我们发现Cache容量失效、Cache一致性失效和加锁代价是限制内存聚集运算性能的主要因素。因此,本文提出了NUMA感知的高性能、可扩展的聚集运算算法。该算法首先在遵循NUMA处理器硬件特性的前提下,将输入数据划分为若干个分区,以提高数据的局部性;然后通过巧妙的调度策略来进行聚集运算,有效避免了Cache一致性失效并大幅度降低了加锁开销。4.提出了弹性流水线框架,解决了分布式查询计算中的计算资源分配问题。在分布式内存数据库系统中,查询处理过程中计算资源分配是否合理,在最小化查询响应时间、提高硬件资源的利用率中起到至关重要的作用。然而,由于每个节点在查询过程中的负载情况难以预测且波动幅度很大,以及传统的迭代器模型中并行度不可动态调整的本质,采用传统的迭代器模型难以实现最优的并行度分配。为了解决这一问题,本文提出了弹性流水线技术,该技术包含弹性迭代器模型和动态调度器。弹性迭代器模型是对传统迭代器模型的升级,添加了动态多核执行的特性。动态调度器在查询处理过程中实时监督各个节点的负载情况,并对并行度进行动态的调整,以实现负载均衡和硬件资源利用率的最大化。弹性流水线框架的意义在于,它赋予执行引擎对查询处理的并行度进行动态调整的能力,实现并行度与查询编译的隔离,避免查询编译时由信息缺失和不充分所引起的不恰当的并行度分配。综上所述,本文对分布式内存数据库系统中查询处理的性能瓶颈进行了系统的分析,并从系统架构、算法和系统实现的角度上探讨了系统的各种优化策略。本文的研究工作是建立在对已有理论、技术和方法详尽的调研之上而完成的。通过在标准测试集和真实数据集上大量的实验,我们验证了提出方法和框架的正确性和有效性。
【关键词】:分布式内存数据库系统 查询处理 查询优化 调度 NUMA架构
【学位授予单位】:华东师范大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
  • 摘要6-8
  • ABSTRACT8-16
  • 第一章 引言16-22
  • 1.1 研究背景16-18
  • 1.1.1 数据分析需求剧增16
  • 1.1.2 计算机硬件的发展16-17
  • 1.1.3 分布式内存数据库系统17-18
  • 1.2 研究内容和面临的挑战18-19
  • 1.3 本文的主要贡献19-20
  • 1.4 章节安排20-22
  • 第二章 背景知识及研究现状22-46
  • 2.1 硬件特性22-26
  • 2.1.1 存储介质的层次22-23
  • 2.1.2 处理器23-25
  • 2.1.3 网络设备25-26
  • 2.2 系统概述26-29
  • 2.2.1 硬件环境26-27
  • 2.2.2 系统架构27-29
  • 2.2.3 系统假设及限制29
  • 2.3 查询处理性能分析29-38
  • 2.3.1 查询计划29-35
  • 2.3.2 查询代价模型35-37
  • 2.3.3 本文的优化策略37-38
  • 2.4 相关工作38-44
  • 2.4.1 内存查询处理技术38-42
  • 2.4.2 分布式查询处理技术42-44
  • 2.5 本章小结44-46
  • 第三章 网络数据传输优化46-64
  • 3.1 查询编译阶段优化46-51
  • 3.1.1 问题定义46
  • 3.1.2 数据流及物理计划生成46-48
  • 3.1.3 最小网络数据传输量算法48-51
  • 3.2 数据交换算子优化51-57
  • 3.2.1 问题定义51-52
  • 3.2.2 流水线式的数据传输52-53
  • 3.2.3 使用发送缓冲53-54
  • 3.2.4 主动发送数据54
  • 3.2.5 发送缓冲区多样化策略54-55
  • 3.2.6 合并算子状态感知55-56
  • 3.2.7 负载均衡策略56-57
  • 3.3 实验及分析57-62
  • 3.3.1 实验环境57-58
  • 3.3.2 实验结果及分析58-62
  • 3.4 本章小结62-64
  • 第四章 内存查询处理优化64-96
  • 4.1 问题定义64
  • 4.2 性能瓶颈分析64-71
  • 4.2.1 Cache利用率64-68
  • 4.2.2 代码执行效率68-70
  • 4.2.3 多核可扩展性70-71
  • 4.3 聚集算子优化71-84
  • 4.3.1 问题定义71
  • 4.3.2 在新硬件架构下的性能瓶颈71-75
  • 4.3.3 NUMA感知的基数划分75-79
  • 4.3.4 高效的聚集算法79-82
  • 4.3.5 理论分析82-84
  • 4.4 实验与分析84-94
  • 4.4.1 实验环境84-85
  • 4.4.2 实验结果与分析85-94
  • 4.5 本章小结94-96
  • 第五章 并行度调度96-126
  • 5.1 问题描述96-98
  • 5.2 框架概述98-101
  • 5.2.1 期望的系统特性99
  • 5.2.2 相关工作99-100
  • 5.2.3 弹性流水线100-101
  • 5.3 弹性迭代器模型101-107
  • 5.3.1 设计理念101-102
  • 5.3.2 弹性算子102-105
  • 5.3.3 实现策略105-106
  • 5.3.4 性能提高106-107
  • 5.4 并行度的动态调整107-113
  • 5.4.1 执行分片分类108-110
  • 5.4.2 并行度分配优化110-113
  • 5.4.3 吞吐量预测113
  • 5.5 实验与分析113-123
  • 5.5.1 实验环境113-115
  • 5.5.2 实验结果与分析115-123
  • 5.6 本章小结123-126
  • 第六章 总结与展望126-130
  • 参考文献130-136
  • 攻读博士学位期间发表论文136-138
  • 致谢138

【相似文献】

中国期刊全文数据库 前10条

1 郑丽莉;分析与优化基于网络的数据库系统[J];中国科技信息;2005年13期

2 唐守军;;基于数值统计方法进行数据库系统性能调优[J];中山大学学报论丛;2007年01期

3 ;具有国际先进水平的“专家数据库系统”研制成功[J];中国科技产业;1994年02期

4 冯继民;数据库系统发展的分类与现存的问题[J];管理科学文摘;1995年08期

5 李雄飞,赵永哲,张燕伶,殷巍;数据库系统与高级语言通讯[J];计算机应用研究;1996年03期

6 项永兵;利用数据库系统软件处理日期型数据的技巧[J];中国卫生统计;1996年01期

7 郑士贵;数据库系统的选择问题[J];管理科学文摘;1997年08期

8 黄传峰,张蕾,韩建坤;数据库系统的安全[J];枣庄师专学报;1997年03期

9 钟晓班;数据台:简化的数据库系统[J];管理科学文摘;1998年10期

10 夏忠实;数据库系统解决2000年问题的四种方法[J];农村电气化;1999年10期

中国重要会议论文全文数据库 前10条

1 万智俊;杜凯;杨树强;王怀民;;海量数据库系统中快速恢复机制的设计与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

2 应显勋;郭萍;刘平;;裁剪功能在“9210”数据库系统中的作用[A];数据库技术在气象领域的应用学术会议论文集[C];2001年

3 孙向军;范宏伟;刘凯龙;;目标背景数据库系统的应用研究[A];2007系统仿真技术及其应用学术会议论文集[C];2007年

4 黄小兵;陈锋;胡光强;康宁;段举;刘东菊;洪星;李涛;肖宇翔;秦海鸥;王晶;刘松;董伟;杨焕明;;1%人类基因组数据库系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

5 王坚强;赵柴厚;;C/S环境下数据库系统的安全管理[A];第七届计算机模拟与信息技术学术会议论文集[C];1999年

6 赵莉莉;王引斌;;浅谈数据库系统的发展[A];山西省科技情报学会2004年学术年会论文集[C];2005年

7 谢微;朱福成;黄迎;沈天翔;姚建华;;化学数据库系统构建[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年

8 张平;;“数据库系统课程设计”教学改革研究[A];中国电子教育学会高教分会2010年论文集[C];2010年

9 马智亮;曹秋良;山田健太郎;;钢桥焊接节点疲劳试验数据库系统的研制[A];中国土木工程学会计算机应用学会第六届年会土木工程计算机应用文集[C];1995年

10 刘玲玲;;集成式数据库系统在土地资源管理中的应用[A];2006年中国土地学会学术年会论文集[C];2006年

中国重要报纸全文数据库 前10条

1 田丽丽;“979”对国内数据库系统提出新要求[N];中国图书商报;2007年

2 ;浅谈数据库系统[N];电脑报;2004年

3 曲德辉;中期协行业信息数据库系统管理规则征求意见[N];期货日报;2007年

4 本报记者杨永彦;贵州宏观数据库系统初步测试受肯定[N];中国信息报;2009年

5 特约通讯员 程永亮 陈超;数据库,让政工指挥如虎添翼[N];解放军报;2011年

6 王世雷 刘兵;我市气象资料数据库系统投入使用[N];张家界日报;2008年

7 郭炎;加快开发战场数据库系统[N];解放军报;2008年

8 柳阎;英信息系统合法性再引争议[N];法制日报;2009年

9 实习生 赵静邋记者 黄雪英;自贡馆藏文物数据库系统建立[N];自贡日报;2008年

10 记者 杨洋;陕西省应急商品数据库系统考核连续8个月保持第一[N];现代物流报;2013年

中国博士学位论文全文数据库 前7条

1 王立;分布式内存数据库系统的查询处理与优化[D];华东师范大学;2015年

2 胡天磊;自治数据库系统的理论与方法研究[D];浙江大学;2006年

3 崔宾阁;安全数据库系统隐通道分析及相关技术研究[D];哈尔滨工程大学;2006年

4 陈建英;基于数字有机体数据库系统的搜索定位研究[D];电子科技大学;2011年

5 陈冲;超细群核数据库系统的开发及应用研究[D];中国科学技术大学;2014年

6 卢科;闪存数据库系统存储管理及可裁剪性研究[D];中国科学技术大学;2012年

7 解季萍;基于Web的稀土化合物数据库系统研究和开发[D];昆明理工大学;2007年

中国硕士学位论文全文数据库 前10条

1 李英杰;安徽省农业环保数据库系统建立[D];安徽农业大学;2010年

2 陈静;支持协同设计的工程数据库系统研究[D];西南交通大学;2002年

3 于常辉;事务级攻击隔离数据库系统的方案设计[D];山东大学;2006年

4 冯永忠;西北地区农业、资源、环境、生态数据库系统[D];西北农林科技大学;2003年

5 郑雄文;磨削加工智能化数据库系统的研究[D];厦门大学;2009年

6 布文峰;通讯企业大型数据库系统的构建[D];北京邮电大学;2012年

7 王逍;数据库系统对实际管理应用的研究[D];吉林大学;2013年

8 SOMSACK SENGSOUK(宋赛);琅勃拉邦省卫生部食品药品部门检查数据库系统[D];昆明理工大学;2013年

9 张小雪;昆明市宏观经济综合统计数据库系统的设计与实现[D];北京工业大学;2013年

10 孙雷;重型切削数据库系统的研究[D];哈尔滨理工大学;2014年


  本文关键词:分布式内存数据库系统的查询处理与优化,由笔耕文化传播整理发布。



本文编号:282695

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/282695.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4c417***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com