基于学习代价的存储结构自动选择系统

发布时间:2021-09-12 15:45
  在数据库系统的设计中,数据表的存储结构在理论上决定了数据访问过程的复杂度,因此对数据表存储结构的选择是由系统所面向的工作负载决定的。如对于高写入负载,基于LSM存储结构的数据库系统较传统数据库有更强的性能表现,而对于分析型负载,基于列式存储的数据库系统可以在更短时间完成大型查询。但是在混合负载中,数据表的不同水平分区上需要处理的负载不同,并且同一分区上需要处理的负载可能发生变化,这也导致了不同数据表分区下的最优存储结构在持续变化。过去使用静态存储结构或者由人工方法调整存储结构的方法不能够实现对存储结构的充分使用,因此本文提出了一个基于学习代价的存储结构自动选择系统。该系统解决了对多引擎数据库下存储引擎的选择问题,以及针对工作负载的数据布局选择问题。除此之外,本文还提出了基于机器学习的,用于跨存储引擎进行代价比较的代价模型,并提出了用于建立该代价模型的数据库性能测试流程。实验结果表明,基于学习的代价模型可以对跨存储引擎的操作性能给出较为准确的估计。在使用TPC-H公开测试集上,事务型数据分区和分析型数据分区中自动选择得到的存储结构较静态存储结构总体查询时间降低了约35%。因此在分析型负载... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:66 页

【学位级别】:硕士

【部分图文】:

基于学习代价的存储结构自动选择系统


数据库物理设计的搜索架构[23]6

架构图,存储结构,模块,宿主系统


第2章S-CUBE系统架构设计-11-进行未来预测。调优模块:该模块执行优化操作的生成、评估和推荐。这里优化操作可以是选择新的物理设计,也可以是对配置旋钮进行调整。该模块设计思想与前述研究相似,分为枚举、评估、选择、执行四个阶段。组织模块:该模块为控制中心,控制数据库系统核实进行负载预测、核实进行调优,并监控自治数据库中相关操作的调用情况。最新的自治数据库框架与本节提到的上一个框架相比,增加了负载预测的模块和核心控制的模块。主要思想是为数据库提供负载预测功能,优化操作不再基于当前负载进行推荐,而是基于未来负载进行推荐,提高了自主数据库框架的灵敏性,优化操作可以更早提供给DBA和数据库。工作负载的预测不是本文的重点,提出的系统主要针对存储引擎和数据布局的推荐算法,因此框架主要沿袭剪枝-生成-评估的设计思路。2.2S-CUBE系统模块介绍本文依照先前自治数据库的设计思想,设计了存储结构推荐系统,用于解决在HTAP工作负载中遇到的问题。系统的框架如图2-2所示。图2-2基于学习代价的存储结构自动选择系统架构图S-CUBE系统包含一个支持混合存储的数据库(宿主系统)、宿主系统适配器和五个外部模块组成的存储结构推荐系统。外部模块包括:基准测试模块,代价模型训练模块,候选结构生成模块,存储结构代价估计模块和存储结构应用模块。注意到这里与存储结构推荐相关的模块与宿主系统实现了低耦合的设计,目的是使存储结构推荐系统可以作为外部工具应用在任何一个支持多种存

行数,操作时间,缓存,访问时间


哈尔滨工业大学工学硕士学位论文 时随着读取行数的增加而减少,最终趋于稳定。在读取相同行数时,数据在页缓存内的比例越大,单行平均用时的值越低。这两个属性是读操作的主要影响因素,因为这两个因素直接控制了数据库需要在文件中读取的磁盘块的 IO 次数。限于表示原因,图 3-1 中只展示了访问时间在 100 微秒以内的结果。实际上在读取行数较低的部分存在一些访问时间超过 100 微秒的数据点。

【参考文献】:
期刊论文
[1]人工智能赋能的数据管理技术研究[J]. 孙路明,张少敏,姬涛,李翠平,陈红.  软件学报. 2020(03)



本文编号:3394501

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3394501.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户27553***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com