当前位置:主页 > 科技论文 > 软件论文 >

大数据索引和查询优化技术与系统研究

发布时间:2021-07-03 10:45
  随着大数据时代的来临以及大数据概念的普及,人们已经普遍认识到大规模数据信息资源的巨大价值,大数据时代会像互联网时代一样,给人类社会带来巨大的改变和发展机遇。然而,机遇总是伴随着挑战,在大数据分析应用所涉及的存储管理和计算分析等技术环节上,都面临着诸多的技术挑战。在大数据存储管理和查询技术上,传统的关系数据库无法适应大数据环境下的分布式存储管理和查询需求。关系数据库难以进行横向扩展,也难以有效应对非结构化和半结构化数据的高效存储和查询需求。计算机硬件的发展和体系结构的演变,使得数据索引和查询优化方法必须考虑新的硬件性能和体系结构特点。大规模分布式数据存储管理和查询研究受到了国内外研究团队的普遍关注,如最广为接受和使用的HBase系统、Facebook公司的Cassandra等诸多系统为大数据分布式数据管理和查询分析应用提供了良好的支撑。然而,由于现实世界中行业大数据容量巨大、数据形态复杂多样,现有的大数据管理技术与系统在数据的查询管理能力和查询性能上还不能完全满足实际应用的要求,技术上还远未达到完全成熟的地步。例如,HBase虽然较好地解决了高扩展性问题,可以存储管理高达数百亿以上规模的... 

【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校

【文章页数】:158 页

【学位级别】:博士

【部分图文】:

大数据索引和查询优化技术与系统研究


图2.1传统的数据分片策略??Tcradata1%和GRACE11#是并行数据库产品的典型代表,他们的分片都采用了哈希??策略

热度,缓存,缓存策略,调度算法


??图3.7给出了两种算法缓存命中率的对比。从图中可以看出,查询的缓存命中率随??着缓存空间的增加逐渐提高。热度累积缓存调度算法的缓存命中率高于HBase块缓存策??略,特别是在数据缓存比例比较低的情况下。例如,当数据缓存比率为数据集大小的0.2%??时,热度累积缓存调度算法的缓存命中率是HBase块缓存策略的2.51倍。这是由于热??度累积缓存调度算法的热度累积机制能够更精确地记录数据的冷热程度。在大数据查询??场景下,数据的体量大,缓存空间受到物理内存空间的限制,热度累积缓存调度算法在??数据缓存比率较低的情况下对查询性能的提升效果更为显著,因此,本章提出的分层式??非主键索引查询方法和热度累积缓存调度算法更适用于大数据场景下的查询性能优化。??80%??1??1?1?1?1?1??70%?一????-??60%?_?^????’-??|?概-??5?3〇%?-? ̄??▽?HBase?Block?Cache??20%?□?Holscore??10%??|?I?I?I?1???0.2?04?08?16?3.2?64?12?8??cache?ratio?(?%?of?data?size)??图3.7热度累积缓存调度算法和HBase块缓存策略的命中率对比??38??

执行时间,缓存,比率,缓存策略


即热度累积缓存调度算法在数据缓存比率较低的情况下对查询性能的提升效果更为显??著。当数据缓存比率为数据集大小的0.2%时,Hotscore算法的查询执行吋间比HBase??块缓存策略提升可以达到27.3%。査询执行时间的对比如图3.8。??xiil,?,?,?,?,?,?,?

【参考文献】:
期刊论文
[1]在线密度敏感哈希算法研究[J]. 王星,于江旭,唐晓亮,闫慧斌.  小型微型计算机系统. 2018(05)
[2]位图连接索引服务机制研究[J]. 张延松,苏明川,张宇,王方舟.  计算机工程与应用. 2015(05)



本文编号:3262430

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3262430.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4333c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com