基于SSD的Key-Value系统优化策略研究与实现
发布时间:2017-10-02 23:31
本文关键词:基于SSD的Key-Value系统优化策略研究与实现
更多相关文章: Key-Value系统 SSD 压缩 热点数据识别 相关性检测 内存映射文件
【摘要】:互联网技术的迅猛发展催生了海量的数据,越来越多以数据为中心的应用渗透到人们生活的方方面面。这些应用对存储系统提出了更高的要求。其中,如何为这些数据建立高效的索引成为一大挑战。Key-Value系统是一种为海量数据建立索引的有效解决方案,它具有操作延迟低、吞吐率高的特点。但是,Key-Value系统对底层存储设备的访问主要是随机读写,建立在磁盘之上的Key-Value系统必然性能低下。相比之下,基于闪存的固态硬盘(SSD,Solid State Drive)具有良好的随机访问性能,是构建Key-Value系统的理想存储设备。本文主要研究基于SSD的Key-Value系统查询优化策略,论文的主要工作和创新点有以下几个方面:首先,针对一种构建在SSD之上的Key-Value系统——Skimpy Stash中压缩策略性能低下的问题,提出了一种基于链表压缩的读写优化机制。压缩活动可以将链表中分散在SSD不同页面的Key-Value写入同一个页面,该策略通过在哈希表目录中增加一个压缩计数器来减少压缩次数,从而有效减少压缩活动对客户端的影响。实验表明,总的压缩次数平均减少了10%到34%。此外,还测试了压缩活动对平均查询时间的影响,指出了合理设置压缩因子的重要性。其次,针对整个系统中大量的Key-Value具有不同的访问热度、一些Key-Value之间具有相关性等问题,提出了基于热点数据识别和相关性检测的Get优化策略。该策略通过将热点数据提前、将相关数据放在SSD的同一页面来减少对SSD的读操作,从而有效缩短热点Key-Value和相关Key-Value的Get时间。实验表明,基于热点数据识别的优化策略能够将SSD的读操作减少6%,基于相关性检测的优化策略能够将SSD的读操作减少10%以上。最后,针对Key-Value系统对吞吐率要求较高的问题,提出利用内存映射文件机制减少对SSD的访问,从而提高系统吞吐率,降低访问延迟。该机制在对数据进行读写操作之前,先将一定粒度的文件直接映射到内存中。实验表明,这一优化措施能够将查询时间减少21%至30%。
【关键词】:Key-Value系统 SSD 压缩 热点数据识别 相关性检测 内存映射文件
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333
【目录】:
- 摘要10-11
- Abstract11-12
- 第一章 绪论12-20
- 1.1 研究背景12-16
- 1.1.1 存储需求12-14
- 1.1.2 Key-Value系统概述14-15
- 1.1.3 新型存储介质15-16
- 1.2 研究现状16-17
- 1.3 课题内容和研究意义17
- 1.4 论文组织结构17-20
- 第二章 基于SSD的Key-Value系统相关研究20-32
- 2.1 基于闪存的SSD研究20-22
- 2.2 基于SSD的Key-Value系统研究22-27
- 2.2.1 内存索引方面23-25
- 2.2.2 系统延迟方面25-27
- 2.3 Key-Value系统中的性能优化技术27-30
- 2.3.1 哈希策略研究27-28
- 2.3.2 BloomFilter相关研究28-30
- 2.4 本章小结30-32
- 第三章 基于链表压缩的读写优化机制32-44
- 3.1 研究背景32-35
- 3.1.1 背景简介32
- 3.1.2 SkimpyStash简介32-35
- 3.2 当前压缩策略35-37
- 3.2.1 压缩策略简介35-36
- 3.2.2 问题分析36-37
- 3.3 压缩策略优化与实现37-39
- 3.3.1 压缩流程37-38
- 3.3.2 压缩策略设计原则38
- 3.3.3 压缩策略优化38-39
- 3.4 实验测试与结果分析39-42
- 3.4.1 测试环境与测试负载39-40
- 3.4.2 压缩次数比较40-41
- 3.4.3 压缩活动的影响41-42
- 3.5 本章小结42-44
- 第四章 基于热点数据识别和相关性检测的Get优化策略44-60
- 4.1 研究背景44-45
- 4.2 热点数据识别策略的设计与实现45-51
- 4.2.1 热点数据识别策略45
- 4.2.2 热点数据识别策略实现45-49
- 4.2.3 实验结果与分析49-51
- 4.3 相关性检测策略的设计与实现51-58
- 4.3.1 相关性检测策略51-52
- 4.3.2 相关性检测策略实现52-56
- 4.3.3 实验结果与分析56-58
- 4.4 查询优化策略开销分析58-59
- 4.5 本章小结59-60
- 第五章 基于内存映射文件的I/O优化机制60-68
- 5.1 研究背景及相关研究60-62
- 5.1.1 研究背景60
- 5.1.2 相关研究60-62
- 5.2 基于SSD的内存映射文件策略的研究与实现62-65
- 5.2.1 基于SSD的内存映射文件策略研究62-63
- 5.2.2 基于SSD的内存映射文件策略实现63-65
- 5.3 算法性能测试65-66
- 5.3.1 实验测试65-66
- 5.3.2 结果分析66
- 5.4 本章小结66-68
- 第六章 总结与展望68-70
- 6.1 工作总结68-69
- 6.2 研究展望69-70
- 致谢70-72
- 参考文献72-76
- 作者在学期间取得的学术成果76
【参考文献】
中国期刊全文数据库 前3条
1 苏翔宇;;Key-Value数据库及其应用研究[J];电脑知识与技术;2012年05期
2 肖红玉;陈海;黄静;;Key-Value数据库的研究与应用[J];自动化与仪器仪表;2010年04期
3 吕娜;;关系数据库之父——Edgar Frank Codd[J];程序员;2010年06期
中国硕士学位论文全文数据库 前1条
1 赵见;高性能高可用键值存储系统的设计与实现[D];电子科技大学;2010年
,本文编号:961785
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/961785.html