分布式文件系统缓存技术研究
发布时间:2020-04-13 00:39
【摘要】:在大数据时代,计算机存储和处理的数据规模呈爆炸式增长。近几年来,大数据分布式存储与并行计算技术也得到了长足的发展。以Alluxio系统为代表的分布式内存文件系统,能够给传统的分布式存储带来显著的性能提升。层次化分布式存储系统为了提升数据访问的效率,通常都会采用热数据缓存机制。然而,现有分布式内存文件系统的缓存机制还难以高效地支撑频繁小规模数据量的读取和多租户共享缓存空间的场景应用。首先,对频繁随机访问大文件和重复访问大量小文件这些小规模数据访问的场景下,现有的缓存技术依然主要依赖于服务端缓存,而并没有充分发挥客户端缓存的优势。第二,在服务端多租户共享缓存空间的场景下,现有的缓存共享算法难以有效地兼顾公平性与效率性能。因此,现有的分布式文件系统的缓存技术,难以满足小规模数据高效缓存和多租户共享缓存空间场景的诸多应用需求。针对上述问题,本文提出了一种基于子模优化算法的细粒度客户端缓存模型,以及两种新型多租户缓存共享策略,并构建了一套完整的缓存框架。论文主要研究工作和贡献点包括:(1)在客户端缓存方面,针对小规模数据缓存低效的问题,本文设计了一种新型的细粒度缓存模型,能够管理包含部分重合片段的变长缓存块。在该缓存模型中,本文将缓存问题抽象为子模函数优化问题,在处理部分重合的文件片段集合时,使用子模优化算法识别热数据,并提供同步/异步缓存替换/提升策略。(2)在服务端缓存方面,本文提出了两种多租户缓存共享算法:高效公平共享(Efficient Sharing based on Fairness,ESF)算法和比例公平(Proportion Fairness,PF)算法。其中,ESF算法综合考虑命中率衰减、资源使用率和共享文件访问;PF算法满足无怨(Envy Free)属性,从而实时保证用户效益衰减值总和不高于效益上升值总和。(3)本文还综合上述技术设计实现了一套多租户缓存框架,提供多缓存机制扩展、多系统支撑、以及多租户管理。该框架包括应用层、缓存服务层、中间件层、以及存储层。应用层提供客户端缓存;缓存服务层管理数据与元数据,支持可插拔的缓存迁移策略;中间件层包含外部缓存与依赖组件;存储层包含多个底层存储系统。实验表明,在客户端缓存方面,本文提出的细粒度缓存技术能够比服务端块缓存提升系统随机读取速度4倍左右;在服务端缓存方面,相较于现有缓存共享算法,在保证较高公平性前提下,本文提出的ESF和PF算法能有效提升全局命中率,且在用户访问不均衡场景下具有更高的公平性。
【图文】:
Alluxio是全球首个基于内存的大数据分布式存储系统,发源于著名的UC逡逑Berkeley邋AMP实验室(Spark的发源地)的研究项目,目前已被阿里巴巴、腾讯、逡逑百度等互联网公司广泛使用。如图2-1所示,,Alluxio介于计算框架和现有的存储逡逑系统之间,其设计目标是,在底层集成并支持现有的各种主流大数据存储系统,逡逑利用分布式内存为上层大数据计算框架提供数据访问加速,并提供统一的数据访逡逑问接口。Alluxio主要有以下特性:逡逑(1)
第三章基于子模优化策略的客户端细粒度着文件系统存储的数据规模日益增大,基于文件系统的上层应用程性能的要求也越来越高。客户端缓存成为了一种常见的降低I/O响用服务质量的技术。本章面向分布式文件系统中随机读取变长、部片段这一访问模式,提出并实现了一种新型客户端缓存模型,并将存问题转化为子模函数优化问题,引入子模优化算法作为缓存迁移端缓存性能。逡逑章将从本文提出的客户端缓存整体架构、客户端缓存管理、子模优缓存迁移框架以及系统层优化技术五部分介绍客户端缓存模型。逡逑户端缓存整体架构逡逑户端缓存的整体架构如图3-1所示,包括如下模块:逡逑
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP333
【图文】:
Alluxio是全球首个基于内存的大数据分布式存储系统,发源于著名的UC逡逑Berkeley邋AMP实验室(Spark的发源地)的研究项目,目前已被阿里巴巴、腾讯、逡逑百度等互联网公司广泛使用。如图2-1所示,,Alluxio介于计算框架和现有的存储逡逑系统之间,其设计目标是,在底层集成并支持现有的各种主流大数据存储系统,逡逑利用分布式内存为上层大数据计算框架提供数据访问加速,并提供统一的数据访逡逑问接口。Alluxio主要有以下特性:逡逑(1)
第三章基于子模优化策略的客户端细粒度着文件系统存储的数据规模日益增大,基于文件系统的上层应用程性能的要求也越来越高。客户端缓存成为了一种常见的降低I/O响用服务质量的技术。本章面向分布式文件系统中随机读取变长、部片段这一访问模式,提出并实现了一种新型客户端缓存模型,并将存问题转化为子模函数优化问题,引入子模优化算法作为缓存迁移端缓存性能。逡逑章将从本文提出的客户端缓存整体架构、客户端缓存管理、子模优缓存迁移框架以及系统层优化技术五部分介绍客户端缓存模型。逡逑户端缓存整体架构逡逑户端缓存的整体架构如图3-1所示,包括如下模块:逡逑
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP333
【相似文献】
相关期刊论文 前10条
1 石晓珍;;客户端缓存策略[J];计算机时代;2007年05期
2 滕逸龙,秦彬娟,刘凤玉;客户端缓存容量的分区流切入算法[J];计算机工程与应用;2003年01期
3 李楚;冯丹;王芳;;一种高性能高可靠的混合客户端缓存系统[J];计算机研究与发展;2017年11期
4 董慧颖;陆莹;王洪斌;杜春燕;;客户端缓存模拟器的设计与实现[J];信息技术;2008年07期
5 吕锋;鲍刚;;基于客户端缓存提高Java RMI性能的方法[J];计算机工程与设计;2008年17期
6 周天平;李俊;奚宏生;;流媒体代理缓存技术研究[J];电子技术;2008年06期
7 陈Z牧
本文编号:2625375
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2625375.html