面向高性能计算的分布式内存文件缓存系统
本文选题:高性能计算 切入点:缓存系统 出处:《华中科技大学》2013年硕士论文 论文类型:学位论文
【摘要】:随着设计理念和硬件制造工艺的不断发展,在过去的十多年中,磁盘存储设备的容量和访问性能有了长足的进步,但是依旧与CPU运算速度之间出现了不断扩大的不匹配问题,磁盘I/O逐渐成为数据密集型计算任务的瓶颈所在。特别是在分布式的高性能计算环境下,大量数据往往通过共享的存储设备进行存储,相比并行的计算速度,即使采取了NAS专用存储设备或SAN专用存储网络,使用RAID磁盘阵列提高磁盘数据访问吞吐量,磁盘I/O也往往成为系统总体性能的主要制约因素。在大量计算节点需要并发访问相同的文件数据时,存储系统局部会负担大量的文件访问请求,磁盘以及网络I/O在系统中的瓶颈地位就越发明显。 面向高性能计算的分布式内存文件缓存系统,利用各计算节点上的空闲内存空间,构建分布式的共享内存池,利用数据访问的局部性,对高访问频度的文件数据进行内存缓存,提供统一的文件访问接口,,透明的对存在于缓存或磁盘上的文件进行访问,降低高性能计算任务的I/O开销与等待时间,提高执行效率,同时降低共享存储系统的负载。使用优化的缓存文件置换机制,对缓存中的文件数据进行换入换出,缓存高频度访问的文件,提高缓存数据访问的命中率。实时监控计算节点的运行状态,使用预测算法对未来空闲内存大小进行预测,根据预测调整共享内存池大小,在不影响本地应用程序执行的前提下,最大程度利用空闲内存空间。 实验表明,面向高性能计算的分布式内存文件缓存系统能够正确稳定的运行,有效利用计算节点的空闲内存对文件数据进行缓存,提高了上层应用的数据访问效率。在使用1Gbps以太网连接的集群上,相对于网络连接的共享磁盘文件存储,文件读取吞吐量最高提升200%。
[Abstract]:With the development of design concept and hardware manufacturing technology, the capacity and access performance of disk storage devices have made great progress in the past ten years, but there is still a growing mismatch problem between disk storage devices and CPU computing speed. Disk I / O has gradually become the bottleneck of data-intensive computing tasks, especially in the distributed high-performance computing environment, a large amount of data is often stored through shared storage devices, compared with parallel computing speed. Even if NAS dedicated storage devices or SAN private storage networks are taken, RAID disk arrays are used to improve disk data access throughput, Disk I / O also tends to be a major constraint on the overall performance of the system. When a large number of computing nodes need concurrent access to the same file data, the storage system may be burdened with a large number of file access requests. Disk and network I / O's bottleneck in the system becomes more and more obvious. In the distributed memory file cache system for high performance computing, the distributed shared memory pool is constructed by using the free memory space on each computing node, and the locality of data access is utilized. It can cache the file data with high access frequency, provide a uniform file access interface, transparently access the files that exist on the cache or disk, reduce the I / O overhead and wait time of the high performance computing task, and improve the execution efficiency. At the same time, the load of shared storage system is reduced. Using the optimized cache file replacement mechanism, the file data in and out of the cache is swapped in and out, and the files accessed with high frequency are cached. To improve the hit rate of cache data access, real-time monitor the running state of computing nodes, use prediction algorithm to predict the size of future free memory, and adjust the size of shared memory pool according to the prediction. Make maximum use of free memory without affecting the execution of the local application. Experiments show that the distributed memory file cache system for high performance computing can run correctly and stably, and can cache file data effectively by using the free memory of computing nodes. The data access efficiency of the upper layer application is improved. In the cluster using 1Gbps Ethernet connection, the file reading throughput is up to 200% higher than the shared disk file storage in the network connection.
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333
【共引文献】
相关期刊论文 前6条
1 范飞;黄文明;邓珍荣;;Oozie工作流在Mahout分布式数据挖掘中的应用[J];桂林电子科技大学学报;2014年01期
2 徐宗标;;存储系统数据迁移方案分析[J];电信技术;2014年01期
3 叶晨;张延园;;一种海量存储系统二级缓存的设计与实现[J];计算机与现代化;2013年12期
4 聂瑞华;张科伦;梁军;;一种改进的云存储系统容错机制[J];计算机应用研究;2013年12期
5 刘建亮;张永乐;杨琳;郭明阳;刘振军;许鲁;;SAC:Exploiting Stable Set Model to Enhance CacheFiles[J];Journal of Computer Science & Technology;2014年02期
6 程煜;李小勇;董晓明;焦圣品;;分布式存储系统中高并发客户端的设计与实现[J];小型微型计算机系统;2014年01期
相关博士学位论文 前2条
1 马琳;面向移动互联网的开放服务技术架构及若干关键技术研究[D];北京邮电大学;2013年
2 伍江江;面向服务应急响应的数据保护关键技术研究[D];国防科学技术大学;2012年
相关硕士学位论文 前10条
1 李文生;移动数据库事务处理模型的研究[D];重庆大学;2013年
2 陈席林;分布式持久化缓存系统的研究与实现[D];重庆大学;2013年
3 李光瑞;Map/Reduce型海量数据处理平台中的内存级数据缓存技术研究[D];北京工业大学;2013年
4 张永胜;面向代理服务的分布式文件系统设计与实现[D];哈尔滨工业大学;2012年
5 肖桐;应用于海量数据处理分析的云计算平台搭建研究[D];天津科技大学;2011年
6 杜立林;关系数据库中基于语义的缓存技术研究[D];湖南大学;2012年
7 王瑞;基于分布式存储的磁盘镜像管理系统[D];南京邮电大学;2013年
8 赖文华;分布式对象云存储平台设计及第三方应用开发[D];华南理工大学;2013年
9 张文敬;动态最优路径机制在网络存储中的应用[D];西安建筑科技大学;2013年
10 杨丽丽;云存储网关的研究与实现[D];华中科技大学;2013年
本文编号:1632271
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1632271.html