数据密集型计算中的副本优化策略研究
本文选题:数据密集型计算 + 数据网格 ; 参考:《福州大学》2014年硕士论文
【摘要】:互联网的高速发展和网络宽带的普及加快了各行各业的网络化和信息化进程,同时网络数据规模的不断膨胀给计算机带来了巨大挑战。海量数据的管理能力成为了计算能力发展过程中的性能瓶颈,存储和处理网络数据的数据处理系统逐渐向数据密集型系统转变。在这样的背景下,数据密集型计算(DIC)应运而生并引起了广泛的关注。数据管理问题是数据密集型计算系统中的一个核心问题,而副本管理技术是数据管理问题中被广泛采用的一种有效技术。副本管理包括四个关键技术:副本创建、副本选择、副本替换和副本一致性维护,它在提高数据可靠性、均衡网络负载、降低数据访问延迟和带宽消耗方面都能起到很好的效果。在了解数据密集型计算环境中副本管理技术的基础上,本文重点对副本选择及替换技术进行了进一步的研究。针对已有策略的不足之处,提出了新的副本管理优化技术,主要工作包括如下两方面:(1)对于数据密集型计算环境中的副本选择,在研究已有策略的基础上,提出了一种改进的基于蚁群算法的副本选择策略。本文将蚁群算法的无限正反馈性作为一个考虑因素,对副本进行概率选择而不是绝对选择,避免了某个副本被频繁访问而最终导致网络拥塞,进而影响正在进行的其他数据传输任务。然后对主流的网格仿真器OptorSim进行扩展,将本文提出的算法在仿真器中实现,并与原算法及仿真器中自带的副本优化算法SimpleOptimiser进行仿真对比实验。(2)基于最近最久未使用(Least Recently Used, LRU)副本替换策略,提出了LRULR (Least Recently Used and Least Replicas)算法。新策略将整个数据网格的文件分布情况也做为副本替换的考虑因素,能有效提高数据密集型计算中数据副本的命中率和访问效率,减少副本复制次数及数据传输带宽消耗,其主要思想是当存储容量不足时替换最近最久未使用副本集中全局数量最少的副本。然后在OptorSim中实现新策略,并将其与LRU算法进行对比试验。本文分别对数据密集型计算的副本选择和替换问题提出了优化策略,并在仿真平台上与原策略进行对比实验。OptorSim上的实验表明,本文提出的算法在减少平均作业时间、降低网络带宽消耗和平衡网络负载方面都具有一定的优越性。
[Abstract]:The rapid development of the Internet and the popularization of network broadband accelerate the network and information process of all walks of life. At the same time, the continuous expansion of the network data scale has brought great challenges to the computer. The management ability of mass data has become the performance bottleneck in the process of computing power development, and the data processing system for storage and processing of network data is made. In this context, data intensive computing (DIC) came into being and attracted wide attention. Data management is a core problem in the data intensive computing system, and replica management technology is an effective technique used widely in data management. There are four key technologies: copy creation, copy selection, copy replacement and copy consistency maintenance. It can improve data reliability, balance network load, reduce data access delay and bandwidth consumption. On the basis of replica management technology in data intensive computing environment, this paper focuses on replicas. The selection and replacement technology is further studied. In view of the shortcomings of the existing strategies, a new copy management optimization technology is proposed. The main work includes the following two aspects: (1) the copy selection in the data intensive computing environment, and on the basis of the existing strategies, an improved copy based on ant colony algorithm is proposed. In this paper, in this paper, the infinite positive feedback of ant colony algorithm is considered as a consideration factor, and the copy is chosen instead of absolute choice. It avoids the frequent access of a copy and eventually leads to the network congestion, and then affects the other data transmission tasks being carried out. Then, the mainstream grid emulator OptorSim is extended. The algorithm proposed in this paper is implemented in the emulator, and the simulation contrast experiment with the original algorithm and the copy optimization algorithm SimpleOptimiser in the emulator is simulated. (2) based on the most recent Least Recently Used (LRU) copy replacement strategy, the LRULR (Least Recently Used and Least Replicas) algorithm is proposed. The new strategy will be the whole The file distribution of data grid is also considered as a factor of replica substitution. It can effectively improve the hit rate and access efficiency of data copies in the data intensive computing, reduce the number of replicas and reduce the consumption of data transmission bandwidth. The main idea is to replace the most recent unused copy centralized global number when the storage capacity is insufficient. A small copy. Then a new strategy is implemented in OptorSim and compared with the LRU algorithm. This paper presents an optimization strategy for the copy selection and replacement of data intensive computing, and a comparison experiment on the simulation platform with the original strategy on.OptorSim shows that the algorithm proposed in this paper reduces the average work. Time has advantages in reducing network bandwidth consumption and balancing network load.
【学位授予单位】:福州大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.09;TP18
【相似文献】
相关期刊论文 前10条
1 郑湃;崔立真;王海洋;徐猛;;云计算环境下面向数据密集型应用的数据布局策略与方法[J];计算机学报;2010年08期
2 宫学庆;金澈清;王晓玲;张蓉;周傲英;;数据密集型科学与工程:需求和挑战[J];计算机学报;2012年08期
3 茹加;王晓辉;;数据密集型网格示范站点建设与应用取得良好效果[J];中国科学院院刊;2012年04期
4 石宣化;金海;;有服务质量保证的数据密集型网格应用管理研究[J];计算机科学;2007年06期
5 王雷;陶伟;;一种数据密集型应用的数据副本管理策略[J];计算机系统应用;2012年12期
6 陈庆奎,那丽春;一个面向数据密集型网格的通信模型[J];北京航空航天大学学报;2004年11期
7 丁杰;奚后玮;韩海韵;周爱华;;面向智能电网的数据密集型云存储策略[J];电力系统自动化;2012年12期
8 钱鑫;张龙波;田爱奎;邓齐志;汪金苗;;一种面向数据密集型计算环境的聚类算法[J];济南大学学报(自然科学版);2013年01期
9 何颂颂;顾乃杰;任开新;;一种面向数据密集型应用的并行程序执行模型[J];小型微型计算机系统;2013年07期
10 周晓英;;情报学进展系列论文之七 数据密集型科学研究范式的兴起与情报学的应对[J];情报资料工作;2012年02期
相关会议论文 前1条
1 郑湃;崔立真;王海洋;徐猛;;云计算环境下面向数据密集型应用的数据布局策略与方法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
相关重要报纸文章 前1条
1 刘润生;一种新的范式:数据密集型科学[N];学习时报;2013年
相关博士学位论文 前1条
1 马冯;数据密集型计算环境下贝叶斯网的学习、推理及应用[D];云南大学;2013年
相关硕士学位论文 前10条
1 张树森;聚类分析算法研究及其在数据密集型计算环境下的实现[D];山东理工大学;2015年
2 杨玲;数据密集型计算中的副本优化策略研究[D];福州大学;2014年
3 石飞燕;数据密集型计算中副本优化机制研究[D];武汉理工大学;2011年
4 邓齐志;数据密集型计算环境下数据分类算法研究[D];山东理工大学;2013年
5 方启宇;面向数据密集型计算的贝叶斯网并行学习与增量维护[D];云南大学;2014年
6 张钊宁;数据密集型计算中任务调度模型的研究[D];国防科学技术大学;2009年
7 俞栋辉;面向数据密集型应用的数据管理关键技术研究[D];浙江工业大学;2013年
8 钱鑫;数据密集型计算环境下聚类算法的研究[D];山东理工大学;2013年
9 王源;面向数据密集型计算的概率图模型构建方法及实现[D];云南大学;2013年
10 刘艺琨;基于概率图模型的数据密集型广告点击率预测系统设计与实现[D];云南大学;2015年
,本文编号:1836371
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1836371.html