面向分布式内存计算的缓存数据管理系统
本文选题:内存计算 切入点:分布式处理 出处:《华中科技大学》2016年硕士论文 论文类型:学位论文
【摘要】:面对海量数据,利用图计算或机器学习等具有迭代特征的复杂应用对其进行处理很常见。通过在迭代之间共享缓存数据,典型的分布式内存计算系统如Spark极大地提升了迭代程序处理的速度,在业界使用广泛。然而,在处理的数据量较大时缓存数据无法全部放入内存,需要对缓存数据进行管理。迭代后期再次使用被置换的数据时需要进行重获,此时引入的重获开销影响了性能。传统的置换策略如LRU或FIFO没有考虑到缓存数据重获开销之间存在差异,因而无法保证应用运行过程中整体的重获开销最小。实验发现,在分布式内存计算系统中,缓存数据的重获开销间存在着明显的差异。因此提出并在Spark上实现了一种考虑了重获开销的缓存数据管理系统,来保证数据置换带来的影响最小。首先,依据分布式系统中应用待执行的逻辑是已知的、数据之间有联系的特点,对执行逻辑进行了分析得出了缓存数据之间的依赖关系;然后,定义了重获开销表征置换发生后重获缓存数据所需的代价,定义了重用度表征缓存数据在程序后期再次使用到的次数,在执行程序时实时收集信息并计算这两个指标;最后,设计了置换策略,计算出缓存数据经重用度加权后的单位大小重获开销值,并维护出置换顺序,保证了在置换发生后对应用引入的额外开销最小。在相同的实验环境下,将考虑了重获开销的缓存数据管理系统与Spark中默认的管理系统进行了对比。实验结果表明,考虑了重获开销的缓存数据管理系统在内存空间不足时,因缓存数据置换带来的额外开销显著减少,应用的整体运行时间可以减少30%至50%。
[Abstract]:In the face of massive data, it is very common to process complex applications with iterative characteristics, such as graph computing or machine learning, by sharing cached data between iterations. Typical distributed memory computing systems such as Spark greatly improve the speed of iterator processing and are widely used in the industry. However, cache data cannot be fully stored in memory when the amount of data processed is large. The cached data needs to be managed. When the replaced data is used again at the end of the iteration, The traditional replacement strategies such as LRU or FIFO do not take into account the difference between cache data recovery overhead, so it can not guarantee the minimum overall recovery cost in the running process of the application. In the distributed memory computing system, there are obvious differences between the cost of cache data recovery. Therefore, a cache data management system based on Spark is proposed and implemented. Firstly, according to the fact that the logic of application to be executed in distributed system is known and the data is related, the execution logic is analyzed and the dependency between cache data is obtained. Then, the cost of retrieving the cached data after the replacement is represented is defined, the number of times the cache data is reused in the later stage of the program is defined, the information is collected in real time while executing the program and the two indexes are calculated. Finally, the permutation strategy is designed to calculate the reclaimed cost value of the unit size of the cache data weighted by the degree of reuse, and to maintain the replacement order, which ensures the minimum extra cost to the application after the replacement occurs. In the same experimental environment, This paper compares the cache data management system with the default management system in Spark. The experimental results show that the cache data management system considering the reclaim overhead has insufficient memory space. The overall running time of the application can be reduced by 30% to 50% because of the significant reduction in the extra cost of cache data replacement.
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP333;TP315
【相似文献】
相关期刊论文 前10条
1 孙晋礼,孙宝翱,周永运,渐秀彦,李涛;传染性非典型肺炎数据管理系统的开发与应用[J];疾病监测;2003年12期
2 阮高华;仓库基础数据管理系统通过部级鉴定[J];计算机应用研究;1990年01期
3 杨则正;数据管理系统展示[J];管理科学文摘;1996年09期
4 杨英;广泛采用技术数据管理系统的困难[J];管理科学文摘;1997年11期
5 柴振荣;技术数据管理系统的采用问题[J];管理科学文摘;1998年11期
6 柳青,吴少敏;肿瘤发病登记数据管理系统的设计与应用[J];计算技术与自动化;1998年04期
7 杜益虹;建筑数据管理系统的设计[J];无锡轻工大学学报;2001年04期
8 于勇,黄晓瑞,姜兴渭;航天器推进系统数据管理系统的研制开发[J];航空兵器;2001年04期
9 刘桂兰;中原油田电力现状信息数据管理系统[J];电气时代;2002年09期
10 王振亚,师华,杨涛,孟红文,郭太祥;计控网络数据管理系统的开发和应用[J];河南冶金;2003年04期
相关会议论文 前10条
1 张维忠;宋永红;;港口交管船舶数据管理系统[A];船舶通信导航学术会议(1993)论文集[C];1993年
2 康强利;赵敏;孔朝辉;;石化公司腐蚀数据管理系统的建立及应用[A];石油和化工设备管道防腐技术与对策专题研讨会文集[C];2010年
3 邢延团;刘增平;张若辉;王可周;;煤矿地震数据管理系统的地质保障作用[A];中国煤炭学会矿井地质专业委员会、中国煤炭工业劳动保护科学技术学会水害防治专业委员会2005年学术交流会论文集[C];2005年
4 崔若飞;武旭仁;;煤矿地震数据管理系统的开发[A];山东煤炭学会2004年度优秀学术论文集[C];2004年
5 巫志峰;曾星;;应用科学数据管理系统(SDMS)进行Ⅰ期临床试验数据管理[A];2008第十一次全国临床药理学学术大会论文集[C];2008年
6 米东海;郭海林;;物理实验室性能检验数据管理系统开发[A];2011年河北省炼铁技术暨学术年会论文集[C];2011年
7 李璋;;浅谈基于螺旋模型式的热拌沥青混合料质量数据管理系统的测试与质量保证[A];天津市电视技术研究会2013年年会论文集[C];2013年
8 张晓梅;阎小飞;;CMS北京网格站点数据管理系统的研究和实现[A];第十四届全国核电子学与核探测技术学术年会论文集(下册)[C];2008年
9 杨绍战;陈建勋;赵超志;左庆忠;;隧道监控量测数据管理系统研究[A];自主创新与持续增长第十一届中国科协年会论文集(3)[C];2009年
10 孙辉先;陈小敏;;Cluster卫星的数据管理系统[A];中国空间科学学会空间探测专业委员会第十三次学术会议论文集[C];2000年
相关重要报纸文章 前10条
1 越途;广东公路基础数据管理系统显现路况信息[N];中国测绘报;2004年
2 记者 张银炎;上海航运所数据管理系统批量装船[N];中国船舶报;2008年
3 刘学军 赵燕 许新贺;河北钢铁唐钢启动信息化主数据管理系统项目[N];中国冶金报;2011年
4 张双 王云峰;黑河电业局建设营销数据管理系统[N];中国电力报;2005年
5 王志田邋通讯员 陈艳新;大庆气田开发数据管理系统进入试运行[N];中国石油报;2007年
6 记者 林强;哈尔滨市物价局研发出“物价通”系统[N];中国经济导报;2009年
7 刘春;首钢矿业公司成功开发实施无线远程抄表及数据管理系统[N];世界金属导报;2006年
8 记者 江华;科学用药将有据可循[N];农资导报;2013年
9 王希建 冯雷;油库计量数据管理系统[N];中国石化报;2003年
10 张萍 刘金花;天津石化运销部信息化管理一目了然[N];中国石化报;2006年
相关博士学位论文 前1条
1 邵明义;中药新药临床试验数据管理系统的设计及应用研究[D];成都中医药大学;2009年
相关硕士学位论文 前10条
1 李杰斌;基于分布式系统的XML元数据管理系统的UI设计与实现[D];复旦大学;2013年
2 张林;运煤车全自动采样及综合数据管理系统的研究与实现[D];华北电力大学;2015年
3 许明莉;高速精密数控机床轴承全生命周期数据管理系统研发[D];河南科技大学;2015年
4 王浩轩;基于统一支撑平台的电网安稳数据管理系统的研究与开发[D];复旦大学;2014年
5 顾天宝;海上试验场平台数据管理系统的设计与实现[D];大连理工大学;2015年
6 路奕;卫生监督数据管理系统的设计与实现[D];大连理工大学;2015年
7 叶冠南;基于GPRS的智能充电桩数据管理系统的设计与实现[D];浙江工业大学;2014年
8 郑波;企业的市场发展基础数据管理系统的设计与实现[D];电子科技大学;2014年
9 刘婷婷;住宅小区智能监控管理系统的设计与实现[D];电子科技大学;2014年
10 夏菁;基于HDFS的微博数据管理系统的设计与实现[D];电子科技大学;2014年
,本文编号:1646310
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1646310.html