当前位置:主页 > 科技论文 > 计算机论文 >

用户感知的重复数据删除算法

发布时间:2018-05-15 03:17

  本文选题:重复数据删除 + 云计算 ; 参考:《软件学报》2015年10期


【摘要】:通过大量的实验分析发现:在云桌面场景下,数据拥有者之间的工作相关度越大,则该用户之间存在重复数据的概率越大.基于该实验结果,提出了用户感知的重复数据删除算法.该算法打破了数据空间局部性特征的限制,实现了以用户为单位的更粗粒度的查重计算,可以在不影响重删率的前提下,减少5~10倍常驻内存指纹的数量,并可将每次查重计算的指纹检索范围控制在一个常数范围内,不随数据总量的增加而线性增加,从而有效避免了因为数据总量增加而导致内存不足的问题.除此之外,该算法还能根据存储系统的负载情况自动调整重复指纹检索范围,在性能与重删率之间加以平衡,从而更好地满足主存储场景的需要.原型验证表明,该算法可以很好地解决云计算场景下海量数据的重复数据删除性能问题.与Open Dedup算法相比,当数据指纹总量超出内存可用空间时,该算法可以表现出巨大的优势,减少200%以上的读磁盘操作,响应速度提升3倍以上.
[Abstract]:Through a large number of experiments, it is found that in the cloud desktop scenario, the greater the work correlation between the data owners, the greater the probability of duplicate data among the users. Based on the experimental results, a user-aware repetitive data deletion algorithm is proposed. The algorithm breaks the limitation of the local feature of data space, and realizes a coarser granularity recalculation based on the user. It can reduce the number of resident memory fingerprints by 5 ~ 10 times without affecting the rate of redelete. The range of fingerprint retrieval can be controlled within a constant range and not linearly increased with the increase of the total amount of data, thus effectively avoiding the problem of insufficient memory caused by the increase of the total amount of data. In addition, the algorithm can automatically adjust the range of repeated fingerprint retrieval according to the load of the storage system, and balance the performance with the rate of redelete so as to better meet the needs of the main storage scene. Prototype verification shows that the algorithm can solve the problem of duplicate data deletion performance in cloud computing scenarios. Compared with the Open Dedup algorithm, when the total amount of fingerprint data exceeds the memory available space, the algorithm can show great advantages, reduce the read disk operation by more than 200%, and increase the response speed by more than three times.
【作者单位】: 武汉大学计算机学院;深圳华为技术有限公司IT标准与专利部;国网湖南省电力公司信息通信公司;
【基金】:国家自然科学基金(61272454) 高等学校博士学科点专项科研基金(20130141110022)
【分类号】:TP333

【参考文献】

相关期刊论文 前5条

1 付印金;肖侬;刘芳;;重复数据删除关键技术研究进展[J];计算机研究与发展;2012年01期

2 付印金;肖侬;刘芳;鲍先强;;基于重复数据删除的虚拟桌面存储优化技术[J];计算机研究与发展;2012年S1期

3 张俊丽;常艳丽;师文;;标签传播算法理论及其应用研究综述[J];计算机应用研究;2013年01期

4 孙竞;余宏亮;郑纬民;;支持分布式存储删冗的相似文件元数据集合索引[J];计算机研究与发展;2013年01期

5 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期

【共引文献】

相关期刊论文 前10条

1 邓亮;胡晓勤;梁刚;;基于重复数据删除技术的SQL Server数据库备份系统[J];计算机安全;2011年07期

2 吴晓勇;李慧娜;;基于文件类型的远程文件备份系统[J];计算机安全;2012年03期

3 吴晓勇;李慧娜;;基于Internet的共享式灾备中心[J];计算机安全;2012年05期

4 张清松;梁智强;;基于硬盘的主机防客体重用性能的检测方法[J];广东电力;2012年07期

5 许彬;陈宁江;胡丹丹;;SBC模式下桌面云系统用户容量优化策略研究[J];电信科学;2012年10期

6 李向前;;一种基于重复数据删除的Oracle数据库备份系统[J];电脑知识与技术;2013年01期

7 罗秋滨;朱宏;李云晖;丛二勇;;标签传播算法在社会网络中的应用研究[J];智能计算机与应用;2013年03期

8 谢垂益;钟红君;;Rabin指纹算法在重复数据检测中的应用研究[J];电脑知识与技术;2013年21期

9 王灿;秦志光;杨磊;杨皓;;基于改进Sparse Indexing的多负载消冗方法[J];电子科技大学学报;2013年05期

10 王文龙;李建中;;一种有效的在不确定图数据库中挖掘频繁子图模式的MUSIC算法[J];智能计算机与应用;2013年05期

相关会议论文 前6条

1 彭成;王树鹏;贾志凯;;基于纠删码的数据消冗存储系统可靠性增强研究[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年

2 吴朋朋;黄玮;杨璐皓;;移动终端通讯录数据同步去重算法[A];2013年中国信息通信研究新进展论文集[C];2014年

3 胡宁玉;杜秀丽;刘焱;卢刚;王运明;;基于快速消冗方法的增量备份策略研究[A];2014第二届中国指挥控制大会论文集(上)[C];2014年

4 赵红;王宗水;王焱;付立军;;基于Bloom过滤的网络消费者分类方法应用研究[A];第九届(2014)中国管理学年会——市场营销分会场论文集[C];2014年

5 许磊;张冬梅;;基于事件关联的舆情热度预测分析[A];第十八届全国青年通信学术年会论文集(下册)[C];2013年

6 吴朋朋;黄玮;杨璐皓;;移动终端通讯录数据同步去重算法[A];2013年中国信息通信研究新进展论文集[C];2014年

相关博士学位论文 前10条

1 谭玉娟;数据备份系统中数据去重技术研究[D];华中科技大学;2012年

2 王灿;基于在线重复数据消除的海量数据处理关键技术研究[D];电子科技大学;2012年

3 魏建生;高性能重复数据检测与删除技术研究[D];华中科技大学;2012年

4 蒋海波;海量数据存储系统的高可靠性关键技术研究与应用[D];电子科技大学;2013年

5 朱素霞;面向多核处理器确定性重演的内存竞争记录机制研究[D];哈尔滨工业大学;2013年

6 卿苏德;网络虚拟化映射算法研究[D];北京邮电大学;2013年

7 左震;光纤骨干网实时流测量关键技术研究[D];国防科学技术大学;2012年

8 伍江江;面向服务应急响应的数据保护关键技术研究[D];国防科学技术大学;2012年

9 阿亚德;加密云数据的高效检索研究[D];华中科技大学;2013年

10 Ayad Ibrahim Abdulsada;[D];华中科技大学;2013年

相关硕士学位论文 前10条

1 丁跃进;网关型病毒防火墙的设计与实现[D];电子科技大学;2011年

2 胡盼盼;在线重复数据删除技术的研究与实现[D];华中科技大学;2011年

3 曾涛;重复数据删除技术的研究与实现[D];华中科技大学;2011年

4 张鹏;在线备份系统中存储服务器的研究与实现[D];华中科技大学;2011年

5 周国惠;支持重复数据删除的网络备份系统中存储服务器的设计与实现[D];华中科技大学;2011年

6 张航;文件同步服务中数据同步传输消重策略研究[D];国防科学技术大学;2011年

7 武铨;广域网数据冗余消除TCP透明代理的设计与实现[D];南京邮电大学;2012年

8 郭永安;网络协议栈下TCP队列管理研究[D];南京邮电大学;2012年

9 毛允亭;广域网数据压缩算法的研究与实现[D];南京邮电大学;2012年

10 肖红凤;基于数据中心的数据访问服务模型研究[D];东北石油大学;2012年

【二级参考文献】

相关期刊论文 前7条

1 胡健;董跃华;杨炳儒;;大型复杂网络中的社区结构发现算法[J];计算机工程;2008年19期

2 金弟;刘杰;杨博;何东晓;刘大有;;局部搜索与遗传算法结合的大规模复杂网络社区探测[J];自动化学报;2011年07期

3 ;P3Stor: A parallel, durable flash-based SSD for enterprise-scale storage systems[J];Science China(Information Sciences);2011年06期

4 朱学芳;;图博档信息资源数字化建设及服务融合探讨[J];情报资料工作;2011年05期

5 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期

6 郝建柏;陈贤富;黄双福;杨俊;;一种基于模糊近邻标签传递的半监督分类算法[J];微电子学与计算机;2010年02期

7 倪煜;赵耀;朱振峰;;结合标签传递的镜头边界检测与分类[J];中国图象图形学报;2011年06期

相关硕士学位论文 前2条

1 任晓娟;基于改进标注传播算法的半监督资源分类[D];吉林大学;2008年

2 张俊丽;文本分类中的关键技术研究[D];华中师范大学;2008年

【相似文献】

相关期刊论文 前10条

1 卢敏;;“零距离”重复数据删除[J];软件世界;2008年11期

2 卢敏;;点亮“重复数据删除”[J];软件世界;2008年06期

3 徐立洋;;选购重复数据删除方案 软硬兼施剔除鸡肋数据[J];中国计算机用户;2009年08期

4 邢延刚;;删除重复值我有妙法[J];电脑迷;2009年09期

5 李刚;;重复数据删除走向“源头”[J];中国计算机用户;2009年16期

6 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期

7 王树鹏;;重复数据删除技术的发展及应用[J];中兴通讯技术;2010年05期

8 倪显利;;重复数据删除技术的应用与实践[J];中国金融电脑;2011年05期

9 付印金;肖侬;刘芳;;重复数据删除关键技术研究进展[J];计算机研究与发展;2012年01期

10 拜路;;重复数据删除技术分析及其对存储系统性能的影响[J];电脑编程技巧与维护;2012年06期

相关会议论文 前3条

1 贾志凯;王树鹏;陈光达;彭成;;一种并行层次化的重复数据删除技术[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年

2 杨廷梧;;基于重复数据删除的靶场试验信息存储技术[A];2009年西部光子学学术会议论文摘要集[C];2009年

3 肖钧;黄亮;;虚拟化搭配去重,双剑合璧更给力[A];2011年CAD/CAM学术交流会议论文集[C];2011年

相关重要报纸文章 前10条

1 本报记者 郭涛;基于硬件的重复数据删除效率更高[N];中国计算机报;2009年

2 朱皎;重复数据删除技术渐成主流[N];电脑商报;2009年

3 邢小萍;重复数据删除技术渐入佳境[N];网络世界;2009年

4 郭涛;重复数据删除比越大越好吗?[N];中国计算机报;2007年

5 中国传媒大学计算机学院 朱立谷;重复数据删除:改写存储行业经济规则?[N];中国计算机报;2007年

6 刘学习;删除重复数据[N];计算机世界;2006年

7 张群英;重复数据删除技术异军突起[N];网络世界;2006年

8 张峰;重复数据删除 难走的平衡木[N];网络世界;2007年

9 王s,

本文编号:1890732


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1890732.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7fb84***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com