当前位置:主页 > 科技论文 > 计算机论文 >

基于对象的OpenXML复合文件去重方法研究

发布时间:2020-01-23 10:29
【摘要】:现有的重复数据删除技术大部分是基于变长分块(content defined chunking,CDC)算法的,不考虑不同文件类型的内容特征.这种方法以一种随机的方式确定分块边界并应用于所有文件类型,已经证明其非常适合于文本和简单内容,而不适合非结构化数据构成的复合文件.分析了OpenXML标准的复合文件属性,给出了对象提取的基本方法,并提出基于对象分布和对象结构的去重粒度确定算法.目的是对于非结构化数据构成的复合文件,有效地检测不同文件中和同一文件不同位置的相同对象,在文件物理布局改变时也能够有效去重.通过对典型的非结构化数据集合的模拟实验表明,在综合情况下,对象重复数据删除比CDC方法提高了10%左右的非结构化数据的去重率.

【参考文献】

相关期刊论文 前4条

1 王超;张惠臻;周学海;马宏星;;异质存储系统中的高速缓存机制研究[J];电子学报;2011年06期

2 王丽娜;任正伟;余荣威;韩凤;董永峰;;一种适于云存储的数据确定性删除方法[J];电子学报;2012年02期

3 付印金;肖侬;刘芳;;重复数据删除关键技术研究进展[J];计算机研究与发展;2012年01期

4 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期

【共引文献】

相关期刊论文 前10条

1 邓亮;胡晓勤;梁刚;;基于重复数据删除技术的SQL Server数据库备份系统[J];计算机安全;2011年07期

2 吴晓勇;李慧娜;;基于文件类型的远程文件备份系统[J];计算机安全;2012年03期

3 吴晓勇;李慧娜;;基于Internet的共享式灾备中心[J];计算机安全;2012年05期

4 张清松;梁智强;;基于硬盘的主机防客体重用性能的检测方法[J];广东电力;2012年07期

5 徐永刚;任国强;吴钦章;孙健;;NAND Flash图像记录系统底层写入控制技术[J];光电工程;2012年09期

6 李向前;;一种基于重复数据删除的Oracle数据库备份系统[J];电脑知识与技术;2013年01期

7 谢垂益;钟红君;;Rabin指纹算法在重复数据检测中的应用研究[J];电脑知识与技术;2013年21期

8 王灿;秦志光;杨磊;杨皓;;基于改进Sparse Indexing的多负载消冗方法[J];电子科技大学学报;2013年05期

9 张志杰;何利力;;烟草工业数据灾备中重复数据删除技术研究[J];工业控制计算机;2013年12期

10 马海峰;姚念民;杜文杰;;基于不等长counter的存储器机密性和完整性保护方法[J];电子学报;2013年12期

相关会议论文 前6条

1 彭成;王树鹏;贾志凯;;基于纠删码的数据消冗存储系统可靠性增强研究[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年

2 吴朋朋;黄玮;杨璐皓;;移动终端通讯录数据同步去重算法[A];2013年中国信息通信研究新进展论文集[C];2014年

3 胡宁玉;杜秀丽;刘焱;卢刚;王运明;;基于快速消冗方法的增量备份策略研究[A];2014第二届中国指挥控制大会论文集(上)[C];2014年

4 冯小梅;刘怡君;;云存储技术的现状分析与发展趋势[A];广西计算机学会2014年学术年会论文集[C];2014年

5 吴朋朋;黄玮;杨璐皓;;移动终端通讯录数据同步去重算法[A];2013年中国信息通信研究新进展论文集[C];2014年

6 李重文;刘宇文;杨家红;罗伦;;观测数据多机实时处理调度策略研究[A];第三届高分辨率对地观测学术年会优秀论文集[C];2014年

相关博士学位论文 前10条

1 方维;面向数据通信优化的并行程序执行模型[D];中国科学技术大学;2011年

2 苗乾坤;面向共享存储系统的计算模型及性能优化[D];中国科学技术大学;2010年

3 谭玉娟;数据备份系统中数据去重技术研究[D];华中科技大学;2012年

4 吕海;多核处理器芯片计算平台中并行程序性能优化的研究[D];北京工业大学;2012年

5 王灿;基于在线重复数据消除的海量数据处理关键技术研究[D];电子科技大学;2012年

6 魏建生;高性能重复数据检测与删除技术研究[D];华中科技大学;2012年

7 蒋海波;海量数据存储系统的高可靠性关键技术研究与应用[D];电子科技大学;2013年

8 徐永刚;基于NAND Flash的嵌入式图像记录技术[D];中国科学院研究生院(光电技术研究所);2013年

9 卢风顺;面向CPU/GPU异构体系结构的并行计算关键技术研究[D];国防科学技术大学;2012年

10 付印金;面向云环境的重复数据删除关键技术研究[D];国防科学技术大学;2013年

相关硕士学位论文 前10条

1 陈智强;自由基聚合反应过程动态分子量分布的并行计算方法研究[D];浙江大学;2011年

2 丁跃进;网关型病毒防火墙的设计与实现[D];电子科技大学;2011年

3 王龙;造船厂钢板出库计划并行嵌套优化算法研究[D];大连理工大学;2011年

4 胡盼盼;在线重复数据删除技术的研究与实现[D];华中科技大学;2011年

5 曾涛;重复数据删除技术的研究与实现[D];华中科技大学;2011年

6 张鹏;在线备份系统中存储服务器的研究与实现[D];华中科技大学;2011年

7 周国惠;支持重复数据删除的网络备份系统中存储服务器的设计与实现[D];华中科技大学;2011年

8 张航;文件同步服务中数据同步传输消重策略研究[D];国防科学技术大学;2011年

9 武铨;广域网数据冗余消除TCP透明代理的设计与实现[D];南京邮电大学;2012年

10 郭永安;网络协议栈下TCP队列管理研究[D];南京邮电大学;2012年

【二级参考文献】

相关期刊论文 前7条

1 朱晴波,乔浩,陈道蓄;分布式多媒体存储系统中的全局缓存管理[J];电子学报;2002年12期

2 王芳,李恪,苏林,耿立红;空间太阳望远镜的星载固态存储器研制[J];电子学报;2004年03期

3 张科;郝智泉;王贞松;;一种基于新体系结构的空间固态记录器原型系统[J];电子学报;2008年02期

4 刘祯;刘斌;郑凯;陈善真;;网络处理器中的高速缓冲机制及其有效性分析[J];清华大学学报(自然科学版);2008年01期

5 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期

6 冯登国;张敏;张妍;徐震;;云计算安全研究[J];软件学报;2011年01期

7 张燕;焦新泉;熊继军;;超大容量高速存储技术研究[J];微计算机信息;2008年05期

【相似文献】

相关期刊论文 前2条

1 潘明惠;富宇;范真钰;李丹升;;OpenXml在SQL Server 2000数据库中的应用[J];办公自动化;2005年05期

2 ;[J];;年期



本文编号:2572244

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2572244.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d9aca***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com