一种基于改进模糊哈希的文件比较算法研究
发布时间:2017-10-28 17:18
本文关键词:一种基于改进模糊哈希的文件比较算法研究
【摘要】:模糊哈希算法广泛应用于同源相似文件的检索、恶意代码检测、电子数据取证等领域。模糊哈希算法首先依据文件长度和文件内容检测对文件进行分片,再对每一个分片进行滚动哈希运算,最后将各分片的哈希值连接在一起,形成文件指纹,实现了具有局部敏感特性的近似最邻近搜索。文章采用了关键词触发的变长分片策略和基于simhash的滚动哈希计算方法对现有的模糊哈希算法进行改进,克服了分片长度依赖于文件长度、触发条件与分片中内容无紧密联系、运算性能受滚动窗口长度制约的缺陷。基于多种语料库的文件比较实验表明,文章提出的改进模糊哈希算法可以有效地实现同源相似文件的发现,且具备支持多级信息粒度比较的能力。
【作者单位】: 北京明朝万达科技股份有限公司;国家质检总局信息中心;
【关键词】: 模糊哈希 局部敏感 文件比较 滚动哈希
【基金】:国家信息安全专项[20131309]
【分类号】:TP309
【正文快照】: 0引言随着网络化带来的数字信息的爆炸式增长,信息检索、冗余去除和安全检测已经成为信息交流与应用中的关键环节。尤其在病毒查杀、数据防泄露等应用领域,需要结合白名单或黑名单对海量的文件进行同源相似性判断,对病毒变种或包含企业涉密信息的文件进行确认、定位、隔离或清
【相似文献】
中国期刊全文数据库 前10条
1 肖美华,刘文革;优化文件分配及磁盘文件存储之策略[J];南昌航空工业学院学报;2001年01期
2 严小卫;;通过改变文件分配簇进行的加密和解密[J];微型机与应用;1990年11期
3 陈俊杰,张武生,沈美明,郑纬民;文件分配问题的一种动态解决算法[J];小型微型计算机系统;2004年07期
4 邵志毅;;文件恢复的可行性分析[J];陕西师范大学学报(自然科学版);2007年S2期
5 贺新征;费金龙;刘楠;祝跃飞;;基于文件过滤驱动的数据安全系统的研究与实现[J];微电子学与计算机;2008年03期
6 王明哲;;试谈根据,
本文编号:1109201
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1109201.html