基于simhash与倒排索引的复用代码快速溯源方法
本文选题:网络安全 + 复用代码 ; 参考:《通信学报》2016年11期
【摘要】:提出了一种新颖的复用代码精确快速溯源方法。该方法以函数为单位,基于simhash与倒排索引技术,能在海量代码中快速溯源相似函数。首先基于simhash利用海量样本构建具有三级倒排索引结构的代码库。对于待溯源函数,依据函数中代码块的simhash值快速发现相似代码块,继而倒排索引潜在相似函数,依据代码块跳转关系精确判定是否相似,并溯源至所在样本。实验结果表明,该方法在保证高准确率与召回率的前提下,基于代码库能快速识别样本中的编译器插入函数与复用函数。
[Abstract]:A novel method for accurate and fast tracing of reusable code is proposed.This method is based on simhash and inverted index technology, and can trace the source similarity function quickly in massive code.Firstly, the code base with three levels inverted index structure is constructed based on simhash.For the traceability function, the similar code block is quickly found according to the simhash value of the code block in the function, and then the potential similarity function is inverted indexed, and the similarity is determined accurately according to the jump relation of the code block, and the source is traced to the sample.Experimental results show that the proposed method can quickly identify compiler insert function and multiplexing function based on code base on the premise of high accuracy and recall.
【作者单位】: 中国科学院计算技术研究所;中国科学院研究生院;中国科学院信息工程研究所;
【基金】:国家自然科学基金资助项目(No.61303261) 国家高技术研究发展计划(“863”计划)基金资助项目(No.2013AA014703,No.2012AA012803) 国家242信息安全计划基金资助项目(No.2014A094) 中国科学院战略性科技先导专项基金资助项目(No.XDA06030200)~~
【分类号】:TP314;TP309
【相似文献】
相关期刊论文 前10条
1 吴恒山,刘兴宇,左琼;一种基于可扩展散列表的倒排索引更新策略[J];计算机工程;2004年08期
2 王冬;左万利;赫枫龄;彭涛;张长利;;一种增量倒排索引结构的设计与实现[J];吉林大学学报(理学版);2007年06期
3 林洁;李丹宁;吴晓;;基于用户的个性化综合倒排索引[J];杭州师范大学学报(自然科学版);2008年03期
4 宁可为;王炜;;基于倒排索引的答疑系统知识库文本研究[J];湖北广播电视大学学报;2010年06期
5 谭斌;丁莎;车念;徐力;聂清彬;谭钱茂;黄翔;;一种面向域的高效倒排索引结构及实时更新[J];四川大学学报(自然科学版);2011年02期
6 杨建武,陈晓鸥;基于倒排索引的文本相似搜索[J];计算机工程;2005年05期
7 赵亮;;基于复合结构的高效索引在线更新策略[J];计算机工程;2008年02期
8 吴晓;李丹宁;吕爽;林洁;李丹;;基于综合倒排索引的个性化搜索引擎研究[J];微计算机信息;2008年27期
9 张旭东;孙志明;刘亚宁;单栋栋;闫宏飞;;基于64位体系结构的倒排索引压缩算法[J];计算机工程;2014年02期
10 司宏伟;;微博中基于增强型倒排索引的特定文档影响力估计算法[J];计算机工程与科学;2014年03期
相关会议论文 前4条
1 李栋;史晓东;;对搜索引擎中倒排索引更新策略的研究和改进[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 刘小珠;孙莎;曾承;彭智勇;;基于缓存的倒排索引机制研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 维尼拉·木沙江;吴俊森;吐尔根·依布拉音;;维吾尔文搜索引擎的倒排索引设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 孙宇;刘憬;张宇;刘挺;;基于分词和倒排索引的短文本检索技术的研究与实现[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
相关博士学位论文 前1条
1 艾列富;基于内容的大规模图像索引与检索方法研究[D];华中科技大学;2014年
相关硕士学位论文 前10条
1 郭争文;基于TermID序列排序的标识符重分配的倒排索引压缩研究[D];北京交通大学;2016年
2 刘兴宇;基于倒排索引的全文检索技术研究[D];华中科技大学;2004年
3 刘红雨;基于倒排索引的微博话题检测[D];哈尔滨工业大学;2013年
4 毛福林;倒排索引压缩算法研究[D];北京交通大学;2015年
5 汪红敏;基于固态硬盘的倒排索引动态更新策略及其优化研究[D];华中科技大学;2013年
6 林洁;基于综合倒排索引的个性化搜索技术研究[D];贵州大学;2008年
7 陈雪帆;基于固态硬盘的倒排索引构建与维护策略研究[D];华中科技大学;2012年
8 吴俊森;维哈柯多语种搜索引擎倒排索引模块的实现[D];新疆大学;2007年
9 潘胜一;基于倒排索引的压缩算法性能研究[D];杭州电子科技大学;2009年
10 董长春;基于Hadoop的倒排索引技术的研究[D];辽宁大学;2011年
,本文编号:1747310
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1747310.html