软件源码相似性分析技术及应用系统研究

发布时间:2018-10-25 11:34
【摘要】:计算机软件行业迅猛发展,有别于传统行业,它更可能出现知识产权纠纷,抄袭等。源代码作为计算机软件的核心价值体现,判定其是否有抄袭行为,这在司法取证等是一项非常必要的依据。检测源代码是否存在抄袭行为,也商业软件发布前判断是否使用了开源许可代码的重要依据,上线前的检测可以避免因违反某些开源代码使用许可而作为商业用途所带来的纠纷。 代码相似性分析被广泛应用,可用于判断源代码是否存在抄袭,是否违反开源代码使用规则等。现有的工具往往使用一种比对算法,针对单一的语言,比对能力极为有限。本课题设计并实现了一套相似性综合分析系统,它使用了基于字符,标签序列和语法的三种核心比对,另外用整文件比对和部分语义比对作为辅助,并根据每种算法所占的比重设计出综合比对算法,比对极为精准。 代码相似性检测是一种静态检测方法,主要用于检测源代码是否存在抄袭。本系统检测可以精确到行,并有多种先进成熟算法相结合,考虑到检测过程是使用大量样本或以开源代码为主的样本库,可以构建一个以缺陷代码为主的样本集,适用于检测其它软件代码的安全性。本文构造了大量的测试样本,涉及多种缺陷类型,对造成每种缺陷类型的可能性都进行了覆盖,通过对大量源码工程的比对,证明了该方法的优越性和可靠性。
[Abstract]:The rapid development of computer software industry, different from the traditional industry, it is more likely to appear intellectual property disputes, plagiarism and so on. As the core value of computer software, the source code is a very necessary basis for judging whether there is plagiarism or not. The important basis for detecting plagiarism in source code and determining whether open source license code is used before commercial software is released, Pre-line testing can avoid disputes over commercial use of certain open source code licenses. Code similarity analysis is widely used to determine whether plagiarism exists in source code and whether it violates the rules of open source code. The existing tools often use a matching algorithm, for a single language, the ability of comparison is extremely limited. This paper designs and implements a set of similarity comprehensive analysis system, which uses three kinds of core alignment based on character, tag sequence and syntax, and uses integer file alignment and some semantic alignment as auxiliary. A comprehensive comparison algorithm is designed according to the proportion of each algorithm, and the comparison is extremely accurate. Code similarity detection is a static detection method, mainly used to detect whether plagiarism exists in source code. The system can be accurate to the line, and has a variety of advanced and mature algorithms, considering that the detection process is to use a large number of samples or open source code based on the sample library, can build a defect code based on the sample set, Suitable for detecting the security of other software code. In this paper, a large number of test samples are constructed, involving a variety of defect types, and the possibility of causing each defect type is covered. The superiority and reliability of this method are proved by comparing a large number of source code projects.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP311.53

【参考文献】

相关期刊论文 前10条

1 苏长明;黄荣兵;陶醉;;基于J2ME的字符串自动换行算法在手机游戏开发中的实现[J];成都大学学报(自然科学版);2010年04期

2 蔡小芳;张永胜;;在Web服务安全中XML加密与签名的应用[J];计算机安全;2006年07期

3 朱辉;关于模块和模块化概念探讨[J];电子机械工程;1997年01期

4 李新;基于组件对象模型的一种Excel 2000开发方法[J];电脑开发与应用;2003年05期

5 连凤春;“==”与equals方法[J];电脑知识与技术;2003年20期

6 袁菲;陆阳;;XML在嵌入式环境下的应用[J];合肥工业大学学报(自然科学版);2007年04期

7 乐光学,赵嫦花;缓冲区溢出攻击与防止技术[J];佳木斯大学学报(自然科学版);2003年04期

8 曾波;潘少彬;陆璐;;改进的LCS方法在测试脚本序列比对中的应用[J];计算机工程与应用;2011年35期

9 蒋建春,黄菁,卿斯汉;黑客攻击机制与防范[J];计算机工程;2002年07期

10 王兴;何婷婷;庄超;;本体演化及本体的版本管理机制研究[J];计算机与数字工程;2006年07期

相关硕士学位论文 前10条

1 黄金;安全混沌图像加密算法的研究[D];长沙理工大学;2010年

2 韩丽芳;基于结构信息和token比对的软件同源性检测技术研究[D];北京邮电大学;2011年

3 聂世超;PHP程序静态分析系统的设计与实现[D];吉林大学;2011年

4 齐忠兵;宽带综合数据光同步网的数据加密研究[D];沈阳理工大学;2011年

5 胡积平;基于权重事件的GUI测试研究[D];湖南大学;2006年

6 赵继龙;SCA软件无线电系统软件平台的设计与实现[D];国防科学技术大学;2005年

7 胡美新;基于审计跟踪技术的信息安全研究[D];中南大学;2008年

8 彭志鹏;基于维层次数据立方体存储技术的研究[D];中南大学;2008年

9 吴铮;基于Pi演算的SOAP安全性分析与验证[D];中国石油大学;2008年

10 魏环宇;一个集成桌面搜索的数据库文件系统的研究与实现[D];国防科学技术大学;2008年



本文编号:2293584

资料下载
论文发表

本文链接:https://www.wllwen.com/falvlunwen/zhishichanquanfa/2293584.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户89283***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com