当前位置:主页 > 科技论文 > 自动化论文 >

基于关键类判定的代码提交理解辅助方法

发布时间:2018-07-04 17:16

  本文选题:代码修改 + 代码修改理解 ; 参考:《软件学报》2017年06期


【摘要】:软件代码提交是最重要的软件版本演化数据之一,被广泛应用于软件审查和软件理解中.对于程序员,提交的理解难度随着受影响的类数量、修改的代码量的增加而增加.通过对大量数据的分析发现:识别出提交中核心的修改类(关键类)以及为了完成这个核心修改所进行的依赖性改动的类(非关键类),能够辅助代码提交的理解.受机器学习技术在分类领域有效性的启发,提出一种基于机器学习的关键类识别方法,将判定提交中的关键类建模为二分类问题(即关键和非关键类),从软件演化过程中产生的海量提交数据中抽取可判别性特征来度量类的关键性.在多个数据集上的实验结果表明:该方法判定关键类的综合准确率达到了87%;相比于开发人员直接理解提交,使用关键类信息提示来辅助理解提交,能够显著提高开发人员的效率和正确率.
[Abstract]:Software code submission is one of the most important software version evolution data, which is widely used in software review and software understanding. For programmers, the difficulty of understanding submission increases with the number of affected classes and the amount of code modified. Through the analysis of a large number of data, it is found that the core modification class (key class) in the submission and the dependent change class (non-critical class) in order to complete the core modification can assist in the understanding of code submission. Inspired by the effectiveness of machine learning technology in classification field, a key class recognition method based on machine learning is proposed. The key class in decision submission is modeled as a two-class problem (i.e. key and non-critical classes), and the discriminability features are extracted from the massive submitted data generated in the process of software evolution to measure the criticality of the class. The experimental results on several data sets show that the synthetic accuracy of this method is 87%, compared with the developer's direct understanding of submission, the key class information hint is used to assist in understanding the submission. It can significantly improve the developer's efficiency and accuracy.
【作者单位】: 中山大学数据科学与计算机学院;国家数字家庭工程技术研究中心;中山大学先进技术研究院;北京大学信息科学技术学院软件研究所;高可信软件技术教育部重点实验室(北京大学);
【基金】:NSFC-广东联合基金(U1201252) 国家重点研发计划(2016YFB1000101) 国家自然科学基金(61672545,61672045) 广东科技计划(2015B040403005)~~
【分类号】:TP181;TP311.5

【相似文献】

相关期刊论文 前10条

1 ;第十届中国机器学习会议征文通知2006年10月13~15日,海口[J];计算机研究与发展;2005年10期

2 邵平;;机器学习与人脸识别方法概述[J];玉林师范学院学报;2006年03期

3 ;第12届中国机器学习会议征文通知 2010年8月6—8日 济南[J];计算机研究与发展;2009年11期

4 ;第12届中国机器学习会议征文通知[J];计算机研究与发展;2009年12期

5 ;第12届中国机器学习会议征文通知 2010年8月6-8日 济南[J];计算机研究与发展;2010年01期

6 柏宏权;韩庆年;;机器学习在适应性教学系统中的应用研究[J];南京师范大学学报(工程技术版);2007年04期

7 吴肖炎;郭瑞;;基于机器学习的计算机安全技术综述(上)[J];保密科学技术;2013年03期

8 杨升;常胜;侯丽;;机器学习在计算机免疫中的应用[J];微计算机信息;2007年30期

9 ;《软件学报》统计学习研究与应用专刊征文通知[J];软件学报;2012年11期

10 黄健;;何清:挖掘数据开启新知[J];科学中国人;2013年12期

相关会议论文 前5条

1 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年

2 周军;何力;韩伟红;邓璐;;基于机器学习的中文评论倾向性分类实证研究[A];第28次全国计算机安全学术交流会论文集[C];2013年

3 陈文亮;朱靖波;姚天顺;张宇新;;基于Bootstrapping的领域词汇自动获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

4 陈振兴;贲可荣;;机器学习在软件预测与评估中的应用[A];2006年全国理论计算机科学学术年会论文集[C];2006年

5 焦妍;王厚峰;;基于机器学习方法与搜索引擎验证的缩略语预测[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

相关重要报纸文章 前5条

1 百度公司技术副总监 多媒体部负责人 余凯;深度学习与多媒体搜索技术演进[N];中国信息化周报;2013年

2 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年

3 本报记者 张晔邋通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年

4 沈建苗 编译;如何成为大数据科学家[N];计算机世界;2013年

5 本报记者 闵杰;大数据:价值创造“杀手锏”[N];中国电子报;2013年

相关博士学位论文 前7条

1 刘章林;基于机器学习的编译优化适应性研究[D];中国科学院研究生院(计算技术研究所);2006年

2 杜伟;机器学习及数据挖掘在生物信息学中的应用研究[D];吉林大学;2011年

3 王秉卿;基于机器学习的查询优化研究[D];复旦大学;2012年

4 陈东成;基于机器学习的目标跟踪技术研究[D];中国科学院研究生院(长春光学精密机械与物理研究所);2015年

5 毛慧芸;人脸美丽吸引力的特征分析与机器学习[D];华南理工大学;2011年

6 谭治英;核机器学习方法及其在视觉检测中的应用研究[D];电子科技大学;2013年

7 文学志;基于机器学习的路面对象识别关键技术研究[D];东北大学;2008年

相关硕士学位论文 前10条

1 毛海斌;基于半监督机器学习的情感分类领域适应问题研究[D];南京理工大学;2015年

2 王成;基于半监督机器学习的文本情感分析技术[D];南京理工大学;2015年

3 孙科;基于Spark的机器学习应用框架研究与实现[D];上海交通大学;2015年

4 刘江龙;基于机器学习的射频指纹定位方法研究[D];电子科技大学;2015年

5 周文U,

本文编号:2096792


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2096792.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bf7c0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com