克隆代码有害性预测中分类不平衡问题的解决方法
发布时间:2017-08-06 22:20
本文关键词:克隆代码有害性预测中分类不平衡问题的解决方法
更多相关文章: 克隆代码 有害性 不平衡分类 随机下采样 参数搜索
【摘要】:针对克隆代码有害性预测中有害和无害数据分类不平衡的问题,提出一种基于随机下采样(RUS)的能够自动调整分类不平衡的K-Balance算法。首先对克隆代码提取静态特征和演化特征构建样本数据集;然后选取比例不同的分类不平衡新数据集;接着对已选取的新数据集进行有害性预测;最后,通过观察分类器的不同表现自动选择一个最适合的分类不平衡比例值。在7款C语言开源软件共170个版本上对克隆有害性预测模型的性能进行评估,并和其他分类不平衡解决方法进行对比,实验结果表明所提方法对有害和无害克隆的分类预测效果(受试者工作特征曲线下方面积(AUC)值)提高了2.62个百分点~36.70个百分点,能有效地改善分类不平衡的预测问题。
【作者单位】: 内蒙古师范大学计算机与信息工程学院;
【关键词】: 克隆代码 有害性 不平衡分类 随机下采样 参数搜索
【基金】:国家自然科学基金资助项目(61363017,61462071) 内蒙古自然科学基金资助项目(2015MS0606) 内蒙古自治区高等学校科学研究项目(NJZY16045)~~
【分类号】:TP311.5
【正文快照】: 0引言克隆代码(Code Clone)是指在语法或语义特征上相同或相似的代码段[1]。克隆代码与软件工程中各类问题相关,如软件质量与软件演化等[2]。克隆代码具有双重影响性[3],复制无缺陷的代码可降低编写新代码的潜在风险,节省开发时间与成本。然而复制含有bug的代码可能会导致bug
【相似文献】
中国重要会议论文全文数据库 前1条
1 山下英生;;GHSへの取}Dみ[A];中国聚氨酯工业协会第十三次年会论文集[C];2006年
中国硕士学位论文全文数据库 前1条
1 张瑞霞;基于贝叶斯网络的克隆代码有害性预测研究[D];内蒙古师范大学;2015年
,本文编号:631720
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/631720.html