基于特征选择和实例迁移的软件缺陷预测方法研究
发布时间:2021-10-10 14:38
随着软件行业的快速发展,软件的规模也不断地扩大,不可避免的会产生许多软件缺陷。而软件缺陷的存在会对人们的生产和生活带来巨大的损失,因此人们开始意识到软件质量的重要性。如果可以在软件发布之前就找到软件中隐藏的缺陷,那么就可以合理有效的分配测试资源,集中精力进行修复,因此软件缺陷预测得到了人们的关注。软件缺陷预测是通过挖掘历史数据,如软件开发过程、软件代码等,进而构建缺陷预测模型,对新的项目模块进行预测。然而目前大部分的研究都集中在同项目缺陷预测。但是在实际的开发中,经常需要对一个全新的项目进行预测,或者项目已有的标记数据很少。在这种情况下,跨项目缺陷预测应运而生。该方法使用已有的具有丰富标记的其他项目(即源项目)数据构建缺陷预测模型,对当前项目(即目标项目)的缺陷情况进行预测。本文针对大部分模型在实际应用中存在的问题:(1)缺陷数据中有大量冗余或无关特征;(2)缺陷数据存在类不平衡现象;(3)源项目和目标项目之间数据分布差异较大,提出了两种软件缺陷预测方法。(1)基于特征选择的软件缺陷预测方法基于缺陷数据中存在冗余或无关特征的问题,本文提出一种基于特征选择的软件缺陷预测方法。该方法从源项...
【文章来源】:西南大学重庆市 211工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
特征选择过程
根据具体操作的不同主要分为对多数类样本的欠采样和对少数类样本的过采样两种方法。其中最简单易懂的就是随机采样,同理,随机采样也包括随机过采样和随机欠采样两种。随机欠采样就是随机的在多数类样本中选出一些样本并从原始数据集中移除。而随机过采样就是随机选出一些少数类样本,对这些样本进行复制,并添加到原始数据集中一起进行训练。这两种方法虽然都能改变原始数据集的样本容量并且缓解数据集中的不平衡现象,但是都会产生不同的负面效果。例如欠采样方法由于是随机的删除多数类样本,因此往往会造成信息缺失,并且被删除的多数类样本有可能含有重要的信息。而过采样方法由于只是对选出的少数类样本进行简单的复制,经常会导致过拟合现象。针对这些问题,研究者提出了几种其他改进的采样算法,如 SMOTE 算法、BalanceCascade 算法[58]和EasyEnsemble 算法[59]等,下面将对 SMOTE 算法进行简单介绍。SMOTE(Synthetic Minority Oversampling Technique)是随机过采样算法的一种改进方法。其基本思想是通过对少数类样本进行分析,利用样本之间的相似性人工合成新样本并添加到数据集中。具体如图 2.2 所示:
第 2 章 软件缺陷预测相关基础pf = C curve)也是常用的评价分类器的指ration characteristic)曲线。其横坐标缺陷预测模型中,预测结果就对应 形成经过(0,0)和(1,1)两点的 ROC 曲大小。AUC 的值为 0 到 1 之间,其值 曲线示意图。
【参考文献】:
期刊论文
[1]基于Box-Cox转换的集成跨项目软件缺陷预测方法[J]. 王莉萍,陈翔,王秋萍,赵英全. 计算机应用研究. 2017(07)
[2]软件缺陷预测中基于聚类分析的特征选择方法[J]. 刘望舒,陈翔,顾庆,刘树龙,陈道蓄. 中国科学:信息科学. 2016(09)
[3]基于迁移学习的软件缺陷预测[J]. 程铭,毋国庆,袁梦霆. 电子学报. 2016(01)
[4]静态软件缺陷预测方法研究[J]. 陈翔,顾庆,刘望舒,刘树龙,倪超. 软件学报. 2016(01)
[5]软件缺陷预测技术[J]. 王青,伍书剑,李明树. 软件学报. 2008(07)
[6]一种基于级联模型的类别不平衡数据分类方法[J]. 刘胥影,吴建鑫,周志华. 南京大学学报(自然科学版). 2006(02)
博士论文
[1]基于机器学习的软件缺陷预测研究[D]. 陈琳.重庆大学 2016
硕士论文
[1]基于迁移学习的软件缺陷预测方法研究[D]. 倪超.南京大学 2017
本文编号:3428575
【文章来源】:西南大学重庆市 211工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
特征选择过程
根据具体操作的不同主要分为对多数类样本的欠采样和对少数类样本的过采样两种方法。其中最简单易懂的就是随机采样,同理,随机采样也包括随机过采样和随机欠采样两种。随机欠采样就是随机的在多数类样本中选出一些样本并从原始数据集中移除。而随机过采样就是随机选出一些少数类样本,对这些样本进行复制,并添加到原始数据集中一起进行训练。这两种方法虽然都能改变原始数据集的样本容量并且缓解数据集中的不平衡现象,但是都会产生不同的负面效果。例如欠采样方法由于是随机的删除多数类样本,因此往往会造成信息缺失,并且被删除的多数类样本有可能含有重要的信息。而过采样方法由于只是对选出的少数类样本进行简单的复制,经常会导致过拟合现象。针对这些问题,研究者提出了几种其他改进的采样算法,如 SMOTE 算法、BalanceCascade 算法[58]和EasyEnsemble 算法[59]等,下面将对 SMOTE 算法进行简单介绍。SMOTE(Synthetic Minority Oversampling Technique)是随机过采样算法的一种改进方法。其基本思想是通过对少数类样本进行分析,利用样本之间的相似性人工合成新样本并添加到数据集中。具体如图 2.2 所示:
第 2 章 软件缺陷预测相关基础pf = C curve)也是常用的评价分类器的指ration characteristic)曲线。其横坐标缺陷预测模型中,预测结果就对应 形成经过(0,0)和(1,1)两点的 ROC 曲大小。AUC 的值为 0 到 1 之间,其值 曲线示意图。
【参考文献】:
期刊论文
[1]基于Box-Cox转换的集成跨项目软件缺陷预测方法[J]. 王莉萍,陈翔,王秋萍,赵英全. 计算机应用研究. 2017(07)
[2]软件缺陷预测中基于聚类分析的特征选择方法[J]. 刘望舒,陈翔,顾庆,刘树龙,陈道蓄. 中国科学:信息科学. 2016(09)
[3]基于迁移学习的软件缺陷预测[J]. 程铭,毋国庆,袁梦霆. 电子学报. 2016(01)
[4]静态软件缺陷预测方法研究[J]. 陈翔,顾庆,刘望舒,刘树龙,倪超. 软件学报. 2016(01)
[5]软件缺陷预测技术[J]. 王青,伍书剑,李明树. 软件学报. 2008(07)
[6]一种基于级联模型的类别不平衡数据分类方法[J]. 刘胥影,吴建鑫,周志华. 南京大学学报(自然科学版). 2006(02)
博士论文
[1]基于机器学习的软件缺陷预测研究[D]. 陈琳.重庆大学 2016
硕士论文
[1]基于迁移学习的软件缺陷预测方法研究[D]. 倪超.南京大学 2017
本文编号:3428575
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3428575.html