软件缺陷预测中高维数据处理研究
发布时间:2023-06-01 03:55
当前软件的规模和复杂度日益增长,因此软件可靠性备受关注。在软件工程中,如果可以找出软件系统中有可能存在缺陷的模块及其分布,对软件开发者合理配置资源及提高软件质量起到重要作用。软件缺陷预测(software defect prediction,简称SDP)技术便是对软件模块中是否存在缺陷进行预测,根据历史数据以及已经发现的缺陷等软件度量数据,预测哪些模块有出错倾向。合理的预测软件缺陷可以有效地帮助测试者快速定位并弥补软件缺陷,从而达到显著减少软件开发成本和提高软件可信度的效果。目前的研究通常将缺陷预测的实现形式化为一个机器学习问题,很多机器学习技术被用于缺陷预测。然而,现有的缺陷预测方法在实际应用中还存在许多问题。例如,这些方法的性能不够稳定,在高维数据情况下(如存在大量冗余、无关的度量元),预测精度不高,而在实际应用中高维数据是很普遍的。另外,由于有缺陷类(又称“正类”)通常远少于无缺陷类(又称“负类”),即缺陷历史数据具有类别不平衡性,容易造成预测模型更倾向于负类,从而降低了正类的预测精度。由于单分类器分类能力有限,不能有效处理不平衡数据,所以,很多学者利用集成学习方法来进行缺陷预测...
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 选题背景和研究意义
1.2 国内外研究现状及分析
1.2.1 特征选择方法研究现状
1.2.2 软件缺陷预测中特征选择研究现状
1.2.3 软件缺陷预测中不平衡数据处理研究现状
1.3 本文主要贡献
1.4 本文组织结构
2 相关理论概述
2.1 软件缺陷预测概述
2.1.1 问题定义及过程
2.1.1.1 软件缺陷
2.1.1.2 软件缺陷预测
2.1.2 软件缺陷预测技术
2.1.2.1 常用机器学习算法
2.1.2.2 基于机器学习技术的缺陷预测研究进展
2.2 不平衡数据处理方法概述
2.2.1 欠采样方法
2.2.2 过采样方法
2.2.2.1 随机过采样方法(Random Over Sampler)
2.2.2.2 合成少数类过采样技术(SMOTE)
2.2.3 混合采样方法
2.3 高维数据处理方法理论概述
2.3.1 特征选择的定义及选择过程
2.3.2 基于粗糙集的特征选择方法
2.4 本章小结
3 过采样与特征选择方法在软件缺陷预测中的对比研究
3.1 引言
3.2 经典的过采样方法
3.2.1 Borderline-SMOTE
3.2.2 自适应综合过采样(ADASYN)
3.3 经典的特征选择方法
3.3.1 方差阈值(Variance Threshold)
3.3.2 卡方检验(Chi-square test)
3.3.3 递归式特征消除(recursive feature elimination)
3.3.4 L1正则化(L1 regularization)
3.4 过采样方法与特征选择方法在软件缺陷预测中的组合应用
3.4.1 实验数据
3.4.2 评价指标
3.4.2.1 混淆矩阵
3.4.2.2 F1-measure
3.4.2.3 AUC
3.4.3 实验结果与分析
3.4.3.1 实验设置
3.4.3.2 实验结果
3.5 本章小结
4 基于调和粒度决策熵的特征选择研究
4.1 引言
4.2 调和粒度决策熵
4.3 基于调和粒度决策熵的特征选择算法FSHGE
4.4 本章小结
5 基于重抽样与特征选择的多模态选择性集成学习算法及其在缺陷预测中的应用
5.1 前言
5.2 基于重抽样与特征选择的多模态选择性集成算法SERSFS
5.3 SERSFS算法在软件缺陷预测中的应用
5.4 实验
5.4.1 实验准备
5.4.2 实验结果与分析
5.4.2.1 实验设置
5.4.2.2 实验结果
5.5 本章小结
6 总结与展望
6.1 工作总结
6.2 工作展望
参考文献
致谢
攻读硕士期间发表的学术论文
本文编号:3826603
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 选题背景和研究意义
1.2 国内外研究现状及分析
1.2.1 特征选择方法研究现状
1.2.2 软件缺陷预测中特征选择研究现状
1.2.3 软件缺陷预测中不平衡数据处理研究现状
1.3 本文主要贡献
1.4 本文组织结构
2 相关理论概述
2.1 软件缺陷预测概述
2.1.1 问题定义及过程
2.1.1.1 软件缺陷
2.1.1.2 软件缺陷预测
2.1.2 软件缺陷预测技术
2.1.2.1 常用机器学习算法
2.1.2.2 基于机器学习技术的缺陷预测研究进展
2.2 不平衡数据处理方法概述
2.2.1 欠采样方法
2.2.2 过采样方法
2.2.2.1 随机过采样方法(Random Over Sampler)
2.2.2.2 合成少数类过采样技术(SMOTE)
2.2.3 混合采样方法
2.3 高维数据处理方法理论概述
2.3.1 特征选择的定义及选择过程
2.3.2 基于粗糙集的特征选择方法
2.4 本章小结
3 过采样与特征选择方法在软件缺陷预测中的对比研究
3.1 引言
3.2 经典的过采样方法
3.2.1 Borderline-SMOTE
3.2.2 自适应综合过采样(ADASYN)
3.3 经典的特征选择方法
3.3.1 方差阈值(Variance Threshold)
3.3.2 卡方检验(Chi-square test)
3.3.3 递归式特征消除(recursive feature elimination)
3.3.4 L1正则化(L1 regularization)
3.4 过采样方法与特征选择方法在软件缺陷预测中的组合应用
3.4.1 实验数据
3.4.2 评价指标
3.4.2.1 混淆矩阵
3.4.2.2 F1-measure
3.4.2.3 AUC
3.4.3 实验结果与分析
3.4.3.1 实验设置
3.4.3.2 实验结果
3.5 本章小结
4 基于调和粒度决策熵的特征选择研究
4.1 引言
4.2 调和粒度决策熵
4.3 基于调和粒度决策熵的特征选择算法FSHGE
4.4 本章小结
5 基于重抽样与特征选择的多模态选择性集成学习算法及其在缺陷预测中的应用
5.1 前言
5.2 基于重抽样与特征选择的多模态选择性集成算法SERSFS
5.3 SERSFS算法在软件缺陷预测中的应用
5.4 实验
5.4.1 实验准备
5.4.2 实验结果与分析
5.4.2.1 实验设置
5.4.2.2 实验结果
5.5 本章小结
6 总结与展望
6.1 工作总结
6.2 工作展望
参考文献
致谢
攻读硕士期间发表的学术论文
本文编号:3826603
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3826603.html