跨项目缺陷预测中训练数据选择方法
发布时间:2017-09-01 02:36
本文关键词:跨项目缺陷预测中训练数据选择方法
更多相关文章: 软件质量保证 缺陷预测 跨项目缺陷预测 相似性度量 数据选择
【摘要】:跨项目缺陷预测(CPDP)利用来自其他项目的缺陷数据预测目标项目的缺陷情况,为解决以往缺陷预测方法面临的训练数据受限问题提供了一个新的视角。训练数据的质量将直接影响跨项目缺陷预测模型的性能,因此,需尽可能选择与目标项目更相似的数据用于模型的训练。利用PROMISE提供的34个公开数据集,从训练数据选择方面,分析了四种典型的相似性度量方法对跨项目预测结果的影响以及各种方法之间的差异。研究结果表明:使用不同的相似性度量方法选出的训练数据质量不同,其中余弦相似性与相关系数两种方法效果更好,且最大改进比例达到6.7%;同时,根据目标项目的缺陷率,发现余弦相似性更适合于缺陷率高于0.25的项目。
【作者单位】: 湖北大学计算机与信息工程学院;湖北省教育信息化工程技术研究中心(湖北大学);
【关键词】: 软件质量保证 缺陷预测 跨项目缺陷预测 相似性度量 数据选择
【基金】:国家973计划项目(2014CB340401) 国家自然科学基金资助项目(61273216,61272111,61202048,61202032) 湖北省知识创新专项项目(2016CFB309) 武汉市青年科技晨光计划项目(2014070404010232)~~
【分类号】:TP311.53
【正文快照】: 0引言早期软件缺陷预测的研究主要是使用软件项目的历史数据作训练,将得到的模型再用于该项目未来版本中软件缺陷的预测,统称为项目内缺陷预测(Within-Project DefectPrediction,WPDP)。WPDP的预测效果受项目历史数据的量影响明显[1],而在实践中要达到历史数据足够充足并不容,
本文编号:769457
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/769457.html