面向缺陷管理的跨项目知识复用技术研究
发布时间:2021-08-04 20:01
软件缺陷管理一直是软件开发活动中很重要的一环。如今,随着开源运动的蓬勃发展,越来越多的开发者将软件项目托管到开源社区。为了吸引来自不同地区的外围贡献者参与到项目的开发进程中来,开源社区提供的协同开发工具趋向于轻量化。一方面,这些轻量级工具简化了项目的贡献机制,为项目吸引了海量贡献;另一方面,汇聚而来的海量贡献质量参差不齐,其中不乏有很多模糊的、质量低的外围贡献,给开源项目的健康发展带来了巨大的隐患。因此,在大众化协同的开源生态下,对开源软件进行自动化的缺陷管理变得格外重要。已有的自动化缺陷管理方法基于传统的机器学习模型,受制于训练样本数量的多少。对于一些新的或是没有足够历史数据的项目,无法在项目内构建一个好的预测模型。因此,为了解决样本不足的项目的缺陷管理问题,本文基于开源社区Github中的大规模数据集,对面向缺陷管理的跨项目知识复用技术进行了探索研究。论文的主要贡献总结如下:第一,基于开源社区累积的数据资源,分别对项目内的质量以及项目间的关联关系进行了量化评估,提出了面向开源项目的多维量化度量体系,其中包括项目内质量评估度量(包含4个维度、9个度量指标),以及项目间关联关系度量(包...
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
图1.2?Github?ITS工作流程??
国防科技太学研究生院硕士学位论文??0.8??°'78??丨^??0.76?^0000^4t00000^^??掛?0.74??|〇,2?/??伞?0_7?/??0.68?T??0.66?4??0.64??0?200?400?600?800?1000??ISSUE样本数量??图1.4?GitHub社区分类准确寧与样本大小关藥??小数据集项目内的学习器预测效果很不好[15]。此外,我们在缺陷分类场景下,??对Github社区有足够issue样本的项目调研了样本大小和分类准确率的关系。如??图1.4所示,可以发现在样本不足的时候,分类器性能很差,隨着训练样本量的增??力口,分类的准确率有稳步上升。然而,在实际的缺陷分类预测任务中,并不是总??能满足这个机器学习基本假设。我们对GitHub社区截至2017年5月的所有开源??项目友其issue数量(从GHTorrent6平合获取)做了基础统计,统计结果如图1.5,??1.6所示■。从图1.5可以看出整体Github项目issue数量墨现长尾分布趋势,即绝大??部分项_仅有少量issue。其中仅有1.7%的项M?issue数量超过200,?0.6%的项貝??issue.数量舞过500。图1.6对issue数量大于500的项_雜行了帯标签.issue.数鐘翁??计,我们发现平均每个项目有超过40%的issue没有标签,无法作为训练样本在??分类器中使用。综合上述观察结果,我们发现在实际中,大量项目没有足够的训??练样本,无法在项目内训练出有效的预测模型。??对于一些新的或没有足够历史数据的项目,想要构建一个好的学习器来对项??目进行分类预测是一个
酿科技大孝研触院硕位论文??1e+05-??01?llllliy—I'??6?5000?10000?15000?20000??issueaS??图1.5?GitHub社区项目与issue数量统计图??1.00-??0.75-?????1??ru??菡?0.50-??I?????nn??m??0.25-??團1..6?Github社糕項U带标记issue比例箱魏'圈??如何更高效的进行跨项自知识源的选择与集成也I个待解决的难题。针对以上??两个难点,我们将对面向缺陷管理的跨项i■知识复用技术展开研究,探索如何更??好地对数据不足的项目实现跨项目分类预测,以提高项目质量,减轻项_管理人??.農負担S??1.2相关研究现状??一直以来,软件缺陷预测和缺陷报舎分类都是软件工程领域最受关注的研??究内容之一。如今,面向开源社区的海暈贡谳,软件的缺陷管理更是受到学术??界和工业界的广泛关往《受到迁移学习原理和相关技术的启蒙,越来越多的??研究学者关注用跨项目的方法解决实际问题。近几年,在软件工程的一些顶级??会议如?ICSE(International?Conference?of?Software?Engineering)、FSE(ACM?SIGSOFT??Symposium?on?the?Foundation?of?Software?Engineering)?>?MSR(International?Conference??on?Mining?Software?Repositories)上,持续有研究学者提出用跨项目的方法解决缺??第7页??
【参考文献】:
期刊论文
[1]静态软件缺陷预测方法研究[J]. 陈翔,顾庆,刘望舒,刘树龙,倪超. 软件学报. 2016(01)
[2]一种基于跨领域典型相关性分析的迁移学习方法[J]. 张博,史忠植,赵晓非,张建华. 计算机学报. 2015(07)
[3]基于度量元的静态软件缺陷预测技术[J]. 常瑞花,贾鹏. 火力与指挥控制. 2015(02)
[4]迁移学习研究进展[J]. 庄福振,罗平,何清,史忠植. 软件学报. 2015(01)
本文编号:3322319
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
图1.2?Github?ITS工作流程??
国防科技太学研究生院硕士学位论文??0.8??°'78??丨^??0.76?^0000^4t00000^^??掛?0.74??|〇,2?/??伞?0_7?/??0.68?T??0.66?4??0.64??0?200?400?600?800?1000??ISSUE样本数量??图1.4?GitHub社区分类准确寧与样本大小关藥??小数据集项目内的学习器预测效果很不好[15]。此外,我们在缺陷分类场景下,??对Github社区有足够issue样本的项目调研了样本大小和分类准确率的关系。如??图1.4所示,可以发现在样本不足的时候,分类器性能很差,隨着训练样本量的增??力口,分类的准确率有稳步上升。然而,在实际的缺陷分类预测任务中,并不是总??能满足这个机器学习基本假设。我们对GitHub社区截至2017年5月的所有开源??项目友其issue数量(从GHTorrent6平合获取)做了基础统计,统计结果如图1.5,??1.6所示■。从图1.5可以看出整体Github项目issue数量墨现长尾分布趋势,即绝大??部分项_仅有少量issue。其中仅有1.7%的项M?issue数量超过200,?0.6%的项貝??issue.数量舞过500。图1.6对issue数量大于500的项_雜行了帯标签.issue.数鐘翁??计,我们发现平均每个项目有超过40%的issue没有标签,无法作为训练样本在??分类器中使用。综合上述观察结果,我们发现在实际中,大量项目没有足够的训??练样本,无法在项目内训练出有效的预测模型。??对于一些新的或没有足够历史数据的项目,想要构建一个好的学习器来对项??目进行分类预测是一个
酿科技大孝研触院硕位论文??1e+05-??01?llllliy—I'??6?5000?10000?15000?20000??issueaS??图1.5?GitHub社区项目与issue数量统计图??1.00-??0.75-?????1??ru??菡?0.50-??I?????nn??m??0.25-??團1..6?Github社糕項U带标记issue比例箱魏'圈??如何更高效的进行跨项自知识源的选择与集成也I个待解决的难题。针对以上??两个难点,我们将对面向缺陷管理的跨项i■知识复用技术展开研究,探索如何更??好地对数据不足的项目实现跨项目分类预测,以提高项目质量,减轻项_管理人??.農負担S??1.2相关研究现状??一直以来,软件缺陷预测和缺陷报舎分类都是软件工程领域最受关注的研??究内容之一。如今,面向开源社区的海暈贡谳,软件的缺陷管理更是受到学术??界和工业界的广泛关往《受到迁移学习原理和相关技术的启蒙,越来越多的??研究学者关注用跨项目的方法解决实际问题。近几年,在软件工程的一些顶级??会议如?ICSE(International?Conference?of?Software?Engineering)、FSE(ACM?SIGSOFT??Symposium?on?the?Foundation?of?Software?Engineering)?>?MSR(International?Conference??on?Mining?Software?Repositories)上,持续有研究学者提出用跨项目的方法解决缺??第7页??
【参考文献】:
期刊论文
[1]静态软件缺陷预测方法研究[J]. 陈翔,顾庆,刘望舒,刘树龙,倪超. 软件学报. 2016(01)
[2]一种基于跨领域典型相关性分析的迁移学习方法[J]. 张博,史忠植,赵晓非,张建华. 计算机学报. 2015(07)
[3]基于度量元的静态软件缺陷预测技术[J]. 常瑞花,贾鹏. 火力与指挥控制. 2015(02)
[4]迁移学习研究进展[J]. 庄福振,罗平,何清,史忠植. 软件学报. 2015(01)
本文编号:3322319
本文链接:https://www.wllwen.com/guanlilunwen/shequguanli/3322319.html