面向Bug分派的数据集约简方法的研究
发布时间:2021-09-17 05:25
随着软件功能及其开发过程越来越复杂,Bug仓库追踪报告的Bug数量急剧增加。传统的人工判读和分析已经无法适应大规模的Bug数据,越来越多的基于文本分类的自动Bug分派研究应运而生。大多数研究都将Bug报告中的短描述作为文本信息,再在分派模型上进行优化,忽略了可以提供更多信息但同样也会带来更多噪音的长描述。如果数据集质量不高,无论如何优化分派模型也不会达到很好的效果。另一方面,Bug数目巨大,开发人员的时间和人数有限,所以优先修复影响较大的Bug报告,可以将它们带来的损害最小化。然而,Bug报告数据集往往是不平衡的。因此,为了提高Bug仓库中Bug报告的维护和管理,减少人工成本,需要对文本描述信息中包含的噪音多及如何有效识别高影响力Bug报告作进一步研究。考虑到Bug不同其对系统造成的潜在威胁也不同,严重程度越高的Bug报告越应该优先解决。针对数据集规模大、质量低且数据不平衡的现象,本论文对其Bug分派方法进行了研究,主要贡献如下:(1)提出了一种加权优化的Bug分派方法,通过去除冗余特征和噪音样本,在保证权值和二元约束的同时最大化Bug分派的正确率,建立一个高质量的缺陷数据集。本文提出...
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
图1.2?Bug报告摘要??Fig.?1.2?Bug?report?summary??
本文编号:3398056
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
图1.2?Bug报告摘要??Fig.?1.2?Bug?report?summary??
本文编号:3398056
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3398056.html