众包测试报告的挖掘与评估
发布时间:2020-06-05 02:43
【摘要】:众包测试是一种新兴的软件测试方法,已经引起了学术界和工业界的广泛关注。众包指的是通过公开调用的方式,将由公司完成的任务众包给一群未定义的潜在的地理上分散的在线个体,每个个体可以称为众包工人(crowd worker)。在众包测试中,工人帮助开发者执行测试并提交测试报告,开发者需要对提交的测试报告进行人工审查和评估。由于测试报告庞大的数量以及广泛变化的质量,开发者人工审查测试报告时遇到了一系列难以处理的问题,这些问题严重影响了开发者的审查速率和效率。因此,本文尝试对众包测试报告进行深入地挖掘和评估,帮助开发者更高效地处理众包测试报告。本文主要从两个方面开展研究。一方面通过减少测试报告的数量来帮助开发者减少人工审查代价;另一方面,通过分析测试报告的质量来帮助开发者提高审查测试报告的效率。本文主要取得了以下研究成果:(1)为了帮助开发者减少众包测试报告的审查代价,本文提出了众包测试报告模糊聚类问题。为了求解这个问题,本文提出了一个众包测试报告模糊聚类框架(TERFUR)。首先,利用两个启发式规则过滤掉无效的测试报告;然后,采用自然语言处理技术预处理众包测试报告;最后,采用一个二阶段模糊聚类方法来实现众包测试报告模糊聚类。五个数据集上的实验结果显示TERFUR能聚类测试报告最高达到78.15%的微平均精度,78.41%的微平均召回率和75.82%的微平均F1值。同时实验结果也显示TERFUR平均能识别95.33%的无效的测试报告。(2)为了帮助开发者确定测试报告审查序列,本文尝试求解测试报告优先级问题,并提出了一个基于分类的众包测试报告优先级方法(DivClass)。该方法首先通过采用自然语言处理技术来预处理众包测试报告,然后结合一个多样性策略和一个分类策略来实现测试报告优先级划分。为了评估DivClass的效果,本文在五个众包测试报告数据集上执行实验进行验证。实验结果显示DivClass平均能实现0.8921的平均缺陷检测率。同时实验结果也显示,相较于已有的方法,DivClass能减少被审查的测试报告数量最高达到 63.74%。(3)为了帮助开发者预测在有限的资源内,一个测试报告是否应当被选择进行审查,本文提出了众包测试报告质量评估问题。为了有效地求解这个问题,本文提出了一个众包测试报告质量评估框架(TERQAF)。首先,本文总结了众包测试报告的期望属性,然后定义一系列的可度量指标来评估这些期望属性,最后利用阶步转变函数将所有指标数值化的值转变为标称值(即好的、坏的),并聚合所有指标的标称值来预测测试报告的质量。五个测试报告数据集上的实验结果显示本文提出的算法在预测测试报告质量时最高能实现88.06%的精度,超过可比较算法最高达到23.06%。(4)为了改善测试报告的质量,本文提出了众包测试报告增强问题,即利用重复测试报告中包含的额外的有价值的信息来增强主测试报告。为了有效地求解这个问题,本文提出了众包测试报告增强框架(TRAF)。首先,自然语言处理技术被采用来预处理众包测试报告;然后,利用三种增强策略来实现测试报告不同字段信息的增强;最后通过可视化增强的测试报告来帮助开发者更好地辨别增加的信息和原始的信息。五个数据集上的实验结果显示TRAF获得的排序结果平均能达到98.65%的NDCG,同时能识别有价值的句子平均达到83.58%的精度、77.76%的召回率和78.72%的F值。
【图文】:
28个众包测试报告。本文从大连理工大学软件学院邀请三个研宄生来独立地完注任务,包括识别无效测试报告和多缺陷测试报告,以及分类冗余测试报告。注结果被反馈给开发者,经过开发者的验证确认,最终形成实验的标准数据集。研四个研宄问题并选择FCM作为比较算法,采用广泛使用的微平均icroAverage邋Precision,邋AverageP)、微平均召回率(microAverage邋Recall,邋AverageR邋FI邋值(microAverage邋Fl-measure,邋AverageFl)来评估邋TERFUR邋的性能。实验结RFUR邋能聚类测试报告最高分别达到邋78.15%,78.41%,邋75.82%的邋AverageP,邋AverAverageFl,并超过可比较算法最高达3].69%,33.06%和24.55%。同时,本章验验证TERFUR中部分组件的性能。实验结果显示,两个启发式规则能准确无效的测试报告,并且测试报告增强策略能有效地提高TERFUR在测试报告问题上的性能。逡逑2背景和动机逡逑本节详细阐述众包测试的背景以及众包测试报告数据集中存在的问题,说明开采新的方法来求解测试报告模糊聚类问题。逡逑
3.4测试报告模糊聚类框架逡逑本节详细阐述测试报告模糊聚类框架TERFUR的工作过程,该框架由三个组件组逡逑成,如图3.2所示。第一个组件构建了一个过滤器,利用两个精心设计的启发式规则,逡逑即空规则和正则式规则,来过滤掉无效的测试报告。第二个组件是一个预处理,,主要采逡逑用NLP技术来预处理众包测试报告并选择性地通过测试报告的输入信息来增强其描述逡逑信息。最后一个组件提出了一个二阶段模糊合并算法,用于实施测试报告模糊聚类。逡逑 ̄,1邋逦逦n逦逦^逦I逦^逦^一逡逑[?S|J逦.逡逑数据过滤逦预处理逦模糊聚类逡逑图3.2邋TERFUR框架逡逑Fig.邋3.2邋TERFUR邋framework逡逑运行实例:为了方便理解,本节选择10个测试报告作为实例来解释TERFUR的工逡逑作过程,表3.1显示了这10个测试报告。其中77?,和77?2是无效测试报告,77?3和77?,。是逡逑极短测试报告,77?3和77?4揭露了同样的缺陷,77?4是冗余的测试报告,77?3和77?5并没有逡逑列出详细的测试步骤,77?6和77?7是多缺陷测试报告,分别报告了三个和两个缺陷,77?8和逡逑77?9是由同一个工人提交的揭露了不同缺陷的测试报告
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP311.53
本文编号:2697381
【图文】:
28个众包测试报告。本文从大连理工大学软件学院邀请三个研宄生来独立地完注任务,包括识别无效测试报告和多缺陷测试报告,以及分类冗余测试报告。注结果被反馈给开发者,经过开发者的验证确认,最终形成实验的标准数据集。研四个研宄问题并选择FCM作为比较算法,采用广泛使用的微平均icroAverage邋Precision,邋AverageP)、微平均召回率(microAverage邋Recall,邋AverageR邋FI邋值(microAverage邋Fl-measure,邋AverageFl)来评估邋TERFUR邋的性能。实验结RFUR邋能聚类测试报告最高分别达到邋78.15%,78.41%,邋75.82%的邋AverageP,邋AverAverageFl,并超过可比较算法最高达3].69%,33.06%和24.55%。同时,本章验验证TERFUR中部分组件的性能。实验结果显示,两个启发式规则能准确无效的测试报告,并且测试报告增强策略能有效地提高TERFUR在测试报告问题上的性能。逡逑2背景和动机逡逑本节详细阐述众包测试的背景以及众包测试报告数据集中存在的问题,说明开采新的方法来求解测试报告模糊聚类问题。逡逑
3.4测试报告模糊聚类框架逡逑本节详细阐述测试报告模糊聚类框架TERFUR的工作过程,该框架由三个组件组逡逑成,如图3.2所示。第一个组件构建了一个过滤器,利用两个精心设计的启发式规则,逡逑即空规则和正则式规则,来过滤掉无效的测试报告。第二个组件是一个预处理,,主要采逡逑用NLP技术来预处理众包测试报告并选择性地通过测试报告的输入信息来增强其描述逡逑信息。最后一个组件提出了一个二阶段模糊合并算法,用于实施测试报告模糊聚类。逡逑 ̄,1邋逦逦n逦逦^逦I逦^逦^一逡逑[?S|J逦.逡逑数据过滤逦预处理逦模糊聚类逡逑图3.2邋TERFUR框架逡逑Fig.邋3.2邋TERFUR邋framework逡逑运行实例:为了方便理解,本节选择10个测试报告作为实例来解释TERFUR的工逡逑作过程,表3.1显示了这10个测试报告。其中77?,和77?2是无效测试报告,77?3和77?,。是逡逑极短测试报告,77?3和77?4揭露了同样的缺陷,77?4是冗余的测试报告,77?3和77?5并没有逡逑列出详细的测试步骤,77?6和77?7是多缺陷测试报告,分别报告了三个和两个缺陷,77?8和逡逑77?9是由同一个工人提交的揭露了不同缺陷的测试报告
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP311.53
【参考文献】
相关期刊论文 前2条
1 ZHANG Jie;WANG XiaoYin;HAO Dan;XIE Bing;ZHANG Lu;MEI Hong;;A survey on bug-report analysis[J];Science China(Information Sciences);2015年02期
2 张志强;逄居升;谢晓芹;周永;;众包质量控制策略及评估算法研究[J];计算机学报;2013年08期
本文编号:2697381
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2697381.html