当前位置:主页 > 科技论文 > 软件论文 >

面向大型开源社区的缺陷数据分析与研究

发布时间:2021-12-28 11:09
  随着开源软件社区和敏捷开发模式的不断发展,越来越多的软件开发团队选择将项目托管到开源社区中,使得来自行业各界的开发者都能参与到开源软件项目的开发中。在开源软件社区的发展潮流中,出现了一大批优秀的开源软件开发社区。例如业界中最大的开源软件社区GitHub。像GitHub这种大型开源社区在经过长期发展后,社区上沉淀了大量的软件仓库,其中包含着开发者在整个软件协作开发的过程中的经验和技巧。在众多的软件数据中,有一类很重要的数据:软件缺陷记录。软件缺陷记录通常记录了软件开发者在使用软件的过程中遇到的一些故障,或者是期待软件在新的版本中具有的功能等等。当软件的使用者在向软件所有者提出一条软件缺陷记录后,软件所有者通常都会组织适当的开发资源来解决软件缺陷记录中的软件故障。文本对缺陷数据的研究主要从两个方面来研究。1.研究如何提升缺陷数据的检索效率。开源社区中虽然存储着海量的缺陷数据,但是这些数据信息分散广泛,每条缺陷记录的内容复杂,有的甚至包括代码崩溃堆栈等阅读体验不友好的内容,因为缺陷记录的这些特点,导致开发人员无法快速的理解缺陷记录所记录的具体缺陷内容,损害阅读和检索效率。本文主要通过给缺陷记... 

【文章来源】:武汉大学湖北省 211工程院校 985工程院校 教育部直属院校

【文章页数】:55 页

【学位级别】:硕士

【部分图文】:

面向大型开源社区的缺陷数据分析与研究


图3.1:标签自动生成方法概要??点,标签元数据定义具体和抽象两种标签属性,用来区分不同抽象层次的标签

面向大型开源社区的缺陷数据分析与研究


图3.3:?7/2/67^7^5和人工组的召回时间对比??

缺陷记录,相关比例,搜索过程,搜索时间


?12??缺陷记录序号??图3.3:?7/2/67^7^5和人工组的召回时间对比??此标签提取时间的长短变化,也显著影响着人工组的召回时间。为了探宂验证人工组搜索时间波??动发生的真正原因,我们将人工组搜索时间最大值和最小值出现的缺陷记录的文本长度和代码长??度进行了统计,如表3.5所示:??表3.5:缺陷记录的文本代码长度比较??^缺陷记录序号|文本行数|代码行数??3?120?36??6?40?15??从表中我们可以发现,3号缺陷记录的文本长度和代码长度都远远大于6号缺陷记录,复杂??的文木和代码给阅读者理解缺陷记录的主题造成了较大的障碍,从而使得阅读者给该缺陷记录生??成关键词的时间变长,而搜索时间包括生成关键词的时间和搜索结果中召回的时间,生成关键词??的吋间变长,最终的搜索吋间也有很大可能变长。因而会产生图3.3中的搜索时间波动的现象。??3.4.2检索效果比较(RQ2)??在讨论搜索效果时

【参考文献】:
期刊论文
[1]Social media in Git Hub: the role of @-mention in assisting software development[J]. Yang ZHANG,Huaimin WANG,Gang YIN,Tao WANG,Yue YU.  Science China(Information Sciences). 2017(03)
[2]多标签数据挖掘技术:研究综述[J]. 李思男,李宁,李战怀.  计算机科学. 2013(04)



本文编号:3553953

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3553953.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户19b06***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com