议题单元的链接网络分析
发布时间:2023-03-02 19:02
在GitHub中,议题报告(Issues)和分支请求报告(Pull Requests)是项目的两个重要组成部分(本文将议题报告和分支请求报告统称为议题单元)。现有研究证明,议题单元之间的链接在识别重复的议题单元方面发挥着重要作用。但目前为止,还没有研究说明为什么开发者要在讨论的时候留下议题单元之间的链接以及这些链接对软件开发和维护产生的潜在影响。因此,本文将首次分析议题单元链接网络(Issue Unit Network,缩写IUN),并对IUN中的链接行为进行深入探讨。首先,本文基于GitHub上16,584个流行的Python项目构建了IUN,并初步分析了链接行为的普遍性以及链接行为和项目影响力之间的关系。然后,本文研究了链接行为发生的原因,并发现了6种主要的链接关系,分别是依赖关系、重复关系、相关关系、参考关系、修复关系和增强关系。本文提出可以通过特定的句法模式来自动识别这些链接关系,为后续的研究提供支持。进一步分析每种链接关系,一些具有研究意义的结论被发现。最后,本文就重复分支请求报告的检测进行更深一步的研究,并将经典检索算法BM25用于重复分支请求报告检测。由于BM25只考虑到...
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.2 研究现状
1.2.1 议题单元
1.2.2 链接分析
1.2.3 重复分支请求报告检测
1.3 研究内容、思路和贡献
1.4 论文组织结构
2 相关技术介绍
2.1 统计分析方法
2.1.1 相关性分析
2.1.2 差异性分析
2.1.3 一致性分析
2.2 文本表示相关技术
2.2.1 基于IR的文本表示方法
2.2.2 基于机器学习的文本表示
3 议题单元的链接网络
3.1 背景知识
3.1.1 议题单元
3.1.2 链接
3.1.3 议题单元的链接网络(IUN)
3.2 IUN的构建
3.2.1 数据收集
3.2.2 链接抽取和IUN的构建
3.3 基于IUN的初步分析
3.4 鲁棒性分析
4 链接行为目的研究
4.1 链接行为的目的发现
4.1.1 人工分类过程
4.1.2 链接行为的目的分类
4.2 IUN中链接行为的挖掘
4.2.1 链接行为的自动分类
4.2.2 重访链接目的
4.3 鲁棒性分析
5 重复分支请求报告检测
5.1 背景和动机
5.2 算法思路
5.3 实验设计
5.3.1 数据预处理
5.3.2 文本相似度计算
5.3.3 生成候选集方法
5.3.4 实验评价指标
5.4 实验过程与结果分析
5.4.1 数据准备
5.4.2 实验结果和分析
5.5 鲁棒性分析
结论
参考文献
附录A 附录内容名称
攻读硕士学位期间发表学术论文情况
致谢
本文编号:3752456
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.2 研究现状
1.2.1 议题单元
1.2.2 链接分析
1.2.3 重复分支请求报告检测
1.3 研究内容、思路和贡献
1.4 论文组织结构
2 相关技术介绍
2.1 统计分析方法
2.1.1 相关性分析
2.1.2 差异性分析
2.1.3 一致性分析
2.2 文本表示相关技术
2.2.1 基于IR的文本表示方法
2.2.2 基于机器学习的文本表示
3 议题单元的链接网络
3.1 背景知识
3.1.1 议题单元
3.1.2 链接
3.1.3 议题单元的链接网络(IUN)
3.2 IUN的构建
3.2.1 数据收集
3.2.2 链接抽取和IUN的构建
3.3 基于IUN的初步分析
3.4 鲁棒性分析
4 链接行为目的研究
4.1 链接行为的目的发现
4.1.1 人工分类过程
4.1.2 链接行为的目的分类
4.2 IUN中链接行为的挖掘
4.2.1 链接行为的自动分类
4.2.2 重访链接目的
4.3 鲁棒性分析
5 重复分支请求报告检测
5.1 背景和动机
5.2 算法思路
5.3 实验设计
5.3.1 数据预处理
5.3.2 文本相似度计算
5.3.3 生成候选集方法
5.3.4 实验评价指标
5.4 实验过程与结果分析
5.4.1 数据准备
5.4.2 实验结果和分析
5.5 鲁棒性分析
结论
参考文献
附录A 附录内容名称
攻读硕士学位期间发表学术论文情况
致谢
本文编号:3752456
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3752456.html