基于文本挖掘的软件众包平台的项目个性化搜索
发布时间:2023-03-19 08:42
近些年来,软件众包因为其将项目发布到互联网上,开放式利用大众的群体智慧进行软件开发的特点,在工业界和学术界受到了广泛关注。如何帮助用户挑选合适自己的项目,是众包的关键问题之一。但目前众包平台的项目搜索服务存在以下几个问题:(1)现有的大部分搜索方法是基于词汇匹配的方法,没有对搜索请求和项目文本内容进行深入挖掘;(2)用户搜索输入的词汇无法表达用户的完整意图,导致搜索的结果和用户的期望有一定的差异性;(3)搜索的相关特征忽略了用户的个性化需求,即所有用户得到的搜索结果是相同的。这些问题导致用户无法快速找到最合适的项目。在此背景下,本文面向软件众包平台,研究提出一种基于文本挖掘的项目个性化搜索方法,利用文本挖掘技术建立软件众包平台的项目模型和用户模型,并对搜索请求进行语义拓展,最后使用一种学习排序算法对于筛选后的项目候选集进行排序。本文主要的创新点包括:(1)提出了基于文本挖掘的项目建模方法,利用项目的标题和需求从词汇层面、主题层面和神经网络语义层面进行分析与挖掘,将软件众包平台的标签数据作为监督信息用于项目主题建模的采样训练中,并基于时间衰减函数计算项目热度。(2)提出了基于时间窗口的用...
【文章页数】:76 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 研究背景
1.2 研究目标和挑战
1.2.1 研究目标
1.2.2 研究挑战
1.3 论文结构
2 相关技术
2.1 文本挖掘技术
2.1.1 词袋模型
2.1.2 主题概率模型
2.1.3 神经概率语言模型
2.2 搜索技术
2.2.1 学习排序模型
2.2.2 个性化搜索
2.2.3 搜索的语义拓展
2.3 本章小结
3 基于文本挖掘的软件众包资源建模
3.1 项目建模
3.1.1 项目建模的三个维度
3.1.2 项目结构数据建模
3.1.3 项目非结构数据建模
3.1.4 项目热度计算
3.2 用户建模
3.2.1 用户建模的两个维度
3.2.2 用户能力建模
3.2.3 用户兴趣建模
3.3 本章小结
4 基于文本挖掘的项目智能搜索
4.1 方案设计
4.2 搜索请求语义拓展
4.2.1 研究思路
4.2.2 基于语义主题PRF的通用词汇语义拓展
4.2.3 基于StackOverflow的领域词汇语义拓展
4.2.4 搜索建模
4.3 项目预过滤
4.3.1 基于索引的预过滤
4.3.2 基于规则模板的预过滤
4.4 特征构建
4.4.1 连续特征构建
4.4.2 离散特征构建
4.5 基于LambdaMART的搜索排序
4.6 本章小结
5 实验与结果分析
5.1 实验数据
5.2 评估方法
5.3 不同主题建模方法的对比实验
5.4 用户兴趣模型对于搜索的影响分析实验
5.5 搜索的语义拓展对于搜索的影响分析实验
5.6 不同学习排序算法的结果对比实验
5.7 特征贡献度分析实验
5.8 本章小结
6 总结与展望
6.1 本文工作总结
6.2 下阶段工作展望
参考文献
致谢
攻读学位期间发表的学术论文
攻读学位期间申请的专利
本文编号:3764942
【文章页数】:76 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 研究背景
1.2 研究目标和挑战
1.2.1 研究目标
1.2.2 研究挑战
1.3 论文结构
2 相关技术
2.1 文本挖掘技术
2.1.1 词袋模型
2.1.2 主题概率模型
2.1.3 神经概率语言模型
2.2 搜索技术
2.2.1 学习排序模型
2.2.2 个性化搜索
2.2.3 搜索的语义拓展
2.3 本章小结
3 基于文本挖掘的软件众包资源建模
3.1 项目建模
3.1.1 项目建模的三个维度
3.1.2 项目结构数据建模
3.1.3 项目非结构数据建模
3.1.4 项目热度计算
3.2 用户建模
3.2.1 用户建模的两个维度
3.2.2 用户能力建模
3.2.3 用户兴趣建模
3.3 本章小结
4 基于文本挖掘的项目智能搜索
4.1 方案设计
4.2 搜索请求语义拓展
4.2.1 研究思路
4.2.2 基于语义主题PRF的通用词汇语义拓展
4.2.3 基于StackOverflow的领域词汇语义拓展
4.2.4 搜索建模
4.3 项目预过滤
4.3.1 基于索引的预过滤
4.3.2 基于规则模板的预过滤
4.4 特征构建
4.4.1 连续特征构建
4.4.2 离散特征构建
4.5 基于LambdaMART的搜索排序
4.6 本章小结
5 实验与结果分析
5.1 实验数据
5.2 评估方法
5.3 不同主题建模方法的对比实验
5.4 用户兴趣模型对于搜索的影响分析实验
5.5 搜索的语义拓展对于搜索的影响分析实验
5.6 不同学习排序算法的结果对比实验
5.7 特征贡献度分析实验
5.8 本章小结
6 总结与展望
6.1 本文工作总结
6.2 下阶段工作展望
参考文献
致谢
攻读学位期间发表的学术论文
攻读学位期间申请的专利
本文编号:3764942
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3764942.html