当前位置:主页 > 科技论文 > 搜索引擎论文 >

社区问答系统中融入用户标签和用户行为的列表排序方法研究

发布时间:2017-10-17 06:13

  本文关键词:社区问答系统中融入用户标签和用户行为的列表排序方法研究


  更多相关文章: 社区问答系统 用户特征 ListNet 排序学习 排序模型


【摘要】:早期的搜索引擎,如百度、Google等为互联网用户提供了比较方便的信息获取方式,用户通过在搜索引擎中输入相关关键词可以很快得到自己想要的信息。但是随着互联网上信息的大爆炸以及生活节奏的加快,传统的搜索引擎已经不能很好地满足互联网用户快速获取目标知识的需求。然而,社区问答系统的出现弥补了搜索引擎的这种不足。社区问答系统开放性和交互性的特点将问题提问者和回答者紧密地联系在一起,可以满足用户更直接地快速地获取目标知识的需求。而在社区问答系统中答案排序是至关重要的,排序的准确性直接影响问答系统的质量和用户的体验。本文针对社区问答系统中的答案排序进行了如下几个方面的研究:(1)分析了社区问答系统中影响答案排序效果的特征。社区问答系统的特征包括用户标签和用户行为。社区问答系统中用户标签有问题回答者级别、问题回答者的擅长领域、问题回答者的被采纳率、问题回答者的被赞同数、问题回答者的经验值和问题回答者所关注的关键词等;用户行为有提问者的打分、游客的打分以及问题回答者经常回答的问题类别等。本文结合以上特征来对答案进行排序,后续实验表明融入用户标签和行为特征能有效提高答案排序的效果。(2)采用一种基于集成方法的半监督问句分类方法构建分类模型。为了将问题回答者的擅长领域和关注的关键词等特点有效地利用起来,必须对问句进行分类来匹配问题回答者的相关标签。该方法通过集成方法对分类器进行集成,再结合半监督学习方法用处理好的少量有标记问句特征和大量无标记问句特征来训练分类模型。然后用训练出的模型对新的问句进行分类,实验表明用基于集成的半监督分类方法可以有效提高问句分类准确率。(3)采用一种融入用户标签和用户行为特征的列表排序方法构建排序模型。首先对社区问答系统中用户标签和用户行为进行研究和分析,选取具有利用价值的用户标签和行为特征融合到答案特征空间中。选用神经网络作为模型,利用梯度下降法作为优化参数的ListNet作为排序方法,构建融入用户标签和用户行为特征的ListNet答案排序模型。最后用训练好的排序模型对已经经过处理的答案特征空间进行实验,对比实验结果表明融入用户标签和用户行为特征的ListNet答案排序方法能明显提高答案排序效果。(4)采用一种基于用户标签和用户行为优化的列表排序方法构建排序模型。分析研究社区问答系统中用户标签和用户行为,选取具有利用价值的用户标签和用户行为对ListNet排序模型进行优化。结合融入用户标签和用户行为的特征空间构建基于用户标签和用户行为优化的ListNet答案排序模型。最后用训练好的排序模型对已经经过处理的答案特征空间进行实验,对比实验结果表明基于用户标签和用户行为优化的ListNet答案排序方法能不同程度地提高答案排序的效果。
【关键词】:社区问答系统 用户特征 ListNet 排序学习 排序模型
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
  • 摘要5-7
  • Abstract7-13
  • 第一章 绪论13-19
  • 1.1 研究背景及意义13-14
  • 1.2 国内外研究现状14-16
  • 1.3 论文的研究内容16-17
  • 1.4 论文的组织17-19
  • 第二章 分类与排序学习的理论知识19-29
  • 2.1 引言19
  • 2.2 分类算法简介19-21
  • 2.2.1 传统的分类方法19-20
  • 2.2.2 基于机器学习的分类方法20-21
  • 2.3 排序学习问题21-24
  • 2.3.1 传统排序模型21-22
  • 2.3.2 排序学习简介22-24
  • 2.4 排序学习算法24-26
  • 2.4.1 PointWise排序学习方法24
  • 2.4.2 PairWise排序学习方法24-25
  • 2.4.3 ListWise排序学习方法25-26
  • 2.5 排序学习性能评价指标26-28
  • 2.5.1 P@n(Precision at position n)26
  • 2.5.2 MAP(Mean average precision)26-27
  • 2.5.3 MRR(Mean Reciprocal Ranking)27
  • 2.5.4 NDCG(Normalized discount cumulative gain)27-28
  • 2.6 本章小结28-29
  • 第三章 社区问答中问句及答案的特征提取29-35
  • 3.1 引言29-30
  • 3.2 社区问答中影响排序的因素30-31
  • 3.2.1 用户的标签30
  • 3.2.2 用户的行为30-31
  • 3.3 社区问答中问句及答案的特征提取31-33
  • 3.3.1 TFIDF特征提取31-32
  • 3.3.2 基于同义词词林的语义扩展度特征提取32-33
  • 3.4 融入用户标签和用户行为的特征优化33-34
  • 3.5 本章小结34-35
  • 第四章 基于集成方法的半监督问句分类35-43
  • 4.1 引言35-36
  • 4.2 集成学习方法简介36-37
  • 4.3 基于集成的半监督分类方法介绍37-38
  • 4.4 实验数据与参数设置38
  • 4.5 实验设计与结果分析38-42
  • 4.5.1 中文问句分类特征提取方法比较分析38-40
  • 4.5.2 中文问句分类集成方法和单一分类器的比较分析40-41
  • 4.5.3 半监督方法Semi-Bagging与监督方法Bagging问句分类比较41-42
  • 4.6 本章小结42-43
  • 第五章 融入用户标签和行为特征的列表排序方法43-49
  • 5.1 引言43
  • 5.2 用户标签和行为特征的提取43-44
  • 5.3 ListNet列表排序方法介绍44-45
  • 5.4 实验数据与参数设置45
  • 5.5 实验设计与结果分析45-48
  • 5.5.1 不同排序学习方法的答案排序比较分析45-46
  • 5.5.2 融入用户标签和行为特征的列表排序方法46-48
  • 5.6 本章小结48-49
  • 第六章 基于用户标签和行为优化的列表排序方法49-55
  • 6.1 引言49
  • 6.2 基于用户标签和行为优化的列表排序方法49-50
  • 6.3 实验数据与参数设置50
  • 6.4 实验设计与结果分析50-53
  • 6.4.1 不同评价指标的排序结果比较分析50-51
  • 6.4.2 不同维度的排序比较分析51-53
  • 6.5 本章小结53-55
  • 第七章 总结与展望55-57
  • 7.1 总结55-56
  • 7.2 工作展望56-57
  • 致谢57-59
  • 参考文献59-65
  • 附录A 攻读硕士学位期间发表论文与申请软件著作权65-67
  • 附录B 攻读硕士期间参与项目67

【相似文献】

中国期刊全文数据库 前10条

1 毛先领;李晓明;;问答系统研究综述[J];计算机科学与探索;2012年03期

2 莫丽萍,王树西,姜吉发,雷雨霞;问答系统和浅层结构模式推理[J];广西师范大学学报(自然科学版);2004年01期

3 卢志坚,张冬茉;中文问答系统中的问句理解[J];计算机工程;2004年18期

4 王树西;问答系统:核心技术、发展趋势[J];计算机工程与应用;2005年18期

5 林晓庆;;问答系统中基于列表类问题的研究[J];电脑知识与技术(学术交流);2007年07期

6 张积宾;徐志明;王恒;潘启树;;面向大规模网络数据的社会化问答系统[J];哈尔滨工业大学学报;2008年12期

7 贾君枝;毛海飞;;汉语框架网络问答系统问句处理研究[J];图书情报工作;2008年10期

8 胡小华;刘轩;刘丹;陆伟;;基于冗余的仿真问答系统的轻量级局部文本分析[J];图书情报知识;2009年01期

9 张中峰;李秋丹;;社区问答系统研究综述[J];计算机科学;2010年11期

10 陈玉;;基于“为什么”问句的中文问答系统研究[J];农业网络信息;2010年11期

中国重要会议论文全文数据库 前10条

1 何靖;陈,

本文编号:1047224


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1047224.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2536e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com