社区问答搜索中排序方法的研究
发布时间:2017-12-26 00:08
本文关键词:社区问答搜索中排序方法的研究 出处:《中国科学技术大学》2017年博士论文 论文类型:学位论文
更多相关文章: 社区问答 问题搜索 用户意图 关键词切分 问题质量 用户权威性
【摘要】:近年来,社区问答(Community Question Answering,CQA)网站聚集了大量真实用户产生的问题和回答,在CQA中进行搜索已成为信息检索领域一个重要热点研究分支。其研究方向主要包含基于查询关键词的问题搜索排序,和对问题数据(包含问题、回答和用户)本身进行质量排序两个方面。前者称之为动态排序,与输入的关键词有关;后者称之为静态排序,与关键词无关,仅与问题数据本身的质量有关。动态和静态排序的研究都面临着重要的挑战。动态排序研究面临的主要挑战是用户的关键词时而简短,难以理解用户搜索意图;时而冗长,难以抓住关键词匹配的重点。而静态排序研究面临的主要挑战是大部分与静态排序相关的研究都聚集在挖掘高质量的回答和找到权威的用户,而忽视了低质量的回答对于CQA网站的损害,以及回答质量和用户权威性之间的内在联系。因此,本文分别从以下四个方面来解决上述相应问题,从而整体上提高CQA搜索的性能。首先,提出一种通过挖掘用户搜索意图的方法来处理短关键词的动态排序问题。CQA中传统的问题搜索研究主要集中在长关键词和问句类型关键词的匹配问题。然而,当关键词很短时,由于缺乏对用户搜索意图的理解,该问题就变得很有挑战性。为解决这个问题,本文从多个不同的数据源挖掘短关键词的搜索意图,并提出一个新的基于搜索意图的语言模型。该语言模型不仅利用了目前最先进的问题搜索算法,还结合了从不同数据源中挖掘出的用户搜索意图。实验表明,该方法可以显著地提升短关键词上问题搜索的性能。其次,提出一种基于关键词切分的方法来处理长关键词的动态排序问题。本文回答了如何利用关键词切分的技术来改进问题搜索的性能。这里的关键词切分是指把输入的关键词分割成自然语言短语片段。首先,提出一种基于重排序方法的关键词切分技术。重排序的方法目前被广泛应用于自然语言处理领域,但就目前所知,该方法还没有被用在关键词切分的研究中。其次,提出一种将关键词切分应用到相关性排序的新的方法。该方法是将原关键词的单词和切分后的片段都应用到相关性匹配中。实验结果表明,该方法可以显著提升在长关键词上问题搜索的性能。再次,提出一种无监督的低质量回答检测方法,来处理回答质量评估的静态排序问题。CQA中的问题回答质量参差不齐,有精确的有用回答,也有不相关的无用回答。所以,自动检测低质量的回答有助于CQA网站的信息管理,为用户提供高质量内容。为此,提出了三个假设:大部分回答都是正常的;低质量的回答与同一问题中其它的回答有显著不同;不同的问题有不同的回答质量评价标准。基于这三个假设,本文提出了一个无监督的最优化模型,模型中每一个回答都被赋予一个软标签,以此来表示回答质量。实验结果表明,该模型可以显著提升低质量回答检测的性能。最后,提出一种基于相互强化的三元模型来处理用户权威性评估的静态排序问题。直观上,用户的权威性与回答的质量有正相关关系。所以,用户权威性评估离不开回答质量评估。与此同时,提问者通常选择质量最高的回答作为最佳回答,这样就使得最佳回答者与提问者和其他回答者之间形成竞赛关系。我们建立了一个迭代式相互强化的三元模型,分别是用户权威性模型、回答质量模型和竞赛模型。三个模型之间通过迭代方法不断地优化自身性能,最终能够同时获得用户权威性评估和回答质量评估。实验结果表明,本文方法可以显著改进用户权威性评估和回答质量评估的性能。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 杨吕仓 ,丁廷福;浅析主题词和关键词[J];档案学通讯;1990年04期
2 苏文;王骞;;结合实际案例分析关键词的选取[J];电视技术;2013年S2期
3 黎方正;谢东;;基于完全化语义的关键词检索研究[J];计算机应用研究;2010年10期
4 王,
本文编号:1335003
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1335003.html