社区问答系统中问句检索技术的研究
发布时间:2017-05-15 11:28
本文关键词:社区问答系统中问句检索技术的研究,由笔耕文化传播整理发布。
【摘要】:互联网技术的发展给人们日常生活带来便利的同时,也使人们淹没在信息的海洋中,很难找到自己所关心和需要的信息。随着web2.0的飞速发展,面对传统搜索引擎暴露出来的诸如不能对于专业的问题进行有效的检索、无法给用户带来交互式的体验等问题,近年来出现的社区问答(CQA)系统在一定程度上弥补了这些缺陷,正在给用户带来全新的搜索体验。在社区问答系中,人们可以自由地提出自己的问题,并由其他用户回答。由于任何人都可以在上面提问和回答,Yahoo! Answers等社区问答系统建立几年来已经积累了大量的历史问答对,如何有效的利用这些问答对成为众多学者研究的焦点。问句检索的研究就是为了能够有效地利用这些历史的问答对信息,快速找到与用户所关心的问题相同或相近的原有问题,缩短用户得到想要的答案的等待时间。但是,由于自然语言中存在大量的同义词、语义特性和丰富的句法特征,所以从社区问答系统中找到相似的问句并不是一项轻松的任务。 本文主要是对问句检索进行研究,主要是解决了问句检索过程中的存在的三个问题,首先是解决了问句检索过程中缺少语义信息造成的问句歧义性问题,由于自然语言中存在大量的同义词、语义特性和丰富的句法特征,所以单纯的仅依靠词本身的特征很难解决问句检索的问题。针对这个问题,本文提出一种基于特征融合的社区问答问句相似度计算方法,它主要是利用问句本身的统计特征、词序特征、语义特征和问句对应的答案特征相结合来解决问句检索问题。 其次是解决了问句检索过程中效率问题,在解决检索效率问题中,本文提出一种融合问句类别信息和问句对应答案类别信息的问句检索模型,该模型主要是考虑了问句的类别信息和问句所对应答案的类别信息,利用类别信息来过滤掉不相关的问句,从而提高问句检索的效率和性能。 最后解决的问题是由于误分类对检索结果造成影响的问题,针对这个问题,本文提出一种融合问句主题信息和问句对应问句答案主题信息的问句检索模型,该模型主要考虑了问句本身的主题信息和问句所对应的答案主题信息,利用主题信息对相似的问句类别进行合并,从而减轻误分类对检索结果的影响。最终将这三种模型分别在Yahoo!Answers网站上抽取的真实标注数据集上进行实验,并通过多角度的对比实验表明,针对各自要解决的问题,本文提出的模型取得了良好的性能。
【关键词】:社区问答 搜索引擎 问句检索 问句相似度
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要4-5
- Abstract5-9
- 1 绪论9-14
- 1.1 研究背景9-10
- 1.2 国内外研究现状10-12
- 1.3 本文主要工作12
- 1.4 本文组织结构12-14
- 2 问句检索相关技术及实现方法14-18
- 2.1 向量空间模型14-15
- 2.2 BM25模型15
- 2.3 语言模型15-16
- 2.3.1 一元语言模型15
- 2.3.2 翻译模型15-16
- 2.3.3 基于翻译的语言模型16
- 2.4 本章小结16-18
- 3 基于特征融合的问句相似度计算方法18-29
- 3.1 引言18-19
- 3.2 检索模型概述19-24
- 3.2.1 算法思想19
- 3.2.2 词序相似度19-20
- 3.2.3 改进的统计模型20-21
- 3.2.4 问题的主题和焦点确定21-22
- 3.2.5 语义模型22
- 3.2.6 基于答案信息模型22-24
- 3.3 实验设计24-28
- 3.3.1 实验数据24-25
- 3.3.2 评价指标25
- 3.3.3 实验结果与分析25-28
- 3.4 本章小结28-29
- 4 融合问句类别信息和答案类别信息的检索模型29-38
- 4.1 引言29-30
- 4.2 检索模型概述30-34
- 4.2.1 算法思想30
- 4.2.2 语言模型30-31
- 4.2.3 基于问句类别信息平滑的语言模型31-33
- 4.2.4 基于答案类别信息平滑的语言模型33-34
- 4.2.5 融合问句类别信息和答案类别信息平滑的语言模型34
- 4.3 实验设计34-37
- 4.3.1 实验数据34-35
- 4.3.2 参数选择35
- 4.3.3 实验结果与分析35-37
- 4.4 本章小结37-38
- 5 融合问句主题信息和答案主题信息的检索模型38-49
- 5.1 引言38
- 5.2 检索模型概述38-45
- 5.2.1 算法思想38-39
- 5.2.2 LDA(Latent Dirichlet Allocation)主题模型39-41
- 5.2.3 语言模型41
- 5.2.4 基于问句主题信息平滑的语言模型41-44
- 5.2.5 基于答案主题信息平滑的语言模型44-45
- 5.2.6 融合问句类别信息和答案类别信息平滑的语言模型45
- 5.3 实验设计45-48
- 5.3.1 实验数据45-46
- 5.3.2 参数选择46
- 5.3.3 实验结果与分析46-48
- 5.4 本章小结48-49
- 结论49-51
- 参考文献51-55
- 攻读硕士学位期间发表学术论文情况55-56
- 致谢56-57
【参考文献】
中国期刊全文数据库 前3条
1 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
2 单斌;李芳;;基于LDA话题演化研究方法综述[J];中文信息学报;2010年06期
3 熊大平;王健;林鸿飞;;一种基于LDA的社区问答问句相似度计算方法[J];中文信息学报;2012年05期
本文关键词:社区问答系统中问句检索技术的研究,,由笔耕文化传播整理发布。
本文编号:367662
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/367662.html