当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于主题分析的文本检索方法研究

发布时间:2017-05-02 22:15

  本文关键词:基于主题分析的文本检索方法研究,由笔耕文化传播整理发布。


【摘要】:得益于搜索引擎的推广,我们可以随时随地从互联网上获取自己所需的信息。但是基于信息呈指数级的增长速度和人们对搜索结果的更高要求,使得搜索引擎的智能化和个性化成为目前迫切需要解决的问题。那么如何在浩瀚的知识海洋中快速、准确地查找自己想要的那部分信息已成为新时代检索技术所面临的挑战。在传统的信息检索系统中,搜索引擎在描述用户查询与候选文档之间的关系时,往往仅考虑了词与词之间的字面匹配,并没有充分利用词语之间语义表达上的关联信息,这使得搜索结果与用户所需差距较大。本文从相关度出发,先利用主题模型对文档建模以抽取文档的主题信息,然后利用主题信息计算查询语句与候选文档之间的相关度并根据相关度对文档进行排序,最后将排序结果呈现给用户。然而,在上述过程中,主题模型表现出了自身的不足,一是主题模型中主题k值的选择过于随机化,这有可能因为不恰当的k值选择而使得主题与主题之间的区分度不够明显,造成主题之间的高重叠性;二是基于语料层的主题分布在某种程度上并不能完全代表单篇文章的主题分布,这可能会造成文档主题概率分布的高稀疏性,甚至会有损单篇文章的主题特征表示精度。基于以上两点,本文第三章和第四章分别对模型进行改进,使其能够最大程度地在信息检索任务上发挥作用。本文第三章提出了一种基于词向量主题模型的文本检索方法,该方法的主题建模部分充分考虑了主题之间的重叠关系和Gibbs抽样的初始过程。首先,利用词向量优秀的词语语义表达能力对主题之间的关系进行刻画,进而对主题模型中的k值进行再确定,使主题之间保持相对独立。另外,利用词向量对词进行聚合以改进Gibbs抽样过程中的词语的初始主题分配。然后,利用确定的k值,我们对语料进行主题建模,得出“文档—主题”、“主题—词”两个多项式分布矩阵,进而对矩阵进行运算得到“词”对“文档”的表征关系,这种“表征关系”在本文中被称为“贡献度”。在词语贡献度的基础上,我们可以把查询语句和候选文档集之间语义关系的紧密程度用“数值”描述出来。最后,通过这种“数值”关系对候选文档进行排序,进而将排序结果显示在用户查询界面上。本文第四章提出了一种基于聚类主题模型的文本检索方法,该方法是在第三章的基础上对主题建模方法和排序方法做出更进一步的改进。对于主题建模方法,基于传统主题模型在信息检索任务上的不理想表现,我们通过分析得出,对语料层上的主题建模在一定程度上造成了单篇文章主题分布的稀疏性并损失了主题在单篇文档中的特征表达精度,这就影响了单篇文档主题的真实概率分布。基于以上分析,我们在文本建模前先对文档集聚类,使主题相同或相近的文档集合尽可能聚集在一起,然后依次对聚类簇进行主题建模,充分发挥主题模型在信息检索任务上的建模能力。对于排序方法,在词语相关度计算方面,我们采用互动百科知识库对词语之间的相关度计算进行改进,使它们之间的语义关系变得更准确。本文实验所采用的语料库是NTCIR-5 (NACSIS Test Collections for IR),实验后利用TREC信息检索评测工具进行相关指标的测评。从实验结果可以看出,文中提出的基于词向量主题模型的文档检索方法和基于聚类主题模型的文档检索方法在MAP、R-precision和P@N指标上有良好的表现,提高了检索系统的准确率和召回率。这也间接表明本文方法的可行性。
【关键词】:搜索引擎 信息检索 词向量主题模型 聚类主题模型 贡献度 主题建模
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
  • 摘要5-7
  • Abstract7-11
  • 第一章 绪论11-17
  • 1.1 研究背景及意义11-12
  • 1.2 国内外研究现状12-16
  • 1.3 本文主要研究内容16
  • 1.4 文章结构安排16-17
  • 第二章 相关理论与技术研究17-30
  • 2.1 信息检索17-18
  • 2.2 词向量18-23
  • 2.2.1 词向量概述18
  • 2.2.2 几种语言模型18-20
  • 2.2.3 词向量的训练20-22
  • 2.2.4 词向量的应用22-23
  • 2.3 主题模型23-26
  • 2.3.1 潜在狄利克雷主题模型23-24
  • 2.3.2 词向量主题模型24-26
  • 2.4 语义相关度26-29
  • 2.4.1 基于语义词典的计算方法26-27
  • 2.4.2 基于语料库的计算方法27
  • 2.4.3 基于在线百科的计算方法27-29
  • 2.5 本章小结29-30
  • 第三章 基于词向量主题模型的文本检索方法30-45
  • 3.1 问题引入30-32
  • 3.2 基于词向量主题模型的文本检索方法32-39
  • 3.2.1 主题聚类算法描述32-33
  • 3.2.2 词语贡献度计算33-34
  • 3.2.3 查询语句与候选文档相关度计算34-37
  • 3.2.4 文本排序算法描述37-38
  • 3.2.5 文本检索方法描述38-39
  • 3.3 实验结果分析39-44
  • 3.3.1 主题聚类实验结果分析39-40
  • 3.3.2 文本检索实验结果对比与分析40-44
  • 3.4 本章小结44-45
  • 第四章 基于聚类主题模型的文本检索方法45-58
  • 4.1 问题引入45-47
  • 4.2 基于二次特征选择的文本聚类方法47-49
  • 4.2.1 文本特征选择47-49
  • 4.2.2 初始聚类中心确定49
  • 4.3 基于聚类主题模型的文本检索方法49-52
  • 4.3.1 词语贡献度计算49-50
  • 4.3.2 查询语句与候选文档相关度计算50-51
  • 4.3.3 文本排序方法描述51
  • 4.3.4 文本检索方法描述51-52
  • 4.4 实验结果对比与分析52-56
  • 4.4.1 文本聚类实验对比与分析53-54
  • 4.4.2 语义相关度实验对比与分析54
  • 4.4.3 文本检索实验结果对比与分析54-56
  • 4.5 本章小结56-58
  • 第五章 工作总结与展望58-60
  • 5.1 工作总结58
  • 5.2 工作展望58-60
  • 参考文献60-64
  • 攻读硕士学位期间参加的科研项目64-65
  • 致谢65-66

【参考文献】

中国期刊全文数据库 前2条

1 杨鑫华;于宽;;基于密度半径自适应选择的K-均值聚类算法[J];大连交通大学学报;2007年01期

2 李晓黎,周长胜;基于相关反馈技术的Web检索改进研究与实现[J];航空计算技术;2004年03期

中国硕士学位论文全文数据库 前3条

1 张映海;基于概念的中文文本检索研究[D];重庆大学;2007年

2 黄梵;基于双层语义分析的文档排序方法研究[D];华中师范大学;2013年

3 程杰;基于情感词强度的情感分类及其在商品评论中的应用[D];广东工业大学;2014年


  本文关键词:基于主题分析的文本检索方法研究,由笔耕文化传播整理发布。



本文编号:341805

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/341805.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d38fa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com