当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于蕴含的文本搜索的研究与实现

发布时间:2017-10-08 19:10

  本文关键词:基于蕴含的文本搜索的研究与实现


  更多相关文章: 文本蕴含 搜索引擎 词向量 蕴含关系


【摘要】:随着信息技术的发展,互联网中的数据变得越来越多。在海量的数据中查找信息变得越来越困难。标准的搜索引擎能够根据输入的查询词输出一系列的结果文档,但是不能根据语义对这些结果进行二次检索。因此,对检索结果进行有效筛选越来越重要。 文本蕴含是语义范畴的一种指向关系,具体是指文本T和假设H在语义上具有如下关系:若H的含义能够从文本T中推理出来,则称T蕴含H,否则T不蕴含H。在问答系统、信息检索、信息抽取以及多文档摘要等需要进行语义推理的自然语言处理领域应用中,文本蕴含已经发展成为一项通用的任务。因此研究基于蕴含的文本搜索具有重要意义和实用价值。 本文对文本蕴含识别进行深入研究,挖掘出文本中的蕴含关系。在此基础上实现了基于蕴含的文本搜索,用户可以根据蕴含关系对搜索结果进行筛选,从而实现查询词的迁移和主题的跳转。 本文的主要贡献具体描述如下: 1.提出了基于词向量的蕴含关系学习方法。使用词向量表示谓语,通过计算词向量之间的语义相似度,学习蕴含关系。实验结果表明该方法能有效地学习蕴含关系,学习的平均准确率均值(MAP)达到60.74%,比之前的BInc方法提升了近5个百分点。 2.提出了基于词、词向量的蕴含关系学习。将基于词向量的蕴含关系学习与之前的基于词的蕴含关系方法相结合,混合多种特征对蕴含关系进行学习。实验结果表明该方法与之前的BInc方法相比,F值从30.67%提升到34.49%。 3.通过对新闻文本语料进行处理,将文本蕴含与文本搜索相融合,实现了基于蕴含的文本搜索系统,是对传统分面搜索功能上的一种扩充,方便用户根据蕴含关系对搜索结果进一步检索,体现了文本蕴含研究的实用性,同时提高了搜索系统的易用性。
【关键词】:文本蕴含 搜索引擎 词向量 蕴含关系
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • ABSTRACT5-7
  • 目录7-9
  • 第一章 绪论9-15
  • 1.1 背景和意义9-10
  • 1.2 研究现状10-12
  • 1.3 本文工作12-14
  • 1.4 论文结构14-15
  • 第二章 相关工作15-33
  • 2.1 搜索引擎15-21
  • 2.1.1 系统架构15-17
  • 2.1.2 检索模型17-19
  • 2.1.3 发展趋势19-20
  • 2.1.4 搜索引擎Solr20-21
  • 2.2 文本蕴含21-29
  • 2.2.1 概念21-23
  • 2.2.2 命题模板23
  • 2.2.3 蕴含关系学习23-28
  • 2.2.4 蕴含图28-29
  • 2.3 词向量模型29-32
  • 2.3.1 词向量概念29
  • 2.3.2 词向量构建方法29-31
  • 2.3.3 word2vec31-32
  • 2.4 本章小结32-33
  • 第三章 蕴含关系学习33-42
  • 3.1 基于词向量的蕴含关系学习33-38
  • 3.1.1 预处理34-38
  • 3.1.2 词向量构建38
  • 3.1.3 蕴含关系学习38
  • 3.2 基于词、词向量的蕴含关系学习38-40
  • 3.3 蕴含图的构建40-41
  • 3.4 本章小结41-42
  • 第四章 实验42-55
  • 4.1 实验数据42
  • 4.2 评价指标42-44
  • 4.3 实验结果与分析44-54
  • 4.3.1 基于词向量蕴含关系学习44-47
  • 4.3.2 基于词、词向量的蕴含关系学习47-50
  • 4.3.3 实验结果错误分析50-51
  • 4.3.4 蕴含图生成结果51-54
  • 4.4 本章小结54-55
  • 第五章 基于蕴含的文本搜索系统55-65
  • 5.1 系统架构56-57
  • 5.2 开发环境57-58
  • 5.3 数据源58-59
  • 5.4 索引建立59
  • 5.5 检索排序59-60
  • 5.6 搜索展现60-64
  • 5.7 抗压性评估64
  • 5.8 本章小结64-65
  • 第六章 总结与展望65-67
  • 6.1 工作总结65
  • 6.2 工作展望65-67
  • 参考文献67-71
  • 致谢71

【参考文献】

中国期刊全文数据库 前5条

1 郭力洁;李新叶;宋金浍;;分面搜索研究综述[J];电子科技;2012年09期

2 王琼;搜索引擎的四大发展趋势[J];农业网络信息;2005年03期

3 司胲锐;;石安石论语义蕴含[J];科技信息(学术研究);2008年26期

4 张鹏;李国臣;李茹;刘海静;石向荣;Collin Baker;;基于FrameNet框架关系的文本蕴含识别[J];中文信息学报;2012年02期

5 吴思竹;钱庆;胡铁军;李丹亚;李军莲;洪娜;;词形还原方法及实现工具比较分析[J];现代图书情报技术;2012年03期



本文编号:995738

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/995738.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户be7c4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com