当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于向量空间模型的本地搜索引擎的设计与实现

发布时间:2017-09-26 13:07

  本文关键词:基于向量空间模型的本地搜索引擎的设计与实现


  更多相关文章: 信息检索 实时信息检索 异构信息检索 向量空间模型 语义扩展


【摘要】:近一个世纪,随着人类的知识以前所未有的速度急剧膨胀,信息存储的数量越来越大,文件格式也越来越丰富。普通个人计算机往往都包含数百GB、甚至数TB的数据。要求用户从其中筛选出感兴趣的目标文档,往往需要付出大量的时间成本。在大量的、异构的数据中进行快速、准确的信息检索显然已成为迫切的需求。目前大多数通用操作系统,面对文件系统中相互嵌套、关联的文件和文件夹,除了提供资源管理器让用户人工翻阅查找外,一般都还会提供一种基于文件名匹配的简易查询工具,通过遍历文件或文件夹的路径实现文件检索。这种仅根据字符串匹配原理的查询方式,因为没有参考文件正文中所包含的大量有用信息,使得大量相关的、有价值的文档难以被发掘。在实际使用中,尤其对于一些没有良好文件管理习惯的用户来说,效果很不理想。本文应用基于传统的向量空间模型的多层向量空间模型,并改进了其定义的权重计算方法,同时还加入了基于用户点击行为的相关反馈技术和基于同义词词典的查询语义扩展技术。利用这些技术实现了本地磁盘上异构化文件的全文实时信息检索服务核心系统。然后在该核心系统的基础上,基于WebSocket通信协议制定了该系统的控制命令协议,实现了该系统的本地脱机和异地联机检索。目前,该系统已经过多次测试,并已经投入使用,取得了不错的效果。本文主要介绍了该信息检索系统的具体设计和实现方法。特别是改进了多层向量空间模型的权重计算方法,并在贝叶斯估计投票排名算法基础之上,引入了基于用户点击行为的相关反馈技术。另外本文在查询语义扩展技术、以及利用VSM在异构的、动态的数据环境下中进行信息检索的具体方法等方面也做出了较为深入的研究和实现。最后,本文还尝试分析和说明了多层向量空间模型的效果、性能及改进方向。
【关键词】:信息检索 实时信息检索 异构信息检索 向量空间模型 语义扩展
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
  • 摘要4-6
  • Abstract6-10
  • 第1章 绪论10-18
  • 1.1 课题背景10
  • 1.2 开发目的和意义10
  • 1.3 国内外研究现状与分析10-16
  • 1.3.1 信息检索理论概述10-12
  • 1.3.2 向量空间模型12-15
  • 1.3.3 信息检索系统的评测标准15-16
  • 1.3.4 中文信息检索研究现状16
  • 1.4 本文的主要内容及组织结构16-18
  • 第2章 检索核心系统关键技术与算法18-26
  • 2.1 信息检索系统流程18-20
  • 2.2 基于索引词位置差异性的权重计算方法20-23
  • 2.3 基于用户点击行为的相关反馈技术23-24
  • 2.4 基于同义词词典的查询语义扩展技术24-25
  • 2.5 本章小结25-26
  • 第3章 需求分析与系统总体设计26-41
  • 3.1 需求分析26-34
  • 3.1.1 系统业务需求26-30
  • 3.1.2 系统功能需求30-33
  • 3.1.3 系统性能需求33-34
  • 3.1.4 系统运行环境需求34
  • 3.2 系统总体设计34-40
  • 3.2.1 系统总体架构方案35-36
  • 3.2.2 人机交互界面原型设计36-38
  • 3.2.3 检索核心系统重要模块设计方案38-40
  • 3.3 本章小结40-41
  • 第4章 系统详细设计与实现41-74
  • 4.1 人机交互界面详细设计与实现42-47
  • 4.1.1 显示模块详细设计与实现42-45
  • 4.1.2 通信模块详细设计与实现45-47
  • 4.2 检索核心系统详细设计与实现47-73
  • 4.2.1 文本预处理模块详细设计与实现48-51
  • 4.2.2 索引模块详细设计与实现51-62
  • 4.2.3 查询处理模块详细设计与实现62-65
  • 4.2.4 相关反馈模块详细设计与实现65-66
  • 4.2.5 搜索排序模块详细设计与实现66-70
  • 4.2.6 实时模块详细设计与实现70-73
  • 4.3 本章小结73-74
  • 第5章 系统测试与性能分析74-80
  • 5.1 测试环境74
  • 5.2 功能测试74-76
  • 5.3 性能测试与分析76-79
  • 5.4 本章小结79-80
  • 结论80-81
  • 参考文献81-84
  • 致谢84

【参考文献】

中国期刊全文数据库 前10条

1 冯佳捷;王瑞;;中文分词技术对中文搜索引擎的查准率及查全率的影响[J];计算机光盘软件与应用;2013年06期

2 郝文宁;穆新国;陈刚;靳大尉;赵水宁;;基于军事训练本体的文档向量空间模型构建[J];计算机应用;2012年S2期

3 宋艳华;;向量空间模型在电信企业中的应用[J];科技信息;2010年34期

4 夏云庆;杨莹;张鹏洲;刘宇飞;;基于情感向量空间模型的歌词情感分析[J];中文信息学报;2010年01期

5 鲍钰;;基于Web日志的个性化搜索引擎模型的发现[J];计算机应用研究;2009年05期

6 文振威;秦晓;;个性化搜索引擎的研究与设计[J];计算机工程与设计;2009年02期

7 羊晶t,

本文编号:923668


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/923668.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户29e65***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com