当前位置:主页 > 科技论文 > 搜索引擎论文 >

具有间隙约束的搜索引擎原型系统的研究与实现

发布时间:2017-10-23 18:32

  本文关键词:具有间隙约束的搜索引擎原型系统的研究与实现


  更多相关文章: 搜索引擎 间隙约束 间隙算法 Lucene


【摘要】:搜索引擎是为人们能够快速、准确地在浩瀚的互联网资源中查找自己所需要的信息而诞生的,是Internet和时代飞速发展的产物。尽管现有的搜索引擎已经具备成熟、完善的检索机制,但其还是在检索结果中存在各种各样的不足,即各种搜索引擎都不支持具有间隙约束的搜索,因此对具有间隙约束的搜索进行研究是非常有实际应用意义的。 模式匹配问题也称作串匹配问题,它是计算机科学领域的基本问题的其中之一,它在众多领域都有重要的应用。而具有间隙约束的模式匹配是模式匹配的一个重要的研究内容。多年来研究者们致力于研究多个间隙约束的模式匹配问题,一般可描述为P=p0[min0,max0]p1...[minj-1,maxj-1]pj...[minm-1,maxm-1]pm,这里,minj-1和maxj-1分别指在pj-1和pj之间可以通配的最小和最大间隙,具有多个间隙约束的模式匹配问题在诸多领域具有重要应用。据此,由于前面所述搜索引擎存在的不足,本文结合倒排索引和跨度查询(SpanQuery)来对此缺陷进行改进,即ABSQ(the inverted index Algorithmbased SpanQuery span query)算法。由于SpanQuery跨度查询匹配的条数有所限制,所以本文据此还针对数组和键值对两种不同存储方式设计了匹配条数更多的两个算法。分别为ABAS(the inverted index Algorithm Based on Array Storage)以及ABKS算法(theinverted index Algorithm Based on Key-value Storage),此外,还实现了不用索引的算法RRSA(Recently the Right Scan Algorithm)来和ABSQ进行对比。 实验结果表明,RRSA和ABSQ比较,在索引文件少文件内容少的情况下,RRSA在运行时间上优于ABSQ,而随着索引文件和文件内容的不断增大,ABSQ在运行时间上明显要优于RRSA。而ABAS和ABKS两算法与ABSQ比较,,时间上没有太大的差异,但在匹配结果上要优于ABSQ。ABAS和ABKS做比较,运行时间和结果都没有明显的区别。实验表明ABKS算法是相对较好的算法。最后,将此算法用于具有间隙约束的搜索引擎系统中,取得了较好的成果,证明该算法的客观性和可行性,同时也证明了该系统的合理性。
【关键词】:搜索引擎 间隙约束 间隙算法 Lucene
【学位授予单位】:河北工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第一章 绪论10-16
  • 1.1 课题的研究背景和意义10-11
  • 1.2 课题的研究现状和存在的问题11-14
  • 1.2.1 课题研究现状11-13
  • 1.2.2 课题存在的问题分析13-14
  • 1.3 论文的主要研究内容14-15
  • 1.4 论文的内容安排15-16
  • 第二章 搜索引擎的概述16-28
  • 2.1 搜索引擎的发展历程16-19
  • 2.1.1 第一代搜索引擎16-17
  • 2.1.2 第二代搜索引擎17-18
  • 2.1.3 第三代搜索引擎18-19
  • 2.2 搜索引擎的工作原理19-26
  • 2.2.1 网页搜集19-21
  • 2.2.2 预处理21-24
  • 2.2.3 查询服务24-26
  • 2.3 搜索引擎的体系结构26-27
  • 2.4 本章小结27-28
  • 第三章 Lucene 的核心技术分析28-40
  • 3.1 搜索引擎 Lucene28-34
  • 3.1.1 Lucene 的实现机制28-30
  • 3.1.2 Lucene 的索引结构30-33
  • 3.1.3 Lucene 的跨度查询33-34
  • 3.2 中文分词34-38
  • 3.2.1 中文分词的研究方向35
  • 3.2.2 中文分词原理35-37
  • 3.2.3 分词系统的评估37
  • 3.2.4 基于 Lucene 的中文分词37-38
  • 3.3 本章小结38-40
  • 第四章 系统的设计、实现与结果分析40-66
  • 4.1 系统实现目标40-42
  • 4.1.1 系统的体系结构40-41
  • 4.1.2 系统的具体流程41-42
  • 4.2 系统的具体设计方案42-55
  • 4.2.1 自动获取搜索结果42-46
  • 4.2.2 文本解析46-47
  • 4.2.3 文本间隙约束的搜索47-53
  • 4.2.4 网页的重新排序53-55
  • 4.3 实验结果及分析55-61
  • 4.3.1 ABSQ 算法和 RRSA 对比55-58
  • 4.3.2 ABSQ 和 ABAS 算法对比58-60
  • 4.3.3 ABAS 和 ABKS 算法对比60-61
  • 4.3.4 算法评价61
  • 4.4 系统页面设计61-64
  • 4.5 本章小结64-66
  • 第五章 总结与展望66-68
  • 5.1 总结66-67
  • 5.2 展望67-68
  • 参考文献68-72
  • 致谢72-73

【参考文献】

中国期刊全文数据库 前6条

1 颜维龙,盖杰,武港山,袁春风;面向网络的全文检索中索引文件的组织[J];计算机应用研究;2002年11期

2 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期

3 张立彬;杨军花;杨琴茹;;第三代搜索引擎的研究现状及其发展趋向探析[J];情报理论与实践;2008年05期

4 龚蛟腾;元搜索引擎研究[J];情报杂志;2004年10期

5 宋聚平,王永成,尹中航,滕伟;对网页PageRank算法的改进[J];上海交通大学学报;2003年03期

6 方志坚;张瑞林;童小素;;搜索引擎综合分析[J];计算机工程与设计;2007年16期



本文编号:1084782

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1084782.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b18ca***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com