当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Lucene.NET的局域网全文搜索引擎的设计与实现

发布时间:2017-03-22 20:12

  本文关键词:基于Lucene.NET的局域网全文搜索引擎的设计与实现,由笔耕文化传播整理发布。


【摘要】:21世纪是信息爆炸的时代,互联网技术的高速发展,使得在我们生活的这个世界出现大量的信息。面对海量信息,寻求一种科学的、合理的搜索机制成为当下最重要的任务。搜索引擎正是在这样的大背景下提出的。它指根据一定的策略,运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统[1]。全文搜索引擎是应用最广泛的主流搜索引擎,它的代表是百度和谷歌等大型搜索引擎,它们已经很成功的运用在人们生活的方方面面。但是,就目前网络信息的利用率来看,仍然是很低的。人们在海量数据信息中仍不能很好的满足多样化的需求。本文从另一个角度另辟蹊径,从少量的数据出发,深度的挖掘数据潜在价值。我们将网络爬虫的范围限定在局域网内,使用开源的全文检索Lucene工具包,开发出一款基于局域网的站内搜索引擎。它和主流的全文搜索引擎相似,同样具备搜索和处理信息,并将检索得到的结果展示给用户的基本功能。它的创新有两点,第一,基于局域网的网络爬虫能够深度的抓取站内数据信息,并且具有很高的实时性。第二,系统屏蔽了站外信息,将搜索的范围限定在特定的局域网内,更好的满足了站内人员的搜索需求。这样的搜索引擎正适合一些高校、中小型企业或研究机构等单位。本文首先介绍了搜索引擎技术的研究现状,以及研究价值和意义。然后针对搜索引擎技术研究过程中的几个关键技术进行了逐一介绍。例如:网络爬虫技术、全文检索技术、中文分词技术等。接着重点介绍Lucene开源检索工具包。随后按照软件工程的方法,对项目进行需求分析,系统设计、模块实现。最后完成系统的测试。最后,本文对搜索引擎技术的研究进行总结和展望。
【关键词】:搜索引擎 全文搜索 局域网 Lucene.Net
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • ABSTRACT6-9
  • 第一章 绪论9-12
  • 1.1 搜索引擎的研究背景9
  • 1.2 搜索引擎的国内外研究现状9-10
  • 1.3 本文主要工作10
  • 1.4 本文结构安排10-12
  • 第二章 搜索引擎的关键技术研究12-20
  • 2.1 搜索引擎基本架构12-13
  • 2.2 网络爬虫技术研究13-15
  • 2.2.1 网络爬虫的工作原理13-15
  • 2.2.2 网页分析算法15
  • 2.3 全文索引技术研究15-17
  • 2.3.1 正排索引16
  • 2.3.2 倒排索引16-17
  • 2.4 中文分词技术研究17-19
  • 2.4.1 中文分词特点18
  • 2.4.2 中文分词算法18-19
  • 2.5 本章小结19-20
  • 第三章 开源LUCENE.NET全文检索包20-34
  • 3.1 LUCENE概述21-22
  • 3.2 LUCENE的索引22-29
  • 3.2.1 Lucene索引逻辑结构22-23
  • 3.2.2 索引文件物理结构23-24
  • 3.2.3 Lucene索引的建立24-27
  • 3.2.4 索引的合并与优化、同步27-29
  • 3.3 LUCENE的搜索29-31
  • 3.3.1 Lucene搜索的建立29-30
  • 3.3.2 对搜索结果的评分、排序30-31
  • 3.4 LUCENE的分析器31-33
  • 3.4.1 Lucene分析器机制31-32
  • 3.4.2 中文分词机制32-33
  • 3.5 系统需求分析33
  • 3.6 本章小结33-34
  • 第四章 系统模块的设计34-49
  • 4.1 站内爬虫模块的设计35-39
  • 4.1.1 网页的遍历36-37
  • 4.1.2 网页的去重37
  • 4.1.3 多线程并发爬虫37-38
  • 4.1.4 站内站外地址判定38-39
  • 4.2 信息过滤和处理模块的设计39-41
  • 4.2.1 去除HTML标签39-40
  • 4.2.2 去除CSS样式表和JS脚本语言40-41
  • 4.2.3 提取网页标题和文本信息41
  • 4.3 基于LUCENE.NET的索引模块设计41-46
  • 4.3.1 分词器的选择42-44
  • 4.3.2 Field实例化参数44-46
  • 4.4 基于LUCENE.NET的查询模块的设计46-48
  • 4.4.1 查询类型46-47
  • 4.4.2 查询结果的排序47-48
  • 4.5 本章小结48-49
  • 第五章 系统模块的实现49-61
  • 5.1 站内爬虫模块的实现49-53
  • 5.2 信息过滤和处理模块的实现53-56
  • 5.3 索引模块的实现56-58
  • 5.4 查询模块的实现58-60
  • 5.5 本章小结60-61
  • 第六章 系统模块的测试61-65
  • 6.1 站内爬虫模块的测试61
  • 6.2 信息过滤和处理模块的测试61-63
  • 6.3 索引和查询模块的测试63-64
  • 6.4 本章小结64-65
  • 第七章 总结和展望65-67
  • 7.1 工作总结65
  • 7.2 研究展望65-67
  • 致谢67-68
  • 参考文献68-70

【参考文献】

中国期刊全文数据库 前2条

1 陈士杰,张sソ,

本文编号:262145


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/262145.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8654a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com