基于Lucene.NET的局域网全文搜索引擎的设计与实现
发布时间:2017-03-22 20:12
本文关键词:基于Lucene.NET的局域网全文搜索引擎的设计与实现,由笔耕文化传播整理发布。
【摘要】:21世纪是信息爆炸的时代,互联网技术的高速发展,使得在我们生活的这个世界出现大量的信息。面对海量信息,寻求一种科学的、合理的搜索机制成为当下最重要的任务。搜索引擎正是在这样的大背景下提出的。它指根据一定的策略,运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统[1]。全文搜索引擎是应用最广泛的主流搜索引擎,它的代表是百度和谷歌等大型搜索引擎,它们已经很成功的运用在人们生活的方方面面。但是,就目前网络信息的利用率来看,仍然是很低的。人们在海量数据信息中仍不能很好的满足多样化的需求。本文从另一个角度另辟蹊径,从少量的数据出发,深度的挖掘数据潜在价值。我们将网络爬虫的范围限定在局域网内,使用开源的全文检索Lucene工具包,开发出一款基于局域网的站内搜索引擎。它和主流的全文搜索引擎相似,同样具备搜索和处理信息,并将检索得到的结果展示给用户的基本功能。它的创新有两点,第一,基于局域网的网络爬虫能够深度的抓取站内数据信息,并且具有很高的实时性。第二,系统屏蔽了站外信息,将搜索的范围限定在特定的局域网内,更好的满足了站内人员的搜索需求。这样的搜索引擎正适合一些高校、中小型企业或研究机构等单位。本文首先介绍了搜索引擎技术的研究现状,以及研究价值和意义。然后针对搜索引擎技术研究过程中的几个关键技术进行了逐一介绍。例如:网络爬虫技术、全文检索技术、中文分词技术等。接着重点介绍Lucene开源检索工具包。随后按照软件工程的方法,对项目进行需求分析,系统设计、模块实现。最后完成系统的测试。最后,本文对搜索引擎技术的研究进行总结和展望。
【关键词】:搜索引擎 全文搜索 局域网 Lucene.Net
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 绪论9-12
- 1.1 搜索引擎的研究背景9
- 1.2 搜索引擎的国内外研究现状9-10
- 1.3 本文主要工作10
- 1.4 本文结构安排10-12
- 第二章 搜索引擎的关键技术研究12-20
- 2.1 搜索引擎基本架构12-13
- 2.2 网络爬虫技术研究13-15
- 2.2.1 网络爬虫的工作原理13-15
- 2.2.2 网页分析算法15
- 2.3 全文索引技术研究15-17
- 2.3.1 正排索引16
- 2.3.2 倒排索引16-17
- 2.4 中文分词技术研究17-19
- 2.4.1 中文分词特点18
- 2.4.2 中文分词算法18-19
- 2.5 本章小结19-20
- 第三章 开源LUCENE.NET全文检索包20-34
- 3.1 LUCENE概述21-22
- 3.2 LUCENE的索引22-29
- 3.2.1 Lucene索引逻辑结构22-23
- 3.2.2 索引文件物理结构23-24
- 3.2.3 Lucene索引的建立24-27
- 3.2.4 索引的合并与优化、同步27-29
- 3.3 LUCENE的搜索29-31
- 3.3.1 Lucene搜索的建立29-30
- 3.3.2 对搜索结果的评分、排序30-31
- 3.4 LUCENE的分析器31-33
- 3.4.1 Lucene分析器机制31-32
- 3.4.2 中文分词机制32-33
- 3.5 系统需求分析33
- 3.6 本章小结33-34
- 第四章 系统模块的设计34-49
- 4.1 站内爬虫模块的设计35-39
- 4.1.1 网页的遍历36-37
- 4.1.2 网页的去重37
- 4.1.3 多线程并发爬虫37-38
- 4.1.4 站内站外地址判定38-39
- 4.2 信息过滤和处理模块的设计39-41
- 4.2.1 去除HTML标签39-40
- 4.2.2 去除CSS样式表和JS脚本语言40-41
- 4.2.3 提取网页标题和文本信息41
- 4.3 基于LUCENE.NET的索引模块设计41-46
- 4.3.1 分词器的选择42-44
- 4.3.2 Field实例化参数44-46
- 4.4 基于LUCENE.NET的查询模块的设计46-48
- 4.4.1 查询类型46-47
- 4.4.2 查询结果的排序47-48
- 4.5 本章小结48-49
- 第五章 系统模块的实现49-61
- 5.1 站内爬虫模块的实现49-53
- 5.2 信息过滤和处理模块的实现53-56
- 5.3 索引模块的实现56-58
- 5.4 查询模块的实现58-60
- 5.5 本章小结60-61
- 第六章 系统模块的测试61-65
- 6.1 站内爬虫模块的测试61
- 6.2 信息过滤和处理模块的测试61-63
- 6.3 索引和查询模块的测试63-64
- 6.4 本章小结64-65
- 第七章 总结和展望65-67
- 7.1 工作总结65
- 7.2 研究展望65-67
- 致谢67-68
- 参考文献68-70
【参考文献】
中国期刊全文数据库 前2条
1 陈士杰,张sソ,
本文编号:262145
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/262145.html