当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Lucene.net的站内搜索引擎设计与实现

发布时间:2021-03-24 12:51
  目前互联网快速发展,各类网络应用快速增加,网络信息呈爆炸性增长。为提高生产效率和生活便利,使信息传播更加快捷,需要一款信息检索工具快速定位用户感兴趣的信息。诚然,当前网络上已经有很多门户网站和像百度、必应等的搜索引擎帮助人们检索信息,但这并不能完全满足用户的日常需求。特别是对于某些局域网、校园网、大型企业园区。这些组织涉及部门多、信息量大、信息私密性高,并且信息的发布往往缺乏一个统一管理,所以他们更需要一个好的信息搜索切入口,当站内信息随着时间积累增多,员工、学生或外来访问者便需要在网站中逐页寻找相关信息或者文件,造成极大不变。因此在本次论文中,本人针对这个具体问题进行了阐述,并提出解决方案。本文主要是研究并设计开发一个针对单位内部的站内搜索引擎,主要针对处于封闭或半封闭的网站群。从零开始介绍搜索引擎的基本架构及其中的关键技术,如爬虫的原理与实现,如何构建索引目录,分词技术的主要方法、搜索排序模型的构建等,接着使用C#语言,并结合关系数据库技术、搜索引擎框架Lucene.net、前端页面技术构建一个完整的站内搜索引擎。开发的内容主要包含两大模块,一个是数据采集模块,主要包含网络爬虫、信... 

【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校

【文章页数】:88 页

【学位级别】:硕士

【部分图文】:

基于Lucene.net的站内搜索引擎设计与实现


搜索引擎结构图

原理图,网络爬虫,原理图


图 2-2 网络爬虫原理图上图是网络爬虫的概览图,它大致描述了网络爬虫的运行原理。当然,现实中的爬虫不会是这么简单。它还涉及到待爬取队列构造、防重复爬取机制、网页内容提取线程并行运行等方面技术。本人将在接下来的章节中进行相关描述。2.2.3 信息存储网络爬虫爬取完信息后一般还需要进行信息保存,信息保存有以下两类。一是直接保存成文档形式。将爬取内容以磁盘文件形式放在硬盘上,等待后续的。但是这种情况只适用于对特定网站进行整站下载。若爬取的站点比较多,这样松放的文件形式并不利于信息的存储或者查找。因此我们可以设计一种 xml 格式的大来保存文件内容。二是保存在数据库中。数据库是一个比较好的信息存储环境,它可扩展性强、易护。当前用于网络爬虫信息存储的数据库主要分开两大类型。一个是传统的关系数

流程图,流程图,单词,霍去病


图 2-3 分词流程图整个分词的流程(中英文适用),例如当用户输入了“伟大英雄霍对照词典在 trie 树上匹配句子中的每一个单词,每一次都由字头面相应的最长单词,先是“伟大/英雄/霍去病”,接着“伟/大英雄/霍单词保存下来。率模型分词法我们开始介绍基于概率模型分词方法的设计思想。针对自然语言用的就是 HMM,即隐马尔可夫模型。

【参考文献】:
期刊论文
[1]基于lucene.net的搜索引擎在学校网站群系统中的应用[J]. 俞靓亮.  信息技术与信息化. 2016(09)
[2]基于C#的网络爬虫搜索引擎的设计[J]. 文竹.  计算机光盘软件与应用. 2013(20)
[3]基于Lucene.net全文检索在文档管理中的应用[J]. 李文江,陈诗琴.  现代图书情报技术. 2010(11)
[4]Web搜索引擎技术综述[J]. 宋春阳,金可音.  现代计算机(专业版). 2008(05)

硕士论文
[1]网站文本数据采集系统的设计与实现[D]. 田丹.北京交通大学 2015
[2]基于Lucene.NET的局域网全文搜索引擎的设计与实现[D]. 杨彬.电子科技大学 2014
[3]基于Lucene.NET的网络信息搜索系统的设计与实现[D]. 杜宁宁.吉林大学 2014
[4]基于.NET的有色冶金信息化服务平台及一种网络爬虫的研究与实现[D]. 曹建坤.江西理工大学 2013
[5]网络爬虫系统的研究与实现[D]. 赵茉莉.电子科技大学 2013
[6]基于Lucene.Net的全文检索研究与应用[D]. 武毅.国防科学技术大学 2011
[7]Lucene与中文分词技术的研究及应用[D]. 胡鹏飞.北京交通大学 2010
[8]搜索引擎中主题网络爬虫的研究与设计[D]. 贺晟.安徽大学 2010
[9]基于LUCENE的搜索引擎研究与实现[D]. 高磊.武汉理工大学 2007
[10]分布式网络爬虫技术的研究与实现[D]. 苏旋.哈尔滨工业大学 2006



本文编号:3097755

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3097755.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8bef7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com