基于Lucene局域网内容索引搜索引擎实现
发布时间:2024-02-15 11:35
网络现在已经深入到人们生活的方方面面,网络中的资源堪称海量非常丰富,随之而来的问题就是如何有效的搜索自己需要的信息。从如此巨大的信息源中精确找到真正想要的内容确实是一件困难的事情。最有效的解决方法就是通过搜索引擎来查找需要的数据,它可以帮助用户快速定位自己所要查询的资源。现在的公共搜索引擎只能针对Internet,如google、百度、Bing等,如果想对诸如企业内网中的似有数据源进行搜索的话,则显得不太方便或根本不可能实现。本文就是针对该类需求设计一个搜索引擎,可以扩展到企业、学校内部网络实现非结构化文档的内容检索。 本文首先介绍了设计中的关键技术,Lucene,Ajax,服务器推送的需求和这些技术的工作原理。分析框架来设计一个搜索引擎,然后在此基础上,有三个主要模块:搜索机器人模块,索引模块和搜索模块,并描述三个模块之间的关系图,模块之间的低程度耦合。针对三个模块进行分析,设计和实施。首先,搜索机器人模块是网络库和索引库的基础,高效、灵活的数据采集,将为资料库的建立做好铺垫;第二,索引模块是实现高效的数据检索的基础,合理的文件内容索引和索引的数据存储结构,将直接影响搜索速度,并会影...
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
本文编号:3899677
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
图2.1Struts工作原理
该系统设计采用了两个框架Struts和Hibernate的主要目的是为了实现一个分层的架构,可以减少工作量,概述如下:(1)Struts简介Struts最初的时候是作为ApacheJakarta项目的一个组成部分,Servlet和JavaServerPage....
图3.1系统整体构架图
图3.1系统整体构架图Fig.3.1Farmdiagramofthesystems功能分析的主要功能分为三个模块如下:页内容抓取器模块TP协议,使用多线程技术基于对初始URL抓取网页,存储到本的MySQL数据库中存储和分析新的URL,下次抓取的URL....
图4.2网页抓取器核心类UML关系图
25图4.2网页抓取器核心类UML关系图Fig.4.2RelationalgraphofUML页内容抓取器使用最流行的广度优先的策略,以达到多线程的网作流程如下,设置初始URL抓取网页,并分析网页的URL保存,同时存储抓取。保存页面上的网页内容分析,网页....
图4.3网页抓取器后台实现效果
图4.3网页抓取器后台实现效果Fig.4.3Backgroundtoachievetheeffect.2索引功能模块的设计与实现2.1Lucene索引介绍该索引是一个数据存储和组织结构。该索引主要用于迅速找到一个字的文件。完整的信息索引,维护和管理软件的功能....
本文编号:3899677
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3899677.html