当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于solr下的搜索引擎核心技术研究与应用

发布时间:2021-11-12 10:36
  文章对基于solr技术对某种搜索引擎技术核心系统进行进行了开发,从功能模块、信息抽取模块、索引模块三个方面进行了分析与构建;搭建了solr搜索引擎技术的开发环境以及索引模块的工作模式,进一步解析了当前搜索引擎工作的不足之处,为提高搜索引擎的工作性能指出了方向和方法。 

【文章来源】:电子制作. 2020,(14)

【文章页数】:3 页

【部分图文】:

基于solr下的搜索引擎核心技术研究与应用


网页抓取模块类图

类图,类图,模块,信息


网页抓取模块是信息抽取模块的基础,信息抽取模块通过抽取网页抓取模块的页面内容,并将其存储到数据库,信息抽取模块流类图如图3所示。解析文件类以列表的形式返回页面库中获取页面库中所有网页的类,返回页面库的网页文件将以列表的形式进行。Pares文件利用率是用来计算每一个页面相对应的网址;连接实用程序类是抽象出来负责与数据库连接,此操作用到了数据库连接池,在一定程度上减少了对数据库的连接次数;信息处理程序包含注射数据库核心方法,它先调用解析文件类的获取所有文件,以列表文件的形式返回所有的网页文件,接着调用解析文件类的获取绝对的统一资源定位地址得到每一个文件对应的网址,之后调用JoyDoc获得文件的网页内容和网页标题等[4]。最后通过连接到的通数据库进行连接和插入操作,然后进行存储,所有的连接类都以单列模式出现。

类图,类图,模块,索引


索引模块包括两部分:调用建立索引类、定时器。定时器会定时的调用对数据库中的内容建立索引,其流程类图如图4所示。Java之后的时间任务就是就是调用任务,它继承重写了运行的方法,实现了将网页内容插入到数据库中,该方法调用信息管理员的实例注射数据库的方法。该模块的主类是调用Solr,它包含一个计时器对象,该计时器对象定时运行任务实例的运行方法,运用周期和开始时间由开始时间和循环时间制定。

【参考文献】:
期刊论文
[1]基于物联网技术的搜索引擎技术研究[J]. 唐亚纯.  计算机产品与流通. 2020(06)
[2]基于Solr的标准信息检索技术及其优化[J]. 于晓明,史胜楠,甘克勤.  科学技术与工程. 2020(04)
[3]百度公司搜索引擎技术的专利分析[J]. 李海莹.  中国发明与专利. 2019(04)
[4]基于Solr的低成本企业数据采集分析与设计[J]. 苏亚涛.  呼伦贝尔学院学报. 2018(04)
[5]基于Heritrix与Solr的就业主题搜索引擎的研究与优化[J]. 郑燕娥,郑志明.  齐齐哈尔大学学报(自然科学版). 2018(04)



本文编号:3490741

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3490741.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户62dc0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com