WebCollector和ElasticSearch在高校网站群敏感词检测中的应用研究
发布时间:2024-03-30 10:42
在高校信息化建设过程中,建设了大量的网站,这些网站发布的信息和展示的内容很可能含有国家法律禁止或者学校规定禁止的敏感词汇,针对从海量的网站信息中定位到敏感词汇的目的,本文采用了文献研究法、个案研究法及实证研究法,通过研究相关材料文献和技术文档,研究相关系统设计案例,结合实际情况设计和实现一个能运行的系统,得出基于Webcollector爬虫框架和ElasticSearch搜索引擎设计和实现网站群敏感词检测系统的可行性。
【文章页数】:5 页
【部分图文】:
本文编号:3942233
【文章页数】:5 页
【部分图文】:
图1Webcollector内核构架图
WebCollector是一个基于Java的开源爬虫框架[5],框架提供了精简的API,只需要做少量的代码开发就能实现功能强大的网络爬虫程序[6-7]。如图1所示,在一开始注入种子任务,通过任务生成器,按照预先设定的运行线程数,单线程或者多线程执行每个任务,在执行每个任务前,框架....
图2ES写操作原理
分片(Shard),分片是数据的容器,文档保存在分片内,分片被分配到集群的各个节点中,分片分为主分片和副本分片,任一一个文档都属于一个主分片,副分片只是主分片的一个拷贝。3.3ElasticSearch运行原理
图3ES读操作原理
如图2所示,当客户端向协调节点发送写文档请求时,协调节点会对文档id使用hash算法进行散列,确定文档应该被索引到哪个分片。散列算法为:shard=hash(document_id)%(num_of_primary_shards)。当分片节点收到协调节点的请求时,会把请求写入tr....
图4系统架构图
4.1系统架构设计图4为系统的架构图,在系统中有WebCollector爬虫程序,保存配置信息的数据库,存储网页数据的ES集群,以及定时执行任务的Quartz程序等组件[13]。
本文编号:3942233
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3942233.html