当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向校园招聘主题的分布式爬虫系统的设计与实现

发布时间:2020-08-13 12:50
【摘要】:近年来,高校毕业生规模的不断扩大,大学生的就业问题不容忽视,社会对此问题给予了广泛关注。目前网络上招聘网站不胜枚举,很多招聘信息存在重复冗余,查询效率低,信息可靠性低的问题,对毕业生来说,需要花费大量的时间甄别虚假信息、筛选重复信息,影响求职效率。本文通过研究分析爬虫系统相关技术,在深入了解相关技术算法的基础上,搭建Hadoop分布式运行环境,运行爬取校园招聘相关职位信息,以解决招聘信息爬取效率低的问题,并且满足面向校园招聘这一主题;通过并行爬取三个招聘网站校园招聘信息以解决校园招聘职位信息分布散且杂的问题;通过研究基于正则化的过滤方法筛选过滤主题不相关URL链接,以达到将爬取范围限制到这三个招聘网站域名范围内;通过研究基于标题特征词文本相似度的计算方式降低虚假招聘信息的PageRank评分:最终达到招聘信息冗余度较低、覆盖信息较为全面的目的,并且提供了简洁、易于操作的用户查询交互接口。论文主要工作如下:(1)面向校园招聘主题的分布式爬虫系统设计。为获取校园招聘信息,需要对各招聘网站的校园招聘信息链接进行爬取;采用分布式计算框架对校园招聘信息进行高效爬取;为实现面向校园招聘爬取这一主题,需要对爬取的URL链接进行过滤;为方便用户查询校园招聘信息,需要提供搜索查询服务功能。根据上述功能需求,系统模块主要划分为爬虫模块、索引模块和检索模块。(2)面向校园招聘主题的分布式爬虫系统实现。爬虫模块选用Nutch开源爬虫框架,采用基于正则化的过滤方法进行URL筛选,并利用其插件机制对其进行二次开发,实现基于标题特征词文本相似度的职位信息可靠性评分。索引模块采用Solr框架对爬取到的校园招聘数据建立索引,并配置了 IK-Analyzer中文分词器对校园招聘网页本文执行预处理,以提高查询准确度。检索模块设计实现基于JSP+CSS的用户交互界面,方便用户进行检索查询。
【学位授予单位】:大连交通大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1
【图文】:

组件结构,分布式文件系统


Namenode邋会定期从邋DataNodes邋那里收到邋Heartbeat邋和邋Blockreport邋反馈,Heartbeat邋反馈逡逑用来确保DataNode没有出现功能异常:Blockreport包含DataNode所存储的Block集合。逡逑如图2.2所示给出了邋HDFS的组件结构[13]。逡逑逦邋Metadata邋(Name,邋replicas,...):逡逑Metadata邋ops"邋Namenode邋H逦/home/foo/data,邋3,...逦逡逑(邋Client逦Block邋ops逡逑Reid邋Datanodes逦Datanodes逡逑EDE]|逦°逦It?邋■邋Replication邋D邋D逡逑□逦口逦\逦JZ\邋Dbiocks逡逑v逦\邋J逦/vZZl.逦J逡逑V邋-逦'Y逡逑Rack邋1逦Rack邋2逡逑(Client逡逑图2.2邋HDFS组件结构逡逑Fig.邋2.2邋The邋structure邋of邋HDFS邋component逡逑在HDFS分布式文件系统中,NameNode和DataNode是分别运行在单个机器上的逡逑7逡逑

系统数据,网页,校园招聘,框架


..4.2系统设计逡逑本校园招聘爬虫系统整体架构如图4.2所示,Nutch框架搭载在Hadoop分布式集群逡逑利用MapReduce计算框架对Internet上的招聘信息进行分布式高效爬取,将爬取到的校逡逑园招聘网页数据存储到HDFS文件系统中,然后启动Solr服务器为校园招聘网页数据建逡逑

系统结构图,系统结构图,校园招聘


分高的URL校园招聘信息。在达到预先设定的爬取深度后,循环爬取过程结束,爬取逡逑到的校园招聘网页数据存储在HDFS分布式文件系统中,等待索引模块建立索弓丨。爬虫逡逑模块流程图如图4.4所不。逡逑c开力台)逡逑逦J逦逡逑建立初始URL种子逡逑集逡逑逦I逦逡逑逦?生成抓取队列逡逑|基于正化规则逡逑的URL过滤逡逑抓取园招聘逡逑网页信患逡逑否逦|解析校园招聘逡逑网贫信息逡逑I校园招聘患可靠性逡逑度置评分计算逡逑,1逡逑I更新羝取库-逡逑4-逡逑(邋结束邋)逡逑图4.4爬虫模块流程图逡逑Fig.邋4.4邋Flowchart邋of邋the邋crawler邋module逡逑为了便于在Nutch爬虫基础上加入校园招聘信息可靠性计算,需要对Nutch框架源逡逑码进行分析,如图4.5所示是Nutch系统结构图,根据对Nutch源码的研读可

【参考文献】

相关期刊论文 前7条

1 岳绍敏;李万龙;王璐;光顺利;;基于Lucene索引的数据库全文检索[J];吉林大学学报(理学版);2014年05期

2 严磊;马勇男;丁宾;郑涛;;垂直搜索引擎之主题网络爬虫[J];福建电脑;2013年03期

3 王建雄;;基于特殊主题的PageRank改进算法[J];图书情报工作;2012年21期

4 方巍;文学志;潘吴斌;薛胜军;;云计算:概念、技术及应用研究综述[J];南京信息工程大学学报(自然科学版);2012年04期

5 吴黎兵;柯亚林;何炎祥;刘楠;;分布式网络爬虫的设计与实现[J];计算机应用与软件;2011年11期

6 李稚楹;杨武;谢治军;;PageRank算法研究综述[J];计算机科学;2011年S1期

7 张启宇;朱玲;张雅萍;;中文分词算法研究综述[J];情报探索;2008年11期



本文编号:2792018

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2792018.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户772b2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com