基于时效性的爬虫调度

发布时间：2021-07-02 19:39

　　搜索引擎作为互联网信息获取的入口,实现高效、准确的信息获取非常重要,爬虫作为搜索引擎的上游,其重要性不言而喻,特别是大数据时代信息更新频繁,如何在第一时间获取新闻是实现爬虫时效性的重要因素。为了充分利用有限资源,提升带宽利用率,设计一种基于历史数据预测的爬虫调度算法。该算法通过抓取网站历史,更新频次积累数据,使用随机森林回归建立模型,并在系统中实现爬虫调度。实验结果表明,该策略在抓取新链的命中率上提升了46%,平均成本降低了11%,平均抓取延时降低了14%。

【文章来源】：软件导刊. 2020,19(01)

【文章页数】：5 页

【部分图文】：

基于时效性的爬虫调度

爬虫基本架构

流程图,时效性,调度算法,流程

互联网信息更新很频繁，对于网页更新的变化规律，可以通过历史数据挖掘得来。该算法流程如图2所示。整个算法分为4个部分：(1)历史数据积累；(2)抽取发布时间；(3)对历史数据建模；(4)应用调度模块。详细过程如下：

流程图,算法,流程,页面

(2）抽取网页发布时间。爬虫系统在运行一定时间后，会累积下大量网页数据，其中正文页面通常会有文章发布时间，即使没有，也能通过算法计算出大概文章时间。设正文页面的父页面上次调度时间为Tlast，本次调度时间为Tnow，页面发布时间Tpage，可以得出结论如果Tlast不存在，说明页面的父页面是首次调度，不能确认该页面出现时间。如果Tnow-Tlast<1h，则可以把文章发布时间约等于两次调度的中间值。提取发布时间算法流程如图3所示。(3）历史数据建模。网页包含发布时间后，即可把同一个种子页面扩散出去的页面聚类在一起，根据每个聚类的组，通过随机森林回归进行建模，得到种子页面时效性模型。其中未能抽取出发布时间的页面和数量过小，不进行模型构建。

【参考文献】：
期刊论文
[1]基于Python的专业网络爬虫的设计与实现[J]. 姜杉彪,黄凯林,卢昱江,张俊杰,曾志高,刘强.  企业科技与发展. 2016(08)
[2]基于Hadoop的分布式主题网络爬虫研究[J]. 李应.  软件导刊. 2016(03)
[3]大数据系统和分析技术综述[J]. 程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.  软件学报. 2014(09)
[4]国外搜索引擎评价研究综述[J]. 马志杰.  图书馆学研究. 2013(02)
[5]基于泊松过程的爬虫调度策略分析[J]. 徐尚瑜.  现代计算机(专业版). 2009(12)
[6]高性能网络爬虫:研究综述[J]. 周德懋,李舟军.  计算机科学. 2009(08)
[7]网页变化与增量搜集技术[J]. 孟涛,王继民,闫宏飞.  软件学报. 2006(05)
[8]聚焦爬虫技术研究综述[J]. 周立柱,林玲.  计算机应用. 2005(09)
[9]搜索引擎技术及研究[J]. 张兴华.  现代情报. 2004(04)

本文编号：3261097

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3261097.html

上一篇：广西苍梧M S 5.4地震震源深度
下一篇：应用开源搜索引擎Solr构建标准信息管理与分析平台

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|