当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于时效性的爬虫调度

发布时间:2021-07-02 19:39
  搜索引擎作为互联网信息获取的入口,实现高效、准确的信息获取非常重要,爬虫作为搜索引擎的上游,其重要性不言而喻,特别是大数据时代信息更新频繁,如何在第一时间获取新闻是实现爬虫时效性的重要因素。为了充分利用有限资源,提升带宽利用率,设计一种基于历史数据预测的爬虫调度算法。该算法通过抓取网站历史,更新频次积累数据,使用随机森林回归建立模型,并在系统中实现爬虫调度。实验结果表明,该策略在抓取新链的命中率上提升了46%,平均成本降低了11%,平均抓取延时降低了14%。 

【文章来源】:软件导刊. 2020,19(01)

【文章页数】:5 页

【部分图文】:

基于时效性的爬虫调度


爬虫基本架构

流程图,时效性,调度算法,流程


互联网信息更新很频繁,对于网页更新的变化规律,可以通过历史数据挖掘得来。该算法流程如图2所示。整个算法分为4个部分:(1)历史数据积累;(2)抽取发布时间;(3)对历史数据建模;(4)应用调度模块。详细过程如下:

流程图,算法,流程,页面


(2)抽取网页发布时间。爬虫系统在运行一定时间后,会累积下大量网页数据,其中正文页面通常会有文章发布时间,即使没有,也能通过算法计算出大概文章时间。设正文页面的父页面上次调度时间为Tlast,本次调度时间为Tnow,页面发布时间Tpage,可以得出结论如果Tlast不存在,说明页面的父页面是首次调度,不能确认该页面出现时间。如果Tnow-Tlast<1h,则可以把文章发布时间约等于两次调度的中间值。提取发布时间算法流程如图3所示。(3)历史数据建模。网页包含发布时间后,即可把同一个种子页面扩散出去的页面聚类在一起,根据每个聚类的组,通过随机森林回归进行建模,得到种子页面时效性模型。其中未能抽取出发布时间的页面和数量过小,不进行模型构建。

【参考文献】:
期刊论文
[1]基于Python的专业网络爬虫的设计与实现[J]. 姜杉彪,黄凯林,卢昱江,张俊杰,曾志高,刘强.  企业科技与发展. 2016(08)
[2]基于Hadoop的分布式主题网络爬虫研究[J]. 李应.  软件导刊. 2016(03)
[3]大数据系统和分析技术综述[J]. 程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.  软件学报. 2014(09)
[4]国外搜索引擎评价研究综述[J]. 马志杰.  图书馆学研究. 2013(02)
[5]基于泊松过程的爬虫调度策略分析[J]. 徐尚瑜.  现代计算机(专业版). 2009(12)
[6]高性能网络爬虫:研究综述[J]. 周德懋,李舟军.  计算机科学. 2009(08)
[7]网页变化与增量搜集技术[J]. 孟涛,王继民,闫宏飞.  软件学报. 2006(05)
[8]聚焦爬虫技术研究综述[J]. 周立柱,林玲.  计算机应用. 2005(09)
[9]搜索引擎技术及研究[J]. 张兴华.  现代情报. 2004(04)



本文编号:3261097

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3261097.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户612a4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com