基于时效性的爬虫调度
发布时间:2021-07-02 19:39
搜索引擎作为互联网信息获取的入口,实现高效、准确的信息获取非常重要,爬虫作为搜索引擎的上游,其重要性不言而喻,特别是大数据时代信息更新频繁,如何在第一时间获取新闻是实现爬虫时效性的重要因素。为了充分利用有限资源,提升带宽利用率,设计一种基于历史数据预测的爬虫调度算法。该算法通过抓取网站历史,更新频次积累数据,使用随机森林回归建立模型,并在系统中实现爬虫调度。实验结果表明,该策略在抓取新链的命中率上提升了46%,平均成本降低了11%,平均抓取延时降低了14%。
【文章来源】:软件导刊. 2020,19(01)
【文章页数】:5 页
【部分图文】:
爬虫基本架构
互联网信息更新很频繁,对于网页更新的变化规律,可以通过历史数据挖掘得来。该算法流程如图2所示。整个算法分为4个部分:(1)历史数据积累;(2)抽取发布时间;(3)对历史数据建模;(4)应用调度模块。详细过程如下:
(2)抽取网页发布时间。爬虫系统在运行一定时间后,会累积下大量网页数据,其中正文页面通常会有文章发布时间,即使没有,也能通过算法计算出大概文章时间。设正文页面的父页面上次调度时间为Tlast,本次调度时间为Tnow,页面发布时间Tpage,可以得出结论如果Tlast不存在,说明页面的父页面是首次调度,不能确认该页面出现时间。如果Tnow-Tlast<1h,则可以把文章发布时间约等于两次调度的中间值。提取发布时间算法流程如图3所示。(3)历史数据建模。网页包含发布时间后,即可把同一个种子页面扩散出去的页面聚类在一起,根据每个聚类的组,通过随机森林回归进行建模,得到种子页面时效性模型。其中未能抽取出发布时间的页面和数量过小,不进行模型构建。
【参考文献】:
期刊论文
[1]基于Python的专业网络爬虫的设计与实现[J]. 姜杉彪,黄凯林,卢昱江,张俊杰,曾志高,刘强. 企业科技与发展. 2016(08)
[2]基于Hadoop的分布式主题网络爬虫研究[J]. 李应. 软件导刊. 2016(03)
[3]大数据系统和分析技术综述[J]. 程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰. 软件学报. 2014(09)
[4]国外搜索引擎评价研究综述[J]. 马志杰. 图书馆学研究. 2013(02)
[5]基于泊松过程的爬虫调度策略分析[J]. 徐尚瑜. 现代计算机(专业版). 2009(12)
[6]高性能网络爬虫:研究综述[J]. 周德懋,李舟军. 计算机科学. 2009(08)
[7]网页变化与增量搜集技术[J]. 孟涛,王继民,闫宏飞. 软件学报. 2006(05)
[8]聚焦爬虫技术研究综述[J]. 周立柱,林玲. 计算机应用. 2005(09)
[9]搜索引擎技术及研究[J]. 张兴华. 现代情报. 2004(04)
本文编号:3261097
【文章来源】:软件导刊. 2020,19(01)
【文章页数】:5 页
【部分图文】:
爬虫基本架构
互联网信息更新很频繁,对于网页更新的变化规律,可以通过历史数据挖掘得来。该算法流程如图2所示。整个算法分为4个部分:(1)历史数据积累;(2)抽取发布时间;(3)对历史数据建模;(4)应用调度模块。详细过程如下:
(2)抽取网页发布时间。爬虫系统在运行一定时间后,会累积下大量网页数据,其中正文页面通常会有文章发布时间,即使没有,也能通过算法计算出大概文章时间。设正文页面的父页面上次调度时间为Tlast,本次调度时间为Tnow,页面发布时间Tpage,可以得出结论如果Tlast不存在,说明页面的父页面是首次调度,不能确认该页面出现时间。如果Tnow-Tlast<1h,则可以把文章发布时间约等于两次调度的中间值。提取发布时间算法流程如图3所示。(3)历史数据建模。网页包含发布时间后,即可把同一个种子页面扩散出去的页面聚类在一起,根据每个聚类的组,通过随机森林回归进行建模,得到种子页面时效性模型。其中未能抽取出发布时间的页面和数量过小,不进行模型构建。
【参考文献】:
期刊论文
[1]基于Python的专业网络爬虫的设计与实现[J]. 姜杉彪,黄凯林,卢昱江,张俊杰,曾志高,刘强. 企业科技与发展. 2016(08)
[2]基于Hadoop的分布式主题网络爬虫研究[J]. 李应. 软件导刊. 2016(03)
[3]大数据系统和分析技术综述[J]. 程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰. 软件学报. 2014(09)
[4]国外搜索引擎评价研究综述[J]. 马志杰. 图书馆学研究. 2013(02)
[5]基于泊松过程的爬虫调度策略分析[J]. 徐尚瑜. 现代计算机(专业版). 2009(12)
[6]高性能网络爬虫:研究综述[J]. 周德懋,李舟军. 计算机科学. 2009(08)
[7]网页变化与增量搜集技术[J]. 孟涛,王继民,闫宏飞. 软件学报. 2006(05)
[8]聚焦爬虫技术研究综述[J]. 周立柱,林玲. 计算机应用. 2005(09)
[9]搜索引擎技术及研究[J]. 张兴华. 现代情报. 2004(04)
本文编号:3261097
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3261097.html