当前位置:主页 > 科技论文 > 软件论文 >

内容汇聚子系统中可定制爬虫引擎的设计与实现

发布时间:2021-01-01 23:07
  Web2.0下的新媒体业务不再局限于生产媒体素材,新媒体业务往往通过爬虫引擎抓取大量的媒体资源网站获得媒体素材。内容汇聚子系统通过可定制爬虫实现对多个网络电台的数据抓取,为中国广播云平台提供数据服务。然而,为了获得丰富的素材内容,爬虫引擎需要对大量的网站进行垂直爬取,媒体网站数量较多,且不同网站的结构不同,页面结构复杂,数据形式丰富,被抓取的网站经常发生结构的改变。这些问题给系统开发人员带来了极大的开发负担,给系统使用人员带来了极大的管理负担。针对爬虫业务逻辑多变、普通爬虫框架对于使用者门槛较高的问题,同时基于内容汇聚子系统的特点,结合具体的用户需求,设计实现了可定制爬虫引擎。可定制爬虫引擎避免了系统使用者直接接触爬虫业务代码,为系统使用人员提供一种基于描述文件来轻量级实现数据抓取逻辑的机制。基于描述文件,系统使用者可以对爬虫引擎的业务逻辑实现快速更新、批量管理、实时管理,通过对系统定义的数据抓取规则的灵活组合来控制爬虫执行逻辑。为实现上述功能,对系统功能进行了需求分析与关键问题研究,明确了系统应区别于常规单机爬虫框架,应实现可伸缩的弹性架构,确定了可定制爬虫引擎的架构与工作方式,探讨... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:97 页

【学位级别】:硕士

【部分图文】:

内容汇聚子系统中可定制爬虫引擎的设计与实现


图2-l?—个HTML文档的实例??1、HTML标签和属性??

下区,原理,客户端,发送请求


Response的数据抓发给发送请求的客户端;对于Web客户端来说,代理扮演的??服务器角色,接受请求,返回响应;对于Web服务器来说,代理扮演客户端的角??色,发送请求,接受响应。图2-2为代理的使用原理。??縣?〉?i青求?)??〇?/?〇?—?]/?〇??三/??三/??三????(?舀蛐???(?SdslD????客户端?\?代理?\?服务器??图2-2代理的原理??HTTP代理在功能上又有如下区别:??1、

流程图,中心化,引擎,描述文件


系列的规约语法,爬虫节点则将作为无状态节点,用户根据系统的规则,编写符??合业务逻辑的描述文件,爬虫节点作为描述文件的执行解释器,解析规则文件,??执行数据抓取动作。本系统中的可定制爬虫引擎解决方案,如下图4-3所示??24??

【参考文献】:
期刊论文
[1]“走出概念、快速见效”中国广播云平台——中央人民广播电台媒体融合工程[J]. 李向荣,阎冬.  中国广播. 2017(10)
[2]规则引擎在指挥显示系统中的应用[J]. 段慧芬,伍辉华,张德华,李磊.  兵工自动化. 2017(08)
[3]整合广播资源,凝聚声音优势——以中国广播云平台为例[J]. 李向荣.  中国广播. 2016(11)
[4]智能传播平台的构建——以今日头条为例[J]. 郭全中,胡洁.  新闻爱好者. 2016(06)
[5]高效的基于段模式的恶意URL检测方法[J]. 林海伦,李焱,王伟平,岳银亮,林政.  通信学报. 2015(S1)
[6]主题网络爬虫研究综述[J]. 于娟,刘强.  计算机工程与科学. 2015(02)
[7]新媒体运营型媒资系统的建设与分析[J]. 李楠.  中国广播. 2014(12)
[8]Drools规则引擎在现代物流信息平台的应用[J]. 陆歌皓,李仕金,吴超凡.  计算机科学. 2011(S1)
[9]网络爬虫技术的研究[J]. 孙立伟,何国辉,吴礼发.  电脑知识与技术. 2010(15)
[10]基于规则引擎的企业服务开发模式[J]. 陶晓俊,朱敏.  计算机技术与发展. 2008(02)

硕士论文
[1]面向银行信贷的规则引擎系统设计与实现[D]. 王世春.中国科学院大学(工程管理与信息技术学院) 2016
[2]基于DOM树节点重要度的WEB主题信息提取研究[D]. 马金娜.西南大学 2016
[3]基于规则引擎的智能家居系统的设计与实现[D]. 李海光.北京邮电大学 2015
[4]基于Java规则引擎的动态数据清洗研究与设计[D]. 曹永亮.武汉理工大学 2008



本文编号:2952159

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2952159.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户934f2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com