基于MapReduce的视频爬虫系统研究
发布时间:2017-11-15 14:32
本文关键词:基于MapReduce的视频爬虫系统研究
更多相关文章: 视频 爬虫 分布式 Hadoop框架 MapReduce计算模型 Hadoop分布式文件系统
【摘要】:针对当前网络中视频媒体数量大、更新快、内容多、下载难,以及基于单机的视频网络爬虫系统中的处理速度慢、并发度低和下载速度慢等问题,提出了基于Hadoop框架的视频爬虫系统,为视频爬取提供了高并发度的处理和爬取速度.通过MapReduce计算模型实现网页抓取、分析、去重及下载等计算任务,Hadoop分布式文件系统(HDFS)存储各阶段计算任务的计算结果,运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性.实验结果表明完全分布式基于Hadoop的视频爬虫系统无论在单位时间内的视频下载速率还是爬取网页个数都明显高于未基于Hadoop的和伪分布式的视频爬虫系统.
【作者单位】: 中国船舶重工集团公司第709研究所;华中科技大学计算机科学与技术学院;
【基金】:国家自然科学基金资助项目(61232004)
【分类号】:TP311.13;TP393.092
【正文快照】: 从互联网诞生至今,发展越来越迅速.有些网站允许用户生成并传播视频,由此互联网中的视频资源日益庞大,且形式、种类日益繁多,形成了一个纷繁复杂的视频资源网.因此视频搜索引擎的地位日益重要.视频搜索引擎搜索互联网上的视频文件是通过视频爬虫[1-4]实现的.Hadoop分布式框架
【参考文献】
中国期刊全文数据库 前7条
1 李s,
本文编号:1190149
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1190149.html