基于Hadoop的视频爬虫系统的设计与实现
本文关键词:面向web视频的网络爬虫的研究与实现,由笔耕文化传播整理发布。
《华中科技大学》 2013年
基于Hadoop的视频爬虫系统的设计与实现
邱荷花
【摘要】:随着网络的迅猛发展,网络使用人群日益扩大,数字媒体作品数量快速增长。面对网络上如此海量的媒体作品,版权保护成为了一个亟待解决的问题。运用拷贝检测技术实现内容拷贝追踪,是一种行之有效的数字内容版权保护方案。而如何获取海量媒体资源是拷贝追踪技术中的一个难点。尤其是视频媒体,数量大,更新快,内容多,下载难。如今快速发展的云计算在海量数据处理方面呈现了极大的优势,鉴于此,本文利用Hadoop框架实现分布式视频爬虫系统,为拷贝检测系统收集待检视频数据集。 本文重点研究了Hadoop框架的计算模型MapReduce,以及分布式文件系统HDFS,并分析了分布式爬虫的关键技术,讨论了将Hadoop框架用于分布式爬虫系统的优势。由此设计并实现了基于Hadoop的视频爬虫系统。利用Hadoop框架,实现了一个结点集中管理,多个子结点并行工作的系统架构,同时总结点与子结点的心跳检测机制,有效解决了子结点动态退出的问题。运用MapReduce计算模型实现具体的网页抓取、分析、去重,下载等计算任务,,并利用广度优先搜索策略,以及基于磁盘的去重机制,保证了爬虫系统的高效爬行。同时分析如何对URL集进行分区,以保证各爬行结点负载均衡。HDFS分布式文件系统存储各阶段计算任务的结果,以备下个计算任务使用,并运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性。针对目前主流视频网站的视频下载难题,以腾讯等视频网站为例进行详细说明,给出了视频下载的解决方案。 最后,通过配置多个爬行结点,对基于Hadoop的视频爬虫系统进行功能和性能测试,测试结果验证了利用Hadoop架构实现分布式爬虫系统的可行性、高效性。同时对系统中需要继续研究的问题提出了展望。
【关键词】:
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP309;TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前10条
1 郑如滨;撒力;谢婷;;基于Heritrix与Lucene的垂直搜索引擎研究[J];电脑知识与技术;2008年29期
2 李新;数字版权管理[J];电信技术;2004年10期
3 肖明忠,代亚非,李晓明;拆分型Bloom Filter[J];电子学报;2004年02期
4 刘世涛;;简析搜索引擎中网络爬虫的搜索策略[J];阜阳师范学院学报(自然科学版);2006年03期
5 许笑;张伟哲;张宏莉;方滨兴;;广域网分布式爬虫中的Agent协同与Web划分研究[J];高技术通讯;2010年03期
6 戴明星;杜彦辉;;基于WebLech的内容搜索引擎设计[J];计算机工程;2008年09期
7 白万民;苏希乐;;Heritrix在垂直搜索引擎中的应用[J];计算机时代;2011年09期
8 王凡毓;;网络蜘蛛Larbin的设计和优化[J];科技创业月刊;2008年02期
9 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
10 李晓明,凤旺森;两种对URL的散列效果很好的函数[J];软件学报;2004年02期
【共引文献】
中国期刊全文数据库 前10条
1 卢民;;基于云计算的数字博物馆信息化建设研究[J];博物馆研究;2012年01期
2 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
3 陈悦;陈运;杨义先;胡迪;;基于遗传算法的聚焦爬虫搜索策略设计与研究[J];成都信息工程学院学报;2011年05期
4 王中;;云存储在网络视频监控中的价值[J];太原城市职业技术学院学报;2012年01期
5 敖东阳;刘好杰;;Larbin分析与Windows平台下移植[J];电脑学习;2009年04期
6 张目;;基于Bloom Filter的路由循环实时被动检测方法[J];东南大学学报(自然科学版);2008年S1期
7 张超;闫宏印;;多线程网络爬虫的设计与实现[J];电脑开发与应用;2012年06期
8 田大军;李舒;赵林亮;;网站孤立文件及其形成机制分析[J];电脑与信息技术;2011年02期
9 文小燕;马光思;;基于Flex与J2EE垂直搜索引擎的设计与实现[J];电脑知识与技术;2011年10期
10 赵华;王海阔;;移动云计算综述[J];电脑知识与技术;2012年01期
中国重要会议论文全文数据库 前10条
1 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
2 黄高平;苏金树;陈曙辉;;一种基于高速链路的Hash算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
3 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
4 白建东;陈一骄;孙志刚;;入侵防护系统中Bloom Filter应用研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
5 王春厚;许都;孙健;;一种降低误判率的BF快速匹配算法结构[A];2010年全国通信安全学术会议论文集[C];2010年
6 张智江;王志军;张尼;;一种可应用于大流量环境下的双层散列算法研究[A];中国通信学会信息通信网络技术委员会2011年年会论文集(下册)[C];2011年
7 吴丽辉;张凯;张刚;王斌;;天罗Web信息采集系统中的性能优化[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 刘莉;肖诗斌;王涛;施水才;;基于RSS的分布式博客搜索引擎设计[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 刘宝良;李建中;;crlib:可交互异构Crawler框架的设计与实现[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国博士学位论文全文数据库 前10条
1 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
2 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
3 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
4 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
5 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
6 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
7 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
8 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
9 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
10 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
中国硕士学位论文全文数据库 前10条
1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
2 司贺华;网络内容审计系统关键技术研究与实现[D];哈尔滨工程大学;2010年
3 余晓磊;WSN路由算法的研究[D];华东师范大学;2011年
4 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
5 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
6 李海丰;基于Lucene的企业文档搜索引擎研究与应用[D];中南林业科技大学;2009年
7 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
8 周民;海量web舆情挖掘算法研究[D];电子科技大学;2011年
9 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年
10 戚学磊;基于Lucene的站内搜索引擎技术的研究与应用[D];太原理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
2 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
3 肖明忠,代亚非,李晓明;拆分型Bloom Filter[J];电子学报;2004年02期
4 秦海峰;许南山;山岚;;基于P2P架构的搜索引擎技术探究[J];福建电脑;2008年07期
5 池静;倪健;王华;邢秀娥;;Bloom Filter和Weighted Bloom Filter的比较与研究[J];河北师范大学学报;2006年04期
6 肖明忠;代亚非;;Bloom Filter及其应用综述[J];计算机科学;2004年04期
7 谢鲲;闵应骅;张大方;谢高岗;文吉刚;;分档布鲁姆过滤器的查询算法[J];计算机学报;2007年04期
8 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
9 白坤;耿国华;;基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J];计算机应用与软件;2009年01期
10 李宏伟;史培中;张素智;;一种可行的Web数据抽取包装器的设计方法[J];计算机应用与软件;2009年03期
中国硕士学位论文全文数据库 前3条
1 朱玉丽;基于网格技术的主题爬虫算法优化的研究与实现[D];沈阳工业大学;2007年
2 罗理;基于Web对象的分布式抓取及存储的设计与研究[D];昆明理工大学;2008年
3 杨溥;搜索引擎中爬虫的若干问题研究[D];北京邮电大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 韩笑;;审时度势古永锵[J];互联网天地;2007年12期
2 老杳;;管制视频网站,国家法规不应草率出台[J];IT时代周刊;2008年05期
3 王冰睿;;版权官司日趋尖锐 视频网站奥运年遭遇“分水岭”[J];IT时代周刊;2008年12期
4 周志懿;黄逸秋;杨春兰;彭波;;视频网站:青春期的乐与痛[J];传媒;2009年05期
5 谢文;曾会明;醒客;;视频网站三人谈[J];传媒;2009年05期
6 周敏;;金融风暴下视频网站盈利模式变革[J];中国广播电视学刊;2009年04期
7 陈洁;;新媒体时代视频网站发展现状扫描[J];新闻窗;2009年04期
8 陈希琳;;商业视频网站如何突破双重危机[J];今传媒;2009年11期
9 王甲佳;;视频网站的商业模式有没有可能超越版权?[J];软件工程师;2009年11期
10 刘兴亮;;视频网站:投胎是个技术活[J];视听界;2010年02期
中国重要会议论文全文数据库 前10条
1 王茹;郭晓;曹雪珊;;国内视频网站精准投放技术分析[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
2 宋巍;张宇;谢毓彬;高汉东;刘挺;李生;;利用URL类别改进查询主题分类[A];第六届全国信息检索学术会议论文集[C];2010年
3 林磊;刘燕兵;谭建龙;郭莉;;一种基于MPHF和Bloom Filter的URL查找算法[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
5 金松昌;方滨兴;杨树强;贾焰;;基于Hadoop的网络安全日志分析系统的设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
6 丁辉;张大华;罗志明;;基于Hadoop的海量数据处理平台研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年
7 袁志坚;贾焰;;基于误差反馈的高速Web文本流快速近似分类[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
8 陈明阳;;网络环境下著作权与隐私权的博弈——由Viacom诉YouTube案谈起[A];2009中华全国律师协会知识产权专业委员会年会暨中国律师知识产权高层论坛论文集(上)[C];2009年
9 池建宇;池建新;;创业者工作背景对企业商业模式影响的实证分析——以中国视频网站为例[A];第六届(2011)中国管理学年会——创业与中小企业管理分会场论文集[C];2011年
10 蔡丽萍;李茂青;;一种基于模糊聚类的日志挖掘方法及应用[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国重要报纸全文数据库 前10条
1 闫跃勇;[N];人民代表报;2007年
2 廖庆升;[N];通信信息报;2007年
3 李博;[N];中国文化报;2010年
4 李永刚;[N];经济观察报;2010年
5 魏武挥;[N];21世纪经济报道;2011年
6 本报记者 齐洁;[N];中国经营报;2010年
7 商报记者 张绪旺;[N];北京商报;2011年
8 本刊执行主编 贺俊;[N];证券日报;2006年
9 本报记者 罗小卫;[N];财经时报;2006年
10 李国训;[N];财经时报;2007年
中国博士学位论文全文数据库 前10条
1 张健毅;大规模反钓鱼识别引擎关键技术研究[D];北京邮电大学;2012年
2 曹海傧;海量视频的分布式协作处理与检索研究[D];中国科学技术大学;2013年
3 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年
4 王光文;论我国视频网站版权侵权案件频发的原因与应对[D];华东师范大学;2012年
5 史恒亮;云计算任务调度研究[D];南京理工大学;2012年
6 尹文科;基于本体的视频服务网站监管技术研究[D];中国科学技术大学;2013年
7 程兴国;仿生算法的动态反馈机制及其并行化实现方法研究[D];华南理工大学;2013年
8 康俊锋;云计算环境下高分辨率遥感影像存储与高效管理技术研究[D];浙江大学;2011年
9 霍旭光;基于云计算的大规模地形数据处理方法的研究[D];中国地质大学(北京);2013年
10 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 邱荷花;基于Hadoop的视频爬虫系统的设计与实现[D];华中科技大学;2013年
2 郑宇;中国视频网站盈利问题研究[D];中央民族大学;2012年
3 慎玥;中国视频网站的发展分析[D];上海师范大学;2012年
4 郭婧;中国视频网站现状探析[D];上海交通大学;2011年
5 陈实;面向web视频的网络爬虫的研究与实现[D];电子科技大学;2012年
6 舒泳飞;我国视频网站内容自制研究[D];湖南大学;2013年
7 原建芳;付费视频网站的传播困境与思考[D];山东师范大学;2013年
8 李亚;解析新浪视频的成功运作[D];华中科技大学;2009年
9 李亚;解析新浪视频的成功运作[D];华中科技大学;2009年
10 刘念;我国视频网站自制节目的发展分析[D];重庆大学;2013年
本文关键词:面向web视频的网络爬虫的研究与实现,由笔耕文化传播整理发布。
本文编号:243284
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/243284.html