基于Hadoop的广域网分布式主题爬虫系统框架
本文关键词:基于Hadoop的广域网分布式主题爬虫系统框架
更多相关文章: 分布式爬虫 Hadoop 爬虫框架 模板匹配 主题爬虫
【摘要】:广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息中间件实现分布式可靠通信,数据存储采用可伸缩的Hadoop分布式文件系统HDFS,网页解析利用MapReduce并行处理,并基于模板匹配实现框架可定制。系统的性能仿真显示该框架具有支撑大规模爬虫并发工作的能力。
【作者单位】: 广东工业大学自动化学院;华南理工大学工商管理学院;
【关键词】: 分布式爬虫 Hadoop 爬虫框架 模板匹配 主题爬虫
【基金】:国家自然科学基金重大项目(710990403) 中央高校基金项目(2014ZM0038) 广东省省部产学研结合项目重点引导项目(2011B090400522)
【分类号】:TP391.3;TP393.2
【正文快照】: 1引言随着互联网规模的爆炸式增长,如何对资源有效搜索挑战巨大。网络爬虫是搜索引擎的数据来源,决定着爬虫系统的内容丰富程度、反应速度、搜集信息与目标信息的相关程度,其性能直接影响搜索引擎的效果[1]。设计一个高性能爬虫必须考虑两方面,一方面是智能爬取策略,决定爬虫
【参考文献】
中国期刊全文数据库 前7条
1 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
2 许光清;邹骥;;系统动力学方法:原理、特点与最新进展[J];哈尔滨工业大学学报(社会科学版);2006年04期
3 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
4 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期
5 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
6 王帅;周国民;王健;;主题爬虫相关度算法研究综述[J];计算机与现代化;2013年04期
7 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
【共引文献】
中国期刊全文数据库 前10条
1 王正;陆余良;刘金红;施凡;;基于Lucene的互联网文献信息检索系统的研究[J];安徽大学学报(自然科学版);2009年05期
2 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
3 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
4 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
5 翟东升;杨洋;;基于XML技术的USPTO专利抽取系统[J];北京工业大学学报;2011年04期
6 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期
7 张惠君;李娟;;基于OPAC的馆藏评价方法探究[J];图书与情报;2010年04期
8 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
9 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
10 毛晓蛟;;搜索引擎中网络蜘蛛的研究与实现[J];电脑编程技巧与维护;2010年18期
中国重要会议论文全文数据库 前10条
1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
2 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
3 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
4 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 吴丽辉;张凯;张刚;王斌;;天罗Web信息采集系统中的性能优化[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
8 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 刘莉;肖诗斌;王涛;施水才;;基于RSS的分布式博客搜索引擎设计[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 李玉凤;黑龙江省产业结构优化及仿真[D];哈尔滨理工大学;2009年
2 付京;欠发达地区的循环产业集群发展研究[D];武汉理工大学;2010年
3 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
4 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
5 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
6 曾雁冰;基于系统动力学方法的医疗费用过快增长问题建模与控制研究[D];复旦大学;2011年
7 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
8 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
9 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
10 宫兴国;面向企业技术创新的成本管理系统理论构建及应用研究[D];燕山大学;2011年
中国硕士学位论文全文数据库 前10条
1 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
3 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
4 程梦来;电子商务信用风险形成的系统动力机制研究[D];河南工业大学;2010年
5 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
6 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
7 付涛;藏文网页除噪技术研究[D];西北民族大学;2010年
8 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
9 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
10 李元乾;基于移动搜索用户关联的信息检索研究[D];北京交通大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
2 赵涛,郑新奇,邓祥征;城市土地利用优化配置分析应用——以济南市为例[J];地球信息科学;2004年02期
3 王其藩,徐波,吴冰,贾建国;SD模型在基础设施研究中的应用[J];管理工程学报;1999年02期
4 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
5 张敏,高剑峰,马少平;基于链接描述文本及其上下文的Web信息检索[J];计算机研究与发展;2004年01期
6 张三峰;吴国新;;一种面向动态异构网络的容错非对称DHT方法[J];计算机研究与发展;2007年06期
7 许光清,邹骥;可持续发展与系统动力学[J];经济理论与经济管理;2005年01期
8 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
9 余锦,史树明;分布式网页排序算法及其传输模式分析[J];计算机工程与应用;2004年29期
10 万源;万方;王大震;;一种并行Crawler系统中的URL分配算法设计[J];计算机工程与应用;2006年S1期
中国硕士学位论文全文数据库 前3条
1 刘忠;基于强化学习的垂直搜索引擎网络爬虫的研究与实现[D];苏州大学;2008年
2 董晨;基于本体的语义网爬虫的算法研究与应用实现[D];北京工业大学;2010年
3 林碧霞;基于领域本体的主题爬虫研究及实现[D];西南交通大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 逄利华;张锦春;;基于Hadoop的分布式数据库系统[J];办公自动化;2014年05期
2 郑玮;;Hadoop释放大数据潜能[J];软件和信息服务;2012年10期
3 刘尔凯;崔振东;;基于HADOOP技术 实现银行历史数据线上化研究[J];金融电子化;2014年01期
4 邹群;;一种基于Hadoop的数字图书存储系统设计方案[J];黑龙江史志;2014年01期
5 谌章义;毕伟;向万红;王国安;吴爱国;;基于Hadoop的海量电费数据处理模型[J];计算机系统应用;2014年05期
6 ;大数据不等于Hadoop[J];办公自动化;2014年06期
7 ;保障Hadoop数据安全的十大措施[J];计算机与网络;2013年08期
8 王峰;雷葆华;;Hadoop分布式文件系统的模型分析[J];电信科学;2010年12期
9 林伟伟;;一种改进的Hadoop数据放置策略[J];华南理工大学学报(自然科学版);2012年01期
10 苏小会;何婧媛;;Hadoop中任务调度算法的改进[J];电子设计工程;2012年22期
中国重要报纸全文数据库 前8条
1 本报记者 郭涛;机器大数据也离不开Hadoop[N];中国计算机报;2013年
2 本报记者 王星;Hadoop引发大数据之战[N];电脑报;2012年
3 本报记者 邹大斌;Hadoop一体机降低大数据门槛[N];计算机世界;2012年
4 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年
5 乐天 编译;Hadoop:打开大数据之门的金钥匙[N];计算机世界;2012年
6 范范 编译;Hadoop用户可以使用多种搜索引擎[N];网络世界;2013年
7 波波 编译;Hadoop、Web 2.0为磁带带来新商机[N];网络世界;2013年
8 本报记者 郭涛;让更多人能够使用Hadoop[N];中国计算机报;2012年
中国硕士学位论文全文数据库 前10条
1 高仲峰;基于Hadoop平台的桥梁结构健康监测系统的应用[D];西安科技大学;2012年
2 张丽云;基于Hadoop的企业知识管理系统的主要功能的研究与实现[D];东北师范大学;2014年
3 杨宁;基于Hadoop平台的广告检测系统研究与实现[D];复旦大学;2012年
4 张兴平;基于Hadoop的微博用户情感分类研究与实现[D];西安电子科技大学;2014年
5 汤艳;基于Hadoop架构的移动终端云资源访问模式研究与应用[D];北京工业大学;2013年
6 张建;基于Hadoop的云计算模型研究及气象应用[D];南京信息工程大学;2012年
7 刘寅;Hadoop下基于贝叶斯分类的气象数据挖掘研究[D];南京信息工程大学;2012年
8 邰建华;Hadoop平台下的海量数据存储技术研究[D];东北石油大学;2012年
9 李金朋;基于Hadoop平台的重叠社区发现算法研究[D];吉林大学;2014年
10 潘振鹏;基于Hadoop的文本分类系统的设计与实现[D];哈尔滨工业大学;2013年
,本文编号:884698
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/884698.html