基于Hadoop的网络爬虫技术研究
本文选题:Hadoop + 网络爬虫 ; 参考:《吉林工程技术师范学院学报》2014年08期
【摘要】:网络爬虫一般从一个起始网页开始,读取网页的内容和网页中的链接,依次循环下去,直到找到此网页所有的链接网页为止;当要爬取的数据量比较大时,传统的技术存在一定弊端,而Hadoop开源云计算框架在数据采集方面会有一定的优势。在介绍Hadoop云计算框架的基础上,本文阐述网络爬虫的原理,并实现基于Hadoop的网络爬虫。
[Abstract]:Web crawlers generally start with a starting page, read the contents of the page and the links in the page, and loop through until they find all the linked pages of the page; when the amount of data to crawl is relatively large, The traditional technology has some disadvantages, and Hadoop open source cloud computing framework will have some advantages in data acquisition. Based on the introduction of Hadoop cloud computing framework, this paper describes the principle of web crawler and implements Hadoop based web crawler.
【作者单位】: 南通航运职业技术学院管理信息系;
【分类号】:TP393.092;TP391.3
【相似文献】
相关期刊论文 前10条
1 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期
2 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期
3 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
4 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期
5 刘洁清;吴京慧;;面向主题的个人实时搜索引擎的设计与实现[J];现代图书情报技术;2006年05期
6 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期
7 王星;刘李敦;;基于移动代理(Agent)的智能爬虫系统的设计和实现[J];科技资讯;2007年28期
8 赵靖华;;网络性能指标预测法指导任务分配的分布式网页信息获取技术[J];通化师范学院学报;2008年10期
9 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期
10 陶荣;陈燕;;基于Lucene小型搜索引擎的研究与实现[J];大众科技;2010年02期
相关会议论文 前9条
1 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
2 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
3 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
4 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
6 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年
8 安伦;周斌;贾焰;;在线Web挖掘中的计算资源动态平衡[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
9 单大甫;周斌;黄九鸣;;基于CAAR算法的文本倾向性分析技术[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
相关博士学位论文 前1条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
相关硕士学位论文 前10条
1 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年
2 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年
3 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
4 赵鹏程;分布式书籍网络爬虫系统的设计与实现[D];西南交通大学;2014年
5 段兵营;搜索引擎中网络爬虫的研究与实现[D];西安电子科技大学;2014年
6 张大伟;基于动态概念图的主题网络爬虫的设计与分析[D];辽宁科技大学;2013年
7 王毅桐;分布式网络爬虫技术研究与实现[D];电子科技大学;2012年
8 黄晓鹏;基于网络爬虫技术的内容探测系统设计与实现[D];北京邮电大学;2010年
9 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
10 王洪威;主题网络爬虫的分析与设计[D];北京邮电大学;2013年
,本文编号:1897791
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1897791.html