基于Hadoop分布式环境下垂直爬虫的研究与实现
本文选题:Hadoop + ChainMapper/ChainReducer ; 参考:《北京邮电大学》2017年硕士论文
【摘要】:随着人们对信息搜索个性化服务的需求日益增长,垂直爬虫技术克服了通用爬虫全网爬取的缺点,主要访问用户指定的站点和页面,提高了信息获取的效率和准确率。然而随着网络上数据爆炸式的增长,传统的垂直领域单机爬虫对于海量数据爬取效率已远不能满足需求,且海量存储也是一个很大的挑战。同时,动态网页技术已经广泛应用,给爬虫爬取页面带来了很大的困难。针对爬虫领域面临的这两个问题,本文提出了一个分布式垂直爬虫框架,并对基于状态转换图的动态网页处理算法进行了改进,最后实现了爬取手机App信息的分布式垂直爬虫系统。分布式垂直爬虫框架基于MapReduce的ChainMapper/ChainReducer来设计爬虫各模块,引入Redis内存数据库来对URL等进行管理存储,采用分布式数据库HBase来存储网页提取的特征内容信息。动态网页处理算法针对页面主体模块进行页面相似性判定和有选择性地触发有效元素对原来算法进行了改进,并运用Selenium WebDriver来驱动无界面浏览器Phamtomjs对网页元素上绑定的事件进行触发,下载动态网页的内容。最后基于ChainMR Crawler框架和动态网页处理算法实现了爬取手机App信息的分布式垂直爬虫系统。实验结果表明分布式垂直爬虫框架ChainMR Crawler比Nutch爬取效率高6%,说明ChainMR Crawler有较好的性能。改进后的动态网页处理算法有效减少了无效元素上事件的触发,提高了页面相关性,验证了改进算法的高效性。手机App信息爬虫系统实现了预期功能,具有比较高的爬取效率和扩展性,有较好的实用性。
[Abstract]:With the increasing demand for personalized information search services, vertical crawler technology overcomes the shortcomings of universal crawler crawling, mainly visits user-specified sites and pages, and improves the efficiency and accuracy of information acquisition. However, with the explosive growth of data on the network, the traditional vertical single-machine crawler is far from meeting the demand for mass data crawling efficiency, and mass storage is also a great challenge. At the same time, dynamic web technology has been widely used, which brings great difficulties to crawlers. Aiming at these two problems, this paper proposes a distributed vertical crawler framework, and improves the dynamic web page processing algorithm based on state transition graph. Finally, a distributed vertical crawler system for crawling mobile phone App information is implemented. The distributed vertical crawler framework designs crawler modules based on ChainMapper / ChainReducer of MapReduce, introduces Redis memory database to manage and store URLs, and uses distributed database HBase to store feature content information extracted from web pages. The dynamic web page processing algorithm is used to judge the page similarity of the main module of the page and selectively trigger the effective elements to improve the original algorithm. Selenium WebDriver is used to drive Phamtomjs, a non-interface browser, to trigger events bound on web page elements and download the contents of dynamic web pages. Finally, a distributed vertical crawler system based on ChainMR Crawler framework and dynamic web page processing algorithm is implemented for crawling mobile phone App information. The experimental results show that the efficiency of ChainMR Crawler is 6% higher than that of Nutch, which shows that ChainMR Crawler has better performance. The improved dynamic web page processing algorithm effectively reduces the trigger of events on invalid elements, improves the page correlation, and verifies the efficiency of the improved algorithm. The mobile phone App information crawler system realizes the expected function, has higher crawling efficiency and expansibility, and has good practicability.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092;TP311.56
【相似文献】
相关期刊论文 前10条
1 李宏光,李建磊;动态网页客户端输入项的验证与多按钮的使用[J];滨州师专学报;2001年02期
2 张玉孔;;变量传递在ASP动态网页中的应用分析[J];计算机系统应用;2007年08期
3 卢新建;;试谈ASP动态网页课程的教学探索[J];电脑编程技巧与维护;2010年24期
4 杨振宇;建立动态网页──ASP应用举例[J];电脑技术;1998年06期
5 李嘉;开发动态网页的利器——ASP[J];计算机与通信;1998年Z1期
6 花飘飘;动态网页之绝招大全[J];多媒体世界;1999年06期
7 赵小林,陈英,刘然;动态网页规划与实现机制[J];北京理工大学学报;2001年01期
8 丁振凡,邹芝兰;ASP动态网页中基于日期的条件查询设计技术[J];计算机时代;2001年03期
9 罗媛;利用HTML设计动态网页[J];芜湖职业技术学院学报;2001年03期
10 杨毅;浅谈动态网页[J];成都师专学报;2002年04期
相关会议论文 前4条
1 冉熙璐;段磊;吕广奕;陈珂;李钟麒;黄东兰;唐常杰;;基于对比学习的动态网页用户评论获取方法[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 于平福;刘凯龙;;基于ASP的农业网站动态网页的设计研究[A];山西省科学技术情报学会学术年会论文集[C];2004年
3 邵辉;李芳;;基于树模型算法的动态网页信息抽取研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 牟琦;;创建电子商务平台的技术解决方案[A];第十一届全国煤矿自动化学术年会论文专辑[C];2001年
相关重要报纸文章 前5条
1 丁一;“活的老鼠”不好抓[N];计算机世界;2001年
2 北京 董智勇;动态网页新技术[N];中国电脑教育报;2001年
3 邹肇辉 何艳阳;动态网页打造利器——JSP[N];电脑报;2005年
4 Besky;轻松打造动态网页菜单[N];电脑报;2003年
5 慰鹏飞;走进编程之网络篇(四)[N];江苏经济报;2001年
相关硕士学位论文 前10条
1 刘希霞;基于Hadoop分布式环境下垂直爬虫的研究与实现[D];北京邮电大学;2017年
2 盛洁;面向动态网页的定向信息提取模型的设计与实现[D];燕山大学;2016年
3 王婷;面向授权管理的动态网页资源描述与搜集技术研究[D];解放军信息工程大学;2007年
4 段国云;基于环结构的动态网页防篡改系统的设计与实现[D];湖南大学;2012年
5 潘敏;动态网页防篡改方法与技术研究[D];南昌航空大学;2012年
6 郭常宏;借助动态网页及局域网内数据库数据调用实现电视台工作单管理及成本核算的开发调试和研究[D];山东大学;2006年
7 童罕;面向LXR的动态网页加速技术研究与实现[D];国防科学技术大学;2008年
8 杨柳;基于用户界面状态改变的Ajax动态网页爬取算法研究[D];北京交通大学;2016年
9 李魁;大规模Web论坛采集技术研究[D];中国科学院研究生院(计算技术研究所);2006年
10 沈祥;基于FPGA的嵌入式动态网页Java Web服务器的研究与实现[D];上海交通大学;2011年
,本文编号:2003236
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2003236.html