分布式爬虫技术研究与实现
发布时间:2021-10-29 20:31
网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动地对网页上大量数据信息的收集、解析、格式化存储,提出了基于分布式的网络爬虫技术,探讨网络大数据的爬取和采集的实现方法和技术细节。通过分布式集群的搭建,将Nutch爬虫框架搭建在Hadoop分布式集群上,并且利用Zookeeper对集群进行协调调度服务,采用Redis高性能的Key-Value数据库对数据进行存储。在框架中结合Solr引擎,将抓取信息清晰地索引,展示。通过提取页面信息算法优化提取页面信息流程,关键词匹配优化算法获取指标相关数据,完成对数据采集和页面解析,进而实现分布式、精准化和模块化爬取网页数据的目的。通过对Hadoop集群的搭建,Nutch项目的实现,及大量数据的采集,验证了基于Nutch的分布式网络爬虫的架构和运行流程的技术可行性。通过实验对比数据表明,提取页面信息算法,关键词匹配优化算法很大程度的优化了爬虫的爬取过程,使抓取流程更严谨和精准。将基于Nutch的分布式爬虫与其他同类爬虫做多组实验数据对比分析,印证了分布式爬虫技术在性能和准确度方面上都优于传统其他爬虫,其更适用于对海量数据的爬取,其速...
【文章来源】:辽宁石油化工大学辽宁省
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
Nutch体系结构图
10?瀄瀄图2.3Nutch的抓取流程图Fig.2.3Nutchcaptureflowchart2.1.3Nutch的插件机制Nutch作为一种很受欢迎的主流的搜索引擎框架,开源且功能强大,除此以外还有其独特的优点,插件机制。这种机制极大的方便了开发工作,并且满足了系统的个性化需求。为了方便扩展,Nutch预留了扩展点,并且提供了扩展点的基本实现。Nutch的插件体系结构图如下图2.4所示[31]-[33]:图2.4Nutch插件体系结构图Fig.2.4Nutchpluginarchitecturediagram有以上扩展点做支撑,可以通过框架预留的接口实现自定义功能,其插件机制的优
12图2.5Hadoop框架图Fig.2.5Hadoopframeworkdiagram2.2.2HDFS分布式文件系统对集群文件统一管理HDFS全称为HadoopDistributedFileSystem,是分布式文件系统,其设计思想要利于以下几点,首先,要能够存储海量数据,并且达到几百TB大小的单位。HDFS支持流式数据访问,系统采用的是一次写入,多次读取的访问方式。可以部署在廉价的服务器集群上,对硬件要求度不高[39]-[40]。分布式文件系统HDFS的内部体系结构如下图2.6所示:图2.6分布式文件系统体系结构图Fig.2.6Distributedfilesystemarchitecturediagram图2.6中主要展示了HDFS三个重要角色,Namenode、Datanode和Client。可以看
【参考文献】:
期刊论文
[1]Python框架下基于主题的数据爬取技术研究与实现[J]. 严斐,肖璞. 计算机时代. 2018(11)
[2]Web在线爬虫的设计与实现[J]. 韩前进. 软件. 2018(09)
[3]网络爬虫的研究与设计[J]. 郑定超,麻少秋. 电脑知识与技术. 2018(25)
[4]基于Scrapy的微博爬虫设计[J]. 张安启,罗批. 电子技术与软件工程. 2018(13)
[5]主动获取式的分布式网络爬虫集群方法研究[J]. 董禹龙,杨连贺,马欣. 计算机科学. 2018(S1)
[6]基于大数据的城市商圈发展指数构建及测度方法[J]. 叶祥凤,刘文娜,谭任君,王开达. 管理观察. 2018(15)
[7]大数据时代下基于Python的网络信息爬取技术[J]. 刘顺程,岳思颖. 电子技术与软件工程. 2017(21)
[8]大数据环境下基于python的网络爬虫技术[J]. 谢克武. 电子制作. 2017(09)
[9]社交网络数据采集技术研究与应用[J]. 徐雁飞,刘渊,吴文鹏. 计算机科学. 2017(01)
[10]基于网络爬虫和改进的LCS算法的网站更新监测[J]. 周孝锞,郭克华. 计算机应用与软件. 2017(01)
本文编号:3465345
【文章来源】:辽宁石油化工大学辽宁省
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
Nutch体系结构图
10?瀄瀄图2.3Nutch的抓取流程图Fig.2.3Nutchcaptureflowchart2.1.3Nutch的插件机制Nutch作为一种很受欢迎的主流的搜索引擎框架,开源且功能强大,除此以外还有其独特的优点,插件机制。这种机制极大的方便了开发工作,并且满足了系统的个性化需求。为了方便扩展,Nutch预留了扩展点,并且提供了扩展点的基本实现。Nutch的插件体系结构图如下图2.4所示[31]-[33]:图2.4Nutch插件体系结构图Fig.2.4Nutchpluginarchitecturediagram有以上扩展点做支撑,可以通过框架预留的接口实现自定义功能,其插件机制的优
12图2.5Hadoop框架图Fig.2.5Hadoopframeworkdiagram2.2.2HDFS分布式文件系统对集群文件统一管理HDFS全称为HadoopDistributedFileSystem,是分布式文件系统,其设计思想要利于以下几点,首先,要能够存储海量数据,并且达到几百TB大小的单位。HDFS支持流式数据访问,系统采用的是一次写入,多次读取的访问方式。可以部署在廉价的服务器集群上,对硬件要求度不高[39]-[40]。分布式文件系统HDFS的内部体系结构如下图2.6所示:图2.6分布式文件系统体系结构图Fig.2.6Distributedfilesystemarchitecturediagram图2.6中主要展示了HDFS三个重要角色,Namenode、Datanode和Client。可以看
【参考文献】:
期刊论文
[1]Python框架下基于主题的数据爬取技术研究与实现[J]. 严斐,肖璞. 计算机时代. 2018(11)
[2]Web在线爬虫的设计与实现[J]. 韩前进. 软件. 2018(09)
[3]网络爬虫的研究与设计[J]. 郑定超,麻少秋. 电脑知识与技术. 2018(25)
[4]基于Scrapy的微博爬虫设计[J]. 张安启,罗批. 电子技术与软件工程. 2018(13)
[5]主动获取式的分布式网络爬虫集群方法研究[J]. 董禹龙,杨连贺,马欣. 计算机科学. 2018(S1)
[6]基于大数据的城市商圈发展指数构建及测度方法[J]. 叶祥凤,刘文娜,谭任君,王开达. 管理观察. 2018(15)
[7]大数据时代下基于Python的网络信息爬取技术[J]. 刘顺程,岳思颖. 电子技术与软件工程. 2017(21)
[8]大数据环境下基于python的网络爬虫技术[J]. 谢克武. 电子制作. 2017(09)
[9]社交网络数据采集技术研究与应用[J]. 徐雁飞,刘渊,吴文鹏. 计算机科学. 2017(01)
[10]基于网络爬虫和改进的LCS算法的网站更新监测[J]. 周孝锞,郭克华. 计算机应用与软件. 2017(01)
本文编号:3465345
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3465345.html