分布式主题网络爬虫研究与设计

发布时间：2021-11-20 23:27

　　互联网时代,如何从海量数据中收集信息是一个关键问题。目前,使用最频繁的信息检索与收集工具是基于通用爬虫的搜索引擎。但通用爬虫获取到的信息价值密度低。对此,部分学者提出了主题爬虫。主题爬虫是一种会按照爬行策略对页面内容与爬行方向进行分析与筛选的爬虫。与通用爬虫相比,主题爬虫尽量避免与主题不相关页面的抓取,存储的页面数量更少,所获取的信息价值密度更高,是一种有效的信息收集工具。主题爬虫的研究与应用始于20世纪90年代,迄今为止,研究成果主要包括基于内容的爬行策略与基于链接结构的爬行策略;前者以Fish Search、Shark Search为代表,后者以Page Rank、HITS为代表。此外,一些学者提出了基于叙词表或本体的语义爬虫,让主题爬虫在特定领域具备了语义分析的能力。在生产应用中,则形成了以WebMagic、WebCollector、WebCollector-Hadoop为代表的爬虫技术。语义爬虫具备了一定的同义词、近义词识别能力,是对向量空间模型的一种有效改进。但问题在于,这种识别能力受到叙词表或本体的限制,有一定的局限性。如何让主题爬虫具备泛化的同义词、近义词识别能力,在相似...

【文章来源】：电子科技大学四川省 211工程院校 985工程院校教育部直属院校

【文章页数】：91 页

【学位级别】：硕士

【部分图文】：

分布式主题网络爬虫研究与设计

HDFS架构

工作机制,文件

坏诙??NameNode的重启动作将耗费相当多的时间，因为有大量的改动记录需要从editlogs文件拷贝到fsimage文件上。SecondaryNameNode存在的就是为了辅助NameNode解决这两个问题。首先，SecondaryNameNode中存在定时任务，每间隔一定的时间向NameNode发送请求，获取editlogs，获取editlogs后更新自己的fsimage；当更新完成后，SecondaryNameNode会将自己的fsimage发送给NameNode。当NameNode重启时，需要从editlogs中拷贝到fsimage的数量大幅减少，从而提升了NameNode的重启速度。SecondaryNameNode的工作机制如图2-2所示。图2-2SecondaryNameNode的工作机制DataNode是从节点，是HDFS中负责存储数据的节点。HDFS中的文件在物理上是分块存储的，块的大小可以通过配置来设定。从Hadoop2.0版本开始，默认大小的是128M；在Hadoop1.0版本中，默认大小是64M。HDFS中定义的块比磁盘定义的块大，其目的是为了最小化寻址开销。如果块设置得足够大，传

架构图,架构,单体

第二章相关理论与技术9输数据的时间会明显大于在磁盘定位这个块的开始位置所需的时间。通常，机械硬盘的寻址时间约为10ms，而传输速率一般不超过100MB/s，为了使寻址时间仅占传输时间的1%，需要将块的大小设置约为100MB，即10ms*100*100M/s=100M。考虑到计算机中底层运算是以二进制为基础，因此Hadoop将默认的块大小设置为128MB。2.2微服务微服务并不是某种技术，而是一种分布式应用的轻量级设计思想。在微服务的理念出现之前，系统会将所有功能单元都放在一个应用里。当系统的吞吐量无法满足需求时，通过复制整个应用的形式对系统进行扩展；由这种系统扩展方式形成的架构被称为单体应用架构。如图2-3所示。图2-3单体应用架构单体应用架构增加了模块相互之间的耦合度，不利研发、维护任务的分工。例如，对系统中某个模块的功能进行了更新之后，要逐个停止每个节点的服务，并在节点上重启整个应用以实现系统功能的更新。不同于单体应用，微服务把不同的功能放在独立的单元中，通过在不同服务器中分发这些单元进行系统的扩展。每个服务能够单独的启动或终止，且不同的功能单元可以使用不同的技术进行开发；如图2-4所示。图2-4微服务

【参考文献】：
期刊论文
[1]基于语义相关度主题爬虫的语料采集方法[J]. 周昆,王钊,于碧辉.  计算机系统应用. 2019(05)
[2]一种高效的分布式爬虫系统负载均衡策略[J]. 张树涛,谭海波,陈良锋,吕波.  计算机工程. 2019(11)
[3]基于GloVe模型的词向量改进方法[J]. 陈珍锐,丁治明.  计算机系统应用. 2019(01)
[4]基于Hadoop的分布式并行增量爬虫技术研究[J]. 刘芳云,张志勇,李玉祥.  计算机测量与控制. 2018(10)
[5]基于语义的聚焦爬虫算法研究[J]. 孙红光,藏润强,姬传德,杨凤芹,冯国忠.  东北师大学报(自然科学版). 2018(02)
[6]HDFS小文件读写优化策略[J]. 朱永强,周珂,李丹,赵亚萌.  计算机时代. 2016(09)
[7]一种基于本体语义的灾害主题爬虫策略[J]. 马雷雷,李宏伟,连世伟,梁汝鹏,陈虎.  计算机工程. 2016(11)
[8]基于Hash结构词典的双向最大匹配分词法[J]. 陈之彦,李晓杰,朱淑华,付丹龙,邢诒海.  计算机科学. 2015(S2)
[9]基于正反向最大匹配分词系统的实现[J]. 陈明华,殷景华,舒昌,王明江.  信息技术. 2009(06)
[10]Web搜索引擎技术综述[J]. 宋春阳,金可音.  现代计算机(专业版). 2008(05)

硕士论文
[1]基于Hadoop的分布式网络爬虫的研究与实现[D]. 刘星辰.西安理工大学 2019
[2]HDFS存储高利用率及强扩展性优化研究[D]. 张鑫.东华理工大学 2019
[3]基于Hadoop的分布式网络爬虫设计与实现[D]. 李优.西北大学 2018
[4]基于领域本体的垂直搜索引擎研究[D]. 王文平.北京理工大学 2016
[5]分布式爬虫任务调度与AJAX页面抓取研究[D]. 李婷.电子科技大学 2015

本文编号：3508296

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3508296.html

上一篇：青少年的抑郁情绪、抑郁障碍因果信念和自我污名感对求助意愿的影响
下一篇：IMU辅助下GNSS接收机基带信号处理技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|