主题网络爬虫的并行化研究与设计
本文选题:并行化 + 爬虫 ; 参考:《西南石油大学》2017年硕士论文
【摘要】:随着移动互联网的普及,数据产生的速度不断加快,数据量不断增长。搜索引擎提供的查询结果数量虽能够满足普通用户的需求,但不足以支持科研人员在主题领域的数据分析。本文以如何获取主题信息作为研究问题,根据实际需要,研究使用主题网络爬虫从互联网中高效地采集相关数据。文中采用集群并行化处理的思想以及改进的网页相似度判定算法采集网页并判定网页信息主题相关性,从而获取信息。研究工作分为三部分:爬虫工作原理及相关知识、爬虫并行化改进和数据采集过程中文本主题相关性的判断。首先,爬虫是搜索引擎的重要组成部分,以搜索引擎和Web遵循的HTTP协议为起点,进而研究了爬虫的采集流程。其次,在普通爬虫流程的基础上,基于常用搜索策略提出了多策略融合的搜索算法,改进了原有搜索效率低下的问题,达到效率成倍提升的效果。接着,互联网的数据规模促使爬虫采用并行化方式提高效率,根据爬虫各部分的需求以及数据的特点采用了合适的并行框架:包括存放URL多队列的RabbitMQ、URL去重的内存级数据库Redis、处理网页数据的并行计算框架Storm和分布式数据库MongoDB。最后,提出以标题为中心的精简内容子树构建网页主要内容,并对其应用向量空间模型和语义结合的判别算法对网页进行主题识别,提高了网页主题相关的识别率。通过对系统架构以及各模块的设计与实现,并以“大数据”为主题对系统进行测试,结果表明系统能够识别与“大数据”相关的网页,准确率最高达到82%,且经过并行化的改进,系统效率和稳定性有所提升,解决了中小型爬虫自主采集相关主题网页的问题,获取到的数据对后续的分析也有着积极作用。
[Abstract]:With the popularity of mobile Internet, the speed of data generation is accelerating and the amount of data is increasing. Although the number of query results provided by search engines can meet the needs of ordinary users, it is not enough to support the data analysis of scientific researchers in the subject area. In this paper, how to obtain topic information as a research problem, according to the actual needs, the use of topic crawlers from the Internet to efficiently collect relevant data. In this paper, the idea of cluster parallelization and the improved similarity determination algorithm are used to collect web pages and determine the relevance of web pages' information, so as to obtain the information. The research work is divided into three parts: crawler working principle and related knowledge, reptile parallelization improvement and the judgment of relevance of Chinese text in data acquisition process. Firstly, the crawler is an important part of the search engine. Based on the HTTP protocol followed by the search engine and Web, the crawler collection process is studied. Secondly, on the basis of common crawler flow, a multi-strategy fusion search algorithm is proposed based on common search strategies, which improves the original problem of low search efficiency and achieves the effect of multiplying the efficiency. Then, the size of the data on the Internet encourages crawlers to use parallelism to improve their efficiency. According to the requirements of each part of the crawler and the characteristics of the data, this paper adopts a suitable parallel framework, which includes the memory level database Redisis which stores the URL multi-queue RabbitMQ URL, the parallel computing framework for processing web page data, Storm and the distributed database, MongoDB. Finally, the main content of the web page is constructed by a reduced content subtree with the title as the center, and the recognition rate of the web page is improved by using the vector space model and the semantic discriminant algorithm. Through the design and implementation of the system architecture and each module, and taking "big data" as the theme to test the system, the result shows that the system can identify the web pages related to "big data", and the accuracy rate is up to 822, and it is improved by parallelization. The efficiency and stability of the system are improved, which solves the problem of the small and medium-sized reptiles collecting related web pages independently, and the obtained data also play a positive role in the subsequent analysis.
【学位授予单位】:西南石油大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3
【参考文献】
相关期刊论文 前10条
1 夏靖波;韦泽鲲;付凯;陈珍;;云计算中Hadoop技术研究与应用综述[J];计算机科学;2016年11期
2 朱新华;马润聪;孙柳;陈宏朝;;基于知网与词林的词语语义相似度计算[J];中文信息学报;2016年04期
3 姜芳;李国和;岳翔;;基于语义的文档特征提取研究方法[J];计算机科学;2016年02期
4 马雷雷;李宏伟;连世伟;梁汝鹏;陈虎;;一种基于本体语义的灾害主题爬虫策略[J];计算机工程;2016年11期
5 王景中;邱铜相;;基于TF-IDF改进算法的聚焦主题网络爬虫[J];计算机应用;2015年10期
6 王东;熊世桓;;基于同义词词林扩展的短文本分类[J];兰州理工大学学报;2015年04期
7 李川;鄂海红;宋美娜;;基于Storm的实时计算框架的研究与应用[J];软件;2014年10期
8 余兆钗;傅化权;;一种改进的最好优先搜索策略算法[J];科技视界;2014年33期
9 朱亚兴;余爱民;王夷;;基于Redis+MySQL+MongoDB存储架构应用[J];微型机与应用;2014年13期
10 喻依;甘若迅;樊锁海;刘庆;邵晴;;基于PageRank算法和HITS算法的期刊评价研究[J];计算机科学;2014年S1期
相关硕士学位论文 前10条
1 牛牧;基于Kafka的大规模流数据分布式缓存与分析平台[D];吉林大学;2016年
2 黄美华;基于人工鱼群算法的多目标背包问题研究[D];广东工业大学;2016年
3 罗路天;垂直搜索引擎中主题网络爬虫算法的设计与研究[D];广东工业大学;2016年
4 魏光泽;中文分词技术在搜索引擎中的研究与应用[D];青岛科技大学;2016年
5 杨超群;基于自身特征的短文本分类研究[D];合肥工业大学;2016年
6 任书琴;健康领域的垂直搜索引擎的研究与实现[D];电子科技大学;2016年
7 吴昊;垂直搜索引擎关键技术研究及分布式实现[D];东南大学;2016年
8 周祺;基于统计与词典相结合的中文分词的研究与实现[D];哈尔滨工业大学;2015年
9 谭静;基于向量空间模型的文本相似度算法研究[D];西南石油大学;2015年
10 钟杰;基于文本语义及结构的中文文本相似度研究[D];江西财经大学;2015年
,本文编号:1907388
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1907388.html