基于分布式的主题型爬行器的研究与实现
发布时间:2021-04-18 14:12
数据时代背景下,越来越多的企业、个人都意识到数据的价值,数据的重要性日益凸显,网络资源共享问题成为了越来越多网络研究领域的研究对象。利用互联网,实现数据、网络带宽、机器计算空间等各方面的共享,实现资源的高效整合和利用。由于数据来源分布广、爬取的信息数据量大、数据种类繁杂等特征,导致海量信息无序化,这对于想要获得某个专业领域资源的用户带来不便,用户很难得到精化搜索结果。专业型网站不断涌现,为满足专业型用户查询特定主题的信息,主题爬行器应运而生。较综合型爬行器更适合于现在的网络环境的发展与互联网用户的需求,能够从海量的信息中,更加精确地对其进行查找、抽取等,同时通过分布式处理技术,来加快整体爬行器在页面爬取、存储工作上的效率,以更好的应用于当前网络时代背景。本文针对综合型爬行器对网站的横向信息爬取、搜索结果分散、主题关联性不强即爬取的内容多但不一定主题相关度高等问题,对主题相关度计算的算法进行了分析和研究;通过对链接的结构、网站页面的连通方式和页面内容等多方面内容进行综合,设计出了主题相关度计算算法,基于此算法实现了主题型网络爬行器;针对多爬行器协同工作问题,采用分布式结构进行爬行器的部署...
【文章来源】:华东交通大学江西省
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外相关研究现状
1.2.1 主题网络爬虫的研究现状
1.2.2 垂直型网络爬行器相关算法
1.2.3 主题网络爬行器的分布式处理技术
1.2.4 网页保护策略的应对机制
1.3 论文研究的目标和内容
1.3.1 研究目标
1.3.2 研究内容
1.4 论文章节安排
第2章 相关技术
2.1 基于内容的主题相关性算法
2.1.1 Fish-Search分析算法
2.1.2 Shark-Search分析算法
2.1.3 TF-IDF分析算法
2.2 网页价值链接分析算法
2.2.1 链接价值分析算法
2.2.2 PageRank分析算法
2.2.3 HITS分析算法
2.3 分布式处理技术
2.3.1 Hadoop分布式处理技术
2.3.2 基于Hadoop的分布式文件系统
2.3.3 并行编程模式MapReduce
2.3.4 消息队列MOM
2.4 本章小结
第3章 关键技术的研究
3.1 页面主题关联度计算的分析策略
3.2 爬行器主题相关度分析计算的算法
3.3 错误恢复机制
3.4 本章小结
第4章 主题爬行器的分析与设计
4.1 主题爬行器的工作流程
4.2 总体架构设计
4.3 基于负载均衡原则的中心控制模块的设计
4.4 爬行子节点模块的设计
4.5 主题分析模块的设计
4.6 分布式存储模块的设计
4.7 错误恢复机制模块的设计
4.8 本章小结
第5章 分布式主题网络爬行器的实现与评估
5.1 分布式主题爬行器的实现与评估
5.2 主题爬行器主题分析与抓取的实现与评估
5.2.1 主题爬行器的页面主题相关性分析算法的实现
5.2.2 爬行器主题爬取的分析与评估
5.3 错误恢复机制的实现
5.4 本章小结
第6章 总结与展望
6.1 总结
6.2 展望
参考文献
个人简历 在读期间发表的学术论文
致谢
【参考文献】:
期刊论文
[1]面向图书主题的爬虫算法研究[J]. 张莉婧,曾庆涛,李业丽,孙华艳,字云飞. 计算机科学. 2017(S2)
[2]网站安全防护策略[J]. 罗传军,武国良,王琪. 网络安全技术与应用. 2016(12)
[3]一种面向HDFS的多层索引技术[J]. 何龙,陈晋川,杜小勇. 软件学报. 2017(03)
[4]大规模云同步归集数据系统的异步并行优化[J]. 杨海涛,张传斌,阮镇江,徐飞. 计算机工程与应用. 2017(02)
[5]IncPR:一种基于增量计算的并行PageRank算法[J]. 姜双双,廖群,杨愚鲁,李涛. 计算机研究与发展. 2016(08)
[6]一种优化路径的聚焦爬虫爬行策略[J]. 徐晨初,张燕平,刘国涛. 小型微型计算机系统. 2016(08)
[7]基于维基百科社区挖掘的词语语义相似度计算[J]. 彭丽针,吴扬扬. 计算机科学. 2016(04)
[8]基于用户兴趣与主题相关的PageRank算法改进研究[J]. 王冲,纪仙慧. 计算机科学. 2016(03)
[9]基于TF-IDF改进算法的聚焦主题网络爬虫[J]. 王景中,邱铜相. 计算机应用. 2015(10)
[10]基于PageRank,HITS和SALSA算法的学术论文评价[J]. 苏成,Hee-Sop KIM. 情报杂志. 2015(06)
本文编号:3145611
【文章来源】:华东交通大学江西省
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外相关研究现状
1.2.1 主题网络爬虫的研究现状
1.2.2 垂直型网络爬行器相关算法
1.2.3 主题网络爬行器的分布式处理技术
1.2.4 网页保护策略的应对机制
1.3 论文研究的目标和内容
1.3.1 研究目标
1.3.2 研究内容
1.4 论文章节安排
第2章 相关技术
2.1 基于内容的主题相关性算法
2.1.1 Fish-Search分析算法
2.1.2 Shark-Search分析算法
2.1.3 TF-IDF分析算法
2.2 网页价值链接分析算法
2.2.1 链接价值分析算法
2.2.2 PageRank分析算法
2.2.3 HITS分析算法
2.3 分布式处理技术
2.3.1 Hadoop分布式处理技术
2.3.2 基于Hadoop的分布式文件系统
2.3.3 并行编程模式MapReduce
2.3.4 消息队列MOM
2.4 本章小结
第3章 关键技术的研究
3.1 页面主题关联度计算的分析策略
3.2 爬行器主题相关度分析计算的算法
3.3 错误恢复机制
3.4 本章小结
第4章 主题爬行器的分析与设计
4.1 主题爬行器的工作流程
4.2 总体架构设计
4.3 基于负载均衡原则的中心控制模块的设计
4.4 爬行子节点模块的设计
4.5 主题分析模块的设计
4.6 分布式存储模块的设计
4.7 错误恢复机制模块的设计
4.8 本章小结
第5章 分布式主题网络爬行器的实现与评估
5.1 分布式主题爬行器的实现与评估
5.2 主题爬行器主题分析与抓取的实现与评估
5.2.1 主题爬行器的页面主题相关性分析算法的实现
5.2.2 爬行器主题爬取的分析与评估
5.3 错误恢复机制的实现
5.4 本章小结
第6章 总结与展望
6.1 总结
6.2 展望
参考文献
个人简历 在读期间发表的学术论文
致谢
【参考文献】:
期刊论文
[1]面向图书主题的爬虫算法研究[J]. 张莉婧,曾庆涛,李业丽,孙华艳,字云飞. 计算机科学. 2017(S2)
[2]网站安全防护策略[J]. 罗传军,武国良,王琪. 网络安全技术与应用. 2016(12)
[3]一种面向HDFS的多层索引技术[J]. 何龙,陈晋川,杜小勇. 软件学报. 2017(03)
[4]大规模云同步归集数据系统的异步并行优化[J]. 杨海涛,张传斌,阮镇江,徐飞. 计算机工程与应用. 2017(02)
[5]IncPR:一种基于增量计算的并行PageRank算法[J]. 姜双双,廖群,杨愚鲁,李涛. 计算机研究与发展. 2016(08)
[6]一种优化路径的聚焦爬虫爬行策略[J]. 徐晨初,张燕平,刘国涛. 小型微型计算机系统. 2016(08)
[7]基于维基百科社区挖掘的词语语义相似度计算[J]. 彭丽针,吴扬扬. 计算机科学. 2016(04)
[8]基于用户兴趣与主题相关的PageRank算法改进研究[J]. 王冲,纪仙慧. 计算机科学. 2016(03)
[9]基于TF-IDF改进算法的聚焦主题网络爬虫[J]. 王景中,邱铜相. 计算机应用. 2015(10)
[10]基于PageRank,HITS和SALSA算法的学术论文评价[J]. 苏成,Hee-Sop KIM. 情报杂志. 2015(06)
本文编号:3145611
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3145611.html