面向应用商店的主题爬虫设计与实现
发布时间:2021-11-27 19:58
目前互联网上的信息量呈现爆发式的增长,但是人们获取想要的信息所需要的代价与时间也是越来越高。因此,对于一般的搜索引擎来说,在进行提交处理之后,返回的信息量太大,需要经过人工干预才能再次进行确认与排查,查询返回的结果中有用的信息占据的比例太少,同时,通用的搜索引擎在进行搜索的时候深度方面往往不够。为了能够及时的了解到应用商店的热点信息,需要引入相应的分析系统。本文设计与实现了面向应用商店的主题爬虫系统。针对传统的网络爬虫仅仅采用的一种搜索引擎的服务,无法满足针对主题性方面的应用需要。本文深入对于主题爬虫的相关特性、架构、工作流程进行分析,提出了一种面向应用商店的爬虫系统总体架构。本系统开发采用当前较为流行的Python语言和PHP语言开发,采用标准的B/S架构,充分利用这种架构在系统运行过程中的优势,结合了先进的技术方法,实现了多线程管理模块、爬取策略模块、HTTP下载模块、手机端抓取模块、正文抽取模块、超链接抽取模块、主题相关度判断模块的管理功能模块,最后按照单元测试和压力测试对系统进行相应的测试分析,并对最终的测试结果进行分析与总结处理。通过对爬虫系统的测试,测试结果表明,爬虫系统运...
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
搜索引擎体系结构原理
并将排序之后的结果展示使用者。搜索引擎的工作流程如图2-2 所示。图 2-2 搜索引擎搜索流程2.1.4 垂直搜索引擎结构相比较于传统的广泛应用的通用搜索引擎,垂直搜索引擎能够提供更加专业化的搜索服务,能够针对特定的行业和领域进行搜索,比通用的搜索结构相比较,搜索结构更加的结构化,能够很好的展示所需要查询数据的详细信息。由于最终展示给用户的结构不同,因此在初始阶段对数据采集的过程中也是有一些区别的,在垂直搜索引擎中,页面上的信息爬取增加了对链接方面的控制。垂直搜索引擎结构如图 2-3 所示。从图中可以看出,首先是文件信息通过页面采集,在互联网上经过 URL 控制,获取所爬取的页面,然后对页面信息进行结构化信息提取→提取关键字信息→页面消重→链接分析,
图 2-3 垂直搜索引擎结构通用爬虫和主题爬虫1 通用爬虫的工作流程对于通用的爬虫来说,是通用搜索引擎中非常关键的一个模块,主要是负责从互联页中下载大量的数据作为进行通用搜索引擎的索引数据。通用网络爬虫是从一个或的页面的链接情况出发,获取页面上的 URL 地址列表信息,对页面信息进行相应过程中,按照实现预定好的策略进行搜索,在没有达到终止的条件的过程中需要不从当前的页面上提取新的链接信息将其存放到爬行的 URL 队列信息中。通用爬虫流程如图 2-4 所示。
【参考文献】:
期刊论文
[1]改进向量空间模型的主题爬虫系统[J]. 姚荣宝,刘乃文. 山东师范大学学报(自然科学版). 2015 (03)
[2]基于Hadoop的广域网分布式主题爬虫系统框架[J]. 王淑芬,高军礼,邹普,宋海涛. 计算机工程与科学. 2015(04)
[3]基于Heritrix的主题爬虫在互联网舆情系统中应用[J]. 肖江,季节. 电子设计工程. 2015(06)
[4]一种主动发现网络地理信息服务的主题爬虫[J]. 沈平,桂志鹏,游兰,胡凯,吴华意. 地球信息科学学报. 2015(02)
[5]网络舆情监控系统中主题网络爬虫的研究与实现[J]. 方星星,鲁磊纪,徐洋. 舰船电子工程. 2014(09)
[6]基于主题爬虫的漏洞库维护系统[J]. 刘海燕,黄睿,黄轩. 计算机与现代化. 2014(08)
[7]基于链接回溯的地理信息更新主题爬虫研究[J]. 吴家皋,余浩,张雪英. 计算机技术与发展. 2014(07)
[8]基于向量空间模型的中文网页主题特征项抽取[J]. 代宽,赵辉,韩冬,宋天勇. 吉林大学学报(信息科学版). 2014(01)
[9]一种全自动生成网页信息抽取Wrapper的方法[J]. 梅雪,程学旗,郭岩,张刚,丁国栋. 中文信息学报. 2008(01)
[10]HtmIParser提取网页信息的设计与实现[J]. 黄颖,黄治平. 江西理工大学学报. 2007(06)
硕士论文
[1]基于主题的多线程网络爬虫系统的研究与实现[D]. 陈露.北京邮电大学 2015
[2]基于教育信息资源本体的主题爬虫的研究[D]. 陈浩.云南师范大学 2014
本文编号:3522950
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
搜索引擎体系结构原理
并将排序之后的结果展示使用者。搜索引擎的工作流程如图2-2 所示。图 2-2 搜索引擎搜索流程2.1.4 垂直搜索引擎结构相比较于传统的广泛应用的通用搜索引擎,垂直搜索引擎能够提供更加专业化的搜索服务,能够针对特定的行业和领域进行搜索,比通用的搜索结构相比较,搜索结构更加的结构化,能够很好的展示所需要查询数据的详细信息。由于最终展示给用户的结构不同,因此在初始阶段对数据采集的过程中也是有一些区别的,在垂直搜索引擎中,页面上的信息爬取增加了对链接方面的控制。垂直搜索引擎结构如图 2-3 所示。从图中可以看出,首先是文件信息通过页面采集,在互联网上经过 URL 控制,获取所爬取的页面,然后对页面信息进行结构化信息提取→提取关键字信息→页面消重→链接分析,
图 2-3 垂直搜索引擎结构通用爬虫和主题爬虫1 通用爬虫的工作流程对于通用的爬虫来说,是通用搜索引擎中非常关键的一个模块,主要是负责从互联页中下载大量的数据作为进行通用搜索引擎的索引数据。通用网络爬虫是从一个或的页面的链接情况出发,获取页面上的 URL 地址列表信息,对页面信息进行相应过程中,按照实现预定好的策略进行搜索,在没有达到终止的条件的过程中需要不从当前的页面上提取新的链接信息将其存放到爬行的 URL 队列信息中。通用爬虫流程如图 2-4 所示。
【参考文献】:
期刊论文
[1]改进向量空间模型的主题爬虫系统[J]. 姚荣宝,刘乃文. 山东师范大学学报(自然科学版). 2015 (03)
[2]基于Hadoop的广域网分布式主题爬虫系统框架[J]. 王淑芬,高军礼,邹普,宋海涛. 计算机工程与科学. 2015(04)
[3]基于Heritrix的主题爬虫在互联网舆情系统中应用[J]. 肖江,季节. 电子设计工程. 2015(06)
[4]一种主动发现网络地理信息服务的主题爬虫[J]. 沈平,桂志鹏,游兰,胡凯,吴华意. 地球信息科学学报. 2015(02)
[5]网络舆情监控系统中主题网络爬虫的研究与实现[J]. 方星星,鲁磊纪,徐洋. 舰船电子工程. 2014(09)
[6]基于主题爬虫的漏洞库维护系统[J]. 刘海燕,黄睿,黄轩. 计算机与现代化. 2014(08)
[7]基于链接回溯的地理信息更新主题爬虫研究[J]. 吴家皋,余浩,张雪英. 计算机技术与发展. 2014(07)
[8]基于向量空间模型的中文网页主题特征项抽取[J]. 代宽,赵辉,韩冬,宋天勇. 吉林大学学报(信息科学版). 2014(01)
[9]一种全自动生成网页信息抽取Wrapper的方法[J]. 梅雪,程学旗,郭岩,张刚,丁国栋. 中文信息学报. 2008(01)
[10]HtmIParser提取网页信息的设计与实现[J]. 黄颖,黄治平. 江西理工大学学报. 2007(06)
硕士论文
[1]基于主题的多线程网络爬虫系统的研究与实现[D]. 陈露.北京邮电大学 2015
[2]基于教育信息资源本体的主题爬虫的研究[D]. 陈浩.云南师范大学 2014
本文编号:3522950
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3522950.html