基于网络爬虫的搜索引擎的设计与实现
发布时间:2021-10-24 03:00
随着信息量的增多,为用户提供便捷的搜索服务也更加具有挑战性。大规模存储信息并精确搜索的代价是巨大的,人们需要在信息搜索的快捷性与成本中找到平衡。系统实现一个基于网络爬虫的搜索引擎。软件结构分为爬虫部分,数据库部分,前端显示部分。同时,描述了扩展成分布式爬虫的方法。硬件方面需要多台主机,软件方面包括Scrapy爬虫、数据库、Django框架。最终设计并实现了一个具有良好的健壮性和扩展性的网络爬虫系统。
【文章来源】:电脑知识与技术. 2020,16(30)
【文章页数】:5 页
【部分图文】:
系统结构设计图
信息抓取流程图
(3)模拟登录的设计:部分网站需要进行登录才能访问网站信息,同时登录过程中可能会需要输入验证码。对于针对这一部分网站,首先在CMD中启动远程调试打开浏览器防止识别出Web Driver。加载浏览器驱动启动浏览器。最大化界面并定位输入框与按钮,在登录界面使用选择器定位登陆元素和查找用户名密码输入框,使用Selenium自动输入预设信息并登录[5]。最后,如果在网页上找到对应信息则判断登陆成功。具体登录流程如下:(4)Cookie池的设计:Cookie用于表示用户身份,服务器根据Cookie来识别用户身份。使用Cookie可以减少爬虫频繁需要登录的问题[6]。本系统对各个网站建立对应的Coookie池,登陆成功后使用pickle.dump方法将Cookie保存在本地。同时通过使用Cookie登录网站来检测Cookie是否有效。
【参考文献】:
期刊论文
[1]现代浏览器中Cookie同源策略测试框架的设计与实现[J]. 梁浩喆,马进,陈秀真,杨潇. 通信技术. 2019(12)
[2]基于Selenium+Python的高校统一身份认证自动化验收测试技术研究[J]. 冯兴利,洪丹丹,罗军锋,锁志海. 现代电子技术. 2019(22)
[3]基于Scrapy框架的分布式爬虫设计与实现[J]. 王芳,张睿,宫海瑞. 信息技术. 2019(03)
[4]基于Python的反反爬虫技术分析与应用[J]. 余豪士,匡芳君. 智能计算机与应用. 2018(04)
硕士论文
[1]基于Bloom Filter算法的URL去重算法研究及其应用[D]. 孟慧君.河南大学 2019
[2]基于B/S智慧教务综合管理系统的设计与实现[D]. 王贵智.湖南大学 2019
[3]基于Scrapy的分布式网络爬虫系统设计与实现[D]. 樊宇豪.电子科技大学 2018
本文编号:3454443
【文章来源】:电脑知识与技术. 2020,16(30)
【文章页数】:5 页
【部分图文】:
系统结构设计图
信息抓取流程图
(3)模拟登录的设计:部分网站需要进行登录才能访问网站信息,同时登录过程中可能会需要输入验证码。对于针对这一部分网站,首先在CMD中启动远程调试打开浏览器防止识别出Web Driver。加载浏览器驱动启动浏览器。最大化界面并定位输入框与按钮,在登录界面使用选择器定位登陆元素和查找用户名密码输入框,使用Selenium自动输入预设信息并登录[5]。最后,如果在网页上找到对应信息则判断登陆成功。具体登录流程如下:(4)Cookie池的设计:Cookie用于表示用户身份,服务器根据Cookie来识别用户身份。使用Cookie可以减少爬虫频繁需要登录的问题[6]。本系统对各个网站建立对应的Coookie池,登陆成功后使用pickle.dump方法将Cookie保存在本地。同时通过使用Cookie登录网站来检测Cookie是否有效。
【参考文献】:
期刊论文
[1]现代浏览器中Cookie同源策略测试框架的设计与实现[J]. 梁浩喆,马进,陈秀真,杨潇. 通信技术. 2019(12)
[2]基于Selenium+Python的高校统一身份认证自动化验收测试技术研究[J]. 冯兴利,洪丹丹,罗军锋,锁志海. 现代电子技术. 2019(22)
[3]基于Scrapy框架的分布式爬虫设计与实现[J]. 王芳,张睿,宫海瑞. 信息技术. 2019(03)
[4]基于Python的反反爬虫技术分析与应用[J]. 余豪士,匡芳君. 智能计算机与应用. 2018(04)
硕士论文
[1]基于Bloom Filter算法的URL去重算法研究及其应用[D]. 孟慧君.河南大学 2019
[2]基于B/S智慧教务综合管理系统的设计与实现[D]. 王贵智.湖南大学 2019
[3]基于Scrapy的分布式网络爬虫系统设计与实现[D]. 樊宇豪.电子科技大学 2018
本文编号:3454443
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3454443.html