基于IP代理池的股票板块爬虫设计与实现
发布时间:2021-08-26 05:19
“科技是国家强盛之基。”近年来,国家高度重视“科技创新”,互联网技术也随之得到进一步的应用与推广。在金融股票领域,“互联网+”时代的爬虫技术同样也在原有基础上成功为之赋能,为广大股民及投资机构更方便地检索股票板块信息以及制定投资策略提供了可能。本文描述了基于IP代理池的股票板块爬虫,旨在解决股票投资者无法及时感知不同股票板块的实时变化,以及传统爬虫无法自动跨越反爬机制为板块数据爬取服务等问题,以使该爬虫技术更好的适用于股票板块数据挖掘场景,进一步提高爬虫的抓取效率。本文主要工作如下:1、对基于IP代理池的股票板块爬虫的关键技术进行研究。主要包括以下方面:1)基于Maven分模块部署jar包,模拟微服务架构模式,以最小的构建代价暴露IP代理池接口,实现项目编译的灵活性;2)利用Dubbo、Zookeeper分布式RPC框架实现远程服务,实现接口生产端与消费端的注册与调用,同时利用其长链接通信特性,减少了代理IP的网络开销;以及3)集成Quartz任务调度服务,利用Scheduler、Trigger以及Job等核心类,设计并开发板块监控爬虫定时任务和代理IP爬虫定时任务。2、设计并实现股票...
【文章来源】:辽宁大学辽宁省 211工程院校
【文章页数】:90 页
【学位级别】:硕士
【部分图文】:
Http协议交互过程图
图 2-2 Rpc 服务远程过程调用流程图 Rpc 服务调用流程如下:服务消费方调用本地 Handle 进行数据参数的传输。服务消费方通过本地调用方式调用本地系统内核,准备向服求。服务消费方 Handle 进行服务寻址,将数据信息发送至服务生服务生产方 Handle 接收到消息后,进行消息解码。服务生产方 Handle 依照解码结果通过本地调用方式调用服务本地服务执行结束,将结果返回给服务生产方 Handle。服务生产方 Handle 将结果封装成消息并调用远程系统内核。服务生产方将数据发送至服务消费方。服务消费方 Handle 接收本地内核发送的消息。服务生产方成功接收消息。本项目业务需求和 Rpc 服务的特性,决定使用 Rpc 协议框架
)的中继节点,它主要承担转发来往的网络请求、记载网络传输日志所谓 IP 代理服务,即通过获取代理服务器的 IP 及端口信息,进行目标的一系列操作。由于大多数商业网站对同一 IP 访问频度的限制,爬虫直接使用真实的客户端 IP 发送网络请求,目标网站会基于算法判断该 合法性,予以放行或封锁。因此,IP 代理服务对于爬虫程序的作用不代理服务器可以将目标网站的数据进行缓存并发送给客户端,即使商业理 IP 封锁,爬虫程序依然可以选择其他服务器节点,进行间接访问,影响真实 IP 的使用。代理服务器的主要功能包括:1)权限控制,根据用户的 IP 设置不同的,从而进行放行或封锁;2)作为防火墙,一定程度隔离广域网的访问域网内部主机的安全,以防网络攻击;3)缓存数据,通常代理服务器间比较大,每次对客户端请求返回的信息进行缓存,当同一 IP 再次进源的访问时,代理服务器直接返回缓存的信息,进一步提高访问用户效约 IP 数量,一定程度上减小局域网内部主机的 IP 地址需求,通过进转换,保证了公有 IP 的数量。IP 代理服务流程如图 2-3 所示:
【参考文献】:
期刊论文
[1]针对SSM框架Web系统的相关思考[J]. 曾艳丽,李诺. 信息与电脑(理论版). 2019(03)
[2]基于Redis与SSM的大型设备数据运用系统设计[J]. 熊肖磊,王春伟,赵炯,周奇才. 现代机械. 2018(06)
[3]Spring框架中IOC的实现[J]. 刘双. 电子技术与软件工程. 2018(21)
[4]基于Spring、Hibernate、Dubbo的消息推送中间件的设计[J]. 汪琳. 现代计算机(专业版). 2018(30)
[5]HTTP服务器的研究和实现[J]. 陈忠菊. 电脑编程技巧与维护. 2018(08)
[6]大数据时代下爬虫技术应用与研究——以标讯快车项目为例[J]. 黄文杰,姚庚梅. 科技创新与应用. 2018(06)
[7]谈谈“推荐系统”和“搜索引擎”[J]. 陈运文. 计算机与网络. 2017(24)
[8]Mybatis逆向工程在JavaEE中的应用[J]. 李杉,贾彦平,达虎. 通讯世界. 2017(24)
[9]Web3.0时代人工智能与社交软件结合方式[J]. 邢征宇. 今传媒. 2017(11)
[10]用代理服务器联通网络[J]. 廖勇,邓欣茹. 网络安全和信息化. 2017(06)
硕士论文
[1]基于ZooKeeper的配置中心系统设计与实现[D]. 董龙成.西安电子科技大学 2018
[2]基于SpringMVC框架的订阅式服务计费管理系统的设计与实现[D]. 李岩.北京交通大学 2018
[3]面向微服务架构的容器云平台设计与实现[D]. 于泽萍.哈尔滨工业大学 2018
[4]支持分布式定时任务调度的Web服务的设计与实现[D]. 郭一鸣.北京邮电大学 2018
[5]基于HTTP协议的网络数据分析系统的设计与实现[D]. 段凌轩.哈尔滨工业大学 2016
[6]基于Maven的CWAP框架基础单元层和基础服务层的设计与实现[D]. 钱言佳.南京大学 2016
[7]基于J2EE的CRUD组合组件的设计与实现[D]. 徐启江.东北大学 2016
[8]Robots协议与互联网竞争规治[D]. 李晴.清华大学 2015
[9]基于Quartz的消息沟通平台的研究[D]. 朱哲明.北京邮电大学 2013
本文编号:3363627
【文章来源】:辽宁大学辽宁省 211工程院校
【文章页数】:90 页
【学位级别】:硕士
【部分图文】:
Http协议交互过程图
图 2-2 Rpc 服务远程过程调用流程图 Rpc 服务调用流程如下:服务消费方调用本地 Handle 进行数据参数的传输。服务消费方通过本地调用方式调用本地系统内核,准备向服求。服务消费方 Handle 进行服务寻址,将数据信息发送至服务生服务生产方 Handle 接收到消息后,进行消息解码。服务生产方 Handle 依照解码结果通过本地调用方式调用服务本地服务执行结束,将结果返回给服务生产方 Handle。服务生产方 Handle 将结果封装成消息并调用远程系统内核。服务生产方将数据发送至服务消费方。服务消费方 Handle 接收本地内核发送的消息。服务生产方成功接收消息。本项目业务需求和 Rpc 服务的特性,决定使用 Rpc 协议框架
)的中继节点,它主要承担转发来往的网络请求、记载网络传输日志所谓 IP 代理服务,即通过获取代理服务器的 IP 及端口信息,进行目标的一系列操作。由于大多数商业网站对同一 IP 访问频度的限制,爬虫直接使用真实的客户端 IP 发送网络请求,目标网站会基于算法判断该 合法性,予以放行或封锁。因此,IP 代理服务对于爬虫程序的作用不代理服务器可以将目标网站的数据进行缓存并发送给客户端,即使商业理 IP 封锁,爬虫程序依然可以选择其他服务器节点,进行间接访问,影响真实 IP 的使用。代理服务器的主要功能包括:1)权限控制,根据用户的 IP 设置不同的,从而进行放行或封锁;2)作为防火墙,一定程度隔离广域网的访问域网内部主机的安全,以防网络攻击;3)缓存数据,通常代理服务器间比较大,每次对客户端请求返回的信息进行缓存,当同一 IP 再次进源的访问时,代理服务器直接返回缓存的信息,进一步提高访问用户效约 IP 数量,一定程度上减小局域网内部主机的 IP 地址需求,通过进转换,保证了公有 IP 的数量。IP 代理服务流程如图 2-3 所示:
【参考文献】:
期刊论文
[1]针对SSM框架Web系统的相关思考[J]. 曾艳丽,李诺. 信息与电脑(理论版). 2019(03)
[2]基于Redis与SSM的大型设备数据运用系统设计[J]. 熊肖磊,王春伟,赵炯,周奇才. 现代机械. 2018(06)
[3]Spring框架中IOC的实现[J]. 刘双. 电子技术与软件工程. 2018(21)
[4]基于Spring、Hibernate、Dubbo的消息推送中间件的设计[J]. 汪琳. 现代计算机(专业版). 2018(30)
[5]HTTP服务器的研究和实现[J]. 陈忠菊. 电脑编程技巧与维护. 2018(08)
[6]大数据时代下爬虫技术应用与研究——以标讯快车项目为例[J]. 黄文杰,姚庚梅. 科技创新与应用. 2018(06)
[7]谈谈“推荐系统”和“搜索引擎”[J]. 陈运文. 计算机与网络. 2017(24)
[8]Mybatis逆向工程在JavaEE中的应用[J]. 李杉,贾彦平,达虎. 通讯世界. 2017(24)
[9]Web3.0时代人工智能与社交软件结合方式[J]. 邢征宇. 今传媒. 2017(11)
[10]用代理服务器联通网络[J]. 廖勇,邓欣茹. 网络安全和信息化. 2017(06)
硕士论文
[1]基于ZooKeeper的配置中心系统设计与实现[D]. 董龙成.西安电子科技大学 2018
[2]基于SpringMVC框架的订阅式服务计费管理系统的设计与实现[D]. 李岩.北京交通大学 2018
[3]面向微服务架构的容器云平台设计与实现[D]. 于泽萍.哈尔滨工业大学 2018
[4]支持分布式定时任务调度的Web服务的设计与实现[D]. 郭一鸣.北京邮电大学 2018
[5]基于HTTP协议的网络数据分析系统的设计与实现[D]. 段凌轩.哈尔滨工业大学 2016
[6]基于Maven的CWAP框架基础单元层和基础服务层的设计与实现[D]. 钱言佳.南京大学 2016
[7]基于J2EE的CRUD组合组件的设计与实现[D]. 徐启江.东北大学 2016
[8]Robots协议与互联网竞争规治[D]. 李晴.清华大学 2015
[9]基于Quartz的消息沟通平台的研究[D]. 朱哲明.北京邮电大学 2013
本文编号:3363627
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3363627.html