当前位置:主页 > 管理论文 > 组织管理论文 >

云数据采集系统中管理子系统的设计与实现

发布时间:2020-08-22 20:49
【摘要】:随着大数据时代的来临,网页信息爆炸式地增长,个人或者企业网络数据采集需求越来越高。云数据采集系统采用一种网络爬虫技术和SaaS服务结合的云平台新服务模式,向用户提供低成本的、可定制和高效的数据采集服务。针对云数据采集系统中任务和资源管理需求,本文提出云数据采集系统中管理子系统的设计,提供任务管理和资源监控两大功能模块。在任务管理模块中,提供统一的爬虫任务的控制管理接口,同时支持爬虫任务的即时调度功能,并且实时监测任务运行状态;在资源监控模块中,负责实时采集爬虫集群资源状态信息,再通过以爬虫集群为单位的资源负载评估,对负载状态异常的爬虫集群进行动态调度管理,提高爬虫任务运行效率和资源使用率。本文根据云数据采集系统中爬虫程序应用场景,对云数据采集系统中爬虫集群资源负载变化复杂等关键问题进行具体分析,并提出解决方案.。首先建立基于熵权法的资源评估模型,对运行爬虫任务的爬虫集群进行整体的资源负载状态分析。对于资源过供给问题,设计贪心选择算法计算爬虫集群中可删除资源节点;对于资源供给不足问题,提出改进的遗传算法实现空闲资源节点调度处理。最后通过具体的对比实验,验证提出的算法方案在负载异常处理场景下的优越性。在进行了需求分析与关键问题的探讨后,本文给出了管理子系统的详细设计与实现。本文针对管理子系统中主要功能模块设计了测试用例并进行了测试,测试结果证明云数据采集系统中管理子系统的设计与实现符合要求,最后进行了全文总结。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP274.2;TP311.52
【图文】:

模块,核心模块,处理模块,浏览器


模块实现的。Nginx模块主要有core邋(核心模块)、handlers邋(处理模块)、filters逡逑(过滤模块)、load-balancers邋(负载均衡模块)[14]。逡逑如图2-2所示,Nginx服务器通过自身的配置模块和核心模块读取和处理前逡逑端浏览器的HTTP请求,选择对应的处理模块调用相应的Django应用执行文件逡逑提供服务并产生输出,通过过滤模块返回给浏览器。逡逑8逡逑

相关技术,数据存储,处理流程,模块


Template逡逑(<filename>.邋html)逡逑图2-1邋Django应用程序结构逡逑2.1.2邋Nginx逡逑Nginx是一个网页服务器,它能反向代理HTTP、HTTPS、SMTP、POP3、逡逑和IMAP的协议链接,也可以用作反向代理,负载平衡器和HTTP缓存,采用模逡逑块化设计,有丰富的模块库和第三方模块库,配置简洁灵活[13]。由C语言进行逡逑编写的Nginx,系统资源开销比其他服务器要小很多,并充分使用异步逻辑来减逡逑少上下文调度开销,所以拥有极强的并发服务能力。逡逑管理子系统的任务管理和资源监控模块主要使用Nginx作为Web服务器。逡逑之前提到,Nginx是采取模块化方式开发,Nginx的服务也是围绕它的主要功能逡逑模块实现的。Nginx模块主要有core邋(核心模块)、handlers邋(处理模块)、filters逡逑(过滤模块)、load-balancers邋(负载均衡模块)[14]。逡逑如图2-2所示,Nginx服务器通过自身的配置模块和核心模块读取和处理前逡逑端浏览器的HTTP请求

网络爬虫,容器,工作流程,队列


逑的处理有效地提取指定的数据,完成相应的网络数据采集任务。网络爬虫的基本逡逑工作流程如图2-3所示:首先选取一部分精心挑选的种子URL,将这些URL放逡逑入待抓取URL队列,从待抓取URL队列中取出待抓取URL,解析DNS并且得逡逑到主机的IP,并将URL对应的网页下载下来,存储进己下载网页库中,将这些逡逑URL放进己抓取URL队列,分析己抓取URL队列中的URL,分析其中的其他逡逑URL,并且将URL放入待抓取URL队列,从而进入下一个循环Ml逡逑(逦刑台逦)逡逑逦]邋[逦逡逑初始URL逡逑逦?逡逑逦^邋[逦逡逑获取网页逡逑N邋逦1逦逡逑逦^邋[逦逡逑提取新的URL逡逑放入URL队列逡逑Y逡逑逦I逦逡逑(逦结束逦)逡逑图2-3网络爬虫工作流程逡逑2.3.2邋Docker邋容器逡逑Docker项目基于Golang语言开发,代码托管在GitHub上,现在己经支持逡逑Windows、MacOS和Linux等操作系统平台[19J。Dockei?是一个开源的应用容器逡逑引擎,让开发者可以打包他们的应用以及依赖包到一个轻量级的、可移植的容器逡逑中,并且容器是完全使用沙箱机制,是独立运行的,相互之间不会有任何接口[2G]。逡逑Docker作为一个独立的服务单元

【相似文献】

相关期刊论文 前10条

1 尹相涛;;数据采集系统的开发与应用[J];南钢科技;2001年04期

2 李啸虎;;数据采集系统模拟量干扰信号的消除方法[J];新疆电力;2002年02期

3 白宇;;油田井下数据采集系统的相关研究[J];信息系统工程;2018年12期

4 杨萌;宿俊海;李海旺;;试验数据采集系统的信号实时性分析[J];仪器仪表用户;2019年03期

5 丁朝;;嵌入式技术在数据采集系统中的应用[J];中国新通信;2018年14期

6 莫章洁;;基于ZigBee与GPRS的农业数据采集系统设计[J];贵州师范学院学报;2016年09期

7 梁文翰;;基于单片机的电力机车数据采集系统的设计[J];现代工业经济和信息化;2016年24期

8 程佩;房海华;黄蓝;;基于FPGA+DSP的数据采集系统设计与实现[J];计算机测量与控制;2016年11期

9 张玉;姚凯学;;基于ZigBee的人体健康数据采集系统的设计[J];物联网技术;2016年12期

10 鲁楠;唐岚;廖若冰;朱加豪;;用于铁路基础设施监测的振动传感器数据采集系统设计[J];中国新技术新产品;2017年04期

相关会议论文 前10条

1 俞林斌;黄慕雄;桂将林;汪月林;杨永耀;;分布式前置数据采集系统在大型SCADA系统的应用[A];第十一届中国智能交通年会大会论文集[C];2016年

2 刘璐;肖灵;刘光辉;;基于水下滑翔机的数据采集系统设计[A];2016年全国声学学术会议论文集[C];2016年

3 任婷婷;竺文彬;陈曦;;船舶制造企业分布式能源数据采集系统[A];2014年MIS/S&A学术交流会议论文集[C];2014年

4 闫浩;钱伟康;刘少鹏;应怀樵;杜峰;;一种可调时钟芯片在数据采集系统中的应用[A];第九届全国信号和智能信息处理与应用学术会议专刊[C];2015年

5 刘力强;马瑾;雷兴林;;多通道、高速声发射数据采集系统[A];第四届全国构造物理、第二届全国高温高压联合学术讨论会论文摘要[C];1989年

6 严宗睿;陆勤夫;陈勇;;基于智能设备的海军演习数据采集系统[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年

7 武东升;郭达永;;卷接包车间数据采集系统现状发展方向和应用的研究[A];河南省烟草学会2008年学术交流获奖论文集(上)[C];2008年

8 张文栋;董海峰;;微型爆破缓冲抗高过载数据采集系统设计[A];新世纪 新机遇 新挑战——知识创新和高新技术产业发展(上册)[C];2001年

9 周兆运;詹永卫;许建华;;高速采集和深度存储的数据采集系统设计与实现[A];2009全国虚拟仪器大会论文集(二)[C];2009年

10 袁晴晴;周皓峰;陈宇达;施伯乐;;一个基于系统重建思想的数据采集系统的设计与实现[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

相关重要报纸文章 前10条

1 记者 张雪锋;加快大数据采集系统和处理中心建设 把智慧城市建设作为精品城市重要内容[N];三亚日报;2017年

2 刘臻;中铝股份兰州分公司自主开发炭素成型工艺数据采集系统[N];中国有色金属报;2017年

3 中国人民大学 陈文忻 复旦大学 申曦霖;智能指挥 决胜千里[N];中国青年报;2017年

4 鲁总;山东总队启用农价手持数据采集系统[N];中国信息报;2012年

5 记者 陈青 何晓龙;西仪总厂井间地震装备研制取得突破 井下多级数据采集系统使用效果显著[N];中国石油报;2002年

6 记者 郑欣;福建移动 水文数据采集系统服务防旱[N];人民邮电;2009年

7 北京 蔡德聪 孙宇瑞;国外流行的一种微功耗数据采集系统[N];电子报;2001年

8 王志田邋通讯员 唐皖君;数据采集系统在大庆采八全面启用[N];中国石油报;2007年

9 北京 蔡德聪 孙宇瑞;BS2系列微功耗数据采集系统[N];电子报;2001年

10 ;iPAQ条码数据采集系统[N];计算机世界;2002年

相关博士学位论文 前10条

1 向冬;基于CC的工业数据采集系统开发方法研究[D];西北工业大学;2006年

2 文斐;激光雷达数据采集系统框架研究[D];中国科学技术大学;2013年

3 刘列峰;一种可扩展的大规模地球物理勘探数据采集系统研究[D];中国科学技术大学;2014年

4 田楷云;地球物理勘探设备中数据采集部分若干关键技术研究[D];中国科学技术大学;2015年

5 田景文;地下油藏的仿真与预测[D];哈尔滨工程大学;2001年

6 张云鹏;激光雷达控制与数据采集系统的设计与实现[D];武汉大学;2014年

7 唐学峰;石英晶体谐振器的响应分析及其在粘弹性薄膜中的应用研究[D];中国科学技术大学;2015年

8 王凤琴;盒形件拉深智能化控制关键技术的研究[D];燕山大学;2003年

9 胡坤;基于MCP的光子计数成像数据采集系统的研究[D];中国科学技术大学;2015年

10 王永志;大型动力离心机设计理论与关键技术研究[D];中国地震局工程力学研究所;2013年

相关硕士学位论文 前10条

1 彭帆;云数据采集系统中管理子系统的设计与实现[D];北京邮电大学;2019年

2 徐智轩;一种16位200Msps的ADC数据采集系统设计[D];中国科学技术大学;2019年

3 张磊;基于射频组网的农业数据采集系统[D];安徽大学;2019年

4 李晓颖;基于优化EtherCAT协议的多设备数据采集系统的FPGA设计与实现[D];天津工业大学;2019年

5 李天琦;基于业务插件化的电商大数据采集系统[D];浙江工业大学;2019年

6 马玲;基于FPGA的油库发油台数据采集系统设计[D];西北师范大学;2018年

7 陈浪;基于LoRa的供电桩数据采集系统的设计[D];浙江工业大学;2017年

8 姜健;基于嵌入式平台的数据采集系统动态电源管理研究[D];哈尔滨工业大学;2018年

9 梁成成;基于嵌入式双ARM架构的便携式数据采集系统设计[D];东北大学;2015年

10 刘丁;轻型车燃油经济性数据采集系统研究[D];河北工业大学;2017年



本文编号:2801132

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/yunyingzuzhiguanlilunwen/2801132.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户86c21***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com