基于Storm的实时大数据分析系统的研究与实现
本文选题:Storm + 实时计算 ; 参考:《上海交通大学》2015年硕士论文
【摘要】:以Storm、Spark等为代表的实时计算技术是目前大数据处理领域的一个研究热点。本文以实验室承担的某省交通物流云计算平台建设项目为背景,该平台包括基于批处理的大数据分析服务和基于流式计算系统Storm所构建的实时数据处理服务。然而,Storm在实际应用中仍然存在一些问题:例如,默认调度器所采用的轮询分配策略将导致工作节点间出现负载不均衡;同时默认调度器单一的调度策略不能满足灵活多变的业务需求;而Nimbus控制节点存在的单点失效问题,容易导致Storm集群中出现任务提交、分配的失败。针对上述问题,本文通过分析交通物流云计算平台中实时数据处理的需求,在研究流式计算系统Storm和相关技术的基础上,设计并实现了一个基于Storm的大数据实时分析系统。该系统为物流企业的Saa S应用提供实时的数据分析处理服务,并解决了Storm中默认调度器工作节点任务分配不均匀、调度策略单一和Nimbus控制节点单点失效的问题。测试及应用的情况表明,该系统是可行且有效的。与同类型的系统相比,本文工作具有以下特点:1)为了提高系统的性能,针对Storm中默认调度器工作节点任务分配不均匀、调度策略单一等问题,提出了基于节点资源监控的RBS(Resource Based Schedule)任务调度算法和支持单节点的SNS(Single Node Schedule)任务调度算法。并在RBS算法和SNS算法的基础上,设计并实现了相应的Topology任务调度器。实验情况表明,基于RBS算法的任务调度器可根据工作节点资源的使用情况,将工作进程调度到资源利用率较低的节点上;而基于SNS算法的调度器可将一些只执行简单运算并且没有太多中间状态的Topology的多个工作进程调度到一个单一的物理节点上运行。2)为了提高系统的可用性,针对Storm中控制节点的单点失效问题提出了解决方案。该方案通过Zookeeper协调服务实现主控制节点选举和主从控制节点之间的状态同步。实验表明,由三个节点组成的控制节点集群,当主控制节点宕机时,某个从控制节点能够顺利选为主节点,保证Topology任务可不中断地运行。3)在上述工作的基础上,设计并实现了一个基于Storm的实时大数据分析系统,为物流企业的Saas应用提供实时的大数据分析服务。该系统包括流计算应用开发环境和流计算应用运行环境。流计算应用运行环境包括:基于Storm的流计算应用任务运行环境,包括:输入流组件、基于Ganglia监控服务的Topology任务调度器、基于Zookeeper协调服务的控制节点集群协调器、持久化输出组件;流计算应用的数据输入/输出服务运行环境,包括:数据采集与预处理器、Kafka中间件、No SQL数据库;应用开发环境包括集成开发工具、测试工具和部署工具:集成开发工具以Eclipse为基础,为应用开发人员提供数据采集与预处理器API库、输入流组件API库、持久化输出组件API库等;测试工具在封装单机版storm基础上,为流计算应用提供模拟运行环境。
[Abstract]:The real-time computing technology represented by Storm, Spark and so on is a research hotspot in the field of large data processing. This paper is based on the construction project of a provincial traffic logistics cloud computing platform, which includes batch processing based large data analysis service and real-time data processing based on flow computing system Storm. However, there are still some problems in the practical application of Storm: for example, the polling allocation strategy used by the default scheduler will lead to a load imbalance between the work nodes; at the same time, the default scheduler single scheduling strategy can not meet the flexible business needs; and the single point failure problem existing in the Nimbus control node is easy. In view of the problems mentioned above, this paper designs and implements a real-time analysis system of large data based on Storm based on the analysis of the demand of real-time data processing in the traffic logistics cloud computing platform, based on the analysis of the requirements of the real-time data processing in the traffic logistics cloud computing platform. This system is a logistics enterprise for the logistics enterprise. The system is based on the Storm based real-time analysis system for the logistics enterprises. The Saa S application provides real-time data analysis and processing services, and solves the problem of uneven assignment of task nodes in the default scheduler, single scheduling strategy and single point failure of Nimbus control nodes in Storm. The test and application show that the system is feasible and effective. Compared with the same type system, the work has a good performance. Characteristics: 1) in order to improve the performance of the system, the task scheduling algorithm based on RBS (Resource Based Schedule) based on node resource monitoring and SNS (Single Node Schedule) task scheduling algorithm based on node resource monitoring is proposed in order to improve the performance of the default scheduler work node in Storm, and the SNS (Single Node Schedule) task scheduling algorithm supporting single node is proposed. And RBS algorithm and SNS. On the basis of the algorithm, the corresponding Topology task scheduler is designed and implemented. The experiment shows that the task scheduler based on the RBS algorithm can schedule the working process to a node with lower resource utilization according to the usage of the working node resources; and the SNS algorithm based regulator can only perform simple operations and do not. In order to improve the availability of the Topology, a solution to the single point failure of the control nodes in Storm is proposed in order to improve the availability of the system. This scheme implements the state of the main control node election and the state of the master slave nodes through the Zookeeper coordination service. The experiment shows that the control node cluster consists of three nodes. When the main control node is down, one of the nodes can choose the main node from the control node and the Topology task can run.3 without interruption. On the basis of the above work, a real-time large data analysis system based on Storm is designed and implemented, which is the Saa of the logistics enterprise. The s application provides real-time large data analysis services. The system includes the flow computing application development environment and the flow computing application running environment. The flow computing application running environment includes the Storm based flow computing application task running environment, including the input stream components, the Topology task scheduler based on the Ganglia monitoring service, and the Zookeeper coordination suit. Control node cluster coordinator, persistent output component; data input / output service running environment for flow computing applications, including data acquisition and preprocessor, Kafka middleware, No SQL database; application development environment including integrated development tools, test tools and department tools: integrated development tools are based on Eclipse and are applied to applications The server provides a data collection and preprocessor API library, an input stream component API library, a persistent output component API library, etc. the test tool provides an analog running environment for streaming computing applications on the basis of a package single version of storm.
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.52
【相似文献】
相关期刊论文 前10条
1 李磊;;黑龙江邮政数据分析系统研究[J];林业科技情报;2011年04期
2 陈起榕;陈新亮;曹世彪;;一种新的数据分析系统前端展示方案[J];邮电设计技术;2012年10期
3 孟庆超;李永亮;;智能数据分析系统研究[J];现代商贸工业;2008年11期
4 郭静;;钢铁企业能源数据分析系统的构建[J];昆明理工大学学报(理工版);2009年05期
5 哈文雷;;基于云计算的油田数据分析系统[J];中国新技术新产品;2013年17期
6 黄丽丽;陈华辉;;博客数据分析系统的设计与实现[J];宁波大学学报(理工版);2008年03期
7 田月洁;焦波;谢金洲;;中药不良反应数据分析系统的设计与应用[J];中国药物警戒;2007年04期
8 毛兰斌;;基于机电结构检测的可靠性数据分析系统设计[J];中国高新技术企业;2008年08期
9 毛羽芳;王锐明;;天津市工商行政管理局数据分析系统的建设[J];信息系统工程;2010年07期
10 章璐;;人民币跨境结算业务数据分析系统的设计与实现[J];中国金融电脑;2013年01期
相关会议论文 前7条
1 顾红生;;浅谈汽车行业竞品数据分析系统解决方案[A];第八届中国汽车设计与研发高峰论坛论文集[C];2013年
2 辛建峰;辛阳;;数据分析系统中的自定义量度方案设计实现[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
3 尚屹;朱琦;;国家持久性有机污染物数据分析系统研究[A];2008中国环境科学学会学术年会优秀论文集(下卷)[C];2008年
4 郑慧娟;周嘉元;李斌;;水电站生产数据分析系统及其现场应用[A];中国水力发电工程学会信息化专委会2010年学术交流会论文集[C];2010年
5 张永忠;赵静;;基于事件检测算法的交通数据分析系统[A];2008全国第十三届自动化应用技术学术交流会论文集[C];2008年
6 王治国;王薇;訾凯;任鹏;;临床检验方法确认与性能验证数据分析系统(MVS)的开发与应用[A];中华医学会第九次全国检验医学学术会议暨中国医院协会临床检验管理专业委员会第六届全国临床检验实验室管理学术会议论文汇编[C];2011年
7 董刚;孙建林;谭耘宇;;建立梅钢热轧数据分析系统[A];自动化技术与冶金流程节能减排——全国冶金自动化信息网2008年会论文集[C];2008年
相关重要报纸文章 前8条
1 记者 刘慧敏;开发区一企业研发成功“消费行为数据分析系统”[N];宁波日报;2009年
2 别志铭;基于云的大数据分析系统[N];网络世界;2013年
3 袁毅;苏州:数据分析系统精准问诊城市交通[N];人民公安报·交通安全周刊;2011年
4 绍兴职业技术学院 沈华峰 宁波大学信息科学与工程学院 朱双东;基于可缩放矢量图形数据分析系统的设计与实现[N];中国计算机报;2010年
5 记者 董科;转型客户服务 打造全新竞争力[N];期货日报;2010年
6 江苏省淮安市涟水地税局 周跃 黄吕胜 童政;应完善税收数据分析系统提升使用效能[N];中国税务报;2013年
7 陶利军;路桥当好企业经济分析师[N];中国工商报;2007年
8 本报记者 巩国强;汛潮的“卖点”[N];山西经济日报;2004年
相关硕士学位论文 前10条
1 夷臻;学生事务数据分析系统的设计与实现[D];苏州大学;2015年
2 李永秋;智能化体检数据分析系统设计与实现[D];山东大学;2014年
3 翟羽佳;莱芜供电公司经营数据分析系统的设计与实现[D];山东大学;2015年
4 张磊磊;高考录取数据分析系统前端界面模块的设计与实现[D];山东大学;2015年
5 韩继军;金卡科技公司业务数据分析系统设计与实现[D];大连理工大学;2015年
6 张志祥;某数据分析系统的设计与实现[D];北京邮电大学;2015年
7 龙少杭;基于Storm的实时大数据分析系统的研究与实现[D];上海交通大学;2015年
8 冯伟;基于云计算的海量数据分析系统的研究与实现[D];上海交通大学;2012年
9 王浩;内蒙联通公司基础数字数据分析系统的设计与开发[D];复旦大学;2011年
10 周晓敏;钢铁企业化验报告数据分析系统[D];电子科技大学;2011年
,本文编号:2062087
本文链接:https://www.wllwen.com/guanlilunwen/wuliuguanlilunwen/2062087.html