分布式数据流系统中负载均衡技术研究
发布时间:2017-12-22 13:21
本文关键词:分布式数据流系统中负载均衡技术研究 出处:《华东师范大学》2017年博士论文 论文类型:学位论文
更多相关文章: 分布式数据流处理 负载均衡 矩阵模型 非等值连接 容错机制
【摘要】:随着人们对大数据潜在价值的重视,数据分析的实时性在实际应用中发挥着越来越重要的作用。实时流式大数据的典型代表如3G/4G通信流数据、网络监控数据、传感器数据等。Twitter的推文产生速度为10万条/分钟;上海电信客户数据到达速度200万条/分钟;目前国内最大的太阳光学望远镜在色球通道下能够达到1GB/分钟的高速采集速率;浙江省台州市部署城道重点车辆动态监管系统采集机动车号牌与行车轨迹的速率可达2.4亿条/秒。这类数据通常具有持续性、无序性、数据分布可变性、数据规模不可预知性等特征,它们同时存在一定的生命周期,其数据价值随着时间的推移逐渐变低。传统数据库技术不能满足此类动态大规模数据存储和及时服务反馈的需求,从而产生了分布式数据流处理引擎(DSPE,Distributed Stream Processing Engine)。流式计算通常架构于大规模集群或者云平台之上,计算任务以拓扑的形式部署到分布式节点,进行连续多阶段地处理,即每一阶段的输出可能会成为下一阶段的输入。现有研究工作大多关注如何从系统架构层出发进行优化处理进而提高计算效率,达到实时处理的目的,其中包括数据分布式文件存储、分布式拓扑定义以及内存数据库技术探索等。尽管一些研究内容已融入实时处理系统且已投入商业应用,但是当前的分布式流数据处理平台还存在以下三个方面难题:1)任务的高吞吐、低延时自适应保障算法匮乏。数据倾斜(Data Skew)是现实应用中普遍存在的现象,且数据分布变化具有突发性。诸如通信数据忙闲时、特殊事件发生及电商促销等均在数据量及数据分布上表现出了动态性。在这种情况下,如何保障系统吞吐量和处理延时的稳定性是一个难题;2)敏捷的系统扩展能力不够。企业需要从数据约减(Scale-down)、硬件升级(Scale-up)、以及系统规模扩大(Scale-out)三个方面来应对数据规模持续增长的问题。然而,由于硬件发展的速度已经远远落后于数据规模的增长速度,所以实现系统的非阻塞式敏捷横向扩展是保证实时处理系统可用性的关键技术之一;3)可用性保障策略是分布式实时处理系统的难题。现实应用中的系统故障往往体现在集群中部分节点的失效,例如Google公司2000台机器的集群,故障机器每天超过10台;Synergy分布式流式计算系统的业务运行统计显示,机器故障率超过15%;IBM的数据流处理系统S在一个月内发生了 69次重大节点故障。集群中运算节点的失效导致了运算的不完整性,而实时处理要求高效恢复,这也是数据流系统面临的难点之一。与批量的静态数据处理相比,数据流处理系统面对实时且未知的数据需具备弹性的处理架构、低延时的处理性能及高效的容错方案。正如2014年图灵奖获得者Michael Stonebraker所言,实时数据流处理系统应该具备快速处理到达数据、低延时地输出处理结果、计算以并行且可扩容的方式进行、计算资源自适应于应用的需求、保证数据安全及可用性等。因此,本文通过研究分布式并行数据流处理系统中制约处理性能的负载倾斜问题、数据并行节点处理架构对数据连接操作的影响及保证数据流处理高可用的容错机制缺陷,旨在通过充分利用集群中的各种硬件资源来构建一个高性能且高可靠性的分布式并行数据流处理系统。论文主要贡献概括如下:1.分析数据倾斜在分布式并行数据流处理系统中的性能影响,提出分布式并行数据流处理系统中基于key操作的均衡调整方案。数据流的拓扑结构往往以key为粒度路由分发数据至下游处理节点。对于基于key的操作,以key为单位粒度的均衡调整能够最大限度地保持基于key操作的语义,但调整单位粒度大,通常均衡性不够好。同时将节点的负载调整至均衡负载阈值是一维装箱的NP-Hard问题。本文在兼顾CPU、内存及网络资源开销的前提下,提出了一种轻量级的均衡调整方案。另外,为了应对倾斜度较高的负载分布,本文进一步提出基于key的按需拆分、尽量合并的方法,使系统既能达到负载均衡,又能减少细粒度均衡所带来的额外代价。2.通过组织并行处理单元的架构,有效地降低分布式并行数据流处理系统中连接操作的代价。连接操作要求系统根据连接谓词的操作语义将数据按照一定的规则聚集在一起。然而,按照传统基于key划分的路由方案势必会带来大量的广播元组操作,在非等值连接操作中表现尤为突出,使得分布式并行数据流处理系统对网络及内存需求巨大。本文采用连接矩阵模型,通过快速制定最优矩阵架构及迁移计划,从而减少由数据动态性带来的系统资源开销。此外,本文继续探索了不规则矩阵的生成方法,在保证处理结果正确性的前提下,进一步降低系统资源代价。3.探讨了在保证数据恢复时效性的前提下,节省系统资源开销的分布式并行数据流处理系统容错策略。系统的容错机制是系统连续正常运行的基本保障。容错主要通过备份的途径实现,不同的应用对容错的恢复延时要求不同,难点在于如何处理容错的精确性与恢复延时的反比关系。本文融合了均衡与容错两个方面,使系统既能保持高性能的均衡状态,又能够具备低延时恢复特性。综上所述,本文对分布式并行数据流处理系统中负载均衡的分析,分别从基于key操作的均衡策略、在负载均衡的矩阵模型下的连接操作与系统容错的角度,探讨出保证实时处理系统高性能的方案:通过对已有研究成果的调查分析,给出相关技术点的理论支撑;通过在标准测试集和真实数据集上大量的实验及相关技术的对比测试,全面地验证了提出方法的正确性和有效性。
【学位授予单位】:华东师范大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP311.13
,
本文编号:1319673
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1319673.html