分布式流连接系统负载均衡策略研究
发布时间:2021-03-04 17:40
在大数据时代,越来越多的实时应用需要对大规模实时数据流执行快速并且准确的连接运算,例如股票交易系统,在线广告分析系统等。由于数据流到达速率快,源源不断地产生,传统的连接系统并不能很好满足上述的实时系统的需求。为了满足现有实时系统高性能的需求,现有的一些相关工作提出了流连接系统。为了达到高吞吐和低延时的实时性需求,分布式流连接系统需要使用高效的流数据分发策略来并行地执行复杂的流连接运算。分布式流连接系统主要包含两个组件:分发组件和流连接组件。分发组件负责从数据源接收数据,对数据进行预处理以及将数据分发到流连接组件中的若干个流连接处理单元。流连接处理单元负责对两条流(记为R流和S流)执行流连接运算。流连接组件中所有流连接处理单元会被分为两组,分别对R流和S流元组进行存储,并对另一条流新分发到来的元组与所存储的所有元组进行比对和连接操作。其中,分发组件对数据采取不同的分发策略,那么流连接系统则会有不同的性能表现。现有系统主要使用两种分发策略:随机分发策略与哈希策略。随机分发策略将其中R流(或S流)的每一个元组随机分发到任意一个存储R流(或S流)的处理单元,而同时将S流(或R流)的所有元组广播...
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
握手模型
图 1-2 相邻核间的同步传输了解决握手模型中高延时,低时效的问题,Najafi 等人[13]则提出另外接系统——SplitJoin。该模型部署在 NUMA 结构的处理单元上。每个存,可以同时独立地进行流连接运算。该流连接系统使用轮询的方式S 流)的元组分配到某个核里 R 流(或 S 流)的存储区域进行存储,并R 流)的广播到所有核里 S 流(或 R 流)的缓冲区与另一个流进行连接操从进入流连接系统后,不再需要经过长时间核与核之间的传输,所以再需要经过长时间的核间传输的等待。相比握手模型而言,SplitJoin 提性以及降低系统延时,尤其是对处理固定窗口大小的全连接时非常有plitJoin 是基于并行架构平台的,并行流连接系统由于资源的限制,在数据时难以保证系统的可扩展性。这些设计对于哈希流连接来说并不保证节点容错性。
图 1-3 SplitJoin 系统架构性指系统对不同数据量的处理能力。对于流连接系统来说,扩展性是的特性。相比并行流连接系统而言,分布式流连接系统更具备扩展性身的广告分析业务,自主设计了一种分布式流连接处理系统——Pho以部署在分布式多节点集群中,各节点可以在不同的地区中分布。P轻易地进行扩展以应对大规模的数据集。Photon 设法通过简单地复制来解决在哈希连接中经常出现的负载不均的问题。但是,这种方式并联的元组刚好执行一次连接操作,违反了完整性的需求。
本文编号:3063622
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
握手模型
图 1-2 相邻核间的同步传输了解决握手模型中高延时,低时效的问题,Najafi 等人[13]则提出另外接系统——SplitJoin。该模型部署在 NUMA 结构的处理单元上。每个存,可以同时独立地进行流连接运算。该流连接系统使用轮询的方式S 流)的元组分配到某个核里 R 流(或 S 流)的存储区域进行存储,并R 流)的广播到所有核里 S 流(或 R 流)的缓冲区与另一个流进行连接操从进入流连接系统后,不再需要经过长时间核与核之间的传输,所以再需要经过长时间的核间传输的等待。相比握手模型而言,SplitJoin 提性以及降低系统延时,尤其是对处理固定窗口大小的全连接时非常有plitJoin 是基于并行架构平台的,并行流连接系统由于资源的限制,在数据时难以保证系统的可扩展性。这些设计对于哈希流连接来说并不保证节点容错性。
图 1-3 SplitJoin 系统架构性指系统对不同数据量的处理能力。对于流连接系统来说,扩展性是的特性。相比并行流连接系统而言,分布式流连接系统更具备扩展性身的广告分析业务,自主设计了一种分布式流连接处理系统——Pho以部署在分布式多节点集群中,各节点可以在不同的地区中分布。P轻易地进行扩展以应对大规模的数据集。Photon 设法通过简单地复制来解决在哈希连接中经常出现的负载不均的问题。但是,这种方式并联的元组刚好执行一次连接操作,违反了完整性的需求。
本文编号:3063622
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3063622.html