当前位置:主页 > 经济论文 > 电子商务论文 >

分布式流处理系统操作共享优化算法研究

发布时间:2018-04-08 07:12

  本文选题:流数据 切入点:分布式流处理 出处:《吉林大学》2016年硕士论文


【摘要】:随着社交网络、物联网和无线通信网的出现以及快速发展,流数据成为一种重要的大数据类型,在股票交易、电子商务、社交网络和监控等领域应用广泛。流数据相较于普通的大数据,具有持续性、动态性和实时性的特点,对流处理提出新的要求:(1)数据持续到达需要在线处理。流处理作业长时间运行,采用One Pass处理模式,无法留存数据,仅保存中间结果;(2)数据在线变化要求作业拓扑结构动态调整;(3)需要实时或近实时的处理。现有相关工作针对流处理的系统结构和相关技术开展了大量研究,形成分布式流处理技术,实现了大规模流的高速处理。但对分布式流处理系统资源分配问题的研究存在不足,未能充分利用流处理作业间操作可共享的特点,导致数据处理冗余,形成资源浪费。流作业是典型的工作流模式,由多个数据处理操作组成。多个流作业间的基本数据处理操作有重叠,例如filter,join等。因此多个作业间存在操作共享的可能。目前,针对操作共享的相关研究主要从作业拓扑结构角度考虑共享的可能性,建立操作共享方案。对共享操作资源分配问题的研究并不充分,主要体现在:(1)缺乏系统模型,描述流处理作业操作共享过程中的资源约束变化;(2)对流处理作业操作共享后的输出带宽资源分配问题研究不足;(3)流数据动态变化导致作业拓扑结构变化,需要进一步研究资源分配方案快速调整问题。本文提出支持分布式流处理的操作共享优化算法,主要工作如下:(1)建立流处理作业操作共享模型。支持不同作业之间相同操作的逻辑共享,满足不同的资源约束条件,包括计算资源和物理网络带宽资源。(2)研究多资源约束下的资源分配问题。利用作业操作间的相似性,提出共享判定算法,找到逻辑上可共享的操作。将资源分配过程抽象成一个装箱问题,考虑操作共享后的资源使用情况,与不共享的情形相比,共享操作占有的计算资源合并,输出带宽累加。根据资源分配算法,在最小数目的计算节点上完成所有操作的共享任务,保证正常的数据传输。(3)研究快速资源映射调整问题。新作业的动态加入导致整体拓扑结构改变,共享操作的资源需求在线变化,根据当前的资源配置对共享的操作进行筛选,选择共享受益最大的操作,使用较少的调整消耗,快速地满足新的资源需求,保证流处理实时性和动态性。(4)建立模拟实验平台。验证作业操作共享能够有效节省计算资源,并且满足不同系统资源对共享操作数目的约束;验证操作共享算法的有效性,快速调整算法优于资源重新分配算法。
[Abstract]:With social networking, networking and wireless communication networks and the rapid development of data stream is becoming a important data type, the electronic commerce in the stock exchange, and social networking applications and monitoring areas widely. Compared to the common data stream data, with a persistent, dynamic and real-time. The convection process put forward new requirements: (1) continuous arrival of data need to be handled online. Flow operations for a long time operation, using One Pass model, can not only save the data retention, intermediate results; (2) online data changes require dynamic topology adjustment operations; (3) require real-time or near real-time processing system. The structure and related technology of existing related work aiming at cluster processing carried out extensive research, the formation of distributed stream processing technology, to achieve high-speed processing flow. But for large-scale distributed stream processing system of resource allocation problems. The problems, make full use of stream processing operations between operating characteristics can be shared to lead to redundant data processing, the formation of a waste of resources. The flow assignment is typical workflow model, composed of a plurality of data processing operations. A basic data flow between activity processing operations overlap, such as filter, join and so on. So many there may be sharing operation. At present, the related research on operation sharing mainly consider the possibility of shared operation from the perspective of topological structure, establish the operation scheme. To study the operating resource allocation problem sharing is not sufficient, mainly reflected in: (1) the lack of system model, describes the stream processing operations change shared resource constraints in the process of research; (2) processing operations after sharing the distribution output bandwidth of convection is insufficient; (3) data flow dynamic changes leading to topology changes, the need for further The rapid adjustment of resource allocation problems. This paper supports distributed stream processing sharing optimization algorithm, the main work is as follows: (1) the establishment of stream processing operations. Support sharing model between different operations of the same operation logic sharing, meet different resource constraints, including computing resources and physical network bandwidth (2. Study) resource allocation problem under multiple resource constraints. The similarity between the proposed operation, sharing decision algorithm, find a logical sharing operation. Resource allocation process is abstracted into a packing problem, considering the sharing of resource usage, compared with no sharing, sharing operation of possession the computing resources combined, cumulative output bandwidth. According to the resource allocation algorithm to complete all operations of the shared task in the calculation of the minimum number of nodes, ensure the normal data transmission. (3). The rapid adjustment of dynamic resource mapping. The new operation leads to change the overall topology, sharing resource demand changes according to the online operation, the current resource allocation of the shared operation screen, choose to share the biggest benefit of the operation, use less adjustment of consumption, to meet the new demand for resources, ensure the real-time stream processing anddynamics. (4) the establishment of the simulation platform. Verify operation sharing can effectively save computing resources, and to satisfy the constraints of different system resources sharing operation number; validation operation sharing algorithm, fast adjustment algorithm is better than the resource re allocation algorithm.

【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP301.6

【相似文献】

相关期刊论文 前10条

1 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期

2 聂国梁;卢正鼎;;流数据实时近似求和的算法研究[J];小型微型计算机系统;2005年10期

3 李卫民;于守健;骆轶姝;乐嘉锦;;流数据管理的降载技术:研究进展[J];计算机科学;2007年06期

4 李子杰;郑诚;;流数据和传统数据存储及管理方法比较研究[J];计算机技术与发展;2009年04期

5 潘静;于宏伟;;流数据管理降载技术研究综述[J];中国管理信息化;2009年21期

6 邹永贵;龚海平;夏英;宋强;;一种面向流数据频繁项挖掘的降载策略[J];计算机应用研究;2011年04期

7 聂国梁;卢正鼎;聂国栋;;流数据近似统计算法研究[J];计算机科学;2005年04期

8 魏晶晶;金培权;龚育昌;岳丽华;;基于流数据的大对象数据缓冲机制[J];计算机工程;2006年11期

9 杨立;;基于权重的流数据频繁项挖掘算法的应用[J];微型机与应用;2011年02期

10 尹为;张成虎;杨彬;;基于流数据频繁项挖掘的可疑金融交易识别研究[J];西安交通大学学报(社会科学版);2011年05期

相关会议论文 前3条

1 刘正涛;毛宇光;吴庄;;一种新的流数据模型及其扩展[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

2 姚春芬;陈红;;分布偏斜的流数据上的一种直方图维护算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

3 孙焕良;赵法信;鲍玉斌;于戈;王大玲;;CD-Stream——一种基于空间划分的流数据密度聚类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

相关博士学位论文 前6条

1 聂国梁;流数据统计算法研究[D];华中科技大学;2006年

2 刘建伟;流数据查询系统结构及模式查询算法的研究[D];东华大学;2005年

3 丁智国;流数据在线异常检测方法研究[D];上海大学;2015年

4 李卫民;流数据查询算法若干关键技术研究[D];东华大学;2008年

5 屠莉;流数据的频繁项挖掘及聚类的关键技术研究[D];南京航空航天大学;2009年

6 陈筠翰;车载网络的若干关键技术研究[D];吉林大学;2014年

相关硕士学位论文 前10条

1 肖丙贤;大规模流数据聚集查询服务的生成与优化[D];北方工业大学;2016年

2 刘晓斐;分布式流处理系统操作共享优化算法研究[D];吉林大学;2016年

3 张媛;基于弹性分布式数据集的流数据聚类分析[D];华东师范大学;2016年

4 孔祥佳;基于海洋平台监测的流数据管理研究[D];大连理工大学;2015年

5 张金川;基于反馈机制的流数据查询[D];兰州大学;2007年

6 辛波;基于InfoSphere Streams的流数据分析及应用[D];武汉理工大学;2014年

7 李聪;支持大规模流数据在线处理动态数据分区算法研究[D];吉林大学;2015年

8 梁然;流数据处理在金融数据库中的应用[D];浙江大学;2010年

9 张婧媛;流数据上的可置换聚类研究[D];大连理工大学;2011年

10 顾伟;分布式流数据实时计算框架的研究和开发[D];浙江理工大学;2013年



本文编号:1720534

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/1720534.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0d42b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com