基于云计算的流数据集成与服务
【图文】:
据处理引擎以及传统数据库,对外提供基于结构化查询语言的声明式查询接口和共用的API.MaxStream的实现原理如图3所示,在客户端和关系数据库、流处理引擎之间增加了联邦层,联邦层对流数据连续查询请求进行解析、查询结果进行转换,数据代理则负责所有控制消息的交换以及数据的转发.MaxStream可适用于跨组织和地域的分布式计算环境中,但在云计算环境下,如何针对动态变化的负载,对跨流处理引擎和传统数据库的连续查询进行功能及非功能属性方面的优化,还有待进一步的研究.图3MaxStream:流处理引擎与传统数据库的集成[23]3.2基于云计算的流数据查询操作流数据查询操作是实现定制化服务的基础,其相关工作可以分为两个方面.一方面是单个查询操作的实现及优化,例如连接查询、聚集查询等操作的实现及优化;另一方面是互相连接的多个流数据操作算子的执行及优化.针对包含多个流数据操作算子的优化方法,文献[24]进行了总结,如算子重新排序、算子去重等优化方法,本文不进行赘述.与传统数据库一样,流数据的基本查询操作也可分为选择、投影、连接(join)和聚集(aggregation)等操作.其中,选择和投影操作相对简单,而连接操作和聚集操作是两种较复杂、耗时的查询操作.在传统数据库研112计算机学报2017年
ing[50]、SEEP[59]、ChronoStream[60]、Samza⑤以及TimeStream[61]等都建立在可动态管理和扩展节点的云基础设施之上.算子放置技术与数据并行化处理技术是保障基于云计算的流数据服务可伸缩性的关键技术,其中,数据并行化被认为是基于云计算的流数据处理系统的主要特征[13].下面结合学术界及工业界的实际系统及研究对其进行分析.流数据处理DAG中的逻辑算子可能根据其资源的需求情况部署在多个节点上,图5是一个云计算环境下处理任务(算子)的部署示意图,其中一个虚拟节点上可注册多个资源容器,一个逻辑算子可部署到多个资源容器中.图中虚线框中的逻辑算子v6部署在多个虚拟机节点n1和n2中.针对由多个处理任务(算子)组成的流数据处理网络,在云计算环境下,随着计算节点的增加,主要通过在多个节点上平衡算子的分布来提供伸缩性,其关键问题是如何进行算子的放置(或布局),以及如何在不同的节点上进行负载均衡.这就是“算子放置(operatorplacement)”问题.算子放置问题是指将处理任务的一系列算子布局在一系列的节点上执行,并在满足一定约束条件的情况下达到优化目标.图5云计算环境中算子的部署[60]Lakshmanan等人[62]将现有的算子放置算法从体系结构、算法结构、优化目标、算子层次上的操作、动态重配置等5个维度进行了分析和比较.在体系结构上,分为主从式、分散式以及二者混合等情况,,当前,大多数云环境下的流数据处理系统或中间件116计算机学报201
【相似文献】
相关期刊论文 前10条
1 金澈清,钱卫宁,周傲英;流数据分析与管理综述[J];软件学报;2004年08期
2 聂国梁;卢正鼎;;流数据实时近似求和的算法研究[J];小型微型计算机系统;2005年10期
3 李卫民;于守健;骆轶姝;乐嘉锦;;流数据管理的降载技术:研究进展[J];计算机科学;2007年06期
4 李子杰;郑诚;;流数据和传统数据存储及管理方法比较研究[J];计算机技术与发展;2009年04期
5 潘静;于宏伟;;流数据管理降载技术研究综述[J];中国管理信息化;2009年21期
6 邹永贵;龚海平;夏英;宋强;;一种面向流数据频繁项挖掘的降载策略[J];计算机应用研究;2011年04期
7 聂国梁;卢正鼎;聂国栋;;流数据近似统计算法研究[J];计算机科学;2005年04期
8 魏晶晶;金培权;龚育昌;岳丽华;;基于流数据的大对象数据缓冲机制[J];计算机工程;2006年11期
9 杨立;;基于权重的流数据频繁项挖掘算法的应用[J];微型机与应用;2011年02期
10 尹为;张成虎;杨彬;;基于流数据频繁项挖掘的可疑金融交易识别研究[J];西安交通大学学报(社会科学版);2011年05期
相关会议论文 前3条
1 刘正涛;毛宇光;吴庄;;一种新的流数据模型及其扩展[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 姚春芬;陈红;;分布偏斜的流数据上的一种直方图维护算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 孙焕良;赵法信;鲍玉斌;于戈;王大玲;;CD-Stream——一种基于空间划分的流数据密度聚类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
相关博士学位论文 前6条
1 丁智国;流数据在线异常检测方法研究[D];上海大学;2015年
2 聂国梁;流数据统计算法研究[D];华中科技大学;2006年
3 刘建伟;流数据查询系统结构及模式查询算法的研究[D];东华大学;2005年
4 李卫民;流数据查询算法若干关键技术研究[D];东华大学;2008年
5 屠莉;流数据的频繁项挖掘及聚类的关键技术研究[D];南京航空航天大学;2009年
6 陈筠翰;车载网络的若干关键技术研究[D];吉林大学;2014年
相关硕士学位论文 前10条
1 孔祥佳;基于海洋平台监测的流数据管理研究[D];大连理工大学;2015年
2 王晨阳;支持位置谓词的XML流数据查询技术[D];北京工业大学;2015年
3 王中义;基于动态支持度的流数据关联规则挖掘[D];哈尔滨工业大学;2014年
4 赵丹;面向流数据的不平衡样本分类研究[D];哈尔滨工业大学;2014年
5 冯学智;基于宏森林自动机的XML流数据查询技术[D];北京工业大学;2015年
6 徐雳雳;物流数据中的云聚类调度算法研究[D];南京邮电大学;2015年
7 肖丙贤;大规模流数据聚集查询服务的生成与优化[D];北方工业大学;2016年
8 刘晓斐;分布式流处理系统操作共享优化算法研究[D];吉林大学;2016年
9 张媛;基于弹性分布式数据集的流数据聚类分析[D];华东师范大学;2016年
10 王曾亦;基于内存计算的流数据处理在飞行大数据的研究与应用[D];电子科技大学;2016年
本文编号:2577164
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2577164.html