大数据环境下的分布式数据流处理关键技术探析
【图文】:
cribe已经实现了向不同类型的存储介质中写入数据的功能,包括文件系统(如HDFS,,位于本地磁盘或共享式的存储系统中),网络(直接发送给其他Scribe),缓存(可满足故障恢复的要求,数据优先写入主存储中,若主存储故障,则存入到备份的存储中),多存储介质(同时将数据写入不同的存储系统中,达到数据备份的目的)。从架构上分析,Scribe能在一定程度上保证数据不丢失。Scribe进程能将消息在内存中缓存一段时间,但是当ScribeAgent出现故障时,这些缓存的数据就会丢失,因此,从这方面来讲,Scribe不能严格保证数据可靠性。图1Scribe体系架构Fig.1Scribearchitecture1.2FlumeFlume最初是由Cloudera的工程师设计用于合并日志数据的系统[10],后将其开源出来,并逐渐发展成为一款开源、高可靠、高扩展、易管理、支持客户扩展的分布式数据流采集系统,主要是用于日志数据的收集和聚合。在原始的Flume版本中,一个完整的Flume系统由Agent(用于采集数据)、Master(配置及通信管理)、Collector(对数据进行聚合)构成。而重构后的新版Flume也称为FlumeNG(NextGeneration),其系统中只有Agent一种角色。图2为FlumeNG的架构,由分布在不同节点的Agent负责收集不同的应用所产生的数据,并发往汇总的Agent节点,最后存入大容量、高可靠的存储系统,如:HDFS。图2Flume架构Fig.2Flumearchitecture每一个FlumeAgent的内部都是由Source、Channel以及Sink组成。Source即为要收集数据的来源,负责产生或接收数据,并发往Channel。Channel则是负责接收来自Source的数据,并传送到Sink,负责对数据提供可靠性保证。Sink则是从Channel拉取数据,并将数据写入到后端的存储系统中,已经实现的Sink包括:HDFSSink(将数据写入到HDFS中)、HiveSink(将
[10],后将其开源出来,并逐渐发展成为一款开源、高可靠、高扩展、易管理、支持客户扩展的分布式数据流采集系统,主要是用于日志数据的收集和聚合。在原始的Flume版本中,一个完整的Flume系统由Agent(用于采集数据)、Master(配置及通信管理)、Collector(对数据进行聚合)构成。而重构后的新版Flume也称为FlumeNG(NextGeneration),其系统中只有Agent一种角色。图2为FlumeNG的架构,由分布在不同节点的Agent负责收集不同的应用所产生的数据,并发往汇总的Agent节点,最后存入大容量、高可靠的存储系统,如:HDFS。图2Flume架构Fig.2Flumearchitecture每一个FlumeAgent的内部都是由Source、Channel以及Sink组成。Source即为要收集数据的来源,负责产生或接收数据,并发往Channel。Channel则是负责接收来自Source的数据,并传送到Sink,负责对数据提供可靠性保证。Sink则是从Channel拉取数据,并将数据写入到后端的存储系统中,已经实现的Sink包括:HDFSSink(将数据写入到HDFS中)、HiveSink(将数据存入Hive中)、AvroSink(将数据以Avro的方式进行序列化,并发往后端的Avro接收端,也可以是Flume第3期陈付梅等:大数据环境下的分布式数据流处理关键技术探析621
【作者单位】: 上海海事大学信息工程学院;
【基金】:国家自然科学基金资助项目(61373028,61672338)~~
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 侯太平,顾大权,王柏春,朱红伟;远程天气会商系统中的数据流处理[J];计算机工程;2003年03期
2 陈昕,宋瀚涛;基于数据流的近似查询计算及其应用研究[J];计算机应用研究;2003年11期
3 陈昕,陈维兴,苏锦祥;基于数据流模式的聚集快速查询计算研究[J];计算机集成制造系统;2004年06期
4 张冬冬,李建中,王伟平,郭龙江;分布式复式数据流的处理[J];计算机研究与发展;2004年10期
5 王金栋;周良;张磊;丁秋林;;一类数据流连续查询的降载策略研究[J];武汉大学学报(工学版);2005年06期
6 刘景春;;数据流分类关键技术研究[J];佳木斯大学学报(自然科学版);2007年01期
7 李琳;孙士兵;;数据流聚类方法发展研究[J];长沙民政职业技术学院学报;2008年04期
8 陈军;周明天;杨晓燕;;数据流系统降载研究综述[J];计算机应用研究;2008年10期
9 傅鹂;鲁先志;蔡斌;;一种基于数据流驱动的数据流连续查询模型[J];重庆工学院学报(自然科学版);2008年10期
10 David P.Misunas ,张启瑞;数据流处理机的性能分析[J];计算机工程与应用;1980年12期
相关会议论文 前10条
1 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 楚红涛;寒枫;张燕;王婷;;基于数据流的挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
3 尹婷;李红燕;;窗口模型下数据流查询流水化执行的研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 孟军;张航黎;张建英;郭禾;;分布式数据流的渐增式聚集维护算法[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
5 韩近强;杨冬青;唐世渭;;数据流处理中一种自适应的直方图维护算法[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
6 蔡致远;熊方;钱卫宁;周傲英;;核合并分析及其在数据流密度估计上的应用[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
7 王亦兵;杨树强;王晓伟;;一个面向数据流的多维分析系统的研究与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
8 于亚新;王国仁;陈灿;苏林;朱歆华;赵相国;;基于操作符优先级的两种分布式数据流负载分配算法研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
9 周锐;肖川;王国仁;韩东红;霍欢;;数据流滑动窗口连接上的卸载技术的研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 田李;王乐;贾焰;邹鹏;李爱平;;分布式数据流上低通信开销的连续极值查询方法研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
相关博士学位论文 前10条
1 张丽;数据流上序敏感查询处理关键技术研究[D];国防科学技术大学;2013年
2 王超;时间序列数据流复杂模式挖掘研究[D];合肥工业大学;2015年
3 李飒;数据流软聚类理论及其在瓦斯灾害预警中的应用[D];辽宁工程技术大学;2014年
4 陈华辉;基于遗忘特性的数据流概要结构及其应用研究[D];复旦大学;2008年
5 孔英会;数据流技术及其在电力信息处理中的应用研究[D];华北电力大学(河北);2009年
6 崇志宏;基于屏蔽/汇总技术的数据流处理算法[D];复旦大学;2006年
7 姚远;海量动态数据流分类方法研究[D];大连理工大学;2013年
8 曹振丽;面向养殖环境监测的数据流处理方法研究[D];中国农业大学;2015年
9 朱辉生;基于情节规则匹配的数据流预测研究[D];复旦大学;2011年
10 袁志坚;数据流突发检测若干关键技术研究[D];国防科学技术大学;2008年
相关硕士学位论文 前10条
1 王川;面向位置服务的物联网数据质量保证方法研究[D];南京理工大学;2015年
2 祝然威;基于时间窗口的数据流频繁项挖掘算法[D];复旦大学;2014年
3 邱孝兵;基于GPU的数据流聚类及相关性分析[D];大连理工大学;2015年
4 张野;数据流查询语言中语法分析器的设计[D];电子科技大学;2015年
5 闫新院;基于概要模型的数据流聚合技术研究[D];西安电子科技大学;2014年
6 王涛;基于Ntrip协议的实时数据流软件的设计与实现[D];西安电子科技大学;2014年
7 陈彬;数据流实时存储关键技术[D];浙江工业大学;2015年
8 王高洋;基于网格和加速粒子群优化的数据流聚类算法研究[D];哈尔滨师范大学;2015年
9 钱海振;大数据流滞后相关性挖掘方法[D];辽宁师范大学;2015年
10 刘祥佳;制造物联海量数据流模式挖掘算法研究[D];广东工业大学;2016年
本文编号:2529108
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2529108.html