多路数据流等值连接中独立元素问题的研究

发布时间:2021-03-24 13:33
  随着互联网、传感器等技术深入到人们生活的各个方面,数据产生的速度越来越快。新数据中隐藏着各种有价值的信息,通过挖掘利用这些信息,给人们的日常生活提供了更多的便利。在很多应用场景中,信息通过数据流的方式提供给用户,通常这些信息带有非常强的时效性,很少存储在传统数据库中,而是必须在生成时进行“即时”处理。此外,由于应用场景的不同,通常每种数据流只提供部分信息,结合多种来源的数据流,获取完整的信息成为势在必行的趋势。在数据流的处理中,连接可以将多个数据流之间的信息进行整合,以获取完整的信息。Spark Streaming是大数据环境下处理流连接的一个系统平台,它根据当前操作父子数据集之间的依赖关系来决定连接的执行顺序。但由于评价的标准单一,对于多路数据流的连接操作只能做出简单的顺序划分,并不能根据各个数据流之间的整体相关性来对数据流连接做出更合理的优化,导致连接的执行效率低下。本文在经过深入研究以及总结相关工作的基础上,对多路数据流的独立元素计数问题展开分析和研究,最后对多路数据流的等值连接进行优化,内容主要有以下几个方面:首先,本文对多个数据流之间的全局相关性进行研究,也就是数据流的独立元... 

【文章来源】:中国科学院大学(中国科学院深圳先进技术研究院)广东省

【文章页数】:61 页

【学位级别】:硕士

【部分图文】:

多路数据流等值连接中独立元素问题的研究


流式框架处理方式——流处理Figure1.1Streamingframeprocessingmethod-streamingprocessing

框架图,框架,方式,数据


多路数据流等值连接中独立元素问题的研究4图1.1流式框架处理方式——流处理Figure1.1Streamingframeprocessingmethod-streamingprocessing(2)微批处理:把输入的数据按照某种预先定义的时间间隔(典型的是几秒钟)分成短小的批量数据,进入流处理系统。示例如下:图1.2流式框架处理方式——微批处理Figure1.2Streamingframeprocessingmethod-MicroBatchProcessing上述的两种方式都有各自的优缺点,原生流的处理方式中,系统接收到新的数据便立即进行处理,这样产生结果的延迟性大大降低,此外,对数据流的状态进行处理也更容易实现。但是,正是对延迟性以及状态的要求,原生流的处理会耗费系统较大的开销,因为需要对现有的每条记录做分析处理;原生流还会有数据分布不均衡的问题出现,比如,在某个任务中,我们按照关键字进行分区,但是如果某个关键字出现频率很高,导该分区数据非常拥挤,那么这个分区很容易成为系统处理的瓶颈。微批处理将流式计算分解成一系列短小的批处理作业,也不可避免的减弱系统的表达力。对于在原生流中很容易实现的状态管理或者是需要对数据进行匹配连接的操作时,微批处理会变得很不适用,因为需要对整个数据集进行操作。微批处理也有它的优势,比如说在数据分配的均匀性或者是系统的容错上都可以轻而易举的实现,这得益于微批处理系统仅仅将某一批

原理图,滑动窗口,原理,元组


第2章数据流连接相关工作9的个数为标准进行划分,通常个数是固定不变的;如果以窗口覆盖的时间长短进行划分(如10分钟),这种窗口称为逻辑窗口。通常来说,物理窗口中的元组个数是固定不变的,新来一个元组则意味着窗口中要清除掉一个旧元组;而在逻辑窗口中,里面元组的个数往往是不确定的,影响的因素主要是数据流到来的速度,元组到来的速度越快,则意味着窗口中的元组个数越多。滑动窗口的工作原理是在数据流中划分中一块缓冲区,在每次的处理过程中只处理缓冲区内的数据。随着新数据的到来,缓冲区也进行更新,新的元组进入,旧的元组被剔除出缓冲区。如图2.1所示,在数据流的t1时刻,2、3、4号元组在滑动窗口的缓冲区内,随着时间的推移,2、3号元组被剔除出缓冲区,5、6号元组进入缓冲区,使得t2时刻的缓冲区变为4、5、6号元组。本文中,多路数据流的等值连接操作均基于滑动窗口[1][5][15]。图2.1滑动窗口工作原理Figure2.1WorkingPrincipleofSlidingWindow2.1.3时间戳实时数据流生成的数据中,为了方便数据的处理,都需要对数据元组进行编号,以此来标记数据元组在数据流中生成的次序,这种编号称为时间戳,时间戳按性质可以分为显示时间戳和隐式时间戳[5][15]。显式的时间戳是在数据产生的时候主动添加到元组上的,表示数据产生的时间,也可以代表该元组与现实世界在时间上的关联性;而隐形的时间戳则是在数据到达设备时增添的一个时间信息,用于表示数据到达设备时的时间。可以看出,数据流中元组产生的时间和到达设备的时间是有所区分的,主要的原因是因为在复杂的网络环境下,由于网络延迟、传输距离等差异,可能会导致显式时间戳小的元组比显式时间戳大的元组晚到。

【参考文献】:
期刊论文
[1]基于数据流的滑动窗口机制的研究[J]. 杜威,邹先霞.  计算机工程与设计. 2005(11)

博士论文
[1]大规模实时数据流连接关键技术的研究[D]. 刘新春.中国科学技术大学 2015



本文编号:3097817

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3097817.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5d449***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com