分布式数据回放系统研究与实现
发布时间:2021-08-04 00:56
在金融和证券等行业的大数据处理应用中,存在很多需要对大规模历史数据进行回放的服务需求。在一个历史数据回放应用中,首先需要从底层存储系统中查询和加载大规模历史数据,并以用户定义的逻辑处理这些数据,将数据转化为动态的数据流,最终由系统加以回放。例如,股票量化分析平台以及在线电子交易平台中,就存在很多这种数据回放服务需求,以便于进行回归测试分析或者系统性能测试。然而,目前国内外这种历史数据回放系统尚不多见。如前所述,这种历史数据回放系统是一种特殊的系统,它既需要具备按照用户需求进行数据查询的能力,同时又需要具备流式数据处理的能力与流出计算的能力,因而不等同于流式处理系统或数据库系统。因此,现有的包括流计算以及数据库在内的系统,都不具备这类数据回放服务能力。流计算系统本质上被设计成对动态流式数据进行流入计算处理,因而缺乏对已存在的历史数据进行回放处理的能力;而数据库系统虽然支持复杂灵活的查询,但不具备流处理功能,不能直接应用于上述流式数据回放服务。为此,有必要研究实现一种专门的历史数据回放系统。针对上述应用需求和问题背景,本文首先研究构建了一种通用化的数据回放模型与框架,并基于该模型与框架研究...
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
图1-1:回放服务系统处理流程与系统框架??数据回放服务在许多领域中得到广泛应用,包括在线系统性能测试、历史证??
数据kvW]丨文件?||??图2-1:回放作业数据流模型??回放作业的数据流模型如图2-1所示。回放作业的数据流一共要经过三个阶??段,即数据加载阶段、合并阶段、流处理阶段。这三个阶段分别由加载操作符、??11??
回放系统中这种数据分片切分方式对上层回放应用程序是透明的。默??认情况下,从这些分片中加载出来的数据会维持这些分片在该数据区间中原本的??相对顺序,如图2-2?(a)所示。?????split-1?split-2?split-3??split-1??????????split-2???1?1?? ̄s^it ̄3_=??(Tange^)?(^range^)??split-1?split-1??range?split-2?range?split-2??split-3?split-3??(a)无flatten操作符加载数据示意图?(b)有flatten操作符加载数据示意图??图2-2:有无flatten操作符作用的range加载数据作用对比??(2)?flatten??在某些回放应用场景下(例如全局排序),range操作符指定的一??个数据区间中的多个数据分片不需要按它们在该数据区间中的原顺序加载为单??个中间回放数据流,而是可以独立加载为多个平行的中间回放数据流。flatten操??作符即提供该功能,通过为一个range操作符指定flatten操作符,可将一个数据??区间中的每个数据分片都被独立加载为一个数据流,如图2-2?(b)所示。??(3)?reverse:默认情况下,从一个range操作符指定的数据区间中加载出来??的数据流会保持原数据区间中的顺序
本文编号:3320667
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
图1-1:回放服务系统处理流程与系统框架??数据回放服务在许多领域中得到广泛应用,包括在线系统性能测试、历史证??
数据kvW]丨文件?||??图2-1:回放作业数据流模型??回放作业的数据流模型如图2-1所示。回放作业的数据流一共要经过三个阶??段,即数据加载阶段、合并阶段、流处理阶段。这三个阶段分别由加载操作符、??11??
回放系统中这种数据分片切分方式对上层回放应用程序是透明的。默??认情况下,从这些分片中加载出来的数据会维持这些分片在该数据区间中原本的??相对顺序,如图2-2?(a)所示。?????split-1?split-2?split-3??split-1??????????split-2???1?1?? ̄s^it ̄3_=??(Tange^)?(^range^)??split-1?split-1??range?split-2?range?split-2??split-3?split-3??(a)无flatten操作符加载数据示意图?(b)有flatten操作符加载数据示意图??图2-2:有无flatten操作符作用的range加载数据作用对比??(2)?flatten??在某些回放应用场景下(例如全局排序),range操作符指定的一??个数据区间中的多个数据分片不需要按它们在该数据区间中的原顺序加载为单??个中间回放数据流,而是可以独立加载为多个平行的中间回放数据流。flatten操??作符即提供该功能,通过为一个range操作符指定flatten操作符,可将一个数据??区间中的每个数据分片都被独立加载为一个数据流,如图2-2?(b)所示。??(3)?reverse:默认情况下,从一个range操作符指定的数据区间中加载出来??的数据流会保持原数据区间中的顺序
本文编号:3320667
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3320667.html