面向数据分析的分布式数据管理系统
发布时间:2021-10-28 14:15
随着工业4.0与互联网+的相关产业发展,大数据成为业界的一个普遍现象,也逐渐在方方面面影响着大众的生活。如何管治与利用好大数据,是目前众多政府机关与企业所面临的难题,而目前的大数据生态圈正处于一个刚刚为大众所了解,正在稳步发展的局面;关于数据的收集、存储、处理及分析建模,已经有系统或者架构可以初步完成这些任务,然而随着数据量的增大、模型的复杂度增加,正让目前的系统显得力不从心、效率低下。研究如何快速、低成本地完成海量数据的分析与建模具有一定的应用价值与现实意义。当前业界仍然是认为分析全量数据才能全面分析数据,而分析全量数据的代价是非常巨大的;另一方面,大数据的管理方式也是基于全量数据的顺序进行分块,这也导致了分析全量数据的必然性。现有分布式系统的各种开销,使得大数据分析的迫切性与困难之间的矛盾日益突出,直到随机样本划分(Random Sample Partition,简称RSP)研究表明,分析一个与全量数据分布相似的数据子集,可以达到近似分析全量数据的效果,并可通过子集数量的增加,对全量建模结果逼近。本文研究重点是基于随机样本划分的面向数据分析的分布式数据管理系统。研究与应用基于随机样...
【文章来源】:中国科学院大学(中国科学院深圳先进技术研究院)广东省
【文章页数】:101 页
【学位级别】:硕士
【部分图文】:
长尾理论
要去该框架能够给予较大的数据传输带宽。(4) 简化一致性模型基于 HDFS 的应用所需要建立的模型具有“一次写入多次读取”的特点,其文件一旦经过写入操作之后,数据一般不需要进行更改。正是由于这一特点,便可简化数据一致性问题,从而也使得数据传输的高速率、数据访问的高吞吐量以及数据的批处理等目标具有实现的可能。(5) 移动计算代价比移动数据代价低一般而言,一个应用业务逻辑处理请求,若其请求所要进行操作的数据离它越近,那么处理效率越高,这对于处理大数据和进行大数据实时分析方面的应用而言更是如此。将计算操作移动至数据附近,将会比将数据移动到应用业务逻辑处理处更加高效,这也是十分显然的。(6) 可移植性任何框架在设计初始阶段就会考虑平台的可移植性,框架的可移植性不仅有利于开发各类型的应用,而且也有利于自身开源框架的发展和推广。
面向数据分析的分布式数据管理系统(6) 等待作业对象创建完成后,Jobtracker 将从 HDFS 文件系统中获得对应的任务资源划分,即该作业对象启动多少 Map 任务。(7) 在此期间,Jobtracker 与 TaskTracker 之间保持相关通信,TaskTracker 不断与Jobtracker 保持心跳,同时返回有关所要执行的任务信息。(8) TaskTracker 获得 HDFS 文件系统中的相关对应的文件数据资源。(9) 获取得到相关文件数据资源后,TaskTracker 登陆和开启有关子 JVM,最后启动运行该任务直至结束。
本文编号:3462925
【文章来源】:中国科学院大学(中国科学院深圳先进技术研究院)广东省
【文章页数】:101 页
【学位级别】:硕士
【部分图文】:
长尾理论
要去该框架能够给予较大的数据传输带宽。(4) 简化一致性模型基于 HDFS 的应用所需要建立的模型具有“一次写入多次读取”的特点,其文件一旦经过写入操作之后,数据一般不需要进行更改。正是由于这一特点,便可简化数据一致性问题,从而也使得数据传输的高速率、数据访问的高吞吐量以及数据的批处理等目标具有实现的可能。(5) 移动计算代价比移动数据代价低一般而言,一个应用业务逻辑处理请求,若其请求所要进行操作的数据离它越近,那么处理效率越高,这对于处理大数据和进行大数据实时分析方面的应用而言更是如此。将计算操作移动至数据附近,将会比将数据移动到应用业务逻辑处理处更加高效,这也是十分显然的。(6) 可移植性任何框架在设计初始阶段就会考虑平台的可移植性,框架的可移植性不仅有利于开发各类型的应用,而且也有利于自身开源框架的发展和推广。
面向数据分析的分布式数据管理系统(6) 等待作业对象创建完成后,Jobtracker 将从 HDFS 文件系统中获得对应的任务资源划分,即该作业对象启动多少 Map 任务。(7) 在此期间,Jobtracker 与 TaskTracker 之间保持相关通信,TaskTracker 不断与Jobtracker 保持心跳,同时返回有关所要执行的任务信息。(8) TaskTracker 获得 HDFS 文件系统中的相关对应的文件数据资源。(9) 获取得到相关文件数据资源后,TaskTracker 登陆和开启有关子 JVM,最后启动运行该任务直至结束。
本文编号:3462925
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3462925.html