基于HBase的多维时间序列存储与检索技术研究
发布时间:2021-03-27 03:49
随着科技以及经济实力的快速发展,数据的传播速度以及数据的存储量都在显著增长。由于传统的关系型数据库对数据的完整性及安全性有着一定的要求,这对系统的可用性及伸缩性有着一定影响,并导致系统的数据操作速度变慢,数据管理变得困难。这些影响在某些对实时性有要求的功能模块或者系统上是不可忽视的。同时在这几年,需要进行管理的数据的维度也在增加。比如,近年来民航的快速发展,一次航班的飞行,每时每刻都有成百上千个传感器进行数据采集。在可预见的未来,民航业内为了飞行效率以及飞行安全,还需要扩展更多的数据采集维度。这使得民航系统中对于非关系型数据库的应用变得越来越普遍。非关系型数据库HBase是一个面向列存储的分布式存储系统,相对于传统的关系型数据库而言,HBase的维度扩展方便并且提供高并发读写操作的支持。本文选择HBase存储系统作为研究对象,针对多维时序数据的特点,通过寻找一组最优的配置参数,以提升HBase的性能。本文的研究内容主要有以下几个方面:(1)HBase的配置参数筛选以及训练样本的生成。筛选有效的配置参数并采用随机策略生成一系列配置文件。使用YCSB测试工具,收集每个配置文件对应的性能数据...
【文章来源】:中国民用航空飞行学院四川省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
网民规模和互联网普及率
中国民用航空飞行学院硕士学位论文7性。此外还可以并行运算,因此可以极大地提高模型的训练速度。图2.1随机森林算法流程图构建随机森林模型的过程如图2.1所示。随机森林的构建步骤如下:(1)对于一个给定的数量为N的训练样本集,我们随机且有放回地从训练集中的抽取N个样本,构成一个训练集。这样可以得到若干个子训练集sub_sampleSets。(2)对sub_sampleSets若干子训练集集合中的每一个集合分别构建决策树。(3)在构建决策树时,若一个子训练集中的每个样本的特征维度为M,随机地从M个特征中无放回的选取m个特征子集,其中m通常等于sqrt(M),每次树进行分裂时,从这m个特征中选择最优的,即选择一个信息增益或者信息增益比最大的一个特征作为划分下一个节点的走向。(4)重复步骤三,得到若干个决策树。(5)将生成的多棵决策树组合起来,形成随机森林。随机森林既能处理分类问题,也能处理回归问题[27]。如果是分类问题,采用投票的机制来决定最后的预测结果;如果是回归问题,则最终的预测结果为所有决策树预测结果的平均值。通过以上步骤,我们可以发现构建随机森林的流程中包含了两个随机过程,即随机选择样本和随机选择特征。通过引入这两个随机过程,可以提高随机森林的泛化能力,使得模型不容易陷入过拟合。
中国民用航空飞行学院硕士学位论文17数据的元数据信息以及负责外部客户机的请求响应。2.YARN分布式资源管理系统由于老版本HadoopMapReduce框架的JobTracker和TaskTracker机制在内存消耗、可扩展性、可靠性以及性能上的不足。所以,Hadoop团队对Hadoop的MapReduce框架进行了重构。现在新版本的MapReduce框架称为YARN。YARN是资源管理和任务调度的框架,它主要由三部分组成,ResourceManager(RM)、NodeManager(NM)和ApplicationMaster(AM)。ResourceManager负责管理、监控和分配所有资源;ApplicationMaster负责协调和调度每一个具体的应用程序;NodeManager负责维护每一个节点;YARN的工作流程图如下图所示:图2.5YARN资源管理架构图在YARN上能运行多个大数据计算框架,它能够进行合理的资源调度来运行和维护各个计算框架,比如Spark、MapReduce、Storm等。具体框架如下图:
本文编号:3102828
【文章来源】:中国民用航空飞行学院四川省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
网民规模和互联网普及率
中国民用航空飞行学院硕士学位论文7性。此外还可以并行运算,因此可以极大地提高模型的训练速度。图2.1随机森林算法流程图构建随机森林模型的过程如图2.1所示。随机森林的构建步骤如下:(1)对于一个给定的数量为N的训练样本集,我们随机且有放回地从训练集中的抽取N个样本,构成一个训练集。这样可以得到若干个子训练集sub_sampleSets。(2)对sub_sampleSets若干子训练集集合中的每一个集合分别构建决策树。(3)在构建决策树时,若一个子训练集中的每个样本的特征维度为M,随机地从M个特征中无放回的选取m个特征子集,其中m通常等于sqrt(M),每次树进行分裂时,从这m个特征中选择最优的,即选择一个信息增益或者信息增益比最大的一个特征作为划分下一个节点的走向。(4)重复步骤三,得到若干个决策树。(5)将生成的多棵决策树组合起来,形成随机森林。随机森林既能处理分类问题,也能处理回归问题[27]。如果是分类问题,采用投票的机制来决定最后的预测结果;如果是回归问题,则最终的预测结果为所有决策树预测结果的平均值。通过以上步骤,我们可以发现构建随机森林的流程中包含了两个随机过程,即随机选择样本和随机选择特征。通过引入这两个随机过程,可以提高随机森林的泛化能力,使得模型不容易陷入过拟合。
中国民用航空飞行学院硕士学位论文17数据的元数据信息以及负责外部客户机的请求响应。2.YARN分布式资源管理系统由于老版本HadoopMapReduce框架的JobTracker和TaskTracker机制在内存消耗、可扩展性、可靠性以及性能上的不足。所以,Hadoop团队对Hadoop的MapReduce框架进行了重构。现在新版本的MapReduce框架称为YARN。YARN是资源管理和任务调度的框架,它主要由三部分组成,ResourceManager(RM)、NodeManager(NM)和ApplicationMaster(AM)。ResourceManager负责管理、监控和分配所有资源;ApplicationMaster负责协调和调度每一个具体的应用程序;NodeManager负责维护每一个节点;YARN的工作流程图如下图所示:图2.5YARN资源管理架构图在YARN上能运行多个大数据计算框架,它能够进行合理的资源调度来运行和维护各个计算框架,比如Spark、MapReduce、Storm等。具体框架如下图:
本文编号:3102828
本文链接:https://www.wllwen.com/kejilunwen/hangkongsky/3102828.html