一种大数据放置方法
发布时间:2019-09-13 13:40
【摘要】:数据密集型应用越来越多,如何将大数据在数据中心实现有效放置变得日益重要。研究了大数据的放置模型。影响大数据放置的因素主要有:能耗、异构节点的服务能力及具有关联计算的数据集。基于这3个因素设计了一种节能、充分考虑异构节点服务能力及提升MapReduce处理Join连接的效率的大数据放置模型。该模型将有效实现大数据的有效放置管理,同时也为未来软件定制数据中心奠定了基础。
【图文】:
按照数据放置策略3的方法将它们放置到数据放置集群3中。通过数据集有关联计算子网(修正后)得到的有关联计算(修正后)数据集,按照数据放置策略4的方法将它们放置到数据放置集群3中。其中数据节点分配方法将决定数据放置集群1、数据放置集群2及数据放置集群3的具体分配实施。案例1展示了一个具体的数据中心云数据分配方法的实施例。【案例1】数据中心云数据分配方法实施例第1步:形成数据集关系网。根据数据集的历史处理记录或者根据预先的定义得到数据关系网。图2为一个具有n个数据集的数据集关系网。图2数据集关系图图2的主要说明如下:(1)其中在云计算中共使用了n个数据集合,分别为:D[1],D[2],D[3],D[4],D[5],D[6],D[7],D[8],D[9],,…,D[n]。(2)S[i,j]表示数据集D[i]与D[j]之间的计算关联度,主要分为如下几种情况:a)如果i=j,并且S[i,j]=0。i=j表明为同一个数据集。如果S[i,j]=0,它表明针对该数据集自身没有任何计算操作(如查询等)。b)如果i=j,并且S[i,j]>0。i=j表明为同一个数据集。如果S[i,j]>0,它表明了针对该数据集自身有计算操作(如针对该单个数据集的查询等)。c)如果i!=j,并且S[i,j]=0。I!=j表明涉及到两个不同的数据集。如果S[i,j]=0,它表
不同的数据集。如果S[i,j]>0,它表明这两个不同的数据集之间有计算操作(如连接操作、联合操作及其笛卡尔积等)。(3)根据(2)及历史计算关系或者预先定义,得到相应的含数值的数据集历史计算关系图,如图3所示。其中:S[1,1]=200;S[1,3]=200;S[2,2]=3;S[3,3]=50;S[3,4]=2;S[5,5]=100;S[6,6]=80;S[5,7]=78;S[6,7]=88;S[8,8]=60;S[9,9]=0;S[6,n]=1;S[n,n]=120。图3含数值的数据集关系网(4)从图3可以得到图2中所提及的3个子网:数据集有关联计算子网、数据集孤立计算子网及数据集无计算关系子网。(5)从图3可以得到图2中所提及的两个子网分别所对应的数据集:孤立计算数据集{D(8)}及无计算关系数据集{D[9]}。第2步:形成数据集修正关系网。Hadoop自身的数据放置策略的最大优势是通过分区函数让所有的数据块能够实现自由流动,从而达到一种较好的负载均衡。本文将对来自第1步的数据集有关联计算子网进行相应的修正,让一部分数据集的数据放置遵循Hadoop本身的数据放置策略,从而实现较好的负载均衡。其中最关键的是需要设定相应的修正因子(该修正因子可以由云数据中心管理人员自行编程设定),然后对数据集有关联计算子网进行相应的修正得到一个数据集修正关系网。具体子步骤如下:(1)获取来自第1步的数据集有关联计算
【作者单位】: 清华大学信息技术研究院;首都经济贸易大学;
【基金】:高等学校博士学科点专项科研基金课题(20100002110082)资助
【分类号】:TP308
【图文】:
按照数据放置策略3的方法将它们放置到数据放置集群3中。通过数据集有关联计算子网(修正后)得到的有关联计算(修正后)数据集,按照数据放置策略4的方法将它们放置到数据放置集群3中。其中数据节点分配方法将决定数据放置集群1、数据放置集群2及数据放置集群3的具体分配实施。案例1展示了一个具体的数据中心云数据分配方法的实施例。【案例1】数据中心云数据分配方法实施例第1步:形成数据集关系网。根据数据集的历史处理记录或者根据预先的定义得到数据关系网。图2为一个具有n个数据集的数据集关系网。图2数据集关系图图2的主要说明如下:(1)其中在云计算中共使用了n个数据集合,分别为:D[1],D[2],D[3],D[4],D[5],D[6],D[7],D[8],D[9],,…,D[n]。(2)S[i,j]表示数据集D[i]与D[j]之间的计算关联度,主要分为如下几种情况:a)如果i=j,并且S[i,j]=0。i=j表明为同一个数据集。如果S[i,j]=0,它表明针对该数据集自身没有任何计算操作(如查询等)。b)如果i=j,并且S[i,j]>0。i=j表明为同一个数据集。如果S[i,j]>0,它表明了针对该数据集自身有计算操作(如针对该单个数据集的查询等)。c)如果i!=j,并且S[i,j]=0。I!=j表明涉及到两个不同的数据集。如果S[i,j]=0,它表
不同的数据集。如果S[i,j]>0,它表明这两个不同的数据集之间有计算操作(如连接操作、联合操作及其笛卡尔积等)。(3)根据(2)及历史计算关系或者预先定义,得到相应的含数值的数据集历史计算关系图,如图3所示。其中:S[1,1]=200;S[1,3]=200;S[2,2]=3;S[3,3]=50;S[3,4]=2;S[5,5]=100;S[6,6]=80;S[5,7]=78;S[6,7]=88;S[8,8]=60;S[9,9]=0;S[6,n]=1;S[n,n]=120。图3含数值的数据集关系网(4)从图3可以得到图2中所提及的3个子网:数据集有关联计算子网、数据集孤立计算子网及数据集无计算关系子网。(5)从图3可以得到图2中所提及的两个子网分别所对应的数据集:孤立计算数据集{D(8)}及无计算关系数据集{D[9]}。第2步:形成数据集修正关系网。Hadoop自身的数据放置策略的最大优势是通过分区函数让所有的数据块能够实现自由流动,从而达到一种较好的负载均衡。本文将对来自第1步的数据集有关联计算子网进行相应的修正,让一部分数据集的数据放置遵循Hadoop本身的数据放置策略,从而实现较好的负载均衡。其中最关键的是需要设定相应的修正因子(该修正因子可以由云数据中心管理人员自行编程设定),然后对数据集有关联计算子网进行相应的修正得到一个数据集修正关系网。具体子步骤如下:(1)获取来自第1步的数据集有关联计算
【作者单位】: 清华大学信息技术研究院;首都经济贸易大学;
【基金】:高等学校博士学科点专项科研基金课题(20100002110082)资助
【分类号】:TP308
【参考文献】
相关期刊论文 前3条
1 林伟伟;;一种改进的Hadoop数据放置策略[J];华南理工大学学报(自然科学版);2012年01期
2 赵彦荣;王伟平;孟丹;张书彬;李均;;基于Hadoop的高效连接查询处理算法CHMJ[J];软件学报;2012年08期
3 覃雄派;王会举;李芙蓉;李翠平;陈红;周p
本文编号:2535684
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2535684.html