基于Hadoop的土壤化学特征数据存储设云平台设计
发布时间:2021-04-05 02:32
针对当前土壤化学特征数据海量增长以及共享程度低的问题,结合hadoop框架,提出一种基于hadoop的土壤数据海量存储平台。为实现该平台,采用HBase+HDFS的方式搭建云存储平台;针对服务器负载均衡问题,提出分区策略和动态负载均衡策略;引入并行化聚类,实现土壤化学特征数据的分类挖掘;最后存储平台进行验证,结果表明平台在性能和聚类结果方案,都表现出优异性能。
【文章来源】:粘接. 2020,41(04)
【文章页数】:5 页
【部分图文】:
图2聚类算法步骤??Fig.2?Clustering?algorithm?steps??3.2基于Map?Reduce的土壤化学特征数据并行聚类??本文设计的土壤化学特征数据聚类采用了?Map??
的数据量差异性会逐步降低,??在极限状态下会无限趋近于〇,从而保证各个节点的??负载处于均衡的状态。??4.2分区策略??根据上述负载均衡原理,可以得到对应的分区策??略,具体的内容如下所示:首先通过Hash算法获得??初始映射分区,然后按照key值进行划分,得到多个??key值对应的组,例如分区倍数b=5时,意味着各个??组的分区数等于5。然后继续对各个分区的二次分区??编号进行计算,并按照相同的方式形成二次分区分??配,最后各个节点对所属分区的数据进行处理,此过??程如图4所7K。??图4分区策略??Fig.4?Partitioning?strategy??根据分区内的元组集合进行划分,降低Reduce??task执行中的负载,防止在多个节点中执行key值一致??的数据。在此过程中需要将分区数量控制在一定的范??围内,如果数目过大则会增大Reduce?task访问数据的??频率,此时会占据更多的资源,影响到了计算的效率。??4.3动态负载均衡策略??另外在数据量比较大时,仍然难以保证分区的负??载均衡,因此在本文中设计了对应的动态调控策略,??采用这种方式能够实时获取节点负载信息,即使数据??量较大,仍然可以保证各个节点的负载比较均衡,从??而保证较高的处理效率,提升了资源调度的合理性。??本文设计的动态调控策略旨在于充分利用集群的节??点,主要是将负载较大的节点任务分配给空闲节点,??由此保证了各个节点的负载均衡。算法的具体原理如??下所7K:所有Reduce?task都需要持续监测各个节点??的负载大小,如果有节点负载为零,则将高负载节点??中的任务停止,接着将其数据划分成两片,并将其中?
会降低,对应的执行时间增??大,而采用改进的分区算法则能够实现负载均衡。??但是在数据规模较小时,二者的执行时间差别不明??显,主要是因为此时改进的分区并不能发挥负载均??衡的优势。另外在实验中发现,在b=3时集群能够达??到最佳的性能。??2)在实验中进一步对两种算法的执行效率进行??了对比,其中改进的分区算法实现了负载均衡,即??合理分配各个节点的作业,使得其负载处于均衡的??状态,防止高负载节点的存在降低算法执行的效??率。在数据量大小不同时,两种算法的执行时间如??图7所示。??1?3??不同数据里大小(G)??■K认算法■改进分区算法??图7不同数据大小下的作业执行时间??Fig.7?Job?execution?time?under?different?data?sizes??根据图7可知,在数据量较小时,两种算法的??执行时间没有明显的差异;在数据量较大时,改??进后的分区算法在执行效率上具有明显的优势,??并且随着数据量的增大,这种优势更加显著,作??业执行时间相对默认算法更低。主要是因为采用??动态调控策略有助于改善节点的负载,使得各个??节点的负载处于均衡状态,由此降低了作业的整??体执行时间。??5.2聚类结果??在实验中选用有机质含量(organgkg)、全氮??(alln)等两种土壤化学特征数据,数据量大小是796??条,两个初始点分别是Ml?(1,?20)、M2?(2,丨0),取??值K=2。运行聚类算法,从而得到如图8所示的结果。??1?2?S?4?5?6-??分区倍数不同取值??■?1G?■?3G?■?9G?■?27G?■?BIG??图6不同分区倍数
【参考文献】:
期刊论文
[1]基于支持向量机的光刻胶粘接芯片存储安全检测[J]. 刘芳. 粘接. 2019(09)
[2]基于协处理器的HBase二级索引方法[J]. 郭红,周健倩,张瑛瑛,郭昆. 计算机工程与应用. 2019(21)
[3]基于HBase的支持频繁更新与多用户并发的R树[J]. 王波涛,梁伟,赵凯利,钟汉辉,张玉圻. 计算机科学. 2018(07)
[4]电力通信大数据并行化聚类算法研究[J]. 曾瑛,李星南,刘新展. 电子技术应用. 2018(05)
[5]Hadoop平台下基于快速搜索与密度峰值查找的聚类算法[J]. 郭友雄,黄添强,林玲鹏,黄维. 福建师大福清分校学报. 2018(02)
[6]基于Spark的密度聚类算法并行化研究[J]. 朱子龙,李玲娟. 计算机技术与发展. 2018(06)
[7]基于Hadoop架构的电力企业数据共享模型研究[J]. 蒋雷雷,代作松,秦宾. 通信电源技术. 2018(01)
[8]SCoS:基于Spark的并行谱聚类算法设计与实现[J]. 朱光辉,黄圣彬,袁春风,黄宜华. 计算机学报. 2018(04)
[9]分布式多源农林物联网感知数据共享平台研发[J]. 陈栋,吴保国,陈天恩,董静. 农业工程学报. 2017(S1)
[10]基于J2EE与ArcIMS的城市土壤信息系统的设计与实现[J]. 白思杰,魏忠义. 土壤. 2011(02)
本文编号:3118963
【文章来源】:粘接. 2020,41(04)
【文章页数】:5 页
【部分图文】:
图2聚类算法步骤??Fig.2?Clustering?algorithm?steps??3.2基于Map?Reduce的土壤化学特征数据并行聚类??本文设计的土壤化学特征数据聚类采用了?Map??
的数据量差异性会逐步降低,??在极限状态下会无限趋近于〇,从而保证各个节点的??负载处于均衡的状态。??4.2分区策略??根据上述负载均衡原理,可以得到对应的分区策??略,具体的内容如下所示:首先通过Hash算法获得??初始映射分区,然后按照key值进行划分,得到多个??key值对应的组,例如分区倍数b=5时,意味着各个??组的分区数等于5。然后继续对各个分区的二次分区??编号进行计算,并按照相同的方式形成二次分区分??配,最后各个节点对所属分区的数据进行处理,此过??程如图4所7K。??图4分区策略??Fig.4?Partitioning?strategy??根据分区内的元组集合进行划分,降低Reduce??task执行中的负载,防止在多个节点中执行key值一致??的数据。在此过程中需要将分区数量控制在一定的范??围内,如果数目过大则会增大Reduce?task访问数据的??频率,此时会占据更多的资源,影响到了计算的效率。??4.3动态负载均衡策略??另外在数据量比较大时,仍然难以保证分区的负??载均衡,因此在本文中设计了对应的动态调控策略,??采用这种方式能够实时获取节点负载信息,即使数据??量较大,仍然可以保证各个节点的负载比较均衡,从??而保证较高的处理效率,提升了资源调度的合理性。??本文设计的动态调控策略旨在于充分利用集群的节??点,主要是将负载较大的节点任务分配给空闲节点,??由此保证了各个节点的负载均衡。算法的具体原理如??下所7K:所有Reduce?task都需要持续监测各个节点??的负载大小,如果有节点负载为零,则将高负载节点??中的任务停止,接着将其数据划分成两片,并将其中?
会降低,对应的执行时间增??大,而采用改进的分区算法则能够实现负载均衡。??但是在数据规模较小时,二者的执行时间差别不明??显,主要是因为此时改进的分区并不能发挥负载均??衡的优势。另外在实验中发现,在b=3时集群能够达??到最佳的性能。??2)在实验中进一步对两种算法的执行效率进行??了对比,其中改进的分区算法实现了负载均衡,即??合理分配各个节点的作业,使得其负载处于均衡的??状态,防止高负载节点的存在降低算法执行的效??率。在数据量大小不同时,两种算法的执行时间如??图7所示。??1?3??不同数据里大小(G)??■K认算法■改进分区算法??图7不同数据大小下的作业执行时间??Fig.7?Job?execution?time?under?different?data?sizes??根据图7可知,在数据量较小时,两种算法的??执行时间没有明显的差异;在数据量较大时,改??进后的分区算法在执行效率上具有明显的优势,??并且随着数据量的增大,这种优势更加显著,作??业执行时间相对默认算法更低。主要是因为采用??动态调控策略有助于改善节点的负载,使得各个??节点的负载处于均衡状态,由此降低了作业的整??体执行时间。??5.2聚类结果??在实验中选用有机质含量(organgkg)、全氮??(alln)等两种土壤化学特征数据,数据量大小是796??条,两个初始点分别是Ml?(1,?20)、M2?(2,丨0),取??值K=2。运行聚类算法,从而得到如图8所示的结果。??1?2?S?4?5?6-??分区倍数不同取值??■?1G?■?3G?■?9G?■?27G?■?BIG??图6不同分区倍数
【参考文献】:
期刊论文
[1]基于支持向量机的光刻胶粘接芯片存储安全检测[J]. 刘芳. 粘接. 2019(09)
[2]基于协处理器的HBase二级索引方法[J]. 郭红,周健倩,张瑛瑛,郭昆. 计算机工程与应用. 2019(21)
[3]基于HBase的支持频繁更新与多用户并发的R树[J]. 王波涛,梁伟,赵凯利,钟汉辉,张玉圻. 计算机科学. 2018(07)
[4]电力通信大数据并行化聚类算法研究[J]. 曾瑛,李星南,刘新展. 电子技术应用. 2018(05)
[5]Hadoop平台下基于快速搜索与密度峰值查找的聚类算法[J]. 郭友雄,黄添强,林玲鹏,黄维. 福建师大福清分校学报. 2018(02)
[6]基于Spark的密度聚类算法并行化研究[J]. 朱子龙,李玲娟. 计算机技术与发展. 2018(06)
[7]基于Hadoop架构的电力企业数据共享模型研究[J]. 蒋雷雷,代作松,秦宾. 通信电源技术. 2018(01)
[8]SCoS:基于Spark的并行谱聚类算法设计与实现[J]. 朱光辉,黄圣彬,袁春风,黄宜华. 计算机学报. 2018(04)
[9]分布式多源农林物联网感知数据共享平台研发[J]. 陈栋,吴保国,陈天恩,董静. 农业工程学报. 2017(S1)
[10]基于J2EE与ArcIMS的城市土壤信息系统的设计与实现[J]. 白思杰,魏忠义. 土壤. 2011(02)
本文编号:3118963
本文链接:https://www.wllwen.com/kejilunwen/nykj/3118963.html