基于Hadoop的土壤化学特征数据存储设云平台设计

发布时间：2021-04-05 02:32

　　针对当前土壤化学特征数据海量增长以及共享程度低的问题,结合hadoop框架,提出一种基于hadoop的土壤数据海量存储平台。为实现该平台,采用HBase+HDFS的方式搭建云存储平台;针对服务器负载均衡问题,提出分区策略和动态负载均衡策略;引入并行化聚类,实现土壤化学特征数据的分类挖掘;最后存储平台进行验证,结果表明平台在性能和聚类结果方案,都表现出优异性能。

【文章来源】：粘接. 2020,41(04)

【文章页数】：5 页

【部分图文】：

图２聚类算法步骤??Ｆｉｇ．２?Ｃｌｕｓｔｅｒｉｎｇ?ａｌｇｏｒｉｔｈｍ?ｓｔｅｐｓ??３．２基于Ｍａｐ?Ｒｅｄｕｃｅ的土壤化学特征数据并行聚类??本文设计的土壤化学特征数据聚类采用了?Ｍａｐ??

元组,节点,策略,数据

的数据量差异性会逐步降低，??在极限状态下会无限趋近于〇，从而保证各个节点的??负载处于均衡的状态。??４．２分区策略??根据上述负载均衡原理，可以得到对应的分区策??略，具体的内容如下所示：首先通过Ｈａｓｈ算法获得??初始映射分区，然后按照ｋｅｙ值进行划分，得到多个??ｋｅｙ值对应的组，例如分区倍数ｂ＝５时，意味着各个??组的分区数等于５。然后继续对各个分区的二次分区??编号进行计算，并按照相同的方式形成二次分区分??配，最后各个节点对所属分区的数据进行处理，此过??程如图４所７Ｋ。??图４分区策略??Ｆｉｇ．４?Ｐａｒｔｉｔｉｏｎｉｎｇ?ｓｔｒａｔｅｇｙ??根据分区内的元组集合进行划分，降低Ｒｅｄｕｃｅ??ｔａｓｋ执行中的负载，防止在多个节点中执行ｋｅｙ值一致??的数据。在此过程中需要将分区数量控制在一定的范??围内，如果数目过大则会增大Ｒｅｄｕｃｅ?ｔａｓｋ访问数据的??频率，此时会占据更多的资源，影响到了计算的效率。??４．３动态负载均衡策略??另外在数据量比较大时，仍然难以保证分区的负??载均衡，因此在本文中设计了对应的动态调控策略，??采用这种方式能够实时获取节点负载信息，即使数据??量较大，仍然可以保证各个节点的负载比较均衡，从??而保证较高的处理效率，提升了资源调度的合理性。??本文设计的动态调控策略旨在于充分利用集群的节??点，主要是将负载较大的节点任务分配给空闲节点，??由此保证了各个节点的负载均衡。算法的具体原理如??下所７Ｋ：所有Ｒｅｄｕｃｅ?ｔａｓｋ都需要持续监测各个节点??的负载大小，如果有节点负载为零，则将高负载节点??中的任务停止，接着将其数据划分成两片，并将其中?

执行时间,数据,算法

会降低，对应的执行时间增??大，而采用改进的分区算法则能够实现负载均衡。??但是在数据规模较小时，二者的执行时间差别不明??显，主要是因为此时改进的分区并不能发挥负载均??衡的优势。另外在实验中发现，在ｂ＝３时集群能够达??到最佳的性能。??２）在实验中进一步对两种算法的执行效率进行??了对比，其中改进的分区算法实现了负载均衡，即??合理分配各个节点的作业，使得其负载处于均衡的??状态，防止高负载节点的存在降低算法执行的效??率。在数据量大小不同时，两种算法的执行时间如??图７所示。??１?３??不同数据里大小（Ｇ）??■Ｋ认算法■改进分区算法??图７不同数据大小下的作业执行时间??Ｆｉｇ．７?Ｊｏｂ?ｅｘｅｃｕｔｉｏｎ?ｔｉｍｅ?ｕｎｄｅｒ?ｄｉｆｆｅｒｅｎｔ?ｄａｔａ?ｓｉｚｅｓ??根据图７可知，在数据量较小时，两种算法的??执行时间没有明显的差异；在数据量较大时，改??进后的分区算法在执行效率上具有明显的优势，??并且随着数据量的增大，这种优势更加显著，作??业执行时间相对默认算法更低。主要是因为采用??动态调控策略有助于改善节点的负载，使得各个??节点的负载处于均衡状态，由此降低了作业的整??体执行时间。??５．２聚类结果??在实验中选用有机质含量（ｏｒｇａｎｇｋｇ）、全氮??（ａｌｌｎ）等两种土壤化学特征数据，数据量大小是７９６??条，两个初始点分别是Ｍｌ?（１，?２０）、Ｍ２?（２，丨０），取??值Ｋ＝２。运行聚类算法，从而得到如图８所示的结果。??１?２?Ｓ?４?５?６－??分区倍数不同取值??■?１Ｇ?■?３Ｇ?■?９Ｇ?■?２７Ｇ?■?ＢＩＧ??图６不同分区倍数

【参考文献】：
期刊论文
[1]基于支持向量机的光刻胶粘接芯片存储安全检测[J]. 刘芳.  粘接. 2019(09)
[2]基于协处理器的HBase二级索引方法[J]. 郭红,周健倩,张瑛瑛,郭昆.  计算机工程与应用. 2019(21)
[3]基于HBase的支持频繁更新与多用户并发的R树[J]. 王波涛,梁伟,赵凯利,钟汉辉,张玉圻.  计算机科学. 2018(07)
[4]电力通信大数据并行化聚类算法研究[J]. 曾瑛,李星南,刘新展.  电子技术应用. 2018(05)
[5]Hadoop平台下基于快速搜索与密度峰值查找的聚类算法[J]. 郭友雄,黄添强,林玲鹏,黄维.  福建师大福清分校学报. 2018(02)
[6]基于Spark的密度聚类算法并行化研究[J]. 朱子龙,李玲娟.  计算机技术与发展. 2018(06)
[7]基于Hadoop架构的电力企业数据共享模型研究[J]. 蒋雷雷,代作松,秦宾.  通信电源技术. 2018(01)
[8]SCoS:基于Spark的并行谱聚类算法设计与实现[J]. 朱光辉,黄圣彬,袁春风,黄宜华.  计算机学报. 2018(04)
[9]分布式多源农林物联网感知数据共享平台研发[J]. 陈栋,吴保国,陈天恩,董静.  农业工程学报. 2017(S1)
[10]基于J2EE与ArcIMS的城市土壤信息系统的设计与实现[J]. 白思杰,魏忠义.  土壤. 2011(02)

本文编号：3118963

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/nykj/3118963.html

上一篇：喀斯特区石漠化治理对土壤水分-物理性状的影响——以黔中杠寨小流域为例
下一篇：东北农田区被动微波遥感土壤水分产品验证研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|