基于大数据平台的内蒙古地闪时空分布特征分析研究
发布时间:2021-10-20 05:05
雷电对人们的日常生活有着严重的威胁,对雷电进行时空规律分析,以及对雷暴进行更高精度的预报具有重要的现实意义。随着互联网的高速发展和气象监测水平的不断提高,产生了海量的雷电资料数据。在对雷电资料数据进行分析或预报等业务时,需要进行大量繁复的运算,而大规模运算存在耗时较长的问题,传统的单机方式已经越来越难以满足海量雷电资料的存储与处理。如何更好的对海量雷电资料数据进行挖掘研究成为气象部门工作的研究热点。大数据技术的出现,为海量雷电资料的处理提供了一个新的思路。课题针对内蒙古地闪时空分布特征分析研究,主要研究内容包括雷电时空规律分析和雷暴预报应用研究。雷电时空规律分析主要采用Spark算子和K-means算法对地闪定位资料分析;雷暴预报主要采用朴素贝叶斯算法,进一步对雷电时空规律分析,目的是对未来某一区域某一时段是否发生雷暴做出预测,主要工作如下。1.基于Hadoop+Spark平台设计了雷电高发区域划分算法SCK-means和雷电时间规律STime算法。针对K-means算法随机选取初始聚类中心和K值的问题,采用Canopy对K-means算法进行优化,并将优化的算法基于Spark平台进行...
【文章来源】:内蒙古工业大学内蒙古自治区
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
HDFS架构
第二章相关理论与技术13HDFS分布式文件管理系统有很多优点,它不仅可以构建在廉价机器上,而且可以通过多副本机制,大大的提高文件管理的可靠性;同时HDFS具有容错性,即使某一个节点上的副本丢失,也可以通过其它节点上的相同副本进行自动恢复;HDFS适合处理大数据,即使用户不了解分布式底层架构的基础,也能够利用它处理数据规模达到GB、TB、甚至PB级别的数据。因为HadoopHDFS分布式文件系统的诸多优点,本文采用HDFS存储气象数据,对雷电资料进行挖掘研究。2.3.2YARNApacheHadoopYARN(YetAnotherResourceNegotiator)[50]是一种新的Hadoop资源管理器,它是一个通用的作业调度与集群资源管理的框架,可为上层MapReduce、Spark应用提供统一的资源管理和调度。引入YARN极大地提高了集群的管理能力,在集群利用率、资源统一管理和数据共享等方面有较大帮助,因此论文使用YARN管理资源。YARN原理如图2-5所示。图2-5YARN原理Fig.2-5YARNprincipleYARN主要包含三大模块:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM),除此之外,还有一个重要的概念Container。(1)ResourceManager(RM)处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度。(2)NodeManager(NM)主要负责管理节点上的资源,同时对ResourceManager的命令、ApplicationMaster的命令进行处理。
第二章相关理论与技术15它是一个分布式图处理框架,使得Spark可以对大规模的图进行挖掘计算。图2-6Spark体系架构Fig.2-6Sparkarchitecture2.4.2SparkCoreSparkCore[51]实现了Spark的基本功能,其中弹性分布式数据集RDD(ResilientDistributedDatasets)是Spark中最核心的思想。RDD是一种并行数据结构,同时它也是只读的不允许修改的。较Hadoop的MapReduce框架来说,它将计算的中间数据缓存在内存中,而不是需要花费大量的时间在硬盘读写的I/O上,理论上运行速度可以提高100倍,大大的优化了数据迭代时的负载。由于RDD是只读的,所以创建它主要包含以下三种方式。(1)通过使用外部存储系统(常用的有HDFS、HBase、Hive等分布式文件系统,HDFS是最常用的生产环境处理方式。(2)通过已有的RDD进行转换操作,最后用行动操作生成新的RDD。(3)利用驱动程序中已存在的Scala集合创建RDD(主要用于测试)。RDD主要包括两种操作,分别为转换(Transformation)操作和行动(Action)操作。Transformation操作是将现有RDD通过转换操作后返回一个新的RDD,转换操作的输入和输出都是RDD,常见的Transformation操作如表2-1所示。表2-1常用转换算子Table2-1Commontransformationoperators相关算子作用map将函数应用到RDD中的每一个元素,返回值构成新RDDfilter用于条件过滤,返回新的RDDgroupBykey对具有相同键的值进行分组reduceByKey对(key,value)形式把key相同的数据value进行处理Join对两个RDD进行内连接
【参考文献】:
期刊论文
[1]基于Hadoop的GA-BP算法在降水预测中的应用[J]. 勾志竟,任建玲,徐梅,王敏. 计算机系统应用. 2019(09)
[2]基于改进DBScan算法的雷暴挖掘与研究[J]. 高攀,田浩,李健,陶汉涛,王钊,姜志博. 高压电器. 2019(04)
[3]基于LLS的雷暴运动趋势临近预测[J]. 黄礼忠,苏盛,杨鑫,胡军,刘正谊. 电瓷避雷器. 2019(01)
[4]Application and Research of Meteorological Data in Lightning Protection Technical Service of Oil Depot[J]. Liu Fengjiao,He Qiuyan,Tang Yao,Su Kai,Liu Yueyu. Meteorological and Environmental Research. 2019(01)
[5]面向大规模中文文本分类的朴素贝叶斯并行Spark算法(英文)[J]. 刘鹏,赵慧含,滕家雨,仰彦妍,刘亚峰,朱宗卫. Journal of Central South University. 2019(01)
[6]一种基于CNN和RNN深度神经网络的天气预测模型——以北京地区雷暴的6小时临近预报为例[J]. 倪铮,文韬. 数值计算与计算机应用. 2018(04)
[7]云南省雷电活动分布特征及对农村地区的影响分析[J]. 杨宗凯,刘平英,胡颖,周清倩,庄嘉. 中国农业资源与区划. 2018(09)
[8]银东线雷电防护线路避雷器开发与应用[J]. 万帅,曹伟,陈家宏,谷山强,王剑,吕军. 高电压技术. 2018(05)
[9]Spark Streaming框架下的气象自动站数据实时处理系统[J]. 赵文芳,刘旭林. 计算机应用. 2018(01)
[10]基于Spark的并行K-means气象数据挖掘研究[J]. 李莉,王小刚. 信息技术. 2017(09)
硕士论文
[1]聚类算法在雷电预警及雷灾分析中的应用[D]. 路郁.南京信息工程大学 2014
本文编号:3446297
【文章来源】:内蒙古工业大学内蒙古自治区
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
HDFS架构
第二章相关理论与技术13HDFS分布式文件管理系统有很多优点,它不仅可以构建在廉价机器上,而且可以通过多副本机制,大大的提高文件管理的可靠性;同时HDFS具有容错性,即使某一个节点上的副本丢失,也可以通过其它节点上的相同副本进行自动恢复;HDFS适合处理大数据,即使用户不了解分布式底层架构的基础,也能够利用它处理数据规模达到GB、TB、甚至PB级别的数据。因为HadoopHDFS分布式文件系统的诸多优点,本文采用HDFS存储气象数据,对雷电资料进行挖掘研究。2.3.2YARNApacheHadoopYARN(YetAnotherResourceNegotiator)[50]是一种新的Hadoop资源管理器,它是一个通用的作业调度与集群资源管理的框架,可为上层MapReduce、Spark应用提供统一的资源管理和调度。引入YARN极大地提高了集群的管理能力,在集群利用率、资源统一管理和数据共享等方面有较大帮助,因此论文使用YARN管理资源。YARN原理如图2-5所示。图2-5YARN原理Fig.2-5YARNprincipleYARN主要包含三大模块:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM),除此之外,还有一个重要的概念Container。(1)ResourceManager(RM)处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度。(2)NodeManager(NM)主要负责管理节点上的资源,同时对ResourceManager的命令、ApplicationMaster的命令进行处理。
第二章相关理论与技术15它是一个分布式图处理框架,使得Spark可以对大规模的图进行挖掘计算。图2-6Spark体系架构Fig.2-6Sparkarchitecture2.4.2SparkCoreSparkCore[51]实现了Spark的基本功能,其中弹性分布式数据集RDD(ResilientDistributedDatasets)是Spark中最核心的思想。RDD是一种并行数据结构,同时它也是只读的不允许修改的。较Hadoop的MapReduce框架来说,它将计算的中间数据缓存在内存中,而不是需要花费大量的时间在硬盘读写的I/O上,理论上运行速度可以提高100倍,大大的优化了数据迭代时的负载。由于RDD是只读的,所以创建它主要包含以下三种方式。(1)通过使用外部存储系统(常用的有HDFS、HBase、Hive等分布式文件系统,HDFS是最常用的生产环境处理方式。(2)通过已有的RDD进行转换操作,最后用行动操作生成新的RDD。(3)利用驱动程序中已存在的Scala集合创建RDD(主要用于测试)。RDD主要包括两种操作,分别为转换(Transformation)操作和行动(Action)操作。Transformation操作是将现有RDD通过转换操作后返回一个新的RDD,转换操作的输入和输出都是RDD,常见的Transformation操作如表2-1所示。表2-1常用转换算子Table2-1Commontransformationoperators相关算子作用map将函数应用到RDD中的每一个元素,返回值构成新RDDfilter用于条件过滤,返回新的RDDgroupBykey对具有相同键的值进行分组reduceByKey对(key,value)形式把key相同的数据value进行处理Join对两个RDD进行内连接
【参考文献】:
期刊论文
[1]基于Hadoop的GA-BP算法在降水预测中的应用[J]. 勾志竟,任建玲,徐梅,王敏. 计算机系统应用. 2019(09)
[2]基于改进DBScan算法的雷暴挖掘与研究[J]. 高攀,田浩,李健,陶汉涛,王钊,姜志博. 高压电器. 2019(04)
[3]基于LLS的雷暴运动趋势临近预测[J]. 黄礼忠,苏盛,杨鑫,胡军,刘正谊. 电瓷避雷器. 2019(01)
[4]Application and Research of Meteorological Data in Lightning Protection Technical Service of Oil Depot[J]. Liu Fengjiao,He Qiuyan,Tang Yao,Su Kai,Liu Yueyu. Meteorological and Environmental Research. 2019(01)
[5]面向大规模中文文本分类的朴素贝叶斯并行Spark算法(英文)[J]. 刘鹏,赵慧含,滕家雨,仰彦妍,刘亚峰,朱宗卫. Journal of Central South University. 2019(01)
[6]一种基于CNN和RNN深度神经网络的天气预测模型——以北京地区雷暴的6小时临近预报为例[J]. 倪铮,文韬. 数值计算与计算机应用. 2018(04)
[7]云南省雷电活动分布特征及对农村地区的影响分析[J]. 杨宗凯,刘平英,胡颖,周清倩,庄嘉. 中国农业资源与区划. 2018(09)
[8]银东线雷电防护线路避雷器开发与应用[J]. 万帅,曹伟,陈家宏,谷山强,王剑,吕军. 高电压技术. 2018(05)
[9]Spark Streaming框架下的气象自动站数据实时处理系统[J]. 赵文芳,刘旭林. 计算机应用. 2018(01)
[10]基于Spark的并行K-means气象数据挖掘研究[J]. 李莉,王小刚. 信息技术. 2017(09)
硕士论文
[1]聚类算法在雷电预警及雷灾分析中的应用[D]. 路郁.南京信息工程大学 2014
本文编号:3446297
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3446297.html
最近更新
教材专著