基于机器学习的多气象相态反演方法研究
发布时间:2021-03-31 03:40
气象与人类衣食住行密不可分,观测气象相态有利于促进国民发展。目前气象要素预报算法的主要手段是数值预报。其实质就是通过利用高性能电脑对大气运动的偏微分方程进行计算,根据某一区域的气候背景和天气演变规律,推算该区域几个小时后,几天后,甚至是几周后的环流形势,并进行一个定性或者定量的预报。然而气象要素预报现阶段也存在一定问题。本论文以机器学习作为主要算法,力求在多气象相态判别问题上有所突破。首先根据所获得的气象数据分析其特点,了解气象学知识,结合专业人员知识经验,选取所需要的气象要素数据并处理为有效数据集。然后设计适用于多气象相态分类模型,判别未来某一时间段内某气象要素的预测结果。主要工作如下:1.收集整理了一套适用于机器学习训练的气象相态数据集。首先收集中国区域范围1996年至2015年的地面填图气象要素数据和温度对数压力数据,并进行匹配,接着剔除异常缺失数据以及两份数据集不匹配部分。最后与气象专业人员沟通后舍弃对分类判别结果不起作用的气象要素,降低数据维度,最终得到38种气象要素作为数据源。2.提出了新的气象相态分类模型,此模型结合了支持向量机算法、粒子群优化算法以及梯度均衡机制。支持向...
【文章来源】:湖南师范大学湖南省 211工程院校
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
SVM算法思路图
硕士学位论文82.2.2决策树算法理论基础决策树算法[18]在20世纪60年代被提出并一直运用、发展至今,是近阶段经常被使用的一种数据挖掘算法。该算法是一种逼近离散函数值的典型分类方法,通过加入一系列的规则对数据进行分类。该算法主要包含有选择特征、生成决策树以及剪枝三个模块。总览决策树算法的诸多典型算法,ID3算法以及在ID3算法的基础上完善、改进的C4.5及CART算法较为常见。图2-2为决策树算法思路图中,其步骤为:1.将样本数据中所有的特征属性看成一个一个的节点2.对所有特征属性计算它们的基尼系数,取基尼系数值最小的属性为决策树的根节点属性,将数据划分为不同的子节点3.递归所有特征属性,在选取第一个属性的基础上,重新选取一个新的属性继续划分,直到把所有特征属性都划分完决策树算法构建的停止条件:1.当子节点中只有一种类型的时候停止构建决策树。2.当前节点样本数量少于所需最小样本数,或大于最大叶节点数。图2-2决策树算法思路图2.2.3逻辑回归算法理论基础逻辑回归算法[19]是一种经典的二分类算法。该算法原理是线性回归,优点在于能较好的寻找“危险因素”。现阶段在大数据运用、医疗救治等方面应用相对广泛。该算法在原理上利用已知量推测未知量。如二进制零或者一,对或者错,有或者无等,预测一个0-1之间的数值,来推论与数值相对应的预测结果。逻辑回归的算法步骤如下:(1)选择预测函数。选择的预测函数是具备预测结果的分类函数。(2)构造损失函数。构造的该函数综合选择预测函数与训练类别的“损失”。(3)损失函数数值越小,表明该算法预测的结果越精准。逻辑回归算法有很多优点,如简单、高效、可解释性高,不同特征权重可直接明了查看对结果影响;训练速度快;占用内存小等。但是也存在
基于机器学习的多气象相态反演方法研究9率不是很高;很难处理数据不平衡问题,对正负样本的区分能力不强。2.3处理样本不平衡方法样本不平衡是指样本中给定数据集的数据多少存在差异,且差异样本存在较大的比例。样本的不平衡会导致在提取样本规律以及在确定模型的准确率上出现一定程度的误差。对于多气象相态分类器来说,简单样本的数量非常大,他们产生的累计贡献在模型更新中占主导作用,而这部分样本本身就能被模型很好地分类,所以这部分的参数更新并不会改善模型的判断能力,这会导致整个训练变得低效。近年来不少研究者针对样本不均衡问题进行深入了研究,目前比较典型的有在线困难样本挖掘(OHEM)、基于对抗生成网络的方式来生成困难样本、FocalLoss、梯度均衡机制(GHM)。2.3.1在线困难样本挖掘算法(OHEM)在线困难样本挖掘算法[20](OHEM)是较好的处理样本不平衡的算法之一。该算法于2016年,在三大世界顶级计算机视觉会议之一的国际计算机视觉与模式识别会议上发表,近几年得到了较好的发展。该算法的核心原理就是自动筛选困难样本(即不平衡样本)。在算法实际操作中,将原来的一个ROINetwork扩充为两个。这两个共享参数。前一个ROINetwork计算损失,只具备向前操作;后面一个ROINetwork输入样本回传梯度,前后向操作均可。该算法在目标检测框架中被大量使用,如FastRCNN。在线挖掘算法流程图如图2-3所示。该算法的优点:1针对数据类别不平衡问题的解决更加简洁、高效。2数据类别越大,算法的优越性越突出。该算法的缺点:对简单样本的判别能力不高。图2-3在线困难挖掘算法流程图
本文编号:3110714
【文章来源】:湖南师范大学湖南省 211工程院校
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
SVM算法思路图
硕士学位论文82.2.2决策树算法理论基础决策树算法[18]在20世纪60年代被提出并一直运用、发展至今,是近阶段经常被使用的一种数据挖掘算法。该算法是一种逼近离散函数值的典型分类方法,通过加入一系列的规则对数据进行分类。该算法主要包含有选择特征、生成决策树以及剪枝三个模块。总览决策树算法的诸多典型算法,ID3算法以及在ID3算法的基础上完善、改进的C4.5及CART算法较为常见。图2-2为决策树算法思路图中,其步骤为:1.将样本数据中所有的特征属性看成一个一个的节点2.对所有特征属性计算它们的基尼系数,取基尼系数值最小的属性为决策树的根节点属性,将数据划分为不同的子节点3.递归所有特征属性,在选取第一个属性的基础上,重新选取一个新的属性继续划分,直到把所有特征属性都划分完决策树算法构建的停止条件:1.当子节点中只有一种类型的时候停止构建决策树。2.当前节点样本数量少于所需最小样本数,或大于最大叶节点数。图2-2决策树算法思路图2.2.3逻辑回归算法理论基础逻辑回归算法[19]是一种经典的二分类算法。该算法原理是线性回归,优点在于能较好的寻找“危险因素”。现阶段在大数据运用、医疗救治等方面应用相对广泛。该算法在原理上利用已知量推测未知量。如二进制零或者一,对或者错,有或者无等,预测一个0-1之间的数值,来推论与数值相对应的预测结果。逻辑回归的算法步骤如下:(1)选择预测函数。选择的预测函数是具备预测结果的分类函数。(2)构造损失函数。构造的该函数综合选择预测函数与训练类别的“损失”。(3)损失函数数值越小,表明该算法预测的结果越精准。逻辑回归算法有很多优点,如简单、高效、可解释性高,不同特征权重可直接明了查看对结果影响;训练速度快;占用内存小等。但是也存在
基于机器学习的多气象相态反演方法研究9率不是很高;很难处理数据不平衡问题,对正负样本的区分能力不强。2.3处理样本不平衡方法样本不平衡是指样本中给定数据集的数据多少存在差异,且差异样本存在较大的比例。样本的不平衡会导致在提取样本规律以及在确定模型的准确率上出现一定程度的误差。对于多气象相态分类器来说,简单样本的数量非常大,他们产生的累计贡献在模型更新中占主导作用,而这部分样本本身就能被模型很好地分类,所以这部分的参数更新并不会改善模型的判断能力,这会导致整个训练变得低效。近年来不少研究者针对样本不均衡问题进行深入了研究,目前比较典型的有在线困难样本挖掘(OHEM)、基于对抗生成网络的方式来生成困难样本、FocalLoss、梯度均衡机制(GHM)。2.3.1在线困难样本挖掘算法(OHEM)在线困难样本挖掘算法[20](OHEM)是较好的处理样本不平衡的算法之一。该算法于2016年,在三大世界顶级计算机视觉会议之一的国际计算机视觉与模式识别会议上发表,近几年得到了较好的发展。该算法的核心原理就是自动筛选困难样本(即不平衡样本)。在算法实际操作中,将原来的一个ROINetwork扩充为两个。这两个共享参数。前一个ROINetwork计算损失,只具备向前操作;后面一个ROINetwork输入样本回传梯度,前后向操作均可。该算法在目标检测框架中被大量使用,如FastRCNN。在线挖掘算法流程图如图2-3所示。该算法的优点:1针对数据类别不平衡问题的解决更加简洁、高效。2数据类别越大,算法的优越性越突出。该算法的缺点:对简单样本的判别能力不高。图2-3在线困难挖掘算法流程图
本文编号:3110714
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/3110714.html