基于机器学习的高分辨率海洋水温模型研究
发布时间:2021-11-19 15:34
机器学习作为一门涉及众多数学和计算机学科的经典交叉学科,其理论与方法已经被工程界和科学界广泛应用于复杂的工程或领域问题。在经过大半个世纪的曲折发展后,以深度学习、集成学习、贝叶斯学习、支持向量机等为代表的机器学习算法的自适应、自学习式的信息分析处理机制,在医学、农学、军事学,尤其是计算机视觉和自然语言处理等领域都获得了突破性进展。海洋科学方向是机器学习方法研究与应用的一个新兴方向,而物理海洋学是该方向研究的一个分支。随着各国对海洋研究的大量投入以及海洋物理观测工具和手段的不断提升,海洋中越来越多的物理信息正在被我们所掌握,因此基于数据驱动型的研究方法开始广泛流行于物理海洋学研究之中。如何有效利用观测到的现有海洋物理信息去预测未观测点的信息,是海洋科学和计算机信息处理研究人员有待解决的难题之一。本文将介绍利用层次聚类、随机森林、变分自编码器等机器学习方法,深入研究海洋温度的空间分布规律,力求通过机器学习方法提高现有海洋水温数据的空间分辨率,为进一步的海洋温跃层研究提供数据支撑。本文的主要研究内容为:(1)针对现有海洋水温模型低分辨率问题,提出了一种基于层次聚类和随机森林的高分辨率海洋水温...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
Bagging算法流程图[61]
第2章随机森林和深度学习理论基础11图2.1Bagging算法流程图[61]Boosting算法是一种用来提高弱学习器准确度的算法,它通过迭代使用弱学习器的结果并将其加入到一个最终的学习器中,产生性能远高于弱学习器的强学习器。这里的弱学习器是指准确度只略高于随机猜测的学习器,强学习器指准确度非常接近100%的的学习器。Boosting系列算法的研究意义在于实际应用中弱学习器相较于强学习器而言更容易获得。该算法除第一个弱学习器外,之后的每一个弱学习器都需要对前一个学习器中未被正确预测的样本进行学习,即将主分类器无法正确进行分类的对象传递给辅助分类器,这能有效提高模型的准确性,但同时也导致模型的方差增大。为了降低弱学习器之间的相关性带来的模型方差高问题,可以采样随机采样的方法进行采样。图2.2展示了Boosting算法的算法流程图。算法迭代地运行一个弱学习器来训练未被上一个弱学习器正确分类的数据和原始采样数据得到的训练集,然后将迭代产生的弱学习器按照一定的组合策略组成一个强学习器。图2.2Boosting算法流程图[61]
第2章随机森林和深度学习理论基础12Stacking也称StackedGeneralization,它是最小化一个或多个基学习器泛化误差的解决方案[62]。Ting等解决了Stacking在分类任务中的两个关键性问题:适用于推导出不需要知道基学习器性能这一先验知识的更高级模型的一般化类型;模型应该使用什么样的属性类型作为输入[63]。Sigletos等分析了投票法和Stacking方法的有效性,结果表明投票法在大多数领域都是有效的,Stacking在所有领域都被证明是有效的,甚至有时候做得比投票法更好[64]。图2.3是Stacking算法的流程图。该算法首先在原始训练集上通过一定的采样方法得到若干个训练子集,然后对这若干个训练子集使用不同的基学习器算法进行训练,这样就得到了若干个基学习器,最后将这些基学习器的输出用来训练,得到最终的输出结果。图2.3Stacking算法流程图[61]2.基学习器的组合策略集成方法的有效性在很大程度上取决于基础学习者的准确性、多样性和学习特征[65][66]。基学习器的组合策略作为建立集成学习系统的最后一步,常见的方法有投票法和平均法是两种。投票法通常包含两种简单投票法和一种加权投票法。简单投票法又包括绝对多数投票法和相对多数投票。在绝对多数投票法中,若存在某一类别所获得的票数超过基学习器数量的一半,则该类为模型的最终输出结果,否则模型拒绝给出预测结果。在相对多数投票中,则将获得票数最多的类别作为模型的最终预测结果,若多个类别获得相同的票数且票数并列第一,则随机选择其中一个类别作为模型的预测结果。加权投票法[67]根据基学习器的误差,为每一个基学习器的结果设定一个权重,权值的大小与基学习器的误差成反比,则M个基学习器的加权投票法用公式可以表示为:
【参考文献】:
期刊论文
[1]监督学习中的损失函数及应用研究[J]. 邓建国,张素兰,张继福,荀亚玲,刘爱琴. 大数据. 2020(01)
[2]随机森林算法研究综述[J]. 吕红燕,冯倩. 河北省科学院学报. 2019(03)
[3]一种基于聚类约简决策树的改进随机森林算法[J]. 王诚,王凯. 南京邮电大学学报(自然科学版). 2019(03)
[4]聚类算法综述[J]. 章永来,周耀鉴. 计算机应用. 2019(07)
[5]一种非平衡数据分类的过采样随机森林算法[J]. 赵锦阳,卢会国,蒋娟萍,袁培培,柳学丽. 计算机应用与软件. 2019(04)
[6]集成学习方法:研究综述[J]. 徐继伟,杨云. 云南大学学报(自然科学版). 2018(06)
[7]一种处理非平衡数据集的优化随机森林分类方法[J]. 马海荣,程新文. 微电子学与计算机. 2018(11)
[8]激活函数在卷积神经网络中的对比研究[J]. 田娟,李英祥,李彤岩. 计算机系统应用. 2018(07)
[9]深度学习相关研究综述[J]. 张军阳,王慧丽,郭阳,扈啸. 计算机应用研究. 2018(07)
[10]深度学习发展综述[J]. 侯宇青阳,全吉成,王宏伟. 舰船电子工程. 2017(04)
博士论文
[1]随机森林算法优化研究[D]. 曹正凤.首都经济贸易大学 2014
硕士论文
[1]菲律宾海域夏季水文特征及其水团分析[D]. 刘超.西安电子科技大学 2019
[2]基于变分自编码器生成模型的图像加密[D]. 刘京京.河南师范大学 2018
[3]基于高斯混合模型的变分自动编码器[D]. 李鹏.哈尔滨工业大学 2017
[4]随机森林算法处理不平衡数据的改进及其并行化[D]. 钟龙申.广东工业大学 2016
本文编号:3505337
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
Bagging算法流程图[61]
第2章随机森林和深度学习理论基础11图2.1Bagging算法流程图[61]Boosting算法是一种用来提高弱学习器准确度的算法,它通过迭代使用弱学习器的结果并将其加入到一个最终的学习器中,产生性能远高于弱学习器的强学习器。这里的弱学习器是指准确度只略高于随机猜测的学习器,强学习器指准确度非常接近100%的的学习器。Boosting系列算法的研究意义在于实际应用中弱学习器相较于强学习器而言更容易获得。该算法除第一个弱学习器外,之后的每一个弱学习器都需要对前一个学习器中未被正确预测的样本进行学习,即将主分类器无法正确进行分类的对象传递给辅助分类器,这能有效提高模型的准确性,但同时也导致模型的方差增大。为了降低弱学习器之间的相关性带来的模型方差高问题,可以采样随机采样的方法进行采样。图2.2展示了Boosting算法的算法流程图。算法迭代地运行一个弱学习器来训练未被上一个弱学习器正确分类的数据和原始采样数据得到的训练集,然后将迭代产生的弱学习器按照一定的组合策略组成一个强学习器。图2.2Boosting算法流程图[61]
第2章随机森林和深度学习理论基础12Stacking也称StackedGeneralization,它是最小化一个或多个基学习器泛化误差的解决方案[62]。Ting等解决了Stacking在分类任务中的两个关键性问题:适用于推导出不需要知道基学习器性能这一先验知识的更高级模型的一般化类型;模型应该使用什么样的属性类型作为输入[63]。Sigletos等分析了投票法和Stacking方法的有效性,结果表明投票法在大多数领域都是有效的,Stacking在所有领域都被证明是有效的,甚至有时候做得比投票法更好[64]。图2.3是Stacking算法的流程图。该算法首先在原始训练集上通过一定的采样方法得到若干个训练子集,然后对这若干个训练子集使用不同的基学习器算法进行训练,这样就得到了若干个基学习器,最后将这些基学习器的输出用来训练,得到最终的输出结果。图2.3Stacking算法流程图[61]2.基学习器的组合策略集成方法的有效性在很大程度上取决于基础学习者的准确性、多样性和学习特征[65][66]。基学习器的组合策略作为建立集成学习系统的最后一步,常见的方法有投票法和平均法是两种。投票法通常包含两种简单投票法和一种加权投票法。简单投票法又包括绝对多数投票法和相对多数投票。在绝对多数投票法中,若存在某一类别所获得的票数超过基学习器数量的一半,则该类为模型的最终输出结果,否则模型拒绝给出预测结果。在相对多数投票中,则将获得票数最多的类别作为模型的最终预测结果,若多个类别获得相同的票数且票数并列第一,则随机选择其中一个类别作为模型的预测结果。加权投票法[67]根据基学习器的误差,为每一个基学习器的结果设定一个权重,权值的大小与基学习器的误差成反比,则M个基学习器的加权投票法用公式可以表示为:
【参考文献】:
期刊论文
[1]监督学习中的损失函数及应用研究[J]. 邓建国,张素兰,张继福,荀亚玲,刘爱琴. 大数据. 2020(01)
[2]随机森林算法研究综述[J]. 吕红燕,冯倩. 河北省科学院学报. 2019(03)
[3]一种基于聚类约简决策树的改进随机森林算法[J]. 王诚,王凯. 南京邮电大学学报(自然科学版). 2019(03)
[4]聚类算法综述[J]. 章永来,周耀鉴. 计算机应用. 2019(07)
[5]一种非平衡数据分类的过采样随机森林算法[J]. 赵锦阳,卢会国,蒋娟萍,袁培培,柳学丽. 计算机应用与软件. 2019(04)
[6]集成学习方法:研究综述[J]. 徐继伟,杨云. 云南大学学报(自然科学版). 2018(06)
[7]一种处理非平衡数据集的优化随机森林分类方法[J]. 马海荣,程新文. 微电子学与计算机. 2018(11)
[8]激活函数在卷积神经网络中的对比研究[J]. 田娟,李英祥,李彤岩. 计算机系统应用. 2018(07)
[9]深度学习相关研究综述[J]. 张军阳,王慧丽,郭阳,扈啸. 计算机应用研究. 2018(07)
[10]深度学习发展综述[J]. 侯宇青阳,全吉成,王宏伟. 舰船电子工程. 2017(04)
博士论文
[1]随机森林算法优化研究[D]. 曹正凤.首都经济贸易大学 2014
硕士论文
[1]菲律宾海域夏季水文特征及其水团分析[D]. 刘超.西安电子科技大学 2019
[2]基于变分自编码器生成模型的图像加密[D]. 刘京京.河南师范大学 2018
[3]基于高斯混合模型的变分自动编码器[D]. 李鹏.哈尔滨工业大学 2017
[4]随机森林算法处理不平衡数据的改进及其并行化[D]. 钟龙申.广东工业大学 2016
本文编号:3505337
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/3505337.html