当前位置:主页 > 理工论文 > 气象学论文 >

分类算法在内蒙古沙尘暴预测中的应用研究

发布时间:2020-11-19 22:24
   随着信息化的发展,大数据时代的来临,全球信息数据量的迅猛增长成为大数据产业发展的基础。市场调研机构IDC预计,未来全球数据总量将会一直维持在一个较高的水平,而我国作为信息化产业大国,数据信息来自于各行各业。其中气象部门每天都会收到大量的数据资料。如何从海量数据中提取有用的信息,并为我们创造价值,已经成为一个关键的问题。因此,如何利用气象数据通过数据挖掘技术建立高效的沙尘暴预测模型已成为各国学者们的研究重点。本文研究课题是分类算法在内蒙古气象数据挖掘中的应用研究,在近50年的中国地面气候资料日值数据集与中国强沙尘暴序列及其支撑数据集中筛选出内蒙古地区的气象数据。以此为研究对象。首先,为了解决海量数据的存储与批处理问题,搭建了Hadoop分布式平台与数据仓库平台hive。以HDFS为底层存储,通过编写HQL语句操作海量数据,从而在Hadoop平台完成数据预处理工作。然后根据属性值的缺失率与属性间的相关性,对预处理后的数据集进行降维并得到实验数据集。通过分析沙尘暴发生的频率,结合过采样与下采样方法对实验数据集做了一定的调整,也便于进行下一步分类模型的建立。本文针对沙尘暴数据集采用了目前被广泛使用的BP神经网络算法、SVM支持向量机算法、朴素贝叶斯算法建立分类预测模型。并对各个算法的预测准确率与可伸缩性进行分析和比较。最后,针对更适用于大规模数据集的朴素贝叶斯分类算法,结合属性重要度与Adaboost算法框架,从属性的独立性条件与分类决策两方面优化传统的朴素贝叶斯算法。提出了加权Adaboost-NBC分类方法。实验证明,改进后的算法相比于传统的单一分类器在性能上有一定的提高。
【学位单位】:内蒙古工业大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP181;P425.55
【部分图文】:

三层网络结构


BP 神经网络模型的拓扑结构通常包含输入层(input)、隐藏层(hide layer)和输出层(output layer)。以三层 BP 神经网络模型为例,其结构如下:图2-1 三层网络结构Figure 2-1 Three layer network structureBP 网络结构中相邻两层之间的节点两两连接,同层节点之间并无连接,每层节点的输出值会影响下一层节点的输出。BP 神经网络算法的主要思想是:输入学习样本,通过逆向反馈调整网络的权值和偏置值,从而达到输出向量值与期望值尽可能地接近,当网络输出层的误差平方和小于指定的误差或者达到最大训练次数时模型训练完成,保存网络的权值和偏置值。训练结束。此时将测试样本信息输入经过训练的神经网络即可根据网络的权值和偏置值进行处理并输出误差最小且经过非线形变换的预测信息。一个 BP 神经网络的训练过程,实际上就是通过外界输入样本的不断刺激来调整网络的权重和偏置值,使得网络的预测输出值不断靠近期望输出值,BP 神经网络的具体训练过程分为两部分:前向传输与逆向反馈。前向传输:BP 网络训练开始之前,首先需要初始化网络的权值和偏置值,权值取[-1,1]之间的随机数

函数图像,函数图像


图 2-2 Sigmod 函数图像Figure 2-2 Sigmod function diagram络训练过程神经网络,应预先确定神经网络拓扑结构(的个数和层与层之间的激活函数),然后要两层神经网络来描述 BP 神经网络的训练层的权值 w 和阈值 b 的初始值,与网络训um,innum);%初始化网络权值um,1);%初始化阈值最大训练次数率(默认为 0.1)输出:假设隐含层中的神经元采用 tansig含层输出与输出层输出分别为 A1,A2,误p,b1)

最优分类超平面


第二章 相关理论和技术概念2'+alfa*(b2_1-b2_2);差 e 是否小于训练目标 goal 或者训练结束;否则继续。机算法型原理中常见的应用,而支持向量机是一种类问题。但实际应用中大多属于多分分类问题。在支持向量机中,每个数据个 p-1 维的超平面将这样的数据点进是最好的超平面是不仅可以将数据其基本思想可以用如下的图 2-3 进行
【参考文献】

相关期刊论文 前10条

1 曹莹;苗启广;刘家辰;高琳;;AdaBoost算法研究进展与展望[J];自动化学报;2013年06期

2 殷勇华;张雨浓;;切比雪夫神经网络权值与结构确定及其分类应用[J];软件;2012年11期

3 郭鸿;黄桂敏;周娅;;基于Kademlia的下关联规则挖掘算法研究[J];计算机工程与设计;2011年01期

4 张珍珍;董才林;陈增照;何秀玲;;改进的结合密度聚类的SVM快速分类方法[J];计算机工程与应用;2011年02期

5 丁春荣;李龙澍;杨宝华;;基于粗糙集的决策树构造算法[J];计算机工程;2010年11期

6 郭亚琴;王正群;;一种改进的支持向量机BS-SVM[J];微电子学与计算机;2010年06期

7 康玲;孙鑫;侯婷;沈建国;郭瑞清;;内蒙古地区沙尘暴的分布特征[J];中国沙漠;2010年02期

8 王勇;张伟;;一种基于分类的关联规则研究[J];计算机科学;2008年07期

9 石扬;张燕平;赵姝;张玲;田福生;汪小寒;;基于商空间的气象时间序列数据挖掘研究[J];计算机工程与应用;2007年01期

10 李集明;沈文海;王国复;;气象信息共享平台及其关键技术研究[J];应用气象学报;2006年05期


相关硕士学位论文 前4条

1 周乐安;气象数据分析系统的设计与预报应用[D];杭州电子科技大学;2016年

2 王猛;大数据分析仓库Hive存储结构扩展的设计和实现[D];上海交通大学;2015年

3 郎宇宁;基于支持向量机的多分类方法研究及应用[D];西南交通大学;2010年

4 张智顺;基于粗糙集理论在数据挖掘中的研究与应用[D];贵州大学;2009年



本文编号:2890524

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/qxxlw/2890524.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户40207***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com