Hadoop下基于DAG-SVM算法的降水量预测研究
本文关键词:Hadoop下基于DAG-SVM算法的降水量预测研究
更多相关文章: Hadoop云平台 降水量预测 PDAG-SVM 负载均衡 公平调度
【摘要】:随着科学技术的快速发展,气象行业也朝着信息化的方向飞速发展。尤其是近些年来,云计算的大力推广,不仅为气象行业处理海量气象数据提供了更为高效的解决方法,还为气象部门对灾害的提前预警提供了更为有效的预测方案。但是,目前我们使用的降水量预测方法存在一定的缺陷,要求气象数据属性之间独立,但是很多气象要素之间并不独立,这就导致了预测准确性的降低。云计算的出现和快速发展为海量气象数据的存储和分析提供了更为高效、可靠的技术支撑。本文根据气象预报或者灾害预警对降水量预测的具体要求,主要做了如下工作:针对降水量预测的精度要求,对传统有向无环图支持向量机(DAG-SVM)算法做出了改进。传统的DAG-SVM多分类算法结构固定、单个节点位置随意,容易引起”误差累积”。本文通过预先计算每个二分类器的分类精度,形成分类精度队列。将分类精度最高的二分类器作为有向无环图的根节点,并选取分类精度次高的二分类器作为下层节点,依次排列,最终形成的有向无环图可以有效的避免上层节点分类错误引起的”误差累积”。针对降水量预测的效率要求,引入Hadoop作为预测平台,并对Hadoop平台的作业调度机制提出了改进方法。由于历年累计的降水量数据非常庞大,单机处理数据、存储数据的能力已经不能满足降水量预测的效率需求。Hadoop云平台可以并行处理数据,系统磁盘空间可通过增加节点数量进行有效的扩展,能够很好的胜任预测任务。但是由于Hadoop平台自有的公平作业调度器在分配任务时,简单的在各个计算节点之间平分计算任务,没有考虑到各个节点上的负载情况,常常造成由于某单个节点上单个任务完成时间过长,导致整个大任务完成时间大大加长的现象。本文通过在公平作业调度机制中引入负载均衡算法,合理分配计算资源,有效的克服了这一缺陷。实验结果表明该方法可以有效的提高大任务的执行效率。最后在改进后的Hadoop平台上,运用预处理有向无环图支持向量机(PDAG-SVM)算法,对降水量做出预测。本文提出以南京站1951-2006年8月的气象数据为研究数据,将这些气象数据分成训练集和预测集。1951-2005年的气象数据作为训练集;2006年1-8月的气象数据作为预测集。根据气象数据中的降水量进行分类,对气象数据进行预处理。实验结果表明,本文采用的方法在预测精度和预测效率上都取得了令人满意的结果。
【关键词】:Hadoop云平台 降水量预测 PDAG-SVM 负载均衡 公平调度
【学位授予单位】:南京信息工程大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:P457.6;TP18
【目录】:
- 摘要5-7
- ABSTRACT7-9
- 第一章 绪论9-17
- 1.1 研究背景及意义9-11
- 1.2 国内外研究现状11-15
- 1.2.1 国内现状研究11-13
- 1.2.2 国外现状研究13-14
- 1.2.3 存在问题14-15
- 1.3 论文组织结构15-16
- 1.4 本章小结16-17
- 第二章 相关理论及方法17-29
- 2.1 支持向量机算法基本思想17-20
- 2.2 有向无环图支持向量机算法概述20-21
- 2.3 Hadoop平台介绍21-28
- 2.3.1 Hadoop平台基础知识及其组件介绍21-27
- 2.3.2 Hadoop平台作业调度机制介绍27-28
- 2.4 本章小结28-29
- 第三章 PDAG-SVM算法的分类效果分析29-39
- 3.1 预处理有向无环图支持向量机(PDAG-SVM)算法29-32
- 3.2 实验过程32-37
- 3.2.1 算法评价指标33
- 3.2.2 实验结果33-37
- 3.3 实验结果分析37-38
- 3.4 本章小结38-39
- 第四章 Hadoop平台下基于公平份额的负载均衡调度算法39-53
- 4.1 改进Hadoop平台下公平份额调度算法的必要性39
- 4.2 基于公平份额的负载均衡调度算法概述39-48
- 4.2.1 算法数学模型40-44
- 4.2.2 算法流程图44-45
- 4.2.3 算法伪代码45-48
- 4.3 实验结果与分析48-51
- 4.4 本章小结51-53
- 第五章 Hadoop下基于PDAG-SVM算法的降水量预测53-62
- 5.1 实验目的53
- 5.2 实验设计思路53
- 5.3 实验数据准备53-57
- 5.3.1 数据预处理54
- 5.3.2 HDFS存储气象数据过程54-56
- 5.3.3 MapReduce数据预处理56-57
- 5.4 实验平台搭建57-60
- 5.4.1 相关工具57-58
- 5.4.2 实验环境58-60
- 5.5 实验结果60-61
- 5.6 本章小结61-62
- 第六章 总结与展望62-64
- 6.1 全文总结62-63
- 6.2 展望63-64
- 参考文献64-67
- 作者简介67-68
- 致谢68
【相似文献】
中国期刊全文数据库 前6条
1 任远鹏;;基于Hadoop的移动学习模型设计与实现[J];渤海大学学报(自然科学版);2013年04期
2 郭双宙;;基于Hadoop和Mahout的分布式推荐引擎的设计[J];科技情报开发与经济;2014年07期
3 柳香;李俊红;段胜业;;基于混沌PSO算法的Hadoop配置优化[J];计算机工程;2012年11期
4 王志力;;云计算下Hadoop平台的搭建与实践[J];中国科技信息;2014年09期
5 谭洁清;毛锡军;;Hadoop云计算基础架构的搭建和hbase和hive的整合应用[J];贵州科学;2013年05期
6 ;[J];;年期
中国重要报纸全文数据库 前8条
1 本报记者 郭涛;机器大数据也离不开Hadoop[N];中国计算机报;2013年
2 本报记者 王星;Hadoop引发大数据之战[N];电脑报;2012年
3 本报记者 邹大斌;Hadoop一体机降低大数据门槛[N];计算机世界;2012年
4 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年
5 乐天 编译;Hadoop:打开大数据之门的金钥匙[N];计算机世界;2012年
6 范范 编译;Hadoop用户可以使用多种搜索引擎[N];网络世界;2013年
7 波波 编译;Hadoop、Web 2.0为磁带带来新商机[N];网络世界;2013年
8 本报记者 郭涛;让更多人能够使用Hadoop[N];中国计算机报;2012年
中国博士学位论文全文数据库 前1条
1 宋亚奇;云平台下电力设备监测大数据存储优化与并行处理技术研究[D];华北电力大学(北京);2016年
中国硕士学位论文全文数据库 前10条
1 刘君;基于Hadoop技术的气象数据采集及数据挖掘平台的研究[D];天津理工大学;2015年
2 谭旭;基于物流数据的快递网络分析与建模[D];浙江大学;2015年
3 赵伟;基于Hadoop的数据挖掘算法并行化研究[D];西南交通大学;2015年
4 赵振崇;基于Hadoop的决策树挖掘算法的研究[D];兰州大学;2015年
5 郭凯振;基于Hadoop的分布式计算系统的设计与实现[D];大连海事大学;2015年
6 白亮;基于Hadoop的民航高价值旅客发现方法研究[D];中国民航大学;2015年
7 席屏;基于Hadoop的视频大数据智能预警系统应用研究[D];江苏科技大学;2015年
8 董立明;基于HADOOP的分布式推荐引擎[D];复旦大学;2013年
9 陆艺达;基于Hadoop分布式计算框架的垃圾短信群发检测系统[D];复旦大学;2013年
10 沈德利;基于Hadoop的密文检索关键技术研究[D];西安电子科技大学;2014年
,本文编号:1007824
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1007824.html