当前位置:主页 > 科技论文 > 软件论文 >

基于Hadoop平台的气象数据挖掘研究

发布时间:2019-05-18 18:56
【摘要】:随着互联网、计算和存储技术的快速发展,气象部门存储的气象数据量日益剧增,我国每年新增的气象资料达到PB量级,同时气象数据类型相对复杂,这使得传统的数据存储和处理技术不能很好解决目前用户的需求。当前国内外许多研究团队都致力于归纳分析这些海量数据,并从中挖掘出具有现实意义的气象规律或模式。近几年,云计算技术作为互联网领域的新产物,它为海量数据存储和处理提供了新的契机,它在海量数据挖掘技术领域中具有显著的优势,且已经得到了广泛的应用。云计算的总体思路是利用网络互联技术将若干台计算机连接在一起,实现对资源集中管理和统一调度,相当于形成一个资源池,以此按用户需求为其提供服务。Hadoop技术作为云计算软件平台中处理数据的一种解决方案,它具有高容错、高吞吐量、低成本等特点,将传统的数据挖掘技术移植到Hadoop云平台上,实现了低成本高效率的数据挖掘过程,这也已经成为气象数据挖掘研究方向的一个趋势。本文深入研究了基于Hadoop平台的数据挖掘方法以及气象资料的特性,针对现有的贝叶斯分类数据挖掘方法存在的一些不足,结合Hadoop云平台处理海量数据的优势,提出了基于MapReduce的贝叶斯网络分类改进算法,为此,本文主要做了如下研究:(1)针对气象数据的大规模特性,本文采用了 Hadoop平台对气象原始数据集进行预处理和计算任意两个特征属性之间的相关系数,利用相关分析技术选取预测属性,在一定程度上减少模型训练的复杂度。(2)分析典型气象数据挖掘分类算法的优劣性,针对气象数据的关联特性,本文采用了贝叶斯网络分类算法,它的提出就是为了解决事物的不确定性和关联性,较其他分类算法更适合气象数据分析。(3)在贝叶斯分类模型训练过程中,采用了精度评估,对不满足精度要求的模型采用迭代训练,并不断修改模型参数,以便获得较优的分类模型,并对测试集进行分类实验。实验结果表明,改进算法较现有的算法在计算效率和性能上均有一定的提高。
[Abstract]:With the rapid development of Internet, computing and storage technology, the meteorological data stored by meteorological departments is increasing day by day. The new meteorological data in China reach the order of PB every year, and the types of meteorological data are relatively complex. This makes the traditional data storage and processing technology can not solve the needs of current users. At present, many research teams at home and abroad are committed to summing up and analyzing these massive data, and mining out the meteorological laws or patterns of practical significance. In recent years, cloud computing technology, as a new product in the field of Internet, provides a new opportunity for mass data storage and processing. Cloud computing technology has significant advantages in the field of massive data mining technology, and has been widely used. The overall idea of cloud computing is to use network interconnection technology to connect several computers together to achieve centralized management and unified scheduling of resources, which is equivalent to the formation of a resource pool. Hadoop technology, as a solution to deal with data in cloud computing software platform, has the characteristics of high fault tolerance, high throughput, low cost and so on. Hadoop technology transports traditional data mining technology to Hadoop cloud platform. The process of low cost and high efficiency data mining has been realized, which has become a trend in the research direction of meteorological data mining. In this paper, the data mining method based on Hadoop platform and the characteristics of meteorological data are deeply studied. In view of some shortcomings of the existing Hadoop classification data mining methods, combined with the advantages of Hadoop cloud platform in dealing with massive data, An improved classification algorithm based on MapReduce is proposed. For this reason, this paper mainly does the following research: (1) aiming at the large-scale characteristics of meteorological data, In this paper, Hadoop platform is used to preprocess the meteorological original data set and calculate the correlation coefficient between any two feature attributes, and the prediction attributes are selected by using correlation analysis technology. To a certain extent, the complexity of model training is reduced. (2) the advantages and disadvantages of typical meteorological data mining classification algorithms are analyzed. According to the association characteristics of meteorological data, this paper adopts the Bayesian network classification algorithm. In order to solve the uncertainty and relevance of things, it is more suitable for meteorological data analysis than other classification algorithms. (3) in the training process of Bayesian classification model, the accuracy evaluation is adopted. Iterative training is used for the model that does not meet the accuracy requirements, and the model parameters are constantly modified in order to obtain a better classification model, and the classification experiment of the test set is carried out. The experimental results show that the improved algorithm has a certain improvement in computational efficiency and performance compared with the existing algorithms.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 黄源,张福炎;数据挖掘及其技术实现[J];计算机应用与软件;2001年12期

2 香丽芸;浅谈数据挖掘及其应用[J];昌吉师专学报;2001年02期

3 郑雪燕,张杰明,岳洋;数据挖掘语言[J];计算机时代;2001年11期

4 刘明晶;数据挖掘[J];华南金融电脑;2001年04期

5 张伟;刘勇国;彭军;廖晓峰;吴中福;;数据挖掘发展研究[J];计算机科学;2001年07期

6 钟晓;马少平;张钹;俞瑞钊;;数据挖掘综述[J];模式识别与人工智能;2001年01期

7 朱建平,张润楚;数据挖掘的发展及其特点[J];统计与决策;2002年07期

8 傅岚;在数据海洋中打捞信息数据挖掘[J];科技广场;2002年11期

9 李峻;数据挖掘,企业洞察先机的“慧眼”[J];中国计算机用户;2002年48期

10 罗可,蔡碧野,卜胜贤,谢中科;数据挖掘及其发展研究[J];计算机工程与应用;2002年14期

相关会议论文 前10条

1 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

2 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年

3 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年

4 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年

5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年

6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年

7 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

8 肖阳;李启贤;;数据挖掘在中国钢铁行业中的应用[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年

9 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年

10 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

相关重要报纸文章 前10条

1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年

2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年

3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年

4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年

5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年

6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年

7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年

8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年

9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年

10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年

相关博士学位论文 前10条

1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年

2 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年

3 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年

4 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年

5 邬文帅;基于多目标决策的数据挖掘方法评估与应用[D];电子科技大学;2015年

6 谢邦彦;整合数据挖掘与TRIZ理论的质量管理方法研究[D];首都经济贸易大学;2010年

7 何伟全;云南高校学生意外伤害因素关联规则挖掘及风险管控体系研究[D];昆明理工大学;2015年

8 段功豪;基于多结构数据挖掘的滑坡灾害预测模型研究[D];中国地质大学;2016年

9 白晓明;基于数据挖掘的复合材料宏—细观力学模型研究[D];哈尔滨工业大学;2016年

10 蓝永豪(LAM Wing Ho);基于数据挖掘技术分析当代中医名家痤疮验方经验研究[D];南京中医药大学;2016年

相关硕士学位论文 前10条

1 孙靖;基于Hadoop平台的气象数据挖掘研究[D];北京邮电大学;2016年

2 祖晓晖;基于数据挖掘的智慧健康服务平台设计与实现[D];南京邮电大学;2017年

3 林仁红;基于数据挖掘的机遇识别与评价研究[D];首都经济贸易大学;2007年

4 张彦俊;游戏运营中的数据挖掘[D];复旦大学;2011年

5 焦亚召;基于多核函数FCM算法在数据挖掘聚类中的应用研究[D];昆明理工大学;2015年

6 王杰锋;物联网能耗数据智能分析及其应用平台设计[D];江南大学;2015年

7 刘学建;数据挖掘在电子商务推荐系统中的应用研究[D];昆明理工大学;2015年

8 戴阳阳;基于数据挖掘的金融时间序列预测研究与应用[D];江南大学;2015年

9 石思优;基于主题模型的医疗数据挖掘研究[D];广东技术师范学院;2015年

10 陈丹;移动互联网信令挖掘实现智慧营销的设计与实现应用研究[D];华南理工大学;2015年



本文编号:2480254

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2480254.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户78e50***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com