基于Hadoop的雷灾文本聚类与雷暴预测模型的研究
发布时间:2021-11-03 12:55
气象行业拥有着海量的气象数据,当需要进行气象预报或气候预测这类业务时,就需要对这些海量气象数据进行大量繁复的运算,同时伴随着各种新型雷达的投入使用以及各种观测站的建立,使气象资料的收集方式变得更加多元化,气象资料的种类和形式也越来越多样化。气象行业内,气象资料的管理和共享也存在着诸多弊端,传统的数据挖据技术与方法已经越来越难以满足气象资料的存储与处理。云计算的出现,为气象资料的处理提供了一个新的思路。雷暴是一种灾害性天气现象,给人们的日常生活带来严重的威胁。因此,提高雷暴预测的精度以及采取必要的防雷措施就具有重要的现实意义。本文在分析云平台相关理论模型的基础上,选取了NCEP历史再分析资料,江苏省闪电定位资料以及雷灾文本信息作为研究对象,主要进行了如下工作:(1)在基于Hadoop集群的ThunderCloud平台上,提出了MRKM(MapReduce K-means)算法对雷灾文本进行聚类。MRKM将传统的K-means算法转化成两个map函数,一个combiner函数以及一个reduce函数来实现。通过该算法对雷灾文件进行聚类操作,并对聚类后的文档中的高权值词汇进行分析,得到雷灾分...
【文章来源】:南京信息工程大学江苏省
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
ICTCLAS分词效果
CSl(critical success indexy5G]临界成功指数是常用的一种预报评分方法,aldson发现并为之命名的。CSI评分方法常用于评定小概率事件,例如灾害性天定。其中,Na表不为正确预报的概率,即预报有雷暴,实况有雷暴。Ng表TK为即预报无雷暴,实况有雷暴。Ne表示为空报次数,即预报有雷暴,实况无雷暴。报无雷暴,实况无雷暴。三种算法的实验结果如下表所示:表5.9 MRNB和Fisher算法结果参数 MRNB Fisher45 38Ng 9 16Nc 11 1257 56CSI 0.7 0.576R 83.60% 77.50%FAR 9.17% 9.84%为了直观的表示出各个算法的实验结果,以直方图的形式展现出来:
本文编号:3473724
【文章来源】:南京信息工程大学江苏省
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
ICTCLAS分词效果
CSl(critical success indexy5G]临界成功指数是常用的一种预报评分方法,aldson发现并为之命名的。CSI评分方法常用于评定小概率事件,例如灾害性天定。其中,Na表不为正确预报的概率,即预报有雷暴,实况有雷暴。Ng表TK为即预报无雷暴,实况有雷暴。Ne表示为空报次数,即预报有雷暴,实况无雷暴。报无雷暴,实况无雷暴。三种算法的实验结果如下表所示:表5.9 MRNB和Fisher算法结果参数 MRNB Fisher45 38Ng 9 16Nc 11 1257 56CSI 0.7 0.576R 83.60% 77.50%FAR 9.17% 9.84%为了直观的表示出各个算法的实验结果,以直方图的形式展现出来:
本文编号:3473724
本文链接:https://www.wllwen.com/projectlw/qxxlw/3473724.html