基于时空独立的随机森林模型对海南热带气温数值预报的订正
发布时间:2021-03-19 12:17
面向海南省所特有的海岛以及热带特点,结合海南岛独特的地理地貌,本研究设计了基于时空独立的随机森林模型,并利用站点的实测数据以及欧洲中期天气预报中心(ECMWF)的模式数据,实现了对每个站点未来7天预报时效为3小时的气温精准订正;同时采用小于2℃的准确率、小于1℃的准确率及均方根误差等指标,对ECMWF模式的预报温度和本文模型的订正气温进行了评估,结果表明,本文所提的订正模型结果要显著优于ECMWF模式的结果,前者更接近真实的温度值,它对ECMWF的模式数据进行了较好的订正.
【文章来源】:海南大学学报(自然科学版). 2020,38(04)
【文章页数】:9 页
【部分图文】:
样本构造及分段训练
以2020年4月16日海口站点为例,预报时效为7天,时效间隔为3小时,分别采用小于2 ℃的准确率、小于1 ℃的准确率及均方根误差等3个指标,对真实温度、ECMWF模式预报温度和本文模型订正结果进行比较,结果如图2所示.本文所提模型能够对ECMWF模式气温预报结果进行较好地订正,在三个指标上均优于ECMWF的预报结果,能更加准确地逼近真实温度,这证明了本文算法在单点订正的有效性.在对基于时空独立随机森林模型进行模型学习时,随机森林中树的数量(NT)和特征数占比(NF)会对回归结果产生较大的影响,因此,本文采用网格化搜索的方式对这两个参数进行了分析,确定了最优参数组合.将训练集按7∶3的比例分成两部分,一部分用来训练模型,一部分则用来验证模型,以选出最优参数.本文设定树的数量搜索范围为400~1 300,特征数占比的搜索范围为10%~90%.网格化搜索的结果如图3所示,从图3中可知,当特征数占比在范围[50%~75%]时,且树的数量在[400~1 300]时,本文模型的性能稳定在某个固定的区间,波动不大,这也证明了本文所提算法具有较好的鲁棒性.因此,在综合考虑运算时间和效率的基础上,本文最终选取了树的数量为1 000,特征数占比为75%.此外,为说明本文所提的随机森林算法在气象预报方面的优越性,在此将随机森林模型与基于Boosting的GBDT模型和传统线性回归模型进行对比.仍以海口站点为例,分别采用了三个模型进行预测,结果如图4所示.从图4中可以看出,本文所提模型的准确率高于GBDT和传统线性回归的准确率.
在对基于时空独立随机森林模型进行模型学习时,随机森林中树的数量(NT)和特征数占比(NF)会对回归结果产生较大的影响,因此,本文采用网格化搜索的方式对这两个参数进行了分析,确定了最优参数组合.将训练集按7∶3的比例分成两部分,一部分用来训练模型,一部分则用来验证模型,以选出最优参数.本文设定树的数量搜索范围为400~1 300,特征数占比的搜索范围为10%~90%.网格化搜索的结果如图3所示,从图3中可知,当特征数占比在范围[50%~75%]时,且树的数量在[400~1 300]时,本文模型的性能稳定在某个固定的区间,波动不大,这也证明了本文所提算法具有较好的鲁棒性.因此,在综合考虑运算时间和效率的基础上,本文最终选取了树的数量为1 000,特征数占比为75%.此外,为说明本文所提的随机森林算法在气象预报方面的优越性,在此将随机森林模型与基于Boosting的GBDT模型和传统线性回归模型进行对比.仍以海口站点为例,分别采用了三个模型进行预测,结果如图4所示.从图4中可以看出,本文所提模型的准确率高于GBDT和传统线性回归的准确率.图4 本文模型与GBDT模型和传统线性回归模型的对比结果
【参考文献】:
期刊论文
[1]基于随机森林的暴雨灾害人口损失预估模型及应用[J]. 刘扬,王维国. 气象. 2020(03)
[2]一种偏差订正方法在平昌冬奥会气象预报的应用[J]. 张玉涛,佟华,孙健. 应用气象学报. 2020(01)
[3]ECMWF高分辨率模式2m温度预报误差订正方法研究[J]. 薛谌彬,陈娴,张瑛,郑婧,马晓华,张雅斌,潘留杰. 气象. 2019(06)
[4]基于数值预报和随机森林算法的强对流天气分类预报技术[J]. 李文娟,赵放,郦敏杰,陈列,彭霞云. 气象. 2018(12)
[5]基于LSTM深度神经网络的精细化气温预报初探[J]. 倪铮,梁萍. 计算机应用与软件. 2018(11)
[6]三种数值模式气温预报产品的检验及误差订正方法研究[J]. 王焕毅,谭政华,杨萌,张翘,蒋林杉. 气象与环境学报. 2018(01)
[7]基于支持向量机的海南气温预测模型研究[J]. 朱晶晶,赵小平,吴胜安,吴慧,邢彩盈. 海南大学学报(自然科学版). 2016(01)
[8]ECMWF模式地面气温预报的四种误差订正方法的比较研究[J]. 李佰平,智协飞. 气象. 2012(08)
[9]数值模式的预报策略和方法研究进展[J]. 任宏利,丑纪范. 地球科学进展. 2007(04)
本文编号:3089553
【文章来源】:海南大学学报(自然科学版). 2020,38(04)
【文章页数】:9 页
【部分图文】:
样本构造及分段训练
以2020年4月16日海口站点为例,预报时效为7天,时效间隔为3小时,分别采用小于2 ℃的准确率、小于1 ℃的准确率及均方根误差等3个指标,对真实温度、ECMWF模式预报温度和本文模型订正结果进行比较,结果如图2所示.本文所提模型能够对ECMWF模式气温预报结果进行较好地订正,在三个指标上均优于ECMWF的预报结果,能更加准确地逼近真实温度,这证明了本文算法在单点订正的有效性.在对基于时空独立随机森林模型进行模型学习时,随机森林中树的数量(NT)和特征数占比(NF)会对回归结果产生较大的影响,因此,本文采用网格化搜索的方式对这两个参数进行了分析,确定了最优参数组合.将训练集按7∶3的比例分成两部分,一部分用来训练模型,一部分则用来验证模型,以选出最优参数.本文设定树的数量搜索范围为400~1 300,特征数占比的搜索范围为10%~90%.网格化搜索的结果如图3所示,从图3中可知,当特征数占比在范围[50%~75%]时,且树的数量在[400~1 300]时,本文模型的性能稳定在某个固定的区间,波动不大,这也证明了本文所提算法具有较好的鲁棒性.因此,在综合考虑运算时间和效率的基础上,本文最终选取了树的数量为1 000,特征数占比为75%.此外,为说明本文所提的随机森林算法在气象预报方面的优越性,在此将随机森林模型与基于Boosting的GBDT模型和传统线性回归模型进行对比.仍以海口站点为例,分别采用了三个模型进行预测,结果如图4所示.从图4中可以看出,本文所提模型的准确率高于GBDT和传统线性回归的准确率.
在对基于时空独立随机森林模型进行模型学习时,随机森林中树的数量(NT)和特征数占比(NF)会对回归结果产生较大的影响,因此,本文采用网格化搜索的方式对这两个参数进行了分析,确定了最优参数组合.将训练集按7∶3的比例分成两部分,一部分用来训练模型,一部分则用来验证模型,以选出最优参数.本文设定树的数量搜索范围为400~1 300,特征数占比的搜索范围为10%~90%.网格化搜索的结果如图3所示,从图3中可知,当特征数占比在范围[50%~75%]时,且树的数量在[400~1 300]时,本文模型的性能稳定在某个固定的区间,波动不大,这也证明了本文所提算法具有较好的鲁棒性.因此,在综合考虑运算时间和效率的基础上,本文最终选取了树的数量为1 000,特征数占比为75%.此外,为说明本文所提的随机森林算法在气象预报方面的优越性,在此将随机森林模型与基于Boosting的GBDT模型和传统线性回归模型进行对比.仍以海口站点为例,分别采用了三个模型进行预测,结果如图4所示.从图4中可以看出,本文所提模型的准确率高于GBDT和传统线性回归的准确率.图4 本文模型与GBDT模型和传统线性回归模型的对比结果
【参考文献】:
期刊论文
[1]基于随机森林的暴雨灾害人口损失预估模型及应用[J]. 刘扬,王维国. 气象. 2020(03)
[2]一种偏差订正方法在平昌冬奥会气象预报的应用[J]. 张玉涛,佟华,孙健. 应用气象学报. 2020(01)
[3]ECMWF高分辨率模式2m温度预报误差订正方法研究[J]. 薛谌彬,陈娴,张瑛,郑婧,马晓华,张雅斌,潘留杰. 气象. 2019(06)
[4]基于数值预报和随机森林算法的强对流天气分类预报技术[J]. 李文娟,赵放,郦敏杰,陈列,彭霞云. 气象. 2018(12)
[5]基于LSTM深度神经网络的精细化气温预报初探[J]. 倪铮,梁萍. 计算机应用与软件. 2018(11)
[6]三种数值模式气温预报产品的检验及误差订正方法研究[J]. 王焕毅,谭政华,杨萌,张翘,蒋林杉. 气象与环境学报. 2018(01)
[7]基于支持向量机的海南气温预测模型研究[J]. 朱晶晶,赵小平,吴胜安,吴慧,邢彩盈. 海南大学学报(自然科学版). 2016(01)
[8]ECMWF模式地面气温预报的四种误差订正方法的比较研究[J]. 李佰平,智协飞. 气象. 2012(08)
[9]数值模式的预报策略和方法研究进展[J]. 任宏利,丑纪范. 地球科学进展. 2007(04)
本文编号:3089553
本文链接:https://www.wllwen.com/projectlw/qxxlw/3089553.html