基于随机森林的PM2.5浓度预测模型研究
发布时间:2022-01-20 01:31
PM2.5颗粒物作为雾霾现象主要的危害性成分,不仅威胁人类健康、破坏自然环境,还对经济的发展造成了重大影响。对PM2.5进行科学、准确地预测预报工作,有助于环保部门制定相应的防范和治理措施,还可以为政府部门的政策提供科学依据,降低对人体的伤害。本文对PM2.5研究进展和预测方法进行了整理、分析,在此基础上,结合机器学习理论和统计预测方法,基于随机森林算法设计出一种新的PM2.5浓度预测模型(Random Forest Pretiction Model,RFP模型),进行PM2.5日均值浓度的预测。本文主要完成的工作如下:(1)选择PM2.5浓度较高的西安市地区为研究对象,基于Python语言和Scrapy框架,设计了爬虫的五大功能模块,实现了从多个网站自动爬取了西安市2013年10月28日至2018年1月31日的历史数据,包括PM2.5、PM10、SO2、NO2、CO、O3等大气污染浓度数据,温度、露点、湿度、海平面压强、能见度、风速、风向、风力、天气状态等气象条件数据。使用牛顿插值法、3δ准则、前后均值修正法、one-hot编码等技术对原始数据做了大量的预处理工作,从而提高了PM2....
【文章来源】:西安邮电大学陕西省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
论文组织结构
西安邮电大学硕士学位论文本容量为 s),保证每次采样的随机性,且每个训练样本的容量要等于原始数据样本的容量,即 s=S。经过 M 次采样得到 M 个采样集,经过独立训练得到 M 个弱学习器,再经过一定的结合策略将 M 个弱学习器的结果结合,作为强学习器的输出。bagging思想算法原理见图 2.1 所示。
第 2 章 随机森林算法概述(1)利用 bagging 思想,随机产生训练样本子集。(2)利用随机子空间思想,随机抽取 f 个特征,并从中选择出最优的特征进行节点分裂并构建单棵决策子树。在节点分裂时,对于回归模型,则基于均方误差(MeanSquared Error)建立回归树;对于分类模型,则基于基尼指数(Gini Coefficient)建立分类树。(3)重复(1)、(2)步骤,建立 T 棵决策子树,每棵树自由生长,不进行剪枝处理,从而形成森林。(4)综合 T 棵决策子树的预测情况得到最终结果。对于回归模型,采用取平均方式;对于分类模型,采取投票方式。
【参考文献】:
期刊论文
[1]2016中国环境状况公报发布[J]. 本刊编辑部. 中国能源. 2017(08)
[2]19世纪英国人对伦敦烟雾的认知与态度探析[J]. 陆伟芳. 世界历史. 2016(05)
[3]基于多元线性回归的雾霾预测方法研究[J]. 付倩娆. 计算机科学. 2016(S1)
[4]洛杉矶光化学烟雾研究回顾与反思[J]. 李朱辰. 环境保护与循环经济. 2016(05)
[5]基于T-S模型模糊神经网络的PM2.5质量浓度预测[J]. 杨云,付彦丽. 陕西科技大学学报(自然科学版). 2015(06)
[6]空气中PM2.5浓度的灰色预测与关联因素分析[J]. 毛毳,孙宇,冯樷,冯双喜. 宁夏大学学报(自然科学版). 2014(03)
[7]基于改进型PSO的模糊神经网络PM2.5浓度预测[J]. 马天成,刘大铭,李雪洁,孙川川. 计算机工程与设计. 2014(09)
[8]中国雾霾污染的空间效应及经济、能源结构影响[J]. 马丽梅,张晓. 中国工业经济. 2014(04)
[9]日本对PM2.5的研究及治理[J]. 刘佳听. 汽车与安全. 2014(03)
[10]大气细颗粒物的污染特征及对人体健康的影响[J]. 陶燕,刘亚梦,米生权,郭勇涛. 环境科学学报. 2014(03)
硕士论文
[1]基于BP算法的网格资源调度研究[D]. 吕昌国.哈尔滨理工大学 2007
[2]两类有理三次插值样条的逼近性质[D]. 李世龙.山东大学 2005
本文编号:3597928
【文章来源】:西安邮电大学陕西省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
论文组织结构
西安邮电大学硕士学位论文本容量为 s),保证每次采样的随机性,且每个训练样本的容量要等于原始数据样本的容量,即 s=S。经过 M 次采样得到 M 个采样集,经过独立训练得到 M 个弱学习器,再经过一定的结合策略将 M 个弱学习器的结果结合,作为强学习器的输出。bagging思想算法原理见图 2.1 所示。
第 2 章 随机森林算法概述(1)利用 bagging 思想,随机产生训练样本子集。(2)利用随机子空间思想,随机抽取 f 个特征,并从中选择出最优的特征进行节点分裂并构建单棵决策子树。在节点分裂时,对于回归模型,则基于均方误差(MeanSquared Error)建立回归树;对于分类模型,则基于基尼指数(Gini Coefficient)建立分类树。(3)重复(1)、(2)步骤,建立 T 棵决策子树,每棵树自由生长,不进行剪枝处理,从而形成森林。(4)综合 T 棵决策子树的预测情况得到最终结果。对于回归模型,采用取平均方式;对于分类模型,采取投票方式。
【参考文献】:
期刊论文
[1]2016中国环境状况公报发布[J]. 本刊编辑部. 中国能源. 2017(08)
[2]19世纪英国人对伦敦烟雾的认知与态度探析[J]. 陆伟芳. 世界历史. 2016(05)
[3]基于多元线性回归的雾霾预测方法研究[J]. 付倩娆. 计算机科学. 2016(S1)
[4]洛杉矶光化学烟雾研究回顾与反思[J]. 李朱辰. 环境保护与循环经济. 2016(05)
[5]基于T-S模型模糊神经网络的PM2.5质量浓度预测[J]. 杨云,付彦丽. 陕西科技大学学报(自然科学版). 2015(06)
[6]空气中PM2.5浓度的灰色预测与关联因素分析[J]. 毛毳,孙宇,冯樷,冯双喜. 宁夏大学学报(自然科学版). 2014(03)
[7]基于改进型PSO的模糊神经网络PM2.5浓度预测[J]. 马天成,刘大铭,李雪洁,孙川川. 计算机工程与设计. 2014(09)
[8]中国雾霾污染的空间效应及经济、能源结构影响[J]. 马丽梅,张晓. 中国工业经济. 2014(04)
[9]日本对PM2.5的研究及治理[J]. 刘佳听. 汽车与安全. 2014(03)
[10]大气细颗粒物的污染特征及对人体健康的影响[J]. 陶燕,刘亚梦,米生权,郭勇涛. 环境科学学报. 2014(03)
硕士论文
[1]基于BP算法的网格资源调度研究[D]. 吕昌国.哈尔滨理工大学 2007
[2]两类有理三次插值样条的逼近性质[D]. 李世龙.山东大学 2005
本文编号:3597928
本文链接:https://www.wllwen.com/kejilunwen/huanjinggongchenglunwen/3597928.html