当前位置:主页 > 管理论文 > 统计学论文 >

基于统计学习方法的空气质量评价与分类

发布时间:2020-06-19 03:14
【摘要】:空气质量水平与人们的生产生活息息相关。《2018全球环境绩效指数报告》中显示,中国的环境质量在全球180个国家地区中排名177位,空气污染问题是当下亟待解决的问题之一。为有效开展下一步空气污染治理工作,需要对空气污染数据进行深入研究,探寻其发展趋势和变化特征。科学合理地对空气质量进行评价和分类,为改善城市空气质量提供合理有效的建议。本文研究样本为全国31个省会城市2013年12月1日至2018年12月28日的空气质量数据与天气数据。采用缺失森林填补法对原始数据集进行数据插补,使用统计学习方法从时间维度对数据进行深入研究,建立多种机器学习模型对31个城市空气质量进行评价和分类,并从多角度进行模型性能度量。本文的主要研究工作有:(1)对空气质量整体情况分析并分年度统计首要污染物。发现空气质量指数较高的城市多为北方城市,且季节波动较大。2016年之后,_3O逐渐取代PM_(2.5)成为一些城市的首要污染物。(2)根据污染物数据对省会城市进行聚类,并对典型城市空气质量进行时间维度分析。使用主成分分析与层次聚类相结合的方法,将31个省会城市划分为3类,并选出典型城市南宁、北京、郑州。自2014年以来,空气质量指数年均值呈下降趋势,全年空气达标天数均在2018年达到最高。北京的AQI月均值在每年的5-7月呈现反弹趋势,这是由于北京市5-7月份_3O均值达到最高值,且为占比最高的首要污染物。AQI均值在周内各天均值并无明显差异,周变量不是影响空气质量指数的关键因素。(3)为避免AQI单指标评价的片面性,本文综合考虑污染物质量浓度、天气以及周期等因素,选取三种机器学习方法对空气质量等级进行分类预测并进行模型优选。从算法预测精度来看,随机森林相比BP神经网络提高了4.18%,GBDT算法相比BP神经网络提高了4.55%,预测精度达到了98.89%;从模型的运行时间来看,随机森林模型相比神经网络减少了61.766s,GBDT模型相比神经网络减少了66.964s;从宏查全率、宏查准率以及宏观F1指标来看,GBDT算法均有较好的表现。可以将GBDT算法有效用于空气质量等级分类。
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:C81
【图文】:

示意图,神经元模型,示意图,激活函数


图 2.1 神经元模型示意图神经网络的输出值与激活函数的选择有很大的关系,通常引入非线性函数作为激活函数,实现非线性问题到线性问题的转化。单个神经元 k 可以表示为如下公式2.1:1( )mk ik iik k ku w xy f u b . (2.1)式 2.1 中, ( 1, )ix i m为输入信号; ( 1, )ikw i m为神经元的连接权值;kb 为单个神经元的偏置;ku 为输出值的加总; f ( )为激活函数;ky 为输出信号。2.1.2 反馈网络人工神经元结构模型反馈网络中最基础的形式为单层神经网络,由输入层和输出层两个层次构成。前者负责接收输入信号,后者负责对输出结果进行处理。多层反馈神经网络则增加了中间层结构,其结构如图 2.2 所示:

示意图,多层网络,示意图


图 2.2 多层网络示意图经网络中,所有节点都能进行信号的处理,既能感受到输入端电以进行计算结果的输出。经网络算法原理网络采用最快速度下降法[40]的学习规则,通过网络反向传播结果阈值的调整,使网络的输出误差值逐渐降低。BP 神经网络由两个前向传播与误差的逆向反馈。在前向传播过程中,系统首先接收。经过中间层的计算加工之后,传入输出层,并进行计算结果的神经元之间的连接权值是不变的。反向传播过程是按照前向传播的反方向对系统中每层的连接权重整。在这两个过程的交替工作之后,神经网络的训练各神经元参练。号的前向传播过程:

【相似文献】

相关期刊论文 前10条

1 王天树,郑南宁,袁泽剑;机器智能与模式识别研究中的统计学习方法[J];自动化学报;2002年S1期

2 温津伟,罗四维,赵嘉莉,黄华;通过创建虚拟样本的小样本人脸识别统计学习方法[J];计算机研究与发展;2002年07期

3 张子荣,初敏;解决多音字字-音转换的一种统计学习方法[J];中文信息学报;2002年03期

4 郝小可;李蝉秀;严景文;沈理;张道强;;基于统计学习的影像遗传学方法综述[J];自动化学报;2018年01期

5 宋彦;蔡东风;张桂平;;统计学习与知识发现[J];沈阳航空工业学院学报;2008年05期

6 耿骞,毛瑞;汉语自然语言检索中的词法分析处理[J];情报科学;2004年04期

7 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期

8 图雅;李艳;郭淑妮;;支持向量机在蒙古语说话人识别技术中的研究[J];计算机光盘软件与应用;2014年18期

9 缪有栋;邱锡鹏;黄萱菁;;一种适用于大规模网页分类的快速算法[J];计算机应用与软件;2012年07期

10 张付志;刘华中;;基于度量级融合的论文元数据提取方法[J];情报学报;2013年03期

相关会议论文 前4条

1 郭慧志;刘华;谢学敏;张普;;《人民日报》标注语料的初步统计分析[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

2 唐慧丰;谭松波;程学旗;;监督学习方法在语气挖掘中的应用研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

3 徐蔚然;于武贵;郭军;;基于统计方法的混排文字切分与分类[A];第八届全国汉字识别学术会议论文集[C];2002年

4 刘力丰;米红;耿代;;基于SVR的非线性协整关系建模研究[A];科学发展观与系统工程——中国系统工程学会第十四届学术年会论文集[C];2006年

相关博士学位论文 前3条

1 黄新;基于化学数据的若干统计学习新方法研究[D];中南大学;2013年

2 杨光;时序区域地表覆盖制图关键技术研究[D];武汉大学;2017年

3 杨帆;基于车轮力测试的车辆地面通过性关键技术研究[D];东南大学;2016年

相关硕士学位论文 前10条

1 郭绍征;基于统计学习方法的空气质量评价与分类[D];山西大学;2019年

2 邹存利;统计学习方法在金融数据分析中的应用[D];辽宁师范大学;2018年

3 何京芮;图像检索中的统计学习方法研究[D];清华大学;2005年

4 陈波;基于K近邻法的高考录取预测研究[D];湘潭大学;2017年

5 代真真;基于统计学习方法的进化算法研究[D];华东师范大学;2014年

6 朱祺钧;基于统计学习方法的容错计算[D];天津大学;2007年

7 陈潇;几种统计学习方法的研究及应用[D];中国海洋大学;2014年

8 苏振明;非结构化文本中领域术语获取方法的研究[D];兰州大学;2007年

9 周会军;基于云计算的中文文本分类方法的研究[D];湖南大学;2012年

10 陈睿扬;面向体育新闻领域的中文简单名词短语共指消解[D];南京理工大学;2009年



本文编号:2720226

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2720226.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f99b9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com