超高维自由模型下的特征筛选研究及应用
发布时间:2021-07-11 12:54
随着数据收集技术的日趋发达和广泛应用,研究者在许多领域能以较低成本获取超高维数据,例如在环境科学、医学和金融学等等.由于“维数灾难”带来计算成本、估计精度和模型可解释性上的挑战,特征筛选成为相关领域的研究热点问题.近年来,大量超高维模型对应的筛选方法被提出和研究,还有许多无模型约束的独立特征筛选方法被提出,并得到了广泛应用.但是,目前仍没有一种特征筛选方法可以处理协变量中同时存在类别变量和连续变量的超高维数据.针对这种普遍存在的数据,本文尝试提出一种一致性的独立特征筛选指标,并从理论和实验中证明其有效性.空气质量预报是环境科学领域的研究热点,但是空气质量数据往往也存在预测变量维数过高的问题.直接利用所有变量进行预测往往会导致预测精度下降和模型解释性降低,故本文尝试将特征筛选方法应用到大气污染物浓度预报中,提高模型性能.本文的具体工作如下:(1)针对协变量中同时存在类别变量和连续变量的超高维数据,本文基于条件分布函数和无条件分布函数之间的差异建立了一个一致性特征筛选(UFS)指标.特别地,当响应变量和协变量都是连续型变量时,本文使用核估计对条件分布函数进行估计.基于一些假设,本文证明了一...
【文章来源】:南京信息工程大学江苏省
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
图3.2?2013年淮安各季节当日PM2.5浓度与63个预报因子的距离相关系数(图中虚线??是选取重要预报因子的距离相关系数临界值).??
?时间序号(*>??图3.3?2013年淮安各季节逐日PM2.5浓度预报和观测值的时间序列图.??由图3.3(c)和(d)可知,模型对秋冬季部分重污染天气预报的精度相对较差.可??能由于样本量较少,不能覆盖大部分气象条件,且秋冬季预报因子只选取了前一曰??的PM2.5浓度值、前期的气温和气压,当出现特殊天气(风、雨)和排放源发生变化(秸??秆燃烧、工业交通)时,模型不能捕捉到变化.??46??I??
??图3.4给出了2013年淮安逐日PM2.5浓度观测和预报值的散点图.对比各季节PM2.5??预测浓度和观测浓度,二者波动趋势较一致,相关系数分别为0.45、0.73、0.69和0.57.??均通过了置信度水平为0.01的显著性检验.说明模型对PM2.5逐日变化趋势的捕捉能??力夏季>秋季>冬季>春季.春季由于PM2.5浓度均值低、浓度变化剧烈,相关系数极易??受异常值影响,除去图4a中一个明显的异常值,相关系数可达到0.54.总体而言,本研??究所建立的DC-SVR试预报模型基本能够预报淮安逐日PM2.5浓度的变化趋势,具有??较好的预报精度.??200?I?.?7?.?-7,?2S0i?.?■ ̄7 ̄1?■?71??_?㈤春季?p?S?季?y=2/*?R=^??'e?iso?/?"g?200?/??吃?^^y=〇.5x?K?100?/*!/?^--y=〇.5x??^?50?卜??Q?如’?.?峯?■?I??0?,?I?I???0?50?100?ISO?200?0?5D?100?150?200?250??_?[(〇?¥-?y=2/?_?|?■冬季?y=2/??i200?/??v^x?.?V00?/?z^-??^?,?.?1?^?J/#’..??0?50?100?150?200?250?0?100?200?300?400??ratj^jSSOig?m3)?EM^aCmtOig?m3)??图3.4?2013年淮安各季节逐日PM2.5浓度观测和预报值的散点图.??(4)与其他预报方法对比??表3.3给出了4种统计预报方案.利用相同的资料
【参考文献】:
期刊论文
[1]基于GA-BP神经网络的供暖期空气质量指数预测分析[J]. 杨云,杨毅. 陕西科技大学学报(自然科学版). 2016(04)
[2]基于CMAQ模式和自适应偏最小二乘回归法的中国地区PM2.5浓度动力-统计预报方法研究[J]. 程兴宏,刁志刚,胡江凯,徐祥德,张建春,李德平. 环境科学学报. 2016(08)
[3]基于支持向量机回归的城市PM2.5浓度预测[J]. 谢永华,张鸣敏,杨乐,张恒德. 计算机工程与设计. 2015(11)
[4]数据挖掘技术在气象预报研究中的应用[J]. 彭昱忠,王谦,元昌安,林开平. 干旱气象. 2015(01)
[5]CMAQ模式及其修正技术在上海市PM2.5预报中的应用检验[J]. 王茜,吴剑斌,林燕芬. 环境科学学报. 2015(06)
[6]周边气象条件对南京城区大气污染物浓度的影响[J]. 常炉予,赵天良,何金海,汤莉莉,于红霞,单云鹏. 气象与环境学报. 2013(06)
[7]基于WRF模式的兰州秋冬季大气污染预报模型研究[J]. 何建军,余晔,刘娜,赵素平,陈晋北. 气象. 2013(10)
[8]基于CMAQ模式产品的福州市空气质量预报系统[J]. 陈彬彬,林长城,杨凯,林文,王宏,余永江. 中国环境科学. 2012(10)
[9]成都市空气质量预报中WRF的本地化参数选取[J]. 姚琳,叶芝祥,陆成伟,常仕镭. 成都信息工程学院学报. 2012(05)
[10]天津滨海新区秋冬季大气污染特征分析[J]. 王莉莉,王跃思,吉东生,辛金元,胡波,王万筠. 中国环境科学. 2011(07)
博士论文
[1]上海城市化对臭氧污染影响的数值模拟[D]. 顾莹.华东师范大学 2010
硕士论文
[1]超高维数据的特征筛选研究[D]. 李星祥.南京信息工程大学 2016
本文编号:3278135
【文章来源】:南京信息工程大学江苏省
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
图3.2?2013年淮安各季节当日PM2.5浓度与63个预报因子的距离相关系数(图中虚线??是选取重要预报因子的距离相关系数临界值).??
?时间序号(*>??图3.3?2013年淮安各季节逐日PM2.5浓度预报和观测值的时间序列图.??由图3.3(c)和(d)可知,模型对秋冬季部分重污染天气预报的精度相对较差.可??能由于样本量较少,不能覆盖大部分气象条件,且秋冬季预报因子只选取了前一曰??的PM2.5浓度值、前期的气温和气压,当出现特殊天气(风、雨)和排放源发生变化(秸??秆燃烧、工业交通)时,模型不能捕捉到变化.??46??I??
??图3.4给出了2013年淮安逐日PM2.5浓度观测和预报值的散点图.对比各季节PM2.5??预测浓度和观测浓度,二者波动趋势较一致,相关系数分别为0.45、0.73、0.69和0.57.??均通过了置信度水平为0.01的显著性检验.说明模型对PM2.5逐日变化趋势的捕捉能??力夏季>秋季>冬季>春季.春季由于PM2.5浓度均值低、浓度变化剧烈,相关系数极易??受异常值影响,除去图4a中一个明显的异常值,相关系数可达到0.54.总体而言,本研??究所建立的DC-SVR试预报模型基本能够预报淮安逐日PM2.5浓度的变化趋势,具有??较好的预报精度.??200?I?.?7?.?-7,?2S0i?.?■ ̄7 ̄1?■?71??_?㈤春季?p?S?季?y=2/*?R=^??'e?iso?/?"g?200?/??吃?^^y=〇.5x?K?100?/*!/?^--y=〇.5x??^?50?卜??Q?如’?.?峯?■?I??0?,?I?I???0?50?100?ISO?200?0?5D?100?150?200?250??_?[(〇?¥-?y=2/?_?|?■冬季?y=2/??i200?/??v^x?.?V00?/?z^-??^?,?.?1?^?J/#’..??0?50?100?150?200?250?0?100?200?300?400??ratj^jSSOig?m3)?EM^aCmtOig?m3)??图3.4?2013年淮安各季节逐日PM2.5浓度观测和预报值的散点图.??(4)与其他预报方法对比??表3.3给出了4种统计预报方案.利用相同的资料
【参考文献】:
期刊论文
[1]基于GA-BP神经网络的供暖期空气质量指数预测分析[J]. 杨云,杨毅. 陕西科技大学学报(自然科学版). 2016(04)
[2]基于CMAQ模式和自适应偏最小二乘回归法的中国地区PM2.5浓度动力-统计预报方法研究[J]. 程兴宏,刁志刚,胡江凯,徐祥德,张建春,李德平. 环境科学学报. 2016(08)
[3]基于支持向量机回归的城市PM2.5浓度预测[J]. 谢永华,张鸣敏,杨乐,张恒德. 计算机工程与设计. 2015(11)
[4]数据挖掘技术在气象预报研究中的应用[J]. 彭昱忠,王谦,元昌安,林开平. 干旱气象. 2015(01)
[5]CMAQ模式及其修正技术在上海市PM2.5预报中的应用检验[J]. 王茜,吴剑斌,林燕芬. 环境科学学报. 2015(06)
[6]周边气象条件对南京城区大气污染物浓度的影响[J]. 常炉予,赵天良,何金海,汤莉莉,于红霞,单云鹏. 气象与环境学报. 2013(06)
[7]基于WRF模式的兰州秋冬季大气污染预报模型研究[J]. 何建军,余晔,刘娜,赵素平,陈晋北. 气象. 2013(10)
[8]基于CMAQ模式产品的福州市空气质量预报系统[J]. 陈彬彬,林长城,杨凯,林文,王宏,余永江. 中国环境科学. 2012(10)
[9]成都市空气质量预报中WRF的本地化参数选取[J]. 姚琳,叶芝祥,陆成伟,常仕镭. 成都信息工程学院学报. 2012(05)
[10]天津滨海新区秋冬季大气污染特征分析[J]. 王莉莉,王跃思,吉东生,辛金元,胡波,王万筠. 中国环境科学. 2011(07)
博士论文
[1]上海城市化对臭氧污染影响的数值模拟[D]. 顾莹.华东师范大学 2010
硕士论文
[1]超高维数据的特征筛选研究[D]. 李星祥.南京信息工程大学 2016
本文编号:3278135
本文链接:https://www.wllwen.com/kejilunwen/huanjinggongchenglunwen/3278135.html