基于树模型的Stacking方法的森林覆盖类型分类研究
发布时间:2021-03-22 09:19
森林覆盖类型的分类研究是森林资源变化监测,森林资源合理开发,森林人工修复的前提条件,因此构建分类准确的森林覆盖类型分类模型具有相当重要的现实意义。本文从模型和特征两方面出发来提高模型的分类能力。模型上,提出了一种新型的实用性强的基于RF、ET、GBDT、XGBoost和LightGBM这五类树模型的Stacking方法的森林覆盖类型分类模型。特征上,结合特征交叉和基于随机森林重要度的后向特征选择法进行特征处理。从北达科他州罗斯福国家森林实测数据的实证结果来看,ET-RF-LR模型的分类的准确率达到89.2%,并且经过特征处理之后的31种模型分类效果均优于未经特征处理的模型。在原始数据下最优的模型是ET-XGBoost-LightGBM-LR,而在经过特征处理之后最优的模型是ET-RF-LR,因此本文分类模型能够根据数据的不同选择相应的最优模型来达到准确分类的目的。综上所述,本文提出的基于树模型的Stacking分类模型可以为森林覆盖类型的分类研究提供有价值的参考和思路,具有很好的理论和实践意义。
【文章来源】:兰州大学甘肃省 211工程院校 985工程院校 教育部直属院校
【文章页数】:48 页
【学位级别】:硕士
【部分图文】:
决策树模型
兰州大学硕士学位论文基于树模型的Stacking方法的森林覆盖类型分类研究15图2-2Stacking算法流程图以5折交叉验证为例,在图2-2中的Stacking算法步骤1中,首先将初始训练数据均匀地分成5份,使用“留一法”训练5个初级学习器,用这5个初级训练器分别去预测剩下的一份训练数据和测试数据,然后将5份预测的训练数据合并,可以得到一份新的训练数据,并且将将5份预测的测试数据采用均值法合并,得到一份新的测试数据。接下来可以采用同样的方法再分别训练其他的模型作为初级训练器,得到新的训练和测试数据,得到不同模型的不同结果。在步骤2中,将步骤1得到的新训练数据集作为次级学习器的训练数据,步骤1得到新测试数据作为测试数据,重新训练次级学习器,最后得到最终的预测在测试集上的预测结果。在次级训练器的选择上,次级学习器的输入属性表示和次级学习算法对Stacking的集成泛化性能上有很大的影响。有研究表明将输出类别的概率作为次级学习器的输入,多元响应回归函数作为次级学习器的算法效果较好。因此为了提高单个树模型的分类效果,本文提出了基于树模型的Stacking方法的森林覆盖类型分类系统。随机森林、梯度提升决策树、极端决策树、XGBoost、LightGBM这五种常见的树模型采用Stacking方法进行组合,由于对于分类问题而言,这五种树模型作为初级学习器的输出类型为不同森林覆盖类型的概率,在次级训练器的选择上,本文选择多项逻辑斯蒂回归作为次级学习器。对于是否选择五种树模型还是其中几种作为初级训练器,需要利用实际数据进行选择,根据实际数据构建基于树模型的Stacking的森林覆盖类型分类模型。
兰州大学硕士学位论文基于树模型的Stacking方法的森林覆盖类型分类研究162.4基于RF特征重要度的后向特征选择方法从数据挖掘的角度而言,剔除无效特征能够有效提高模型的预测能力和泛化能力。前面简单介绍了RF的基本原理,RF还有一个重要的特性就是在RF的构造过程中计算特征的重要度,通过特征重要度的大小能够有助于剔除无效特征。RF有两种方式计算特征的重要度,分别是基于基尼指数和袋外误差。图2-3表示的就是基于RF特征重要度的后向特征选择方法。首先将原始的特征输入到随机森林模型中,然后随机森林计算每个特征在随机森林中的每颗树上贡献程度,然后取平均就得到特征的重要度。接着依据特征的重要度对特征进行排序,采用后向选择法剔除特征,即按照特征的重要度从小到大依次剔除特征,并再次利用随机森林在训练集中计算交叉验证得分,最后根据交叉验证得分的大小确定最优的特征子集。图2-3基于随机森林重要度的后向特征选择方法
【参考文献】:
期刊论文
[1]基于Xgboost和LightGBM算法预测住房月租金的应用分析[J]. 谢勇,项薇,季孟忠,彭俊,黄益槐. 计算机应用与软件. 2019(09)
[2]呈贡区近30年植被覆盖度时空变化特征与土地利用驱动[J]. 杨旭超,张军,李杰,劳洁英,吴志娟. 水土保持研究. 2019(04)
[3]热带原始森林类型分类和蓄积量遥感反演研究[J]. 陈新云,李利伟,刘承芳,王六如,丁靖. 林业资源管理. 2019(02)
[4]多分类器组合森林类型精细分类[J]. 王怀警,谭炳香,王晓慧,房秀凤,李世明. 遥感信息. 2019(02)
[5]基于二次组合的特征工程与XGBoost模型的用户行为预测[J]. 杨立洪,白肇强. 科学技术与工程. 2018(14)
[6]决策树多元分类模型预测森林植被覆盖[J]. 迟翕幻. 电子制作. 2017(24)
[7]基于遥感影像和二类调查数据的林地类型分类方法对比研究——以广西凭祥市为例[J]. 张乃静,侯瑞霞,纪平. 林业资源管理. 2017(04)
[8]基于随机森林模型的陆地卫星-8遥感影像森林植被分类[J]. 张晓羽,李凤日,甄贞,赵颖慧. 东北林业大学学报. 2016(06)
[9]多源数据林地类型的精细分类方法[J]. 任冲,鞠洪波,张怀清,黄建文,郑应选. 林业科学. 2016(06)
[10]基于C5.0决策树和时序HJ-1A/B CCD数据的神农架林区植被分类[J]. 李梦莹,胡勇,王征禹. 长江流域资源与环境. 2016(07)
博士论文
[1]中高分辨率遥感影像森林类型精细分类与森林资源变化监测技术研究[D]. 任冲.中国林业科学研究院 2016
硕士论文
[1]基于LightGBM的居民出行方式选择模型及应用研究[D]. 范德祥.华中科技大学 2018
[2]基于多层次分割的遥感影像面向对象森林分类[D]. 马浩然.北京林业大学 2014
[3]森林类型遥感分类研究[D]. 鲍晨光.东北林业大学 2010
[4]基于人工神经网络的森林植被遥感分类研究[D]. 刘涛.河北农业大学 2009
本文编号:3093982
【文章来源】:兰州大学甘肃省 211工程院校 985工程院校 教育部直属院校
【文章页数】:48 页
【学位级别】:硕士
【部分图文】:
决策树模型
兰州大学硕士学位论文基于树模型的Stacking方法的森林覆盖类型分类研究15图2-2Stacking算法流程图以5折交叉验证为例,在图2-2中的Stacking算法步骤1中,首先将初始训练数据均匀地分成5份,使用“留一法”训练5个初级学习器,用这5个初级训练器分别去预测剩下的一份训练数据和测试数据,然后将5份预测的训练数据合并,可以得到一份新的训练数据,并且将将5份预测的测试数据采用均值法合并,得到一份新的测试数据。接下来可以采用同样的方法再分别训练其他的模型作为初级训练器,得到新的训练和测试数据,得到不同模型的不同结果。在步骤2中,将步骤1得到的新训练数据集作为次级学习器的训练数据,步骤1得到新测试数据作为测试数据,重新训练次级学习器,最后得到最终的预测在测试集上的预测结果。在次级训练器的选择上,次级学习器的输入属性表示和次级学习算法对Stacking的集成泛化性能上有很大的影响。有研究表明将输出类别的概率作为次级学习器的输入,多元响应回归函数作为次级学习器的算法效果较好。因此为了提高单个树模型的分类效果,本文提出了基于树模型的Stacking方法的森林覆盖类型分类系统。随机森林、梯度提升决策树、极端决策树、XGBoost、LightGBM这五种常见的树模型采用Stacking方法进行组合,由于对于分类问题而言,这五种树模型作为初级学习器的输出类型为不同森林覆盖类型的概率,在次级训练器的选择上,本文选择多项逻辑斯蒂回归作为次级学习器。对于是否选择五种树模型还是其中几种作为初级训练器,需要利用实际数据进行选择,根据实际数据构建基于树模型的Stacking的森林覆盖类型分类模型。
兰州大学硕士学位论文基于树模型的Stacking方法的森林覆盖类型分类研究162.4基于RF特征重要度的后向特征选择方法从数据挖掘的角度而言,剔除无效特征能够有效提高模型的预测能力和泛化能力。前面简单介绍了RF的基本原理,RF还有一个重要的特性就是在RF的构造过程中计算特征的重要度,通过特征重要度的大小能够有助于剔除无效特征。RF有两种方式计算特征的重要度,分别是基于基尼指数和袋外误差。图2-3表示的就是基于RF特征重要度的后向特征选择方法。首先将原始的特征输入到随机森林模型中,然后随机森林计算每个特征在随机森林中的每颗树上贡献程度,然后取平均就得到特征的重要度。接着依据特征的重要度对特征进行排序,采用后向选择法剔除特征,即按照特征的重要度从小到大依次剔除特征,并再次利用随机森林在训练集中计算交叉验证得分,最后根据交叉验证得分的大小确定最优的特征子集。图2-3基于随机森林重要度的后向特征选择方法
【参考文献】:
期刊论文
[1]基于Xgboost和LightGBM算法预测住房月租金的应用分析[J]. 谢勇,项薇,季孟忠,彭俊,黄益槐. 计算机应用与软件. 2019(09)
[2]呈贡区近30年植被覆盖度时空变化特征与土地利用驱动[J]. 杨旭超,张军,李杰,劳洁英,吴志娟. 水土保持研究. 2019(04)
[3]热带原始森林类型分类和蓄积量遥感反演研究[J]. 陈新云,李利伟,刘承芳,王六如,丁靖. 林业资源管理. 2019(02)
[4]多分类器组合森林类型精细分类[J]. 王怀警,谭炳香,王晓慧,房秀凤,李世明. 遥感信息. 2019(02)
[5]基于二次组合的特征工程与XGBoost模型的用户行为预测[J]. 杨立洪,白肇强. 科学技术与工程. 2018(14)
[6]决策树多元分类模型预测森林植被覆盖[J]. 迟翕幻. 电子制作. 2017(24)
[7]基于遥感影像和二类调查数据的林地类型分类方法对比研究——以广西凭祥市为例[J]. 张乃静,侯瑞霞,纪平. 林业资源管理. 2017(04)
[8]基于随机森林模型的陆地卫星-8遥感影像森林植被分类[J]. 张晓羽,李凤日,甄贞,赵颖慧. 东北林业大学学报. 2016(06)
[9]多源数据林地类型的精细分类方法[J]. 任冲,鞠洪波,张怀清,黄建文,郑应选. 林业科学. 2016(06)
[10]基于C5.0决策树和时序HJ-1A/B CCD数据的神农架林区植被分类[J]. 李梦莹,胡勇,王征禹. 长江流域资源与环境. 2016(07)
博士论文
[1]中高分辨率遥感影像森林类型精细分类与森林资源变化监测技术研究[D]. 任冲.中国林业科学研究院 2016
硕士论文
[1]基于LightGBM的居民出行方式选择模型及应用研究[D]. 范德祥.华中科技大学 2018
[2]基于多层次分割的遥感影像面向对象森林分类[D]. 马浩然.北京林业大学 2014
[3]森林类型遥感分类研究[D]. 鲍晨光.东北林业大学 2010
[4]基于人工神经网络的森林植被遥感分类研究[D]. 刘涛.河北农业大学 2009
本文编号:3093982
本文链接:https://www.wllwen.com/shoufeilunwen/zaizhiyanjiusheng/3093982.html
教材专著