基于加权决策树的随机森林模型优化
发布时间:2019-09-18 04:23
【摘要】:随机森林是一种组合分类器,它的主要思想是基于两个随机过程(训练样本随机抽取、特征集随机抽取)来构建多棵相对独立的决策树分类器,然后通过所有决策树参与投票的方式获得最终的预测结果,这样有效避免了过度拟合的问题,并且构建决策树的相对独立性适合于并行计算提高模型的预测效率,方便处理高维数据。这些特点使随机森林在各个工程应用中得到了迅速、广泛的使用,成为机器学习、数据挖掘研究中的热门算法。虽然随机森林在模型构建过程中的随机抽样解决了过拟合的问题,但是也使得模型中不同决策树的泛化能力存在一定的差异,在传统随机森林模型中这些具有不同泛化能力的决策树拥有相同的投票权重,这影响了模型整体预测能力的稳定性。因此,为了进一步提高随机森林模型整体的预测能力,本文提出了一种优化的随机森林投票方法,通过使用决策树的分类性能与样本的统计特征来确定决策树的投票权重,使用加权决策树投票的方式提高随机森林整体模型的准确率与效率。本文通过研究传统随机森林算法,着重优化了随机森林的投票过程,针对投票过程中存在的问题,提出改进的方法,并通过在多个公共数据集上展开实验,验证优化方法的合理性和优越性。本研究的主要工作包括:(1)从决策树的分类能力、训练样本的统计特性入手,提出了 4种计算决策树投票权重的方法,包括OOB评估、样本数据相关系数评估、卡方评估和互信息评估,通过这4种评估方法为单棵决策树计算投票权重。在8组数据集上进行对比实验,实验结果表明引入投票加权的方法可以有效的提高随机森林模型整体的泛化能力,其中以相关系数作为决策树投票权重计算依据时,模型表现出更稳定、更高的预测准确率。(2)在引入加权投票算法的基础上,本文还提出了一种半投票量模式,对构建好的加权随机森林模型按照决策树投票权重进行降序排序,在随机森林模型进行串行投票的过程中,确定半投票量的预测终止条件,通过提前触发预测终止条件来提高模型预测的速度。本文在4组数据集上进行对比实验,验证了半投票量模式可以在不影响模型预测准确率的前提下显著提高随机森林模型的预测速度。
【图文】:
硕士学位论文逡逑MASTER'S邋THESIS逡逑(2)选择一个划分训练数据集效果最好的特征t,并将特征t从特征集T中移逡逑除;逡逑(3)创建一个树节点,属性为上一步选择的特征t,将训练数据集划分为2个逡逑或多个子数据集,每个子数据集作为下一次迭代的训练数据集。逡逑在步骤(3)中,划分得到子数据集,要是己经达到决策树停止生长的条件,逡逑则子数据集己经到达叶子节点,无需继续向下划分,而停止生长的条件有很多种,逡逑包括:逡逑①对应特征集T中的特征元素数量为零;逡逑②子数据集中数据量过少,己经低于数据集包含数据量的最小值;逡逑③子数据集继续划分得到的信息增益量很小,或子数据集继续划分的熵值很逡逑小。逡逑下面2.1给出了一个二分类决策树算法模型图:逡逑..逦.一
图2.2随机森林模型构建的流程图逡逑2.2.1邋Bagging算法介绍逡逑Breiman在1996年提出了邋Bagging算法,Bagging算法是一种重采样技术,通逡逑过重采样技术获得训练数据集,用来训练构建得到一个组合分类器,提升模型整体逡逑的泛化能力。逡逑给定一个训练样本数据集和一种元学习算法,Bagging算法通过自主抽样法逡逑(Bootstrap邋Sampling),每次从全部训练样本中随机有放回的抽样得到一个子训练逡逑样本数据集,子训练样本的数据量小于总样本量,使用随机抽样得到的训练样本进逡逑行元学习算法模型训练,得到一个元分类器,这样循环进行多轮训练样本抽取并训逡逑练构建获得多个元分类器,将这些元分类器组合在一起得到组合分类器。在数据预逡逑测的时候,多个元分类器对相同的待预测数据进行相对独立的预测,并通过投票的逡逑方式决定组合分类器最终的预测结果。实验证明,组合分类器的泛化能力往往比单逡逑一分类器的泛化能力要强,,表现出更好的数据预测能力,除此之外组合分类器相比逡逑于单一的分类器,前者更不容易出现过拟合的现象。逡逑
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13
【图文】:
硕士学位论文逡逑MASTER'S邋THESIS逡逑(2)选择一个划分训练数据集效果最好的特征t,并将特征t从特征集T中移逡逑除;逡逑(3)创建一个树节点,属性为上一步选择的特征t,将训练数据集划分为2个逡逑或多个子数据集,每个子数据集作为下一次迭代的训练数据集。逡逑在步骤(3)中,划分得到子数据集,要是己经达到决策树停止生长的条件,逡逑则子数据集己经到达叶子节点,无需继续向下划分,而停止生长的条件有很多种,逡逑包括:逡逑①对应特征集T中的特征元素数量为零;逡逑②子数据集中数据量过少,己经低于数据集包含数据量的最小值;逡逑③子数据集继续划分得到的信息增益量很小,或子数据集继续划分的熵值很逡逑小。逡逑下面2.1给出了一个二分类决策树算法模型图:逡逑..逦.一
图2.2随机森林模型构建的流程图逡逑2.2.1邋Bagging算法介绍逡逑Breiman在1996年提出了邋Bagging算法,Bagging算法是一种重采样技术,通逡逑过重采样技术获得训练数据集,用来训练构建得到一个组合分类器,提升模型整体逡逑的泛化能力。逡逑给定一个训练样本数据集和一种元学习算法,Bagging算法通过自主抽样法逡逑(Bootstrap邋Sampling),每次从全部训练样本中随机有放回的抽样得到一个子训练逡逑样本数据集,子训练样本的数据量小于总样本量,使用随机抽样得到的训练样本进逡逑行元学习算法模型训练,得到一个元分类器,这样循环进行多轮训练样本抽取并训逡逑练构建获得多个元分类器,将这些元分类器组合在一起得到组合分类器。在数据预逡逑测的时候,多个元分类器对相同的待预测数据进行相对独立的预测,并通过投票的逡逑方式决定组合分类器最终的预测结果。实验证明,组合分类器的泛化能力往往比单逡逑一分类器的泛化能力要强,,表现出更好的数据预测能力,除此之外组合分类器相比逡逑于单一的分类器,前者更不容易出现过拟合的现象。逡逑
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 吴懿婷;;决策树和随机森林方法在管理决策中的应用[J];电子制作;2018年16期
2 刘同娟;姜珊;;V-随机森林算法在微博无效评论识别中的应用[J];电脑知识与技术;2019年13期
3 于祥雨;张雪;;随机森林在指数型基金触发式投资方面的应用[J];金融经济;2018年10期
4 刘旭波;刘敬蜀;刘斌;秦令令;陈涛;;随机森林分类用于雷达信号预分选新算法研究[J];科技导报;2019年13期
5 王泽原;赵丽;胡俊;;大数据环境下利用随机森林算法和决策树的贫困生认定方法[J];湘潭大学自然科学学报;2018年06期
6 刘迎春;陈梅玲;;流式大数据下随机森林方法及应用[J];西北工业大学学报;2015年06期
7 王淑玲;谢凤;朱海洋;朱倩倩;;基于随机森林算法的某型飞机燃油消耗情况研究[J];数学的实践与认识;2017年21期
8 刘云翔;陈斌;周子宜;;一种基于随机森林的改进特征筛选算法[J];现代电子技术;2019年12期
9 沈智勇;苏
本文编号:2537308
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2537308.html