随机森林算法优化研究
发布时间:2017-08-28 06:04
本文关键词:随机森林算法优化研究
更多相关文章: 随机森林 非平衡数据集 连续变量离散化 节点分裂 优化研究
【摘要】:随机森林算法(Random Forests)是一种基于统计学习理论的组合分类器,它将bootstrap重抽样方法和决策树算法相结合,该算法的本质是构建一个树型分类器h k (x), k1,的集合,然后使用该集合通过投票进行分类和预测。由于该算法较好地解决了单分类器在性能上无法提升的瓶颈,因此具有较好的性能,能应用于各种分类筛选和预测中。当然,该算法也存在一些有待完善的地方,针对这些不足,理论界主要集中在三个方面进行优化研究,一是引进新的算法,二是对将数据预处理融入到算法中,三是针对算法自身构建过程进行优化。本文在充分查阅国内外相关资料的基础上,对后二个方面开展了优化研究。 一、在数据预处理方面,提出了两种改进随机森林的优化算法。 首先,针对随机森林不能很好地处理非平衡数据的问题,根据聚类算法思想和物理学的重心理论,本文提出了C_SMOTE算法,该算法能较好地降低数据集的非平衡性,从而提升了随机森林算法的分类性能。该算法针对SMOTE算法在选取“人造”样本时,存在一定的盲目性现象和容易产生边缘化的问题,提出了从负类样本的重心出发,有目的构造“人造”样本的新思路,使得在“人造”负类样本的过程中,新产生的样本有向重心汇聚的趋势,这样就可以有效地解决了SMOTE算法的缺陷,从而实现了既保留原有数据集的信息,又较好地解决数据集的非平衡性问题,从而在很大的程度上提升了随机森林算法在非平衡数据集上的分类性能。 其次,随机森林算法在进行节点分裂时常采用C4.5算法,但C4.5算法在处理连续变量时,采用二分离散化的方法,该方法运行效率依懒于连续变量取值的数量,该数量越大,随机森林算法执行时间越长。针对此现象,本文提出了一种降低连续变量取值的数量的新算法,该算法可以很好地为C4.5算法提供简约的数据集,从而提升C4.5算法的执行效率。新算法是在借鉴CHI2系列算法思想的基础上,针对CHI2系列算法没有考虑2统计量和真实值之间存在偏差的问题而提出的。该算法使用2矫正公式较好地处理了CHI2系列算法中的偏差问题。文中通过使用三种通用的UCI数据集,将新算法和没有解决偏差问题CHI2系列算法,在改善随机森林算法性能方面进行了比较分析。实证数据表明,和CHI2系列算法相比,新算法能更有效地约简数据集中的冗余信息,使连续变理取值的数量很大程度地减少,从而提升随机森林算法的执行效率。 二、在随机森林自身构建过程优化方面,本文通过分析随机森林算法分类性能的影响因素,针对随机森林在生成过程中,节点分裂算法不同引起的随机森林分类性能不同的现象,提出了一种基于线性组合的节点分裂混合算法。该算法将C4.5算法和CART算法在节点分裂时的函数进行线性组合,通过变换组合函数中的系数,充分发挥了这两种算法优势,较好地实现了随机森林算法分类性能的优化。同时,还详细分析了混合算法的稳定性、相关度和强度。首先,通过构造F统计量进行方差分析,对该混合算法的稳定性进行了检验。统计结果表明,该随机森林的混合算法随着森林中树木个数的变化虽然存在一定的不稳定性,但当森林中树木达到800棵时,算法可以达到稳定的状态。然后对混合算法的相关度和强度进行了理论上的推导和论述,同时实现了随机森林的平均相关度和强度的计算,并使用实证分析的办法,,验证了平均相关度和算法分类精度存在负相关,森林的平均强度和算法的分类精度存在正相关的关系,并得了出混合算法对提升森林的平均强度和降低平均相关度较有其他算法具有明显的优势,也从另一个方面验证了混合算法的优越性。 在优质股票池选择的实际应用中,该应用的数据集存在大量的连续变量,且该应用对分类算法的精度要求严格。本研究提出的随机森林优化算法,可以很好地处理连续变量及提升随机森林的分类精度。本文在价值成长投资策略的选股指标体系的基础上,通过小波分析和COR_CHI2算法进行数据预处理,使用节点分裂混合算法形成的随机森林成功地实现了优质股票池的选择,可为投资者进行有针对性的投资组合提供统计支持。
【关键词】:随机森林 非平衡数据集 连续变量离散化 节点分裂 优化研究
【学位授予单位】:首都经济贸易大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:C829.2
【目录】:
- 摘要4-6
- Abstract6-9
- 目录9-13
- 1 引言13-18
- 1.1 研究背景和意义13-14
- 1.2 国内外随机森林优化方法综述14-16
- 1.2.1 引入新的算法进行优化的方法综述14-15
- 1.2.2 将数据预处理融入随机森林算法的优化方法综述15
- 1.2.3 针对随机森林算法自身构建过程进行优化的方法综述15-16
- 1.3 本文的主要工作与结构安排16-18
- 1.3.1 本文的主要工作16-17
- 1.3.2 本文的结构17-18
- 2 随机森林研究综述18-41
- 2.1 随机森林的基分类器 决策树18-24
- 2.1.1 决策树概述18
- 2.1.2 决策树生成过程中的节点分裂算法18-24
- 2.1.3 决策树分类中存在的问题24
- 2.2 随机森林的构建过程24-27
- 2.2.1 为每棵决策树抽样产生训练集24-26
- 2.2.2 构建每棵决策树26-27
- 2.2.3 森林的形成及算法的执行27
- 2.3 随机森林的随机性分析27-29
- 2.3.1 训练集的随机选取28
- 2.3.2 随机特征变量的随机性28
- 2.3.3 随机森林的随机性在实证分析中的表现及解决办法28-29
- 2.4 随机森林的理论概述29-31
- 2.4.1 随机森林的数学定义29-31
- 2.4.2 随机森林的性质31
- 2.5 随机森林的性能指标31-35
- 2.5.1 分类效果系列指标31-33
- 2.5.2 泛化误差与 OOB 估计33-34
- 2.5.3 随机森林算法运行效率指标34-35
- 2.6 几种实现随机森林算法的软件介绍35-37
- 2.6.1 Weka 软件35-36
- 2.6.2 R 软件36-37
- 2.6.3 MATLAB 软件37
- 2.7 随机森林算法存在的问题37-39
- 2.7.1 不能很好地处理非平衡数据37-38
- 2.7.2 对连续性变量的处理还需要进行离散化38
- 2.7.3 随机森林算法的分类精度还需要进一步的提升38-39
- 2.8 本章小结39-41
- 3 随机森林处理非平衡数据集的优化研究41-58
- 3.1 非平衡数据简介41
- 3.2 非平衡数据集分类困难的原因分析41-44
- 3.2.1 数据稀少问题42
- 3.2.2 数据碎片问题42-43
- 3.2.3 归纳偏差问题43
- 3.2.4 噪声问题43
- 3.2.5 评价指标选择问题43-44
- 3.2.6 数据分布问题44
- 3.3 非平衡数据集分类问题的解决办法44-47
- 3.3.1 通过改进算法解决非平衡问题的方法简介44-45
- 3.3.2 通过改造数据解决非平衡问题的方法简介45-47
- 3.4 随机森林处理非平衡数据分类问题的优化--C_SMOTE 算法47-50
- 3.4.1 C_SOMTE 算法设计47-49
- 3.4.2 C_SMOTE 算法流程图49-50
- 3.5 使用 C_SMOTE 算法提升随机森林算法性能实证分析50-57
- 3.5.1 数据集介绍50
- 3.5.2 实验环境50-51
- 3.5.3 实验结果及分析51-57
- 3.6 本章小结57-58
- 4 随机森林处理连续变量的优化研究58-72
- 4.1 连续变量离散化概述58-60
- 4.1.1 连续变量离散化的概念58
- 4.1.2 连续变量离散化的衡量标准58-59
- 4.1.3 随机森林算法中连续变量离散化方法59-60
- 4.2 连续变量离散化的方法简介60-64
- 4.2.1 简单的连续变量离散化算法60-62
- 4.2.2 基于信息熵的 CADD 系列算法62-63
- 4.2.3 基于统计学的 CHI2 系列算法简介63-64
- 4.3 随机森林处理连续变量的优化—COR_CHI2 算法64-66
- 4.3.1 COR_CHI2 算法设计65-66
- 4.3.2 COR_CHI2 算法程序流程图66
- 4.4 COR_CHI2 算法对随机森林算法性能优化实证分析66-71
- 4.4.1 实证分析使用的数据集介绍66-67
- 4.4.3 COR_CHI2 算法对数据集的约简效果分析67-70
- 4.4.4 COR_CHI2 算法约简后的数据集对随机森林算法运行效率的影响分析70-71
- 4.5 本章小结71-72
- 5 随机森林算法分类性能的优化研究72-94
- 5.1 随机森林算法分类性能的影响因素分析72-79
- 5.1.1 森林中决策树的数量72-74
- 5.1.2 随机特征变量 F 的值74-76
- 5.1.3 不同的节点分裂算法比较76-79
- 5.2 随机森林的分类性能优化--节点分裂混合算法79-85
- 5.2.1 节点分裂混合算法描述80
- 5.2.2 节点分裂算法的程序流程80-81
- 5.2.3 混合算法分类性能实证分析81-83
- 5.2.4 混合算法与 R 软件中随机森林算法的比较83-85
- 5.3 混合算法稳定性分析85-90
- 5.3.1 混合算法稳定性估计的模型分析85-86
- 5.3.2 混合算法稳定性估计86-88
- 5.3.3 混合算法稳定状态分析88-90
- 5.4 混合算法形成的森林中相关度及强度分析90-92
- 5.4.1 随机森林中相关度及强度估计90
- 5.4.2 混合算法形成的森林中强度分析90-91
- 5.4.3 混合算法形成的森林中相关度分析91-92
- 5.5 本章小结92-94
- 6 优化后的随机森林算法对优质股票池的选择94-110
- 6.1 量化投资中选股研究综述94-96
- 6.1.1 朴素贝叶斯分类方法在选股分析中的应用94-95
- 6.1.2 决策树分类方法在选股分析中的应用95
- 6.1.3 神经网络分类方法在选股分析中的应用95
- 6.1.4 支持向量机分类方法在选股分析中的应用95-96
- 6.1.5 使用优化后的随机森林算法进行选股分析的原因96
- 6.2 股票数据预处理方法简介96-100
- 6.2.1 数据标准化处理96-97
- 6.2.2 数据噪声处理97-100
- 6.3 选股模型指标体系的简介100-106
- 6.3.1 传统的价值型投资策略100-102
- 6.3.2 积极的成长型投资策略102
- 6.3.3 价值成长投资策略(GARP)102-103
- 6.3.4 以价值成长投资策略为指导的选股模型指标体系的构建103-106
- 6.4 优化后的随机森林算法对优质股票池的选择106-109
- 6.4.1 样本的选择106-107
- 6.4.2 指标数据的财报匹配107
- 6.4.3 数据预处理107-108
- 6.4.4 当月实际表现分析108-109
- 6.5 本章小结109-110
- 7 总结与展望110-112
- 7.1 本文的创新点110
- 7.2 今后的研究思路110-112
- 8 参考文献和注释112-119
- 9 附录119-132
- 10 在学期间发表的学术论文和研究成果132-133
- 11 后记133-134
【引证文献】
中国博士学位论文全文数据库 前1条
1 李云飞;基于人工智能方法的股票价值投资研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前2条
1 马永强;基于回归森林的车载INS/GPS组合导航系统设计[D];北京交通大学;2015年
2 袁月;智能交通系统中监测数据的分析与应用的研究[D];北京邮电大学;2015年
本文编号:747364
本文链接:https://www.wllwen.com/shoufeilunwen/sklbs/747364.html