基于最大平衡度与最大共识的改进随机森林算法研究
发布时间:2017-04-24 13:23
本文关键词:基于最大平衡度与最大共识的改进随机森林算法研究,由笔耕文化传播整理发布。
【摘要】:在过去的几十年中,随着计算机性能的提高、软硬件成本的下降,使得计算机功能日益强大。数据收集和存储设备的大量供应,推动了数据库和信息产业的高速发展,社会各部分信息化程度获得了大步提高。然而,数据量急剧增加的同时,数据背后隐藏的重要知识反而没有得到很好的应用,数据挖掘正是挖掘这些信息的方法。特别是当学习过程中数据所属类别的判断是在用户参与指导下完成的,这就是监督式学习过程。随机森林算法正是监督式学习的一种方法。随机森林算法是一个分类器模型组合算法,思想是机器学习中集成学习算法思想的扩展与应用,其根据训练集学习出多个基分类器,然后综合这些分类结果作为最终的分类结果,提高了集成分类器的分类精度。因为随机森林算法性能优良,在模式识别、文本分类、商品推荐等领域获得了广泛应用。然而,国内研究人员关注的方向主要是随机森林算法在某个具体领域的应用,而关于算法本身性能等的研究则比较少。特别是在大数据背景下,对于随机森林算法的性能和分类精度能否取得进一步提升都研究的不够深入。本文就如何利用随机森林算法处理大数据分类问题展开研究,针对随机森林算法的优化与性能提升,可以从两个方面展开研究,一是从数据预处理方面解决随机森林算法处理非平衡数据集的问题,二是从模型组合这一算法本身的改进方面。一方面,首先分析了非平衡数据集对分类算法带来的问题,总结了常见的数据平衡化方法,并分析各自的缺陷,然后提出一种全新的基于最大平衡度的自适应随机抽样算法,并通过实验证明了该方法的有效性,可以在合理的整体精度范围内能够较好地处理非平衡数据。另一方面,对原有的随机森林算法进行了进一步改造,使用最大共识策略代替原来的多数表决机制,提出了一种新的基于最大共识的模型组合算法,综合考虑模型组合算法的经验误差和泛化误差,用于更好地发挥各个单分类器的个性与优势,强化分类效果好的单分类器的优势,弱化分类效果较差的单分类器的劣势,并通过实验证明其能进一步提升组合分类器的分类性能,在提高分类精度的同时,也具有较强的泛化能力。
【关键词】:随机森林 模型组合 最大平衡度 最大共识 多数表决 泛化误差
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP18
【目录】:
- 摘要4-6
- Abstract6-11
- 第1章 绪论11-16
- 1.1 研究背景和意义11-12
- 1.2 国内外研究现状12-14
- 1.2.1 随机森林算法应用研究12-13
- 1.2.2 随机森林算法优化和改进研究13-14
- 1.3 本文的工作14
- 1.4 本文的组织结构14-16
- 第2章 随机森林算法的相关理论16-30
- 2.1 随机森林算法的发展16-18
- 2.1.1 单分类器16-17
- 2.1.2 Tree Bagging算法17
- 2.1.3 随机森林算法17-18
- 2.2 随机森林算法的理论基础18-24
- 2.2.1 随机森林算法的数学定义18-20
- 2.2.2 随机森林算法的性能指标与评价方法20-24
- 2.3 随机森林算法的训练过程24-29
- 2.3.1 抽样过程25-26
- 2.3.2 单分类器训练26-27
- 2.3.3 森林形成与模型组合27-28
- 2.3.4 随机森林算法分析28-29
- 2.4 本章小结29-30
- 第3章 基于最大平衡度的自适应随机抽样方法30-43
- 3.1 数据平衡化优化背景30-32
- 3.1.1 非平衡数据集30-31
- 3.1.2 非平衡数据的分类问题31-32
- 3.2 数据平衡化方法32-33
- 3.3 基于最大平衡度的自适应随机抽样方法33-36
- 3.3.1 平衡度定义33-34
- 3.3.2 ARSA-BM算法介绍34-35
- 3.3.3 ARSA-BM算法描述35-36
- 3.4 ARSA-BM算法的实验分析36-42
- 3.4.1 实验环境36-37
- 3.4.2 实验数据集37-38
- 3.4.3 性能指标与评估方法38
- 3.4.4 实验结果与分析38-42
- 3.5 本章小结42-43
- 第4章 基于最大共识的模型组合算法43-54
- 4.1 模型组合的相关概念43-44
- 4.2 加权的多数表决机制44-45
- 4.3 基于最大共识的模型组合算法45-50
- 4.3.1 最大共识定义45-47
- 4.3.2 MCA-CM算法介绍47-49
- 4.3.3 MCA-CM算法描述49-50
- 4.4 MCA-CM算法的实验分析50-53
- 4.4.1 实验环境50
- 4.4.2 实验数据集50-51
- 4.4.3 实验结果与分析51-53
- 4.5 本章小结53-54
- 第5章 总结与展望54-56
- 5.1 研究总结54
- 5.2 展望54-56
- 参考文献56-60
- 作者简介及在学期间所取得的科研成果60-61
- 致谢61
【参考文献】
中国期刊全文数据库 前4条
1 吴琼;李运田;郑献卫;;面向非平衡训练集分类的随机森林算法优化[J];工业控制计算机;2013年07期
2 董陇军;李夕兵;彭康;;岩爆等级预测的随机森林模型及应用(英文)[J];Transactions of Nonferrous Metals Society of China;2013年02期
3 ;A genome-wide association study of Alzheimer's disease using random forests and enrichment analysis[J];Science China(Life Sciences);2012年07期
4 马景义;吴喜之;谢邦昌;;拟自适应分类随机森林算法[J];数理统计与管理;2010年05期
本文关键词:基于最大平衡度与最大共识的改进随机森林算法研究,,由笔耕文化传播整理发布。
本文编号:324303
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/324303.html