随机森林分类算法的改进及其应用研究
发布时间:2021-04-23 08:49
本硕士论文主要研究随机森林(Random Forest,RF)分类算法及其应用,并对算法构建过程作了一些改进.随机森林算法作为最有效的集成方法之一,具有需要调整的参数少、运算速率高,不会出现过拟合现象和抗噪声能力强等特点.然而,算法的分类性能往往受单个基分类器的影响.一般来说,基分类器的分类能力越高,整体集成的森林分类效果就越好.与此同时,基分类器之间的差异性也是影响随机森林性能的一个重要因素,基分类器的差异性越强,构建的集成算法性能越好.基于此,本文针对随机森林分类算法和其应用展开了研究和讨论,主要包括基于局部显著性判别和加权的旋转森林算法研究,基于多核支持向量机的随机森林算法研究以及随机森林在人体血液白细胞分类上的应用研究.具体工作概括如下:1.为了提高随机森林的泛化性能,增强基分类器之间的差异性,我们提出了一种基于局部显著性判别和加权投票的旋转森林算法.通过扩展特征空间使得属性子集分割更彻底,利用局部显著性判别作为特征提取方式,增强基分类器之间的差异性,最后赋予决策树以不同的权重参与最终决策,提高算法的分类性能.UCI数据集和人脸识别数据库上的实验结果表明,提出的算法比其他集成方法具有更高的识别精度.2.利用主成分分析和线性判别分析分别对原始特征空间作变换,创建了一种以多核支持向量机为基本分类器的随机森林算法.通过在UCI分类数据集上的验证,相比传统的集成分类算法和支持向量机分类算法,本文提出的基于多核支持向量机的随机森林算法分类效果更佳.3.针对人体外周血液五类白细胞的细胞核和细胞质的特性,提出了一种基于计算机图像处理与人工智能的白细胞分类算法.在常用的核质比和圆形度特征的基础上,提取其在纹理和形态学等方面的旋转不变共生局部二值模式特征和细胞核形状特征,并对提取的特征进行维数约减和归一化处理,最后,选取精度和效率高的随机森林作为上述特征的分类器.实验结果表明,所提出的白细胞分类算法要比现有的几种分类算法具有更高的识别效果.
【学位授予单位】:中国计量大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP301.6
本文编号:1635057
【学位授予单位】:中国计量大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP301.6
文章目录
致谢
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 本文主要工作和结构
2 集成学习和随机森林
2.1 引言
2.2 集成学习
2.2.1 Boosting和Bagging
2.3 随机森林
2.3.1 决策树 -随机森林的基分类器
2.3.2 ID3算法
2.3.3 C4.5 算法
2.3.4 CART算法
2.3.5 随机森林的构建
2.3.6 随机森林的收敛性分析
2.4 本章小结
3 基于局部显著性判别和加权投票的旋转森林算法
3.1 引言
3.2 基于局部显著性判别和加权投票的旋转森林算法
3.2.1 算法分析
3.3 实验结果与分析
3.3.1 基于UCI数据集的算法性能分析
3.3.2 算法的统计分析比较
3.3.3 人脸识别应用
3.4 本章小结
4 基于多核支持向量机的随机森林算法
4.1 引言
4.2 基于多核支持向量机的随机森林算法
4.2.1 支持向量机
4.2.2 多核支持向量机
4.2.3 SimpleMKL算法流程
4.2.4 多核支持向量机随机森林
4.3 实验结果与分析
4.4 本章小结
5 基于综合特征和随机森林的白细胞分类算法
5.1 引言
5.2 特征提取和分类
5.2.1 特征提取
5.2.2 随机森林分类
5.3 实验结果与分析
5.4 本章小结
6 结论与展望
6.1 研究总结
6.2 进一步需要开展的工作
参考文献
作者简历
【引证文献】
相关期刊论文 前1条
1 唐燕;王苹;;随机森林算法在中医药院校贫困生认定预测中的应用研究[J];中国医药导报;2017年14期
本文编号:1635057
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1635057.html