当前位置:主页 > 管理论文 > 领导决策论文 >

基于特征选择与多样性的随机森林算法研究

发布时间:2022-08-08 12:18
  随着万物互联时代的到来,各行各业的发展都离不开互联网,与互联网相关的各领域中充斥着大量复杂的数据信息,随之产生“信息过载”的问题,使得用户或一些企业平台很难从海量信息数据中挖掘所需要的关键信息。针对庞大的数据处理任务,基于机器学习训练方式的集成分类模型能有效解决这类问题,但该模型因其自身的数据特征拟合困难和集成模型泛化误差等问题存在一定的局限性。因此,本文以随机森林集成算法为基础,通过改进基分类器和集成的方式对集成模型进行研究,本文的主要工作和改进如下:1.在分类模型数据预处理阶段,针对数据处理与特征选择过程中存在的特征属性划分困难、难以拟合数据集的情况,本次设计以特征作为重要依据,综合分析数据、特征、类别三者之间的关联性,通过特征重要性度量和P值效验的方式筛选出高效特征子集,最后利用随机森林模型进行分类精度的研究。通过实验数据仿真分析得出高效特征子集能有效解决特征属性划分问题,从而提升随机森林集成模型的精确率和召回率。2.在大规模数据分类阶段,针对随机森林集成算法内部因基分类器冗余、多样性不显著所造成的泛化误差问题,本文设计了一种结合特征信息和多样性的极限随机森林集成算法。该算法首先... 

【文章页数】:74 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
注释表
第1章 绪论
    1.1 课题研究背景及意义
    1.2 课题研究现状及分析
        1.2.1 集成学习的研究现状
        1.2.2 当前存在的问题
    1.3 论文主要工作及组织结构
        1.3.1 论文主要研究内容
        1.3.2 论文主要结构安排
第2章 相关技术简介
    2.1 集成分类系统概述
    2.2 常用集成算法和技术
        2.2.1 基于Bagging的集成方法
        2.2.2 基于Boosting的集成方法
        2.2.3 基于Stacking的集成方法
    2.3 数据预处理和特征选择
        2.3.1 数据预处理
        2.3.2 特征选择技术
    2.4 集成分类算法
        2.4.1 基分类器结构分析
        2.4.2 集成分类泛化误差分析
    2.5 算法评价指标
    2.6 本章小结
第3章 基于特征信息和P值效验的集成策略
    3.1 引言
    3.2 基于特征选择的方法设计
    3.3 基于特征信息和P值效验的处理策略
        3.3.1 根据关联性进行子集筛选
        3.3.2 特征重要性度量
        3.3.3 基于P值效验的方法设计
        3.3.4 特征子集评估
    3.4 构建集成分类模型
        3.4.1 决策树模型构建
        3.4.2 随机森林模型构建
    3.5 实验结果分析
        3.5.1 实验数据集设置
        3.5.2 实验过程分析
        3.5.3 实验参数影响
        3.5.4 对比实验分析
    3.6 本章小结
第4章 结合多样性的极限随机森林算法设计
    4.1 引言
    4.2 基于特征选择的P-ERF算法设计
    4.3 结合多样性的分类器内部设计
        4.3.1 随机树结构设计
        4.3.2 结合多样性的算法设计
    4.4 基于加权的P-ERF算法设计
        4.4.1 改进的集成策略
        4.4.2 构建极限随机森林模型
    4.5 实验结果分析
        4.5.1 实验数据集设置
        4.5.2 实验评价指标
        4.5.3 仿真结果分析
        4.5.4 对比实验分析
    4.6 本章小结
第5章 总结与展望
    5.1 全文总结
    5.2 未来工作展望
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果


【参考文献】:
期刊论文
[1]基于随机森林的Android恶意软件检测方法研究[J]. 宋鑫,赵楷,张琳琳,方文波.  信息网络安全. 2019(09)
[2]基于Spark和随机森林的乳腺癌风险预测分析[J]. 苗立志,刁继尧,娄冲,崔进东.  计算机技术与发展. 2019(08)
[3]基于机器学习的新生儿坏死性小肠结肠炎的鉴别诊断[J]. 高文静,梁会营,钟微,吕俊健.  中国数字医学. 2019(03)
[4]一种基于快速k-近邻的最小生成树离群检测方法[J]. 朱利,邱媛媛,于帅,原盛.  计算机学报. 2017(12)
[5]基于随机森林算法的推荐系统的设计与实现[J]. 沈晶磊,虞慧群,范贵生,郭健美.  计算机科学. 2017(11)
[6]一种结合随机森林和邻域粗糙集的特征选择方法[J]. 吴辰文,王伟,李长生,梁靖涵,闫光辉.  小型微型计算机系统. 2017(06)
[7]基于对称不确定性和SVM递归特征消除的信息基因选择方法[J]. 叶明全,高凌云,伍长荣,万春圆.  模式识别与人工智能. 2017(05)
[8]基于随机森林的K最近邻算法[J]. 江昆,白旭英,车金星.  南昌工程学院学报. 2016(06)
[9]基于类别特征选择与反馈学习随机森林算法的邮件过滤系统研究[J]. 孙雪,韩蕾,李昆仑.  计算机应用与软件. 2015(04)
[10]阿里云实现Spark的分布式计算[J]. 张丹阳,曹维焯,薛志云,何军.  福建电脑. 2015(02)



本文编号:3671494

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3671494.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ebf8d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com