基于Spark的随机森林算法优化与并行化研究
发布时间:2021-07-24 23:09
随着互联网技术的快速发展,以及各类应用软件及传感器技术日益成熟,海量的数据信息能被各个领域内的组织机构所获取或积累。大数据逐渐走进了人们的日常生活中,并得到了各行各业的重视。但因其大数据的特性人们无法直接从中提取出一些有价值的知识,所以从大数据中挖掘出有价值的知识已成为当下研究的热点之一。而数据挖掘技术能很好的从数据中挖掘出有价值的信息。目前有许多大数据平台,而Spark因其迭代速度快的优势被广泛使用。分类算法属于数据挖掘中的一个重要分支,在大数据时代也具有重要的意义。随机森林算法是分类算法中的一种,因其较好的分类性能被广泛的应用于各行各业。但是随机森林算法在面对高维数据和不平衡数据时,其算法的表现不是那么好。本文就针对这两个领域提出了两种优化算法:在特征选择领域,本文提出了一种基于最大互信息系数的随机森林算法。该方法主要思路为:首先利用最大互信息系数来对特征进行打分,随后根据特征的得分从高到低对特征进行排序并选取得分高的全部特征和部分得分中等水平的特征(随机选取)参与到随机森林算法的构建之中,最后基于Spark完成了优化算法的并行化设计,最终的实验结果证明了本文所提出的方法很好的解决...
【文章来源】:齐鲁工业大学山东省
【文章页数】:93 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景与意义
1.1.1 研究背景
1.1.2 研究意义
1.2 研究现状
1.2.1 随机森林研究现状
1.2.2 基于Spark大数据框架的随机森林算法研究现状
1.3 研究内容及主要工作
1.4 论文结构安排
1.5 本文创新点
第2章 相关技术及基本概念
2.1 Hadoop相关技术介绍
2.1.1 HDFS的概念特性及工作机制
2.1.2 MapReduce原理介绍
2.1.3 YARN的原理介绍
2.2 Spark相关技术介绍
2.2.1 Spark生态系统
2.2.2 Spark RDD
2.2.3 Spark SQL
2.2.4 Spark Streaming
2.2.5 Spark MLlib和Spark ML
2.2.6 Spark GraphX
2.2.7 Spark专业术语简单介绍
2.3 随机森林算法介绍
2.3.1 决策树
2.3.2 随机森林定义
2.3.3 随机森林构建过程
2.3.4 随机森林算法的优缺点
2.4 特征选择相关技术介绍
2.4.1 特征选择
2.4.2 特征选择相关方法
2.5 不平衡分类相关技术介绍
2.5.1 不平衡数据及其特点
2.5.2 不平衡分类相关解决方法
2.6 本章小结
第3章 基于最大互信息系数的随机森林算法
3.1 随机森林的特征选择问题
3.2 最大互信息系数
3.3 基于最大互信息系数的随机森林算法
3.4 优化算法的并行化设计
3.4.1 数据并行化
3.4.2 任务并行化
3.5 实验结果与分析
3.5.1 实验环境准备
3.5.2 实验数据
3.5.3 实验结果
3.6 本章小结
第4章 基于GAN的随机森林算法
4.1 随机森林的不平衡分类问题
4.2 生成对抗网络
4.3 基于GAN的随机森林算法
4.4 优化算法的并行化设计
4.5 实验论证
4.5.1 实验环境
4.5.2 评估标准与实验数据
4.5.3 实验过程及实验结果
4.6 本章小结
第5章 改进随机森林算法的应用
5.1 算法应用领域介绍
5.1.1 入侵检测系统介绍
5.1.2 入侵检测相关技术介绍
5.2 入侵检测领域存在问题
5.3 具体解决方案
5.3.1 基于GAN的随机森林算法的应用
5.3.2 基于最大互信息系数的随机森林算法的应用
5.4 实验论证
5.4.1 实验数据与数据预处理
5.4.2 实验环境
5.4.3 评价标准
5.4.4 实验结果
5.5 本章总结
第6章 总结与展望
6.1 总结
6.2 展望
参考文献
致谢
在学期间主要研究成果
一、发表学术论文
二、其他科研成果
【参考文献】:
期刊论文
[1]基于Spark和随机森林的乳腺癌风险预测分析[J]. 苗立志,刁继尧,娄冲,崔进东. 计算机技术与发展. 2019(08)
[2]Spark环境下基于综合权重的不平衡数据集成分类方法[J]. 丁家满,王思晨,贾连印,游进国,姜瑛. 小型微型计算机系统. 2019(02)
[3]基于类区分度的高维不平衡特征选择算法[J]. 杨杰明,高聪,曲朝阳,刘鹏,陈宇阳,赵才博. 科技通报. 2019(01)
[4]基于随机森林和气象参数的PM2.5浓度等级预测[J]. 任才溶,谢刚. 计算机工程与应用. 2019(02)
[5]基于随机森林的文本分类并行化[J]. 彭徵,王灵矫,郭华. 计算机科学. 2018(12)
[6]基于随机森林的加权特征选择算法[J]. 徐少成,李东喜. 统计与决策. 2018(18)
[7]基于数据挖掘技术的乳腺癌亚型识别方法[J]. 杨绍华,陈冬东,张旭,何林. 西南大学学报(自然科学版). 2018(05)
[8]生成式对抗网络:从生成数据到创造智能[J]. 王坤峰,左旺孟,谭营,秦涛,李力,王飞跃. 自动化学报. 2018(05)
[9]基于随机森林的自适应特征选择算法[J]. 刘凯,郑山红,蒋权,赵天傲. 计算机技术与发展. 2018(09)
[10]基于非平衡数据的随机森林分类算法改进[J]. 魏正韬,杨有龙,白婧. 重庆大学学报. 2018(04)
硕士论文
[1]基于GIS和MIC法的广西土壤侵蚀区划研究[D]. 蒙静.广西师范学院 2018
[2]Spark平台下的基于随机森林算法的用户贷款风险预测研究[D]. 周杰.东北师范大学 2018
[3]数据挖掘算法优化研究与应用[D]. 王明星.安徽大学 2014
[4]随机森林在医学影像数据分析中的应用[D]. 张红岩.湖南师范大学 2013
[5]基于组合策略的随机森林方法研究[D]. 刘晓东.大连理工大学 2013
[6]随机森林的特征选择和模型优化算法研究[D]. 雍凯.哈尔滨工业大学 2008
本文编号:3301616
【文章来源】:齐鲁工业大学山东省
【文章页数】:93 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景与意义
1.1.1 研究背景
1.1.2 研究意义
1.2 研究现状
1.2.1 随机森林研究现状
1.2.2 基于Spark大数据框架的随机森林算法研究现状
1.3 研究内容及主要工作
1.4 论文结构安排
1.5 本文创新点
第2章 相关技术及基本概念
2.1 Hadoop相关技术介绍
2.1.1 HDFS的概念特性及工作机制
2.1.2 MapReduce原理介绍
2.1.3 YARN的原理介绍
2.2 Spark相关技术介绍
2.2.1 Spark生态系统
2.2.2 Spark RDD
2.2.3 Spark SQL
2.2.4 Spark Streaming
2.2.5 Spark MLlib和Spark ML
2.2.6 Spark GraphX
2.2.7 Spark专业术语简单介绍
2.3 随机森林算法介绍
2.3.1 决策树
2.3.2 随机森林定义
2.3.3 随机森林构建过程
2.3.4 随机森林算法的优缺点
2.4 特征选择相关技术介绍
2.4.1 特征选择
2.4.2 特征选择相关方法
2.5 不平衡分类相关技术介绍
2.5.1 不平衡数据及其特点
2.5.2 不平衡分类相关解决方法
2.6 本章小结
第3章 基于最大互信息系数的随机森林算法
3.1 随机森林的特征选择问题
3.2 最大互信息系数
3.3 基于最大互信息系数的随机森林算法
3.4 优化算法的并行化设计
3.4.1 数据并行化
3.4.2 任务并行化
3.5 实验结果与分析
3.5.1 实验环境准备
3.5.2 实验数据
3.5.3 实验结果
3.6 本章小结
第4章 基于GAN的随机森林算法
4.1 随机森林的不平衡分类问题
4.2 生成对抗网络
4.3 基于GAN的随机森林算法
4.4 优化算法的并行化设计
4.5 实验论证
4.5.1 实验环境
4.5.2 评估标准与实验数据
4.5.3 实验过程及实验结果
4.6 本章小结
第5章 改进随机森林算法的应用
5.1 算法应用领域介绍
5.1.1 入侵检测系统介绍
5.1.2 入侵检测相关技术介绍
5.2 入侵检测领域存在问题
5.3 具体解决方案
5.3.1 基于GAN的随机森林算法的应用
5.3.2 基于最大互信息系数的随机森林算法的应用
5.4 实验论证
5.4.1 实验数据与数据预处理
5.4.2 实验环境
5.4.3 评价标准
5.4.4 实验结果
5.5 本章总结
第6章 总结与展望
6.1 总结
6.2 展望
参考文献
致谢
在学期间主要研究成果
一、发表学术论文
二、其他科研成果
【参考文献】:
期刊论文
[1]基于Spark和随机森林的乳腺癌风险预测分析[J]. 苗立志,刁继尧,娄冲,崔进东. 计算机技术与发展. 2019(08)
[2]Spark环境下基于综合权重的不平衡数据集成分类方法[J]. 丁家满,王思晨,贾连印,游进国,姜瑛. 小型微型计算机系统. 2019(02)
[3]基于类区分度的高维不平衡特征选择算法[J]. 杨杰明,高聪,曲朝阳,刘鹏,陈宇阳,赵才博. 科技通报. 2019(01)
[4]基于随机森林和气象参数的PM2.5浓度等级预测[J]. 任才溶,谢刚. 计算机工程与应用. 2019(02)
[5]基于随机森林的文本分类并行化[J]. 彭徵,王灵矫,郭华. 计算机科学. 2018(12)
[6]基于随机森林的加权特征选择算法[J]. 徐少成,李东喜. 统计与决策. 2018(18)
[7]基于数据挖掘技术的乳腺癌亚型识别方法[J]. 杨绍华,陈冬东,张旭,何林. 西南大学学报(自然科学版). 2018(05)
[8]生成式对抗网络:从生成数据到创造智能[J]. 王坤峰,左旺孟,谭营,秦涛,李力,王飞跃. 自动化学报. 2018(05)
[9]基于随机森林的自适应特征选择算法[J]. 刘凯,郑山红,蒋权,赵天傲. 计算机技术与发展. 2018(09)
[10]基于非平衡数据的随机森林分类算法改进[J]. 魏正韬,杨有龙,白婧. 重庆大学学报. 2018(04)
硕士论文
[1]基于GIS和MIC法的广西土壤侵蚀区划研究[D]. 蒙静.广西师范学院 2018
[2]Spark平台下的基于随机森林算法的用户贷款风险预测研究[D]. 周杰.东北师范大学 2018
[3]数据挖掘算法优化研究与应用[D]. 王明星.安徽大学 2014
[4]随机森林在医学影像数据分析中的应用[D]. 张红岩.湖南师范大学 2013
[5]基于组合策略的随机森林方法研究[D]. 刘晓东.大连理工大学 2013
[6]随机森林的特征选择和模型优化算法研究[D]. 雍凯.哈尔滨工业大学 2008
本文编号:3301616
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3301616.html