Spark负载均衡及随机森林算法优化研究
发布时间:2021-01-30 03:14
随着信息技术的快速普及,各行各业产生并积累了海量的数据,因此如何高效地处理海量数据,从中挖掘出有价值的信息成为急需解决的重要问题。近年来,从平台方面看,Spark作为一种基于内存计算的高效的大数据处理平台,能够较好地支撑解决大数据挖掘分析处理的一系列问题,成为了学界和产业界的研究热点;从算法方面看,基于Spark平台的数据挖掘算法优化也是一个研究热点,随机森林算法是数据分类方法中的典型算法,因其较好的分类性能被广泛的应用,因此研究基于Spark的随机森林算法具有理论意义和实用价值。本文对于Spark平台及基于Spark平台的随机森林分类算法进行了相关研究,主要包括以下两个方面的内容:(1)Spark负载均衡优化研究Spark是一种基于内存计算的高效大数据处理平台,集群的负载均衡情况对于集群的运算效率具有重要影响。但其默认的任务调度策略在Spark集群下未考虑到节点的可用资源及节点当前负载的具体情况,因此在进行任务调度时可能会导致各个节点负载不均衡,进而影响集群的任务处理效率。针对于Spark的负载不均衡问题,本文提出一种基于Spark集群的自适应任务调度策略用于实现Spark集群的负载...
【文章来源】:河北经贸大学河北省
【文章页数】:60 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 研究背景
1.2 研究目的及意义
1.3 国内外研究现状
1.3.1 负载均衡研究现状
1.3.2 随机森林算法及基于Spark的随机森林算法研究现状
1.4 本文结构安排
2 相关技术分析
2.1 Spark生态系统
2.1.1 Spark组件及核心
2.1.2 部署模式
2.2 Spark相关技术分析
2.2.1 Spark运行架构
2.2.2 弹性分布式数据集(RDD)
2.2.3 Spark作业调度机制
2.3 启发式算法
2.4 随机森林算法分析
2.4.1 决策树
2.4.2 随机森林
2.5 特征选择算法
2.6 本章小结
3 Spark负载均衡优化研究
3.1 Spark负载均衡问题分析
3.2 负载均衡优化策略分析
3.3 相关理论基础
3.3.1 蚁群算法
3.3.2 模拟退火算法
3.4 基于蚁群-模拟退火的Spark负载均衡优化
3.4.1 蚁群-模拟退火融合算法
3.4.2 负载评价指标
3.4.3 信息素更新机制
3.4.4 适应度函数设计
3.4.5 Metropolis接受函数
3.4.6 蚁群-模拟退火任务分配策略
3.5 实验验证与分析
3.5.1 模拟验证实验
3.5.2 集群实验验证
3.6 本章小结
4 基于Spark的随机森林算法优化研究
4.1 随机森林算法问题分析
4.2 相关理论基础
4.3 基于特征重要性的随机森林算法
4.4 基于Spark的改进随机森林算法并行化设计
4.4.1 算法整体并行化设计
4.4.2 特征重要性计算并行化设计
4.4.3 随机森林模型建模并行化设计
4.5 实验验证与应用
4.5.1 算法改进实验验证与分析
4.5.2 在信用评估领域中的应用
4.6 本章小结
5 总结与展望
5.1 研究总结
5.2 研究展望
参考文献
作者简历
致谢
【参考文献】:
期刊论文
[1]基于随机森林的文本分类并行化[J]. 彭徵,王灵矫,郭华. 计算机科学. 2018(12)
[2]基于随机森林的自适应特征选择算法[J]. 刘凯,郑山红,蒋权,赵天傲. 计算机技术与发展. 2018(09)
[3]基于非平衡数据的随机森林分类算法改进[J]. 魏正韬,杨有龙,白婧. 重庆大学学报. 2018(04)
[4]基于Spark GraphX和社交网络大数据的用户影响力分析[J]. 文馨,陈能成,肖长江. 计算机应用研究. 2018(03)
[5]随机森林改进算法在LBS用户社会关系推断中的应用[J]. 马春来,单洪,马涛,史英春. 小型微型计算机系统. 2016(12)
[6]异构Spark集群下自适应任务调度策略[J]. 杨志伟,郑烇,王嵩,杨坚,周乐乐. 计算机工程. 2016(01)
[7]一种基于ReliefF特征加权的R-NIC算法[J]. 陈晓琳,姬波,叶阳东. 计算机工程. 2015(04)
[8]数据挖掘中决策树分类算法的研究[J]. 李如平. 东华理工大学学报(自然科学版). 2010(02)
[9]基于自适应路径选择和信息素更新的蚁群算法[J]. 赵宝江,李士勇,金俊. 计算机工程与应用. 2007(03)
硕士论文
[1]基于Spark的随机森林算法优化与并行化研究[D]. 胡天宇.齐鲁工业大学 2019
[2]基于Spark的高效用项集挖掘算法研究[D]. 肖怀远.河南大学 2018
[3]面向特征选择的Relief算法研究[D]. 黄晓娟.苏州大学 2018
[4]Hadoop集群中数据负载均衡优化及其平台应用研究[D]. 于磊春.江苏大学 2018
[5]Spark中的数据均衡分配算法研究[D]. 黄超杰.电子科技大学 2018
[6]基于Hadoop的MapReduce性能优化研究[D]. 冯亮亮.南京邮电大学 2017
[7]基于Spark的一种改进的随机森林算法研究[D]. 王日升.太原理工大学 2017
[8]基于Spark的情报大数据可视化分析[D]. 李筱川.山东大学 2017
[9]基于Spark分布式平台的随机森林分类算法研究[D]. 牛志华.中国民航大学 2017
[10]面向负载均衡的Spark任务划分与调度策略研究[D]. 李巧巧.湖南大学 2017
本文编号:3008127
【文章来源】:河北经贸大学河北省
【文章页数】:60 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 研究背景
1.2 研究目的及意义
1.3 国内外研究现状
1.3.1 负载均衡研究现状
1.3.2 随机森林算法及基于Spark的随机森林算法研究现状
1.4 本文结构安排
2 相关技术分析
2.1 Spark生态系统
2.1.1 Spark组件及核心
2.1.2 部署模式
2.2 Spark相关技术分析
2.2.1 Spark运行架构
2.2.2 弹性分布式数据集(RDD)
2.2.3 Spark作业调度机制
2.3 启发式算法
2.4 随机森林算法分析
2.4.1 决策树
2.4.2 随机森林
2.5 特征选择算法
2.6 本章小结
3 Spark负载均衡优化研究
3.1 Spark负载均衡问题分析
3.2 负载均衡优化策略分析
3.3 相关理论基础
3.3.1 蚁群算法
3.3.2 模拟退火算法
3.4 基于蚁群-模拟退火的Spark负载均衡优化
3.4.1 蚁群-模拟退火融合算法
3.4.2 负载评价指标
3.4.3 信息素更新机制
3.4.4 适应度函数设计
3.4.5 Metropolis接受函数
3.4.6 蚁群-模拟退火任务分配策略
3.5 实验验证与分析
3.5.1 模拟验证实验
3.5.2 集群实验验证
3.6 本章小结
4 基于Spark的随机森林算法优化研究
4.1 随机森林算法问题分析
4.2 相关理论基础
4.3 基于特征重要性的随机森林算法
4.4 基于Spark的改进随机森林算法并行化设计
4.4.1 算法整体并行化设计
4.4.2 特征重要性计算并行化设计
4.4.3 随机森林模型建模并行化设计
4.5 实验验证与应用
4.5.1 算法改进实验验证与分析
4.5.2 在信用评估领域中的应用
4.6 本章小结
5 总结与展望
5.1 研究总结
5.2 研究展望
参考文献
作者简历
致谢
【参考文献】:
期刊论文
[1]基于随机森林的文本分类并行化[J]. 彭徵,王灵矫,郭华. 计算机科学. 2018(12)
[2]基于随机森林的自适应特征选择算法[J]. 刘凯,郑山红,蒋权,赵天傲. 计算机技术与发展. 2018(09)
[3]基于非平衡数据的随机森林分类算法改进[J]. 魏正韬,杨有龙,白婧. 重庆大学学报. 2018(04)
[4]基于Spark GraphX和社交网络大数据的用户影响力分析[J]. 文馨,陈能成,肖长江. 计算机应用研究. 2018(03)
[5]随机森林改进算法在LBS用户社会关系推断中的应用[J]. 马春来,单洪,马涛,史英春. 小型微型计算机系统. 2016(12)
[6]异构Spark集群下自适应任务调度策略[J]. 杨志伟,郑烇,王嵩,杨坚,周乐乐. 计算机工程. 2016(01)
[7]一种基于ReliefF特征加权的R-NIC算法[J]. 陈晓琳,姬波,叶阳东. 计算机工程. 2015(04)
[8]数据挖掘中决策树分类算法的研究[J]. 李如平. 东华理工大学学报(自然科学版). 2010(02)
[9]基于自适应路径选择和信息素更新的蚁群算法[J]. 赵宝江,李士勇,金俊. 计算机工程与应用. 2007(03)
硕士论文
[1]基于Spark的随机森林算法优化与并行化研究[D]. 胡天宇.齐鲁工业大学 2019
[2]基于Spark的高效用项集挖掘算法研究[D]. 肖怀远.河南大学 2018
[3]面向特征选择的Relief算法研究[D]. 黄晓娟.苏州大学 2018
[4]Hadoop集群中数据负载均衡优化及其平台应用研究[D]. 于磊春.江苏大学 2018
[5]Spark中的数据均衡分配算法研究[D]. 黄超杰.电子科技大学 2018
[6]基于Hadoop的MapReduce性能优化研究[D]. 冯亮亮.南京邮电大学 2017
[7]基于Spark的一种改进的随机森林算法研究[D]. 王日升.太原理工大学 2017
[8]基于Spark的情报大数据可视化分析[D]. 李筱川.山东大学 2017
[9]基于Spark分布式平台的随机森林分类算法研究[D]. 牛志华.中国民航大学 2017
[10]面向负载均衡的Spark任务划分与调度策略研究[D]. 李巧巧.湖南大学 2017
本文编号:3008127
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3008127.html
最近更新
教材专著