当前位置:主页 > 管理论文 > 移动网络论文 >

分布式云平台资源优化问题研究

发布时间:2023-03-24 02:05
  随着移动互联网与计算机技术的快速发展,人类逐步踏入一个由庞大数据所支撑的信息社会。近年来,对于海量数据的存储和计算成为学术界以及工业界重点关注的问题之一,尤其是以Hadoop和Spark为代表的云计算生态组件被广泛应用于数以千计的业务场景下。但是,随着数据中心规模的不断扩大,运维及资源开销成本的日益激增,人们在追求计算性能提升的同时,开始关注于偌大集群的资源优化问题。基于上述背景,本文着重对Hadoop及Spark分布式计算平台在资源消耗方面的优化问题进行研究,具体工作主要包含以下四个方面:1.提出了一种面向Hadoop2.0的资源消耗预测模型。模型构建包含三步:首先,构建单任务模型,基于MapReduce流程仿真与日志分析,拟合单任务资源消耗与数据量间的变化关系;其次,利用皮尔逊假设检验方法,对并行场景下MapReduce各阶段执行时间的分布进行估计;最后,提出以平均场模型为核心的任务再生与调度策略,将赋予时间估计值的单任务模型在时间轴中进行横向追加与纵向累积,以平均效应替代叠加效应,实现对Hadoop2.0集群各项资源消耗(CPU、内存、磁盘读写、网络读写)及应用程序执行时间的预测...

【文章页数】:78 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 Hadoop资源优化研究现状
        1.2.2 Spark资源优化研究现状
    1.3 研究内容与技术路线
    1.4 本文的组织结构与研究内容
    1.5 本章小结
第2章 相关技术概述
    2.1 Hadoop生态圈
        2.1.1 Hadoop基础架构
        2.1.2 Hadoop生态系统
    2.2 Spark生态圈
        2.2.1 Spark基础架构
        2.2.2 Spark生态系统
        2.2.3 RDD
    2.3 资源消耗优化技术
    2.4 本章小结
第3章 Hadoop2.0 资源消耗预测模型
    3.1 MapReduce资源消耗分析
    3.2 模型总体设计概览
    3.3 单任务模型
        3.3.1 建模原理
        3.3.2 算法设计与实现
    3.4 多任务并发模型
        3.4.1 统计学原理
        3.4.2 算法设计与实现
    3.5 多任务再生与调度策略
    3.6 实验设计与结果分析
        3.6.1 实验环境
        3.6.2 实验流程
        3.6.3 基准测试
        3.6.4 实验结果与分析
    3.7 本章小结
第4章 Spark资源消耗成本优化模型
    4.1 基于DAG的 Spark计算框架
        4.1.1 DAGScheduler原理
        4.1.2 Spark Checkpoint原理及特性
    4.2 模型总体设计概览
    4.3 成本计算模型
        4.3.1 整体成本模型
        4.3.2 基准成本率模型
    4.4 Attention-DAG抽取器
    4.5 成本优化模型
        4.5.1 最优化问题定义
        4.5.2 成本优化建模
    4.6 实验设计与结果分析
        4.6.1 实验环境
        4.6.2 实验流程
        4.6.5 实验结果与分析
    4.7 本章小结
第5章 系统集成与案例展示
    5.1 系统设计
    5.2 系统实现
    5.3 案例展示
    5.5 本章小结
结论与展望
    本文工作总结
    未来工作展望
致谢
参考文献
攻读硕士学位期间发表的论文及科研成果



本文编号:3769223

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3769223.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户27490***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com