流媒体边缘云的智能存储资源调度策略研究
发布时间:2020-05-20 20:03
【摘要】:基于CDN、P2P等技术的传统流媒体系统存在扩展性、透明性、可靠性方面的局限性。云计算作为一种新型技术,在资源虚拟化、可靠性与弹性扩展等方面具有诸多优点。因此,将二者相结合的流媒体云,是未来流媒体技术发展的方向之一。由于流媒体系统的高实时性特点,流媒体云系统需要在边缘区域放置流媒体边缘云(MEC)来保证用户的服务体验。相比传统流媒体系统,MEC存在更高的带宽资源与存储资源调度需求。对此,现有的研究工作主要依靠会话迁移或视频重部署技术进行处理。但是,该类方法在单独作用时都难以权衡调度效果和调度代价。此外,深度学习模型具有求解快速、泛用性好等特点,为资源调度领域提供了一种新的思路。因此,本文针对流媒体边缘云的联合资源调度问题进行了相关研究,在此基础上采用深度强化学习对上述策略进行改进,主要完成了以下工作:1)针对用户请求流行度动态变化的波动规律,提出了一种基于规划的两阶段调度算法。具体地,针对流行度变化较小的情况,综合考虑当前负载与预测的流行度,提出了一种阈值分配的会话迁移策略;针对流行度变化较大的情况,综合考虑部署代价与负载均衡等因素,提出了一种存储调度策略。算法通过两种策略的联合优化机制,增强了系统对于流行度变化的适应性,同时保证了较低的调度代价。2)针对两阶段调度算法在存储调度策略上求解较慢的问题,提出了一种基于深度强化学习的改进算法,并搭建了数值仿真平台对该算法进行验证。具体地,在策略网络模型方面,针对调度动作复杂的问题,提出了一种基于独立子网络的模型;在代价控制方面,提出了基于请求接入率与当前会话存留率的回报设计以及最大部署代价上限策略;在策略执行方面,提出了一种基于仿真器状态仿真的中间状态生成策略。算法通过引入深度强化学习模型,加快了存储调度策略的求解速度,使得两阶段调度策略在实用性上更进一步。同时,为深度学习类算法在资源调度领域的应用积累了宝贵的经验。综上,本文针对MEC资源调度问题,提出了一种基于规划的两阶段调度算法。在此基础上,尝试引入深度强化学习模型对存储调度策略进行改进。结果表明改进算法在基本保留原有算法的优点的同时,加快了算法的求解速度,具有一定的实用价值。
【图文】:
2.2.1强化学习模型逡逑强化学习的目标是构造一个智能体。该智能体能够从环境中获取信息,并依靠在自身生成的策略与环境的交互过程中,从环境中获得的反馈信息中需要的信息进行学习。具体地,智能体依靠之前经历过的策略得到的是奖励惩罚的经验来决定下一步的动作选择[34,351。强化学习在整个学习过程中只从环境中获取信息,而不像监督学习[36]那样,拥有全局的真实标签(Grouruth)作为唯一正确的标签。因此,强化学习具有以下一些特点[37〗:没有监号(先验策略);当前决策的效果有滞后性(动作执行一段时间后才能获得动终的效果);训练数据间具有相关性,而非独立同分布;当前选择的策略会到后续所有策略的选择。整个强化学习的过程就是智能体通过主动探索环到环境的反馈量作为当前策略优劣的评价指标,然后根据这些经验不断改身的探索策略,最终获得一个接近全局最优的完整策略。逡逑整个强化学习的模型如图2.2所示[38]。模型可以采甩一个四元组<S,A,R,39]加上用来对智能体本身进行建模的两个函数模型7T和值函数来进行表示。逡逑观测状态s逡逑
而说到基于蒙特卡洛方法的深度强化学习,最有代表性的方法就是应HAZERO围棋程序的算法框架(以下简称alphazero)邋了邋[51]。整个算法主个部分,蒙特卡洛树搜索与基于actor-critic思想的网络架构设计。逡逑actor-critic邋架构与邋PPO邋算法逡逑1)邋actor-critic架构。深度强化学习的模型的目标是估计值函数。DQN的是动作值函数,,而alphazero采用的则是actor-critic架构来估计状策略。逡逑整个架构分为两个部分,一般使用两个独立的深度神经网络或一个双度神经网络进行表示。critic的作用是评价当前行动的好坏。在深度强型中,critic的评价方法主要是累计回报是否大于critic网络对该状态值函数的值。累计回报大于估计值则认为该动作较好,否则认为该。critic网络通过采样的方式逼近状态值函数,并且沿着最大收益方向梯度对actor的参数进行更新,同时采取较小的学习率来以避免产生网络则是负责学习当前状态下对应的策略,并且通过critic网络给出的对自身策略进行修改。整个actor-critic架构如下图所不:逡逑^逡逑
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP333;TP301.6
本文编号:2673128
【图文】:
2.2.1强化学习模型逡逑强化学习的目标是构造一个智能体。该智能体能够从环境中获取信息,并依靠在自身生成的策略与环境的交互过程中,从环境中获得的反馈信息中需要的信息进行学习。具体地,智能体依靠之前经历过的策略得到的是奖励惩罚的经验来决定下一步的动作选择[34,351。强化学习在整个学习过程中只从环境中获取信息,而不像监督学习[36]那样,拥有全局的真实标签(Grouruth)作为唯一正确的标签。因此,强化学习具有以下一些特点[37〗:没有监号(先验策略);当前决策的效果有滞后性(动作执行一段时间后才能获得动终的效果);训练数据间具有相关性,而非独立同分布;当前选择的策略会到后续所有策略的选择。整个强化学习的过程就是智能体通过主动探索环到环境的反馈量作为当前策略优劣的评价指标,然后根据这些经验不断改身的探索策略,最终获得一个接近全局最优的完整策略。逡逑整个强化学习的模型如图2.2所示[38]。模型可以采甩一个四元组<S,A,R,39]加上用来对智能体本身进行建模的两个函数模型7T和值函数来进行表示。逡逑观测状态s逡逑
而说到基于蒙特卡洛方法的深度强化学习,最有代表性的方法就是应HAZERO围棋程序的算法框架(以下简称alphazero)邋了邋[51]。整个算法主个部分,蒙特卡洛树搜索与基于actor-critic思想的网络架构设计。逡逑actor-critic邋架构与邋PPO邋算法逡逑1)邋actor-critic架构。深度强化学习的模型的目标是估计值函数。DQN的是动作值函数,,而alphazero采用的则是actor-critic架构来估计状策略。逡逑整个架构分为两个部分,一般使用两个独立的深度神经网络或一个双度神经网络进行表示。critic的作用是评价当前行动的好坏。在深度强型中,critic的评价方法主要是累计回报是否大于critic网络对该状态值函数的值。累计回报大于估计值则认为该动作较好,否则认为该。critic网络通过采样的方式逼近状态值函数,并且沿着最大收益方向梯度对actor的参数进行更新,同时采取较小的学习率来以避免产生网络则是负责学习当前状态下对应的策略,并且通过critic网络给出的对自身策略进行修改。整个actor-critic架构如下图所不:逡逑^逡逑
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP333;TP301.6
【参考文献】
相关期刊论文 前4条
1 栾咏红;章鹏;;强化学习方法的对比分析[J];计算机时代;2015年12期
2 战立松;奚宏生;王子磊;;基于OpenFlow的流媒体云服务迁移方法[J];计算机工程;2014年12期
3 傅启明;刘全;王辉;肖飞;于俊;李娇;;一种基于线性函数逼近的离策略Q(λ)算法[J];计算机学报;2014年03期
4 吴吉义;平玲娣;潘雪增;李卓;;云计算:从概念到平台[J];电信科学;2009年12期
相关博士学位论文 前1条
1 卫星;流媒体集群系统复制存储策略研究[D];中国科学技术大学;2009年
相关硕士学位论文 前2条
1 满奇;基于深度强化学习的股市投资模型构建及实证研究[D];广东财经大学;2017年
2 张辉;基于深度强化学习的主动人脸感知技术研究[D];山东大学;2017年
本文编号:2673128
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2673128.html