流媒体边缘云的智能存储资源调度策略研究

发布时间：2020-05-20 20:03

【摘要】：基于CDN、P2P等技术的传统流媒体系统存在扩展性、透明性、可靠性方面的局限性。云计算作为一种新型技术,在资源虚拟化、可靠性与弹性扩展等方面具有诸多优点。因此,将二者相结合的流媒体云,是未来流媒体技术发展的方向之一。由于流媒体系统的高实时性特点,流媒体云系统需要在边缘区域放置流媒体边缘云(MEC)来保证用户的服务体验。相比传统流媒体系统,MEC存在更高的带宽资源与存储资源调度需求。对此,现有的研究工作主要依靠会话迁移或视频重部署技术进行处理。但是,该类方法在单独作用时都难以权衡调度效果和调度代价。此外,深度学习模型具有求解快速、泛用性好等特点,为资源调度领域提供了一种新的思路。因此,本文针对流媒体边缘云的联合资源调度问题进行了相关研究,在此基础上采用深度强化学习对上述策略进行改进,主要完成了以下工作:1)针对用户请求流行度动态变化的波动规律,提出了一种基于规划的两阶段调度算法。具体地,针对流行度变化较小的情况,综合考虑当前负载与预测的流行度,提出了一种阈值分配的会话迁移策略;针对流行度变化较大的情况,综合考虑部署代价与负载均衡等因素,提出了一种存储调度策略。算法通过两种策略的联合优化机制,增强了系统对于流行度变化的适应性,同时保证了较低的调度代价。2)针对两阶段调度算法在存储调度策略上求解较慢的问题,提出了一种基于深度强化学习的改进算法,并搭建了数值仿真平台对该算法进行验证。具体地,在策略网络模型方面,针对调度动作复杂的问题,提出了一种基于独立子网络的模型;在代价控制方面,提出了基于请求接入率与当前会话存留率的回报设计以及最大部署代价上限策略;在策略执行方面,提出了一种基于仿真器状态仿真的中间状态生成策略。算法通过引入深度强化学习模型,加快了存储调度策略的求解速度,使得两阶段调度策略在实用性上更进一步。同时,为深度学习类算法在资源调度领域的应用积累了宝贵的经验。综上,本文针对MEC资源调度问题,提出了一种基于规划的两阶段调度算法。在此基础上,尝试引入深度强化学习模型对存储调度策略进行改进。结果表明改进算法在基本保留原有算法的优点的同时,加快了算法的求解速度,具有一定的实用价值。
【图文】：

示意图,模型,示意图,策略

２．２．１强化学习模型逡逑强化学习的目标是构造一个智能体。该智能体能够从环境中获取信息，并依靠在自身生成的策略与环境的交互过程中，从环境中获得的反馈信息中需要的信息进行学习。具体地，智能体依靠之前经历过的策略得到的是奖励惩罚的经验来决定下一步的动作选择［３４，３５１。强化学习在整个学习过程中只从环境中获取信息，而不像监督学习［３６］那样，拥有全局的真实标签（Ｇｒｏｕｒｕｔｈ）作为唯一正确的标签。因此，强化学习具有以下一些特点［３７〗：没有监号（先验策略）；当前决策的效果有滞后性（动作执行一段时间后才能获得动终的效果）；训练数据间具有相关性，而非独立同分布；当前选择的策略会到后续所有策略的选择。整个强化学习的过程就是智能体通过主动探索环到环境的反馈量作为当前策略优劣的评价指标，然后根据这些经验不断改身的探索策略，最终获得一个接近全局最优的完整策略。逡逑整个强化学习的模型如图２．２所示［３８］。模型可以采甩一个四元组＜Ｓ，Ａ，Ｒ，３９］加上用来对智能体本身进行建模的两个函数模型７Ｔ和值函数来进行表示。逡逑观测状态ｓ逡逑

架构,策略,梯度,示意图

而说到基于蒙特卡洛方法的深度强化学习，最有代表性的方法就是应ＨＡＺＥＲＯ围棋程序的算法框架（以下简称ａｌｐｈａｚｅｒｏ）邋了邋［５１］。整个算法主个部分，蒙特卡洛树搜索与基于ａｃｔｏｒ－ｃｒｉｔｉｃ思想的网络架构设计。逡逑ａｃｔｏｒ－ｃｒｉｔｉｃ邋架构与邋ＰＰＯ邋算法逡逑１）邋ａｃｔｏｒ－ｃｒｉｔｉｃ架构。深度强化学习的模型的目标是估计值函数。ＤＱＮ的是动作值函数，，而ａｌｐｈａｚｅｒｏ采用的则是ａｃｔｏｒ－ｃｒｉｔｉｃ架构来估计状策略。逡逑整个架构分为两个部分，一般使用两个独立的深度神经网络或一个双度神经网络进行表示。ｃｒｉｔｉｃ的作用是评价当前行动的好坏。在深度强型中，ｃｒｉｔｉｃ的评价方法主要是累计回报是否大于ｃｒｉｔｉｃ网络对该状态值函数的值。累计回报大于估计值则认为该动作较好，否则认为该。ｃｒｉｔｉｃ网络通过采样的方式逼近状态值函数，并且沿着最大收益方向梯度对ａｃｔｏｒ的参数进行更新，同时采取较小的学习率来以避免产生网络则是负责学习当前状态下对应的策略，并且通过ｃｒｉｔｉｃ网络给出的对自身策略进行修改。整个ａｃｔｏｒ－ｃｒｉｔｉｃ架构如下图所不：逡逑＾逡逑
【学位授予单位】：中国科学技术大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP333;TP301.6

【参考文献】