当前位置:主页 > 科技论文 > 信息工程论文 >

深度强化学习在移动边缘计算中的应用

发布时间:2021-06-29 06:18
  移动边缘计算是指在接近手机或者移动终端的地方提供给它们一定的计算能力,即将一部分计算能力赋予边缘基站,从而使其拥有辅助用户智能处理业务的能力。移动边缘计算把网络业务“下沉”到无线接入网里,因此具备三大优点:更低延时、有效抑制了网络拥塞、更多的网络信息及网络控制功能可以开放给开发者。深度增强学习是一种将深度学习(Deep Learning)和增强学习(Reinforcement Learning)结合起来的学习方法,深度学习用来提供学习的机制,而增强学习为深度学习提供学习的目标,它结合了深度学习在问题感知上的强大的理解能力和强化学习的探索决策能力,这使得它能够解决现实场景中更为复杂的问题。由于移动边缘计算中的应用需求非常符合深度增强学习的相关特点,即问题存在复杂性的同时又需要及时得到问题的解,因此采用深度增强学习来解决其中的应用问题也成为了一种可以探索的方向。本文主要以深度增强学习方法为主,例如DQN、A3C等,来用于解决移动边缘计算中的在线缓存策略问题、缓存替换问题、在线DASH资源分配问题,主要包括以下研究内容:1)针对在线缓存策略问题,采用DQN的方法来解决相应的策略决策问题,能够... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:79 页

【学位级别】:硕士

【部分图文】:

深度强化学习在移动边缘计算中的应用


图2-1分布式缓存系统模型,边缘基站数量为3,用户数量为5

流行度,文件,算法,信息


第二章运用深度增强学习解决在线缓存策略问题的研究11图2-2文件流行度信息拟合算法一种基于UCB算法的方法在文章[41]中提出,用于在n"中施加扰动信息从而得到接近最优估计值的n"",其中扰动因子的表达式如算法1中第4行所描述的形式,其中|U(nS)|表示与基站nS相连接的用户数量,这个扰动因子是基于改进的组合UCB算法,目的是为了促进基于齐夫分布的参数开发-探索(exploitation-exploration)过程,例如对于一些不经常被访问缓存的文件,这种方法可以人为的增加对于这类文件的流行度统计信息,从而使得在决策中能够被考虑或者缓存下来。因子nfT,是直到时间t为止,文件f被缓存在边缘基站n上的次数,当nf,>0就认为任务被缓存了。带编码本地学习相比于无编码本地学习而言,增加了对于文件缓存信息的松弛条件,即可以采用编码的方式将文件缓存在边缘基站,只要用户从所连接的边缘基站获取足够的编码文件信息就可以恢复出原文件,因此可以建模成下式(2-5):1111,0,s.t.FFfffUufffnMSSLmaxL(2-5)相比于无编码形式,带编码形式的变化在于缓存的形式。但是基站之间本身不存在联合决策,都是各自决定各自的文件信息,这样的方式对于编码形式的文件而言其实没有充分运用编码带来的好处,因此在下面小节中介绍带编码联合学习策略。2.2.1.3带编码联合学习在上述缓存策略问题的方法中,其实核心是最大化用户reward。当给定时间t的用户请求f,可以首先对边缘基站进行排序,主要是按照t-1时刻估计的n""进

拓扑图,场景,拓扑图,流行度


第二章运用深度增强学习解决在线缓存策略问题的研究17图2-3实验场景拓扑图假设小区中有7个基站,每个基站都可以服务于小区中的用户,80个用户随机落在12个区域当中,并且每个用户只与最近的一组基站通信,例如I区域中的用户可以和基站2、3、5通信,A区域中的用户可以和基站0、1通信。每个时隙内用户总共产生160个文件请求,这些请求会发送给临近的基站,再由控制器收集信息,文件集合大小为50,每个文件大S_f∈{1,3,5,7,9},边缘服务器的缓存大小M=50,用户产生的请求服从齐夫分布,齐夫分布的参数=2。2.4.2实验结果先假设两种基本的场景:稳定场景与变化场景。在稳定场景中,文件的内容流行度信息保持不变,因此需要算法快速适应稳定的场景,这也体现了算法的适应能力,如图2-4所示,表示的是稳定场景下,上述四种对比算法和DQN算法的实验情况,可以看出五种算法都能在稳定场景下收敛,从而适应基本的场景。而图2-5则是添加了几种算法的上界,上界主要是根据已知任意时刻的任务流行度信息所达到的理论最优值。在变化场景中,内容流行度信息可以变换,并且变化的间隔是一致的,大概每20iterations变化一次,得到了如图2-6所示的结果。可以看到在流行度变化的情况下,各种算法普遍存在适应性问题,但是U_CJ和DQN方法还是能保持比较好的结果。而图2-7则是添加了几种算法的上界。

【参考文献】:
期刊论文
[1]移动边缘计算中数据缓存和计算迁移的智能优化技术[J]. 汪海霞,赵志峰,张宏纲.  中兴通讯技术. 2018(02)
[2]移动边缘计算任务卸载和基站关联协同决策问题研究[J]. 于博文,蒲凌君,谢玉婷,徐敬东,张建忠.  计算机研究与发展. 2018(03)
[3]基于车联网和移动边缘计算的时延可容忍数据传输[J]. 李萌,司鹏搏,孙恩昌,张延华.  北京工业大学学报. 2018(04)
[4]基于增强学习的5G网络切片资源动态优化方案[J]. 任语铮,谢人超,黄韬.  中兴通讯技术. 2018(01)
[5]基于分层编码的深度增强学习对话生成[J]. 赵宇晴,向阳.  计算机应用. 2017(10)
[6]基于深度增强学习的智能体行为演进研究综述[J]. 郭宪.  中国新通信. 2017(17)
[7]基于自适应探索改进的深度增强学习算法[J]. 毛坚桓,殷璐嘉.  微电子学与计算机. 2016(06)



本文编号:3255914

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3255914.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c6e0b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com