基于深度强化学习的多小区功率分配算法
发布时间:2021-01-06 04:37
在OFDM蜂窝网络下行链路中,功率控制与资源调度是决定系统性能的关键,对多小区功率分配和资源分配问题进行研究。首先,对多小区蜂窝网络资源分配和系统容量问题进行建模,控制基站的传输功率。其次,利用深度Q学习和卷积神经网络算法,最大限度地提高整个网络的总容量,提出一种基于深度Q网络(DQN,deep Q-network)的无线资源映射方法和适用于多小区功率分配的深度神经网络。通过仿真分析,与传统Q学习方法相比,提出的DQN可以获得更高的系统容量,并且在收敛速度和稳定性方面有显著提高。
【文章来源】:技术与市场. 2020,27(10)
【文章页数】:4 页
【部分图文】:
系统模型
DQN的网络结构为卷积层和全连接层,输出动作对应的概率,结构可以由图2表示。算法采用Q学习机制,主要根据如式(10)所示的迭代式来实现动作状态值函数的优化学习。
网络的收敛性如图4所示,可知Q学习的波动较大。Q学习在网络拓扑结构发生变化时需重新计算和收敛。但在动态场景中,虽然DQN也会出现波动,与Q学习相比还是比较稳定的。同时,随着深度神经网络策略的加强,DQN大大提高了频谱效率。图4 收敛速度比较
【参考文献】:
期刊论文
[1]基于深度强化学习的蜂窝网资源分配算法[J]. 廖晓闽,严少虎,石嘉,谭震宇,赵钟灵,李赞. 通信学报. 2019(02)
[2]基于TD-error自适应校正的深度Q学习主动采样方法[J]. 白辰甲,刘鹏,赵巍,唐降龙. 计算机研究与发展. 2019(02)
本文编号:2959942
【文章来源】:技术与市场. 2020,27(10)
【文章页数】:4 页
【部分图文】:
系统模型
DQN的网络结构为卷积层和全连接层,输出动作对应的概率,结构可以由图2表示。算法采用Q学习机制,主要根据如式(10)所示的迭代式来实现动作状态值函数的优化学习。
网络的收敛性如图4所示,可知Q学习的波动较大。Q学习在网络拓扑结构发生变化时需重新计算和收敛。但在动态场景中,虽然DQN也会出现波动,与Q学习相比还是比较稳定的。同时,随着深度神经网络策略的加强,DQN大大提高了频谱效率。图4 收敛速度比较
【参考文献】:
期刊论文
[1]基于深度强化学习的蜂窝网资源分配算法[J]. 廖晓闽,严少虎,石嘉,谭震宇,赵钟灵,李赞. 通信学报. 2019(02)
[2]基于TD-error自适应校正的深度Q学习主动采样方法[J]. 白辰甲,刘鹏,赵巍,唐降龙. 计算机研究与发展. 2019(02)
本文编号:2959942
本文链接:https://www.wllwen.com/kejilunwen/wltx/2959942.html