基于CGAN的避扰通信决策网络离线式训练方法
发布时间:2021-05-28 14:53
基于强化学习的避扰通信,由于需要不断地与环境交互从中学习到最优决策,其决策网络的训练时间受环境反馈速率的约束,通常耗时严重。针对这一问题,提出了一种离线式训练方法。构建出一种频谱虚拟环境生成器,可以快速生成大量的逼真合成频谱瀑布图,用于避扰通信决策网络训练。由于所提方法脱离真实环境反馈,形成离线式训练,进而显著提高模型训练效率。实验结果表明:与实时在线训练方法比较,所提离线式训练方法的训练时间可以减少50%以上。
【文章来源】:北京航空航天大学学报. 2020,46(07)北大核心EICSCD
【文章页数】:10 页
【部分图文】:
合成SW图和真实SW图
ADRLA[3]是一种典型的基于深度学习和强化学习技术的避扰通信算法,其本质是一个最优频点决策网络。该网络以当前环境SW图作为输入,并输出无干扰的当前最优通信频点。其网络模型的训练方法借鉴了DQN(Deep Q learning Network)[10-11]的训练思想,训练过程如图1所示[3]。图中:状态S和S′均为SW图,大小为T×N的二维矩阵(T为频谱数据的历史采样时长,N为频谱采样点数);D为固定大小的经验池,用于存储训练过程中的成败经验;e为存储在经验池D中的一个经验元组。ADRLA中有2个相同结构的神经网络(3个卷积层、2个全连接层),分别称为目标网络和评估网络。目标网络中的输出值Qtarget表示当用户在状态S下选择动作a时的衰减得分,即
本文所提框架包含两部分。第1部分:基于CGAN技术构建频谱虚拟环境生成器。环境生成器可以快速生成符合真实SW图分布的合成SW图,为避扰通信决策网络提供实时交互的训练数据。第2部分:利用第1部分得到的频谱虚拟环境生成器模拟真实电磁环境的反馈频谱图,对避扰通信决策网络进行离线式快速训练。具体框架如图2所示。2.1 基于CGAN的频谱虚拟环境生成器
【参考文献】:
期刊论文
[1]A Heterogeneous Information Fusion Deep Reinforcement Learning for Intelligent Frequency Selection of HF Communication[J]. Xin Liu,Yuhua Xu,Yunpeng Cheng,Yangyang Li,Lei Zhao,Xiaobo Zhang. 中国通信. 2018(09)
本文编号:3208250
【文章来源】:北京航空航天大学学报. 2020,46(07)北大核心EICSCD
【文章页数】:10 页
【部分图文】:
合成SW图和真实SW图
ADRLA[3]是一种典型的基于深度学习和强化学习技术的避扰通信算法,其本质是一个最优频点决策网络。该网络以当前环境SW图作为输入,并输出无干扰的当前最优通信频点。其网络模型的训练方法借鉴了DQN(Deep Q learning Network)[10-11]的训练思想,训练过程如图1所示[3]。图中:状态S和S′均为SW图,大小为T×N的二维矩阵(T为频谱数据的历史采样时长,N为频谱采样点数);D为固定大小的经验池,用于存储训练过程中的成败经验;e为存储在经验池D中的一个经验元组。ADRLA中有2个相同结构的神经网络(3个卷积层、2个全连接层),分别称为目标网络和评估网络。目标网络中的输出值Qtarget表示当用户在状态S下选择动作a时的衰减得分,即
本文所提框架包含两部分。第1部分:基于CGAN技术构建频谱虚拟环境生成器。环境生成器可以快速生成符合真实SW图分布的合成SW图,为避扰通信决策网络提供实时交互的训练数据。第2部分:利用第1部分得到的频谱虚拟环境生成器模拟真实电磁环境的反馈频谱图,对避扰通信决策网络进行离线式快速训练。具体框架如图2所示。2.1 基于CGAN的频谱虚拟环境生成器
【参考文献】:
期刊论文
[1]A Heterogeneous Information Fusion Deep Reinforcement Learning for Intelligent Frequency Selection of HF Communication[J]. Xin Liu,Yuhua Xu,Yunpeng Cheng,Yangyang Li,Lei Zhao,Xiaobo Zhang. 中国通信. 2018(09)
本文编号:3208250
本文链接:https://www.wllwen.com/kejilunwen/wltx/3208250.html