一种利用优先经验回放深度Q-Learning的频谱接入算法

发布时间：2021-03-03 04:59

　　针对认知无线传感器网络中频谱接入算法的频谱利用率不高、重要经验利用率不足、收敛速度慢等问题,提出了一种采用优先经验回放双深度Q-Learning的动态频谱接入算法。该算法的次用户对经验库进行抽样时,采用基于优先级抽样的方式,以打破样本相关性并充分利用重要的经验样本,并采用一种非排序批量删除方式删除经验库的无用经验样本,以降低能量开销。仿真结果表明,该算法与采用双深度Q-Learning的频谱接入算法相比提高了收敛速度;与传统随机频谱接入算法相比,其阻塞概率降低了6%～10%,吞吐量提高了18%～20%,提高了系统的性能。

【文章来源】：电讯技术. 2020,60(05)北大核心

【文章页数】：7 页

【部分图文】：

PU信道流量模型及信道质量模型

示意图,示意图,样本,区间

本文采用一种基于累积求和的二叉树结构作为经验库的存储结构。如图2所示，每一个底层的叶子节点存储一个样本的数据和优先级，而其余节点不存储样本数据，只存储左与右儿子节点的优先级求和结果。每一个样本的优先级采用数字区间表示，样本的优先级越高，则其对应的数字区间越长。为了避免δ小的经验样本没有进行回放就已经被删除，本文采取了贪婪算法进行经验库的抽样操作。令Eer为[0,1]的精度为10-4的随机数，为(0,1)区间的一个固定常数，若，则在所有样本中随机抽取m个经验样本;若，则首先将总数字区间分成m个相等大小的区间，在每个区间内随机抽取一个数字，并在经验库的累积求和二叉树中从根节点开始查找该数字，回放该数字对应的经验样本。因此，经验库中样本k被回放的概率Per(k)可以通过公式(11)进行计算:

流程图,算法,流程图,信道

综上所述，本文提出的PER-DDQN算法将随机的初始信道状态作为Q神经网络的输入，根据输出的Q值指导SU选择信道执行感知接入，将执行的经验数据保存在经验库中;然后，根据经验库的一小批量数据对神经网络参数进行计算与更新，并将感知结果作为神经网络下一个时隙的输入，通过不断地训练学习，能够降低随机选择信道的盲目性，极大地提高感知的成功概率，使信道质量好并且空闲的信道优先被利用，有助于提高频谱效率。3 仿真与分析

【参考文献】：
期刊论文
[1]基于深度学习的跑道前视红外图像轮廓线提取[J]. 袁雷,程岳,牛文生,罗午阳.  电讯技术. 2019(02)
[2]基于频谱空隙利用率的频谱感知时间优化[J]. 沈一豪,李莉,裴仁超,罗汉文.  上海师范大学学报(自然科学版). 2017(01)
[3]基于网络编码的衰落信道频谱感知算法[J]. 郑诗庭,蒙云番,邢杰,万海斌,覃团发.  电讯技术. 2015(09)
[4]第五代移动通信系统5G标准化展望与关键技术研究[J]. 周一青,潘振岗,翟国伟,田霖.  数据采集与处理. 2015(04)

本文编号：3060653

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3060653.html

上一篇：认知无线电中感知/传输帧结构下的多功率分配策略研究
下一篇：结合深度卷积循环网络和时频注意力机制的单通道语音增强算法

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|