当前位置:主页 > 科技论文 > 信息工程论文 >

认知无线电中强化学习技术研究

发布时间:2020-06-12 19:04
【摘要】:认知无线电是一种提高频谱利用率的技术,其中,动态资源分配是其关键技术之一。强化学习算法通过与环境的动态交互进行学习,可以得到与环境匹配的最优决策,已经广泛应用于认知无线电领域。本文主要研究基于单Agent Q学习和多Agent Q学习的动态资源分配算法。首先,研究了应用于集中式认知无线网络的单Agent Q学习算法。针对集中式网络中传统单Agent Q学习算法的资源分配效率较低的问题,提出了基于信息强度的启发式Q学习(Pheromone Stringency Based Heuristically Accelerated Q Learning,PS-HAQL)算法。在启发式函数中引入信息强度,突出性能表现好的动作,减少Agent不必要的探索,提高了算法收敛速度。同时提出了基于指导函数的改进启发式Q学习(Improved Heuristically Accelerated Q-learning,IHAQL)算法。仿真结果表明,PS-HAQL算法性能优于传统Q学习算法,IHAQL算法性能优于PS-HAQL算法。然后,研究了应用于分布式认知无线网络的多Agent Q学习算法。针对传统多Agent Q学习中各Agent间独立学习对收敛速度和系统性能的影响,提出了一种不完全协作Q学习算法(Incomplete cooperative Q-learning,ICQL)和一种完全协作 Q 学习算法(Completely cooperative Q-learning,CCQL),各Agent通过Q值不同方式的共享和融合来相互借鉴学习经验,加快分布式网络资源分配的速度。仿真结果表明,协作Q学习算法的性能优于传统独立Q学习算法,完全协作Q学习算法性能优于不完全协作Q学习算法。最后,将本文提出的上述四种改进Q学习分别与案例推理技术结合得到四种组合算法,实现资源分配。由于传统Q学习的Q值初始化为0,其平等对待优劣动作,影响Q学习的寻优速度和最优解性能。对此,本文选择最相似案例用来初始化当前问题,并利用上述四种改进Q学习进行迭代寻优,用于集中式和分布式网络的资源分配。仿真结果表明,四种组合算法的性能分别优于PS-HAQL、IHAQL、ICQL和CCQL算法。
【图文】:

模型图,模型,概率,动作表


会得到环境反馈的正奖赏值r,则Agent会提高再次选择该动作a的概率;当Agent选逡逑择执行的动作表现不佳时,会得到环境反馈的负奖赏值,则Agent会降低再次选择该动作a逡逑的概率。其基本模型如图2.1所示[56],逡逑7逡逑

拓扑结构图,集中式网络,拓扑结构,信道


针对集中式认知无线电网络的信道和功率分配问题,本章利用上述提出的改进启发式Q逡逑学习算法来解决。假设该网络中有M个主用户,K个认知用户,以及N个可用于主用户和逡逑认知用户的信道,集中式网络拓扑结构如图2.4所示。主用户以一定概率在其信道上传输信逡逑息,各信道在一个时刻只能被一个主用户或认知用户占用。各认知用户能准确感知信道被逡逑占用的情况[36],然后反馈给中心基站。因此,,中心基站被视为学习Agent,为所有认知用户逡逑进行信道和功率的分配。逡逑夕邋'''逡逑'\义|少7逡逑图2.4集中式网络拓扑结构逡逑2.3.3系统模块设计逡逑以下是系统的基本模块设计:逡逑(1)
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN925;TP181

【参考文献】

相关期刊论文 前5条

1 康俊丽;郭坤祺;曹亚兰;王思璇;;一种多Agent系统频谱接入算法[J];无线通信技术;2015年04期

2 伍春;江虹;易克初;;聚类多Agent强化学习认知无线电资源分配[J];北京邮电大学学报;2014年01期

3 徐勇;果鑫;刘丰年;文鸿;张文平;李长云;;一种基于模糊Q学习算法的认知无线电频谱分配策略[J];湖南工业大学学报;2013年02期

4 江虹;伍春;刘勇;;基于强化学习的频谱决策与传输算法[J];系统仿真学报;2013年03期

5 赖海超;赵知劲;郑仕链;;应用案例推理技术的快速认知引擎[J];信号处理;2012年12期



本文编号:2709967

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2709967.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5157b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com