基于SARSA算法的水声通信自适应调制

发布时间：2022-01-22 02:33

　　水声信道复杂多变,自适应调制系统中反馈信息存在较大的时延,实际信道状态与接收到的反馈信息无法匹配,带来反馈信道状态信息过时问题,发送端不能准确做出自适应决策进而导致传输误码高及吞吐量低等问题。针对该问题,利用强化学习中的SARSA算法学习信道的变化并进行行为策略的选择,根据信道的变化,择优选出最佳的调制方式,以改善系统的传输误码和通信吞吐量。对比固定调制方式和直接反馈情况下的系统的误码率和吞吐量,结果表明,经强化学习后的系统误码率和吞吐量均优于其他两种方式,可见,强化学习算法在时变水声信道自适应调制中改善传输误码和吞吐量的问题上是有效可行的。

【文章来源】：科学技术与工程. 2020,20(16)北大核心

【文章页数】：5 页

【部分图文】：

基于SARSA算法的水声通信自适应调制

基于SARSA算法的水声自适应调制系统

框图,学习理论,框图

强化学习属于机器学习的一个分支,主要解决智能体通过不断地试错与探索,将状态与动作之间关联起来,最终达到获得最大奖励回报累积量的问题。其基本原理是:如果智能体(agent)执行的某个动作策略导致环境对智能体的奖赏(reward)越大,则智能体以后采用这个动作策略的概率就会加强,反之得到的奖赏越小,智能体产生这个动作的概率就会减弱[10]。强化学习中把学习过程看作一个不断的试错和探索过程,其原理框图如图2所示。在本文算法中,采用不同时刻的信道信噪比{s1,s2,…,st}为状态集,以四种不同的调制方式作{a1,a2,…,at}为动作集,各状态在不同动作下与环境交互产生的吞吐量作为奖励,即环境根据状态与动作给出合理的反馈。系统得到的累计奖赏[11]为

示意图,仿真环境,示意图,信道状态

研究水下长时延传输导致的发射端接收到的反馈信息过时,进而不能准确选择自适应调制方式的问题。仿真环境示意图如图3所示。建立水下场景,收发端水平放置于水面下,具体参数设置见文献[9]所示,发射机每隔15 min发送一次信号序列,并记录下每次信道状态的变化。3.2 仿真参数

【参考文献】：
期刊论文
[1]基于马尔科夫状态空间的水声正交频分复用技术资源分配[J]. 王安义,余龙,张育芝.  科学技术与工程. 2018(32)
[2]M2M通信中基于多智能体强化学习的无线资源分配算法[J]. 徐少毅,郑姗姗.  北京交通大学学报. 2018(05)
[3]基于SARSA算法的水库长期随机优化调度研究[J]. 李文武,张雪映,Daniel Eliote Mbanze,吴巍.  水电能源科学. 2018(09)
[4]采用双层强化学习的干扰决策算法[J]. 颛孙少帅,杨俊安,刘辉,黄科举.  西安交通大学学报. 2018(02)
[5]正交频分复用水声通信自适应调制算法[J]. 罗亚松,胡生亮,刘志坤,吕显春.  国防科技大学学报. 2017(01)
[6]强化学习研究综述[J]. 陈学松,杨宜民.  计算机应用研究. 2010(08)
[7]强化学习研究综述[J]. 高阳,陈世福,陆鑫.  自动化学报. 2004(01)

博士论文
[1]基于信道自适应的水声网络多节点接入机制研究[D]. 张育芝.西北工业大学 2016

硕士论文
[1]基于强化学习的自适应调制编码技术的研究[D]. 李程坤.杭州电子科技大学 2018
[2]强化学习方法及应用技术研究[D]. 李浩.西安电子科技大学 2012

本文编号：3601395

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3601395.html

上一篇：面向分布式视频应用的时间同步技术的研究与设计
下一篇：BB84协议中测量转发攻击的侦测方法及其分析

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|