基于深度强化学习的多智能体协同算法研究

发布时间：2021-12-30 19:31

　　深度强化学习的出现有效解决了强化学习遇到的维度灾难问题,当智能体处于高维环境中时,深度强化学习使用深度神经网络对环境进行特征提取,并利用强化学习方法进行智能体策略的学习。随着深度强化学习在单智能体环境中取得成功应用,越来越多的研究者开始将其应用在多智能体协同环境中。与单智能体环境不同,在多智能体协同环境中,每个智能体的策略都在训练中不断变化,导致智能体始终处于动态的环境之中,使智能体的策略难以收敛。多智能体协同还需要解决智能体之间的通信问题,有效的通信机制可以加速智能体策略的学习。同时,当环境中智能体数量不断增加,使得智能体状态空间变大,多智能体协同算法的收敛性会面临挑战。针对以上在多智能体协同中存在的问题,本文主要进行了下面几点研究:（1）为了帮助智能体在多智能体环境中稳定学习环境,本文利用集中训练和分散执行（CTDE）框架对最大熵深度强化学习算法Soft Actor-Critic（SAC）进行扩展,提出了基于最大熵的多智能体深度强化学习算法MASAC。当智能体在训练时,可以利用环境中的额外信息,包括其他智能体的观察和动作,帮助智能体稳定学习环境,提高算法的稳定性。而智能体在执行过程...

【文章来源】：中国矿业大学江苏省 211工程院校教育部直属院校

【文章页数】：72 页

【学位级别】：硕士

【部分图文】：

基于深度强化学习的多智能体协同算法研究

智能体与环境的交互过程

图像,网络参数,神经网络

硕士学位论文10在2013年首次被AlphaGo之父DavidSilver及其团队提出[4]，并在2015年较为成熟[5]。他们将深度神经网络与Q学习算法结合，提出DQN算法，称为深度强化学习的开山之作。2.2.1DQN算法简介复杂环境中高维的状态空间和动作空间使得Q学习中存储Q值的Q表变大，并难以存储和计算。DQN中，将Q值利用神经网络进行计算，而不再使用Q表进行表示。利用参数为w的Q网络近似Q值的计算可表示为：Qs,awQs,a(2-8)Q网络可以处理图像等高维数据，这样就实现了智能体端到端的学习，如图2-2所示，DQN的输入为图像，输出为动作的Q值，神经网络采用卷积层加全连接层的方式。图2-2使用DQN实现从图像到动作的映射Figure2-2MappingfromimagestoactionsbyusingDQN对于Q网络参数w的更新，DQN中通过设置目标网络的方式处理时间差分方法中的偏差，为Q网络参数更新提供损失函数Lw，2,,,max,,sarsawrQsawQsawL(2-9)其中，s表示状态s的下一个状态，a为下一个状态s智能体的动作，Qs,aw是目标Q网络（targetQnetwork），与Q网络具有相同的结构，用于生成下一个动作的Q值，参数为w，初始时ww。通过对Lw求导，得到参数的梯度后，便可以利用梯度下降方法进行参数更新。为了满足训练数据独立同分布的特点，DQN中采用经验回放（experiencereplay）的方法，每次智能体在环境中执行动作并获得奖励后，将四元组s,a,r,s放入经验回放池D中，在训练过程中随机从D中进行批量采样，对Q网络进行

示意图,学习环境,示意图

2深度强化学习和多智能体基础13(1)(2-23)2.3多智能体深度强化学习（Multi-AgentDeepReinforcementLearning）2.3.1马尔科夫博弈马尔科夫博弈（MarkovGames）[61]是多智能体深度强化学习的基础模型，由马尔科夫决策过程扩展而来。N个智能体的马尔科夫博弈由描述所有智能体状态的集合S以及描述每个智能体的动作集合1,...,NAA和观察集合1,...,NOO组成。智能体每次的动作由随机策略i:0,1iiOA进行选择，由智能体动作产生的状态转移函数定义为T:1...NSAAPS，T表示给定状态S和所有智能体的动作，下一个可能状态的概率分布。给定状态S和智能体的动作，智能体可以得到奖励ir:iSAR，同时，智能体可以从环境中获得一个私有的观察io:iSO。每个智能体的目标是最大化获得的回报0=TttiitRr。2.3.2多智能体深度强化学习环境本文所采用的多智能体实验环境基于GroundedCommunicationEnvironments（GCE）[62]，它是具有连续空间和离散时间的二维模拟环境。如图2-3，该模拟环境由N个智能体和M个地标组成。智能体和地标具有颜色和形状等物理特性。智能体可以在环境中移动，在移动的过程中也可能受到与其它智能体物理交互的影响。通常使用x表示智能体的物理状态。图2-3多智能体深度强化学习环境GCE示意图Figure2-3Schematicdiagramofmulti-agentdeepreinforcementlearningenvironmentGCE除了执行物理动作外，智能体还可以在每个时间步长使用符号v进行交流，这种交流是内置在环境中的，而并非智能体模型之间的交流。v是大小为K的抽象符号词汇表V的离散元素。这些符号没有特定的意义，它们被视为由每个智能体发出并可以被所有其它智能体观察到的抽象变量。智能体在训练时，这些符

本文编号：3558836

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3558836.html

上一篇：智能网联环境下车辆队列控制算法与应用
下一篇：基于CPG的仿生机器鱼运动控制优化

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|