当前位置:主页 > 科技论文 > 自动化论文 >

连续动作空间下的多智能体强化学习算法研究

发布时间:2023-03-09 20:00
  真实世界中往往有很多问题例如交通控制、网络包传输及视频游戏等都会被自然的建立为多智能体系统。在多智能体系统中,智能体之间往往需要协同合作来达成共同的目标。先前有许多工作致力于解决多智能体协同问题,这些算法大多是从Q学习扩展得到的,例如分布式Q学习算法(distributed Qlearning)、策略爬山算法(Policy Hill Climbing,PHC)和递归频率最大Q值算法(recursive Frequency Maximum Q-Value,rFMQ)等。但是这些算法只能解决离散动作空间中的多智能体协同问题。然而现实环境的动作空间大多是连续的。现有的很多算法在解决单智能体连续动作空间学习问题上已经取得了很多成果。这些算法主要可以分为两大类:基于函数逼近方法的算法和基于蒙特卡洛采样方法的算法。基于函数逼近方法的算法又可以被分为基于值近似方法的算法和基于策略近似方法的算法。然而上述算法普遍存在一个缺点,即如果他们被直接应用到解决连续动作空间下的多智能体协同问题中时效率会变低,算法的收敛速度慢或无法收敛。基于以上问题,本课题旨在提出一种强化学习算法框架,目的是高效地解决连续动作空...

【文章页数】:65 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 课题研究背景及意义
    1.2 存在的主要问题
    1.3 本文研究内容及贡献
    1.4 论文结构
第二章 马尔可夫决策过程与单智能体强化学习
    2.1 马尔可夫决策过程
    2.2 单智能体强化学习算法简介
        2.2.1 离散动作空间中的单智能体学习算法
        2.2.2 连续动作空间中的单智能体学习算法
第三章 马尔可夫博弈与多智能体强化学习
    3.1 马尔可夫博弈
    3.2 多智能体强化学习算法简介
        3.2.1 离散动作空间中的多智能体学习算法
        3.2.2 连续动作空间中的多智能体学习算法
第四章 连续动作空间下的多智能体协同算法
    4.1 连续动作空间下的多智能体协同算法框架
    4.2 单状态下基于递归频率最大Q值的连续动作学习自动机算法
        4.2.1 单状态下CALA-rFMQ算法综述
        4.2.2 单状态下基于PHC算法的rFMQ算法学习前k优离散动作
        4.2.3 单状态下使用有先验经验的WoLS-CALA算法学习最优动作
    4.3 多状态下基于递归频率最大Q值的连续动作学习自动机算法
        4.3.1 多状态下基于PHC算法的rFMQ算法学习前k优离散动作
        4.3.2 多状态下使用有先验经验的WoLS-CALA算法学习最优动作
第五章 实验设置及实验结果
    5.1 单状态环境下实验
        5.1.1 实验及参数设置
        5.1.2 实验结果及分析
    5.2 多状态环境下的实验
        5.2.1 实验及参数设置
        5.2.2 实验结果及分析
第六章 总结与展望
    6.1 论文总结
    6.2 展望
参考文献
发表论文和参加科研情况说明
    发表的论文
致谢



本文编号:3758204

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3758204.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7ebcf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com