强化学习在多智能体协同中的研究与应用
发布时间:2025-01-20 18:31
随着计算机科学的发展,特别是强化学习理论的大量应用,将强化学习方法应用在多智能体系统中的研究逐渐热门。强化学习模拟人类活动中获得奖励的过程,通过最大化奖励的方式为研究人员提供了一种求解多智能体控制系统的方法。多智能体系统利用强化学习可以进行自适应的学习,可以很好面对环境中的动态特性。随着多智能体系统的应用场景越来越多,利用强化学习在多智能体系统中设计灵活的算法也是当今的研究热点。为了达到上述目标,本文结合已有的多智能体系统中的强化学习算法,针对在多智能体协同环境中的强化学习方法进行研究,主要完成了以下工作:(1)提出一种适用于全局观测环境下多智能体强化学习算法。本文提出的算法利用注意力机制自适应选择环境中的智能体信息,以注意力的方式聚合选择之后的智能体信息,从而替代传统多智能体强化学习中的联合状态以及联合动作。将其应用于多智能体协同环境中,与MADDPG算法相比较,进行实验中验证了算法的高效性。(2)提出一种基于图网络的多智能体强化学习方法。在部分可观测的多智能体环境中,利用图网络进行智能体之间的信息传递,从而使多智能体系统中的每个智能体感知全局信息进行学习。并将该方法与强化学习相结合,...
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究工作的背景与意义
1.2 强化学习国内外研究现状
1.3 多智能体强化学习国内外研究现状
1.4 本文的主要工作
1.5 本论文的结构安排
第二章 关键算法与技术
2.1 强化学习基础
2.1.1 马尔可夫决策过程
2.1.2 贝尔曼方程
2.1.3 表格化的解决方法
2.1.4 深度强化学习方法
2.2 多智能体强化学习
2.2.1 多智能体马尔可夫博弈
2.2.2 多智能体强化学习典型算法
2.3 注意力机制
2.4 图神经网络
2.5 本章小结
第三章 全局观测下的多智能体强化学习算法
3.1 问题分析
3.2 基于注意力机制的智能体信息融合
3.3 基于全局观测信息的ATMA算法
3.4 实验验证
3.4.1 多智能体强化学习环境
3.4.2 智能体信息表示
3.4.3 参数设置
3.4.4 实验结果分析
3.5 本章小结
第四章 部分观测下的多智能体强化学习算法
4.1 问题分析
4.2 基于图网络的智能体信息融合
4.3 基于静态子图的网络更新方式
4.4 实验验证
4.4.1 实验环境设置
4.4.2 实验参数设置
4.4.3 实验结果分析
4.5 本章小结
第五章 算法可扩展性研究
5.1 问题分析
5.2 课程学习
5.3 实验验证
5.3.1 实验设置
5.3.2 实验结果分析
5.4 本章小结
第六章 全文总结与展望
6.1 全文总结
6.2 未来工作展望
致谢
参考文献
攻读硕士学位期间取得的成果
本文编号:4029520
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究工作的背景与意义
1.2 强化学习国内外研究现状
1.3 多智能体强化学习国内外研究现状
1.4 本文的主要工作
1.5 本论文的结构安排
第二章 关键算法与技术
2.1 强化学习基础
2.1.1 马尔可夫决策过程
2.1.2 贝尔曼方程
2.1.3 表格化的解决方法
2.1.4 深度强化学习方法
2.2 多智能体强化学习
2.2.1 多智能体马尔可夫博弈
2.2.2 多智能体强化学习典型算法
2.3 注意力机制
2.4 图神经网络
2.5 本章小结
第三章 全局观测下的多智能体强化学习算法
3.1 问题分析
3.2 基于注意力机制的智能体信息融合
3.3 基于全局观测信息的ATMA算法
3.4 实验验证
3.4.1 多智能体强化学习环境
3.4.2 智能体信息表示
3.4.3 参数设置
3.4.4 实验结果分析
3.5 本章小结
第四章 部分观测下的多智能体强化学习算法
4.1 问题分析
4.2 基于图网络的智能体信息融合
4.3 基于静态子图的网络更新方式
4.4 实验验证
4.4.1 实验环境设置
4.4.2 实验参数设置
4.4.3 实验结果分析
4.5 本章小结
第五章 算法可扩展性研究
5.1 问题分析
5.2 课程学习
5.3 实验验证
5.3.1 实验设置
5.3.2 实验结果分析
5.4 本章小结
第六章 全文总结与展望
6.1 全文总结
6.2 未来工作展望
致谢
参考文献
攻读硕士学位期间取得的成果
本文编号:4029520
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/4029520.html
上一篇:乡城流动人口家庭迁移行为决策研究
下一篇:没有了
下一篇:没有了