当前位置:主页 > 管理论文 > 组织管理论文 >

多Agent协作团队的强化学习方法研究

发布时间:2017-04-27 14:04

  本文关键词:多Agent协作团队的强化学习方法研究,,由笔耕文化传播整理发布。


【摘要】: 强化学习,因其不需要环境模型、通过Agent和所在环境的自主交互进行学习的特点,现已成为多Agent系统和机器学习领域的研究热点。多Agent系统常被应用于开放、复杂、动态变化的环境,单个Agent的能力已不能胜任所面临的任务,尤其是具有相同目标的系统,Agent之间必须协同求解。同时,Agent还必须具备学习能力以适应环境的动态变化。但传统的单Agent学习原理并不适用于多Agent环境,因此亟待根据多Agent系统的协同性,提出新的学习方法。 Pursuit Game问题常用于来测试人工智能领域的学习算法,本文就此问题提出了两种多Agent协同强化学习方法:基于承诺和约定的方法和基于联合行为优先序列的方法。 文章首先介绍了Agent和多Agent系统、以及多Agent学习的一些基本概念,然后介绍了强化学习和多Agent强化学习的研究现状和未来发展方向。第二部分对强化学习理论和多Agent强化学习理论进行了简要介绍。在对Pursuit Game问题进行初步分析的基础上,针对独立行为学习者,扩展了单Agent强化学习算法,提出了基于承诺和约定的多Agent协同强化学习方法MACRL-CC。针对联合行为学习者,给出了多Agent协同强化学习的团队随机博弈框架,并解决了多最优均衡解问题,提出了基于联合行为优先序列的多Agent协同强化学习方法MACRL-JAPS。文中对上述两种方法都进行了实验验证。 本文的主要成果及创新是,提出了两种多Agent协同强化学习算法,并进行了实验验证。MACRL-CC在对系统目标的特性进行分析的基础上,将系统目标进行分解,并采用基于承诺和约定的协作方法实现Agent的协作求解;考虑到状态行为空间可能很大的问题,提出了状态和行为的泛化的概念,对状态空间进行了缩减;针对Agent在求解过程中学习到的经验知识的相似性,提出了经验知识共享的方法以提高学习效率。MACRL-JAPS针对多Agent协同强化学习的特点,提出了多Agent协同强化学习的团队随机博弈框架;针对博弈问题的多最优均衡解难题,提出了基于联合行为优先序列的方法,确保Agent能够准确预测其他Agent的行为,从而选择一致的最优均衡解。
【关键词】:多Agent系统 强化学习 Pursuit Game 承诺和约定 协同博弈 团队随机博弈 纳什均衡 联合行为优先序列
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:C936;F224
【目录】:
  • 摘要7-8
  • Abstract8-10
  • 第一章 绪论10-24
  • 1.1 研究背景10-13
  • 1.2 多Agent 学习概述13-17
  • 1.2.1 Agent 与多Agent 系统13-15
  • 1.2.2 多Agent 学习的研究内容15-17
  • 1.3 多Agent 强化学习的研究现状和未来研究方向17-22
  • 1.4 本文的研究内容与结构22-24
  • 1.4.1 本文的研究内容22-23
  • 1.4.2 本文的结构23-24
  • 第二章 相关的研究工作24-44
  • 2.1 强化学习简介24-33
  • 2.1.1 强化学习模型24-26
  • 2.1.2 优化行为模型26-27
  • 2.1.3 马尔可夫决策过程27-30
  • 2.1.4 Q-学习算法30-33
  • 2.2 多Agent 强化学习基本理论33-41
  • 2.2.1 随机博弈框架简介35-39
  • 2.2.2 相关算法39-41
  • 2.3 与本文相关的研究工作41-43
  • 2.4 本章小结43-44
  • 第三章 基于承诺和约定的多 Agent 协同强化学习44-60
  • 3.1 预备知识45-50
  • 3.1.1 多Agent 协作团队45-47
  • 3.1.2 任务的分解与分配47-48
  • 3.1.3 承诺和约定48-50
  • 3.2 状态行为空间的缩减50-51
  • 3.3 Pursuit Game 问题51-53
  • 3.3.1 Pursuit Game 问题的相关研究51-52
  • 3.3.2 Pursuit Game 的问题描述52-53
  • 3.4 基于承诺和约定的多Agent 协同强化学习算法53-56
  • 3.5 算法设计及实验结果56-59
  • 3.5.1 算法设计56-57
  • 3.5.2 实验及结论57-59
  • 3.6 本章小结59-60
  • 第四章 基于联合行为优先序列的多 Agent 协同强化学习60-77
  • 4.1 多Agent 协同强化学习的团队随机博弈框架60-64
  • 4.1.1 基本概念60-61
  • 4.1.2 团队随机博弈框架61-64
  • 4.2 对接问题描述64-67
  • 4.3 多最优均衡解问题67-70
  • 4.3.1 多最优均衡解问题的研究现状67
  • 4.3.2 基于联合行为优先序列的多最优均衡问题解决方法67-70
  • 4.4 基于联合行为优先序列的多Agent 协同强化学习算法70-71
  • 4.5 对接问题的实验设定及结果71-73
  • 4.6 Pursuit Game 问题的实验设定及结果73-76
  • 4.7 本章小结76-77
  • 第五章 总结与展望77-79
  • 5.1 主要工作与创新77-78
  • 5.2 进一步的工作78-79
  • 致谢79-80
  • 参考文献80-89
  • 附录89

【引证文献】

中国博士学位论文全文数据库 前1条

1 李妼;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年

中国硕士学位论文全文数据库 前2条

1 刘飞;强化学习在足球机器人仿真中的应用[D];长沙理工大学;2012年

2 刘嘉;非常规突发事件应对决策行为研究[D];武汉理工大学;2012年


  本文关键词:多Agent协作团队的强化学习方法研究,由笔耕文化传播整理发布。



本文编号:330731

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/yunyingzuzhiguanlilunwen/330731.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1ba1e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com