当前位置:主页 > 管理论文 > 领导决策论文 >

基于多智能体强化学习的足球机器人决策策略研究

发布时间:2023-03-24 19:57
  分布式人工智能近十几年受到了广泛地关注与发展,多智能体系统也成为了研究的热点,将其强化学习相结合,可以得到多智能体的强化学习。本文以一个典型的多智能体系统即足球机器人系统为研究对象,研究了多智能体的强化学习尤其是多智能体Q学习问题及其在足球机器人决策中的应用问题。首先,介绍了课题的研究背景和现状,介绍了该课题所具有的重要的理论意义和实践意义。对多智能体系统和足球机器人系统进行了阐述。其次,研究了智能体的强化学习问题,对其基本概念与原理给予了分析。对智能体强化学习的框架模型即马尔可夫决策过程进行了研究,分析了其中的关键因素,包括回报、策略、值函数、动作探索等。具体分析了三种强化学习算法,分别为TD算法、Q学习算法和Sarsa算法。给出了多智能体系统的描述方式,讨论了多智能体系统的强化学习的特点和方法。再次,将模拟退火算法的思想引入到智能体强化学习的动作探索策略中,得到基于模拟退火的智能体Q学习算法,为学习中动作的探索与利用提供了一个科学的解决办法,给出了基于模拟退火的智能体Q学习的算法流程。并将此算法应用到足球机器人的寻球策略学习中,对其学习空间、奖惩函数等进行了分析与设计,并利用MAT...

【文章页数】:74 页

【学位级别】:硕士

【文章目录】:
致谢
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 多智能体系统研究
        1.2.2 足球机器人比赛发展
        1.2.3 多智能体系统强化学习研究
    1.3 本文主要研究内容
第二章 多智能体系统和足球机器人系统基础
    2.1 智能体概述
        2.1.1 智能体概念与模型
        2.1.2 智能体体系结构
    2.2 多智能体系统
        2.2.0 多智能体系统的概念
        2.2.1 多智能体系统的研究内容
        2.2.2 多智能体群体体系结构
    2.3 足球机器人系统
        2.3.1 足球机器人概述
        2.3.2 足球机器人系统结构
    2.4 本章小结
第三章 智能体强化学习
    3.1 强化学习概述
    3.2 强化学习框架
        3.2.1 马尔可夫决策过程
        3.2.2 回报函数与策略
        3.2.3 值函数
        3.2.4 探索策略
    3.3 强化学习算法
        3.3.1 时间差分算法(TD)
        3.3.2 Q学习算法
        3.3.3 Sarsa学习算法
    3.4 多智能体系统强化学习
        3.4.1 多智能体系统描述
        3.4.2 多智能体系统强化学习方法
    3.5 本章小结
第四章 基于智能体Q学习的足球机器人寻球策略
    4.1 智能体动作探索策略
    4.2 基于模拟退火的智能体Q学习
    4.3 足球机器人寻球任务
        4.3.1 问题描述
        4.3.2 状态空间和动作空间表示
        4.3.3 奖惩函数设置
        4.3.4 Q值函数更新
    4.4 仿真结果与分析
    4.5 本章小结
第五章 基于多智能体Q学习的足球机器人决策策略
    5.1 多智能体强化学习存在的问题
    5.2 基于角色转换和经验共享的多智能体Q学习
        5.2.1 多智能体强化学习的角色转换
        5.2.2 多智能体强化学习的经验共享
        5.2.3 基于角色转换和经验共享的多智能体Q学习
    5.3 足球机器人决策模型
    5.4 足球机器人局部进攻策略
        5.4.1 角色分配策略
        5.4.2 基于多智能体Q学习的主攻队员动作选择学习
    5.5 仿真结果与分析
    5.6 本章小结
第六章 总结与展望
    6.1 工作总结
    6.2 工作展望
参考文献
攻读硕士学位期间的学术活动及成果情况



本文编号:3769753

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3769753.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b83e3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com