当前位置:主页 > 科技论文 > AI论文 >

基于强化学习的RoboCup 2D高层抢球策略研究

发布时间:2017-05-25 01:08

  本文关键词:基于强化学习的RoboCup 2D高层抢球策略研究,由笔耕文化传播整理发布。


【摘要】:RoboCup,机器人足球世界杯,是一个国际性的综合赛事,其中的2D项目提出了一个复杂的实时多主体环境下的智能体决策问题。当前人工智能正处在由“单主体静态可预测环境中的问题求解”向“多主体动态不可预测环境中的问题求解”过渡的阶段,RoboCup2D问题中的智能决策研究代表人工智能的最新理论方向,同时RoboCup2D问题的解决可以助力当前信息时代的深入发展和革新。 RoboCup2D问题的重点是高层决策,目前处理高层决策问题的方法有手工策略和各种人工智能的方法。传统的高层决策采用手工策略,手工策略具有很大的主观性,相关参数的选取多根据经验,不能保证很优化;同时手工策略无法考虑所有的比赛情形,对比赛情形动态变化的适应能力差,从而导致球员达成目标的效率底下。基于人工智能的方法则包括强化学习、决策树学习、神经网络学习等,它们由于具有学习能力,优于简单的手工策略。 在强化学习过程中,智能体通过不断进行动作尝试并观察动作的回报,逐渐学会在各种情形下选择对其有利的动作,以使自身在与环境交互过程中获得高的累积回报值。强化学习的环境交互特点和RoboCup2D的客户-服务器交互模式一致;强化学习的连续决策特点和RoboCup2D的周期性决策特点也十分一致;并且强化学习模型对动态不确定环境的适应能力,使得强化学习方法十分适于解决RoboCup2D的高层决策问题,所以本文基于强化学习方法进行RoboCup2D问题研究。 Keepaway,即小规模控球抢球训练问题,是RoboCup2D中的典型子问题。目前有人使用强化学习的方法对Keepaway的高层控球策略进行研究,优化了控球球队中持球球员的高层动作决策。然而目将强化学习应用于Keepaway问题中抢球球员的动作决策尚无文献研究。在Keepaway中,抢球任务和控球任务的任务目标相反,任务特点也有所不同,因而球队策略也存在区别。控球的特点是要求无球球员进行合理的无球跑动,同时持球球员选择合理的传球路线;抢球的特点是则要求抢球球员分工对控球球员进行压迫和逼抢。控球任务对无球球员的跑动要求相对较低,研究重点是持球球员的传球决策;而对于抢球,离球最近的抢球球员的决策比较固定(他必须上前逼抢持球球员,否则球队很难抢下球),剩下的负责拦截传球路线的抢球球员的决策则具有研究价值。本文针对Keepaway中抢球任务的上述特点,研究将强化学习应用于抢球球员高层动作决策的问题,主要做了以下工作: (1)针对传统手工策略效率低的问题,通过对Keepaway中抢球任务特点的分析,合理设计了抢球球员强化学习模型的状态空间、动作空间及回报值,并给出了抢球球员的强化学习算法,使球员的决策随着训练的进行得到优化,抢球任务完成时间缩短,抢断成功率提高。 (2)针对较大规模Keepaway任务进行普通强化学习耗时太长的问题,利用策略迁移技术,通过合理设计从较小规模到较大规模Keepaway抢球任务的迁移学习方案,以及定义两个规模的任务间状态及动作空间映射,并给出抢球球员的迁移学习算法,使抢球球员在较大规模Keepaway训练中重用在较小规模Keepaway中通过普通强化学习得到的高层策略,实现迁移学习。实验表明迁移学习在训练开始时就表现出较高的决策效率,并且比从零开始的普通强化学习更快地收敛到理想的策略水平,大大缩短了训练时间。 本文的研究成果表明强化学习方法在Keepaway高层抢球决策中的有效性。传统意义上,强化学习一般只应用于底层动作决策。本研究则证明了通过合理的高层回报值模型设计,强化学习也可以用来解决高层动作决策问题,体现了强化学习更广泛的应用能力。
【关键词】:机器人足球 Keepaway 强化学习 抢球策略 策略重用 迁移学习
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP242
【目录】:
  • 摘要3-5
  • Abstract5-9
  • 第一章 绪论9-13
  • 1.1 研究背景及选题意义9-10
  • 1.2 国内外研究现状10-11
  • 1.3 本论文的主要内容11-13
  • 第二章 ROBOCUP 2D平台13-21
  • 2.1 ROBOCUP比赛13
  • 2.2 ROBOCUP 2D平台架构13-16
  • 2.3 ROBOCUP 2D问题模型16-17
  • 2.4 ROBOCUP 2D问题特点17-18
  • 2.5 ROBOCUP 2D子问题18-20
  • 2.6 本章小结20-21
  • 第三章 强化学习21-34
  • 3.1 强化学习概述21-22
  • 3.2 强化学习问题22-24
  • 3.3 MDP模型求解强化学习问题24-27
  • 3.4 强化学习算法27-33
  • 3.5 本章小结33-34
  • 第四章 高层抢球策略的强化学习34-43
  • 4.1 问题描述34
  • 4.2 KEEPAWAY的高层动作和总体策略34-36
  • 4.3 KEEPAWAY中高层抢球策略的强化学习36-39
  • 4.4 实验分析39-42
  • 4.5 本章小结42-43
  • 第五章 高层抢球策略的任务间迁移学习43-51
  • 5.1 问题描述43
  • 5.2 迁移学习和策略重用43-46
  • 5.3 KEEPAWAY中高层抢球策略的任务间迁移学习46-48
  • 5.4 实验分析48-50
  • 5.5 本章小结50-51
  • 第六章 总结和展望51-53
  • 6.1 全文工作总结51-52
  • 6.2 未来展望52-53
  • 参考文献53-57
  • 致谢57-58
  • 攻读硕士学位期间的学术论文、科研项目与相关奖项58

【参考文献】

中国期刊全文数据库 前10条

1 郝晓云;;多智能主体系统的社会规范[J];重庆工学院学报(社会科学版);2009年06期

2 刘春阳;谭应清;柳长安;马莹巍;;多智能体强化学习在足球机器人中的研究与应用[J];电子学报;2010年08期

3 殷锋社;;基于知识的Agent强化学习算法分析与研究[J];电子设计工程;2011年11期

4 程显毅;朱倩;;一种改进的强化学习方法在RoboCup中应用研究[J];广西师范大学学报(自然科学版);2010年03期

5 连晓峰;张_";刘载文;苏维钧;;RoboCup中型组机器人足球相关技术研究[J];机器人技术与应用;2009年03期

6 李实,徐旭明,叶榛,孙增圻;国际机器人足球比赛及其相关技术[J];机器人;2000年05期

7 何泽宇,付庄,曹其新,陈卫东;具有输入饱和特性的中型足球机器人运动控制研究[J];计算机工程与应用;2003年18期

8 毛俊杰;刘国栋;;基于先验知识的改进强化学习及其在MAS中应用[J];计算机工程与应用;2008年24期

9 陈学松;杨宜民;;强化学习研究综述[J];计算机应用研究;2010年08期

10 张汝波,顾国昌,刘照德,王醒策;强化学习理论、算法及应用[J];控制理论与应用;2000年05期

中国博士学位论文全文数据库 前2条

1 覃姜维;迁移学习方法研究及其在跨领域数据分类中的应用[D];华南理工大学;2011年

2 范长杰;基于马尔可夫决策理论的规划问题的研究[D];中国科学技术大学;2008年


  本文关键词:基于强化学习的RoboCup 2D高层抢球策略研究,,由笔耕文化传播整理发布。



本文编号:392390

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/rengongzhinen/392390.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户72472***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com