基于马尔可夫决策过程理论的Agent决策问题研究

发布时间：2017-04-27 15:24

本文关键词：基于马尔可夫决策过程理论的Agent决策问题研究，由笔耕文化传播整理发布。

【摘要】： 人工智能被认为其主要目标是构造可以决策出智能行为的Agents,即这些Agents能够在多方面再现人类可以做出的智能行为。马尔可夫决策过程(MDP)可以用来描述和处理大规模不确定性环境下的Agent决策问题。 RoboCup机器人世界杯是国际上一项为促进分布式人工智能、智能机器人技术及其相关领域的研究与发展而举行的大型比赛和学术活动,RoboCup仿真2D比赛是RoboCup所有项目中以Agent决策为重点的一个分支。本文以马尔可夫决策过程的相关理论为基础,以RoboCup仿真2D比赛为实验平台,对Agent决策相关问题进行了研究。本文的主要工作可以概括为以下三个方面: 本文重构并实现了一个完整的RoboCup仿真2D球队决策系统WE2009。该系统以部分可观察随机博弈(POSG)的模型为理论基础,包括信息处理、高层决策和行为执行三个模块。特别是高层决策模块,采用基于独立行为生成器的结构设计,不仅可以充分利用Agent的决策时间,而且可以提高团队合作的效率。本文提出了一类特殊的马尔可夫决策过程,即行动驱动的马尔可夫决策过程(ADMDP)。本文分析了ADMDP的理论模型,提出了ADMDP的相关求解方法。该方法采取离线值迭代与在线搜索相结合,在本文中用来求解RoboCup仿真2D比赛中的不离身带球问题,使Agent的带球性能有了较大的提高。本文提出了一类特殊的马尔可夫博弈,即基于阵型的零和马尔可夫博弈(FZSMG)。本文分析了FZSMG的理论模型,并以此为基础来描述RoboCup仿真2D比赛中的Anti-Mark问题。针对Anti-Mark问题,本文提出了一个基于阵型变换的启发式求解方法,使球队在与盯人防守的对手比赛时取得了较好的效果。本文的所有工作都是基于WE2009实现的,WE2009在完成后参加了2009RoboCup机器人世界杯和2009中国机器人大赛两次重要比赛,并且全部获得冠军。
【关键词】：人工智能 Agent决策 多Agent系统 马尔可夫决策过程 马尔可夫博弈 RoboCup 仿真2D
【学位授予单位】：中国科学技术大学
【学位级别】：硕士
【学位授予年份】：2010
【分类号】：TP18
【目录】：

摘要4-5
ABSTRACT5-7
目录7-10
图表目录10-11
第1章绪论11-24
1.1 人工智能与Agent 决策11-12
1.2 马尔可夫决策过程12-18
1.2.1 基本模型13-14
1.2.2 世界状态14-15
1.2.3 行动15
1.2.4 状态转移函数15-16
1.2.5 收益函数16-17
1.2.6 值函数与策略求解17-18
1.3 其他决策模型介绍18-20
1.4 实验平台20-22
1.4.1 RoboCup 机器人世界杯20-21
1.4.2 RoboCup 仿真2D 机器人足球比赛21-22
1.4.3 WrightEagle 仿真2D 机器人足球队22
1.5 本文的主要工作及章节安排22-24
第2章 WE2009 仿真2D 球队决策系统24-38
2.1 RoboCup 仿真2D 平台24-27
2.1.1 Server 端25-26
2.1.2 Client 端26-27
2.2 理论模型27-29
2.2.1 POSG 的基本模型27-28
2.2.2 WE2009 的POSG 建模28-29
2.3 系统结构分析29-37
2.3.1 系统决策流程30-31
2.3.2 信息处理模块31-32
2.3.3 高层决策模块32-36
2.3.4 行为执行模块36-37
2.4 小结37-38
第3章行动驱动的马尔可夫决策过程38-52
3.1 问题的提出38-39
3.2 理论模型39-40
3.3 求解算法40-44
3.3.1 MDP 的经典求解算法40-41
3.3.2 ADMDP 的精确求解算法41-43
3.3.3 ADMDP 的启发式求解算法43-44
3.4 不离身带球问题的求解44-47
3.4.1 问题分析45
3.4.2 模型建立45-47
3.5 实验结果及分析47-51
3.6 小结51-52
第4章基于阵型的零和马尔可夫博弈52-66
4.1 博弈论相关背景52-55
4.1.1 博弈与零和博弈53-54
4.1.2 零和马尔可夫博弈54-55
4.2 理论模型及应用实例55-59
4.2.1 角色与阵型55-56
4.2.2 理论模型56-57
4.2.3 Anti-Mark 问题中的应用57-59
4.3 Anti-Mark 问题的求解59-63
4.3.1 多角色异构分配策略59-60
4.3.2 阵型变换策略60-63
4.4 实验结果及分析63-64
4.5 小结64-66
第5章总结与展望66-68
5.1 总结66
5.2 展望66-68
参考文献68-72
致谢72-74
攻读学位期间发表的学术论文与取得的其他研究成果74

【引证文献】

中国硕士学位论文全文数据库前1条

1 章惠龙;RoboCup仿真2D中的Agent智能决策系统[D];安徽大学;2012年

本文关键词：基于马尔可夫决策过程理论的Agent决策问题研究，，由笔耕文化传播整理发布。

本文编号：330827

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/rengongzhinen/330827.html

上一篇：人工免疫算法的改进与IP核实现
下一篇：基于神经网络反馈补偿控制的磁悬浮球位置控制

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|