当前位置:主页 > 管理论文 > 统计学论文 >

不确定环境下的序列决策问题研究

发布时间:2017-03-23 14:02

  本文关键词:不确定环境下的序列决策问题研究,由笔耕文化传播整理发布。


【摘要】:随着计算技术、嵌入式技术、传感器技术、通信技术以及自动控制技术的飞速发展,新一代智能系统也悄然出现。新一代智能系统的主要特点在于信息世界与物理世界的交互更为深入。新一代智能系统具有广泛的应用背景,可用于智慧城市、智慧交通、国防军事、健康监护、环境监控等领域,受到越来越多研究者的关注。本文主要研究智能系统中以机器人控制与决策为背景的序列决策问题。 环境的不确定性是新一代智能系统的主要特点之一,系统的复杂性和不确定性决定了系统中的节点决策必然面临着信息不一致、信息局部可观测及分布式的问题。对于系统的决策节点来说,如何在这种环境下根据有限的信息在适当的时候做出合适的决策是其决策和规划的首要问题。马尔科夫决策理论为不确定性环境下的决策提供了坚实的数学基础和模型表示方法。 论文在分析了马尔科夫决策的国内外研究现状的基础上针对当前模型求解算法中所存在的缺点和不足,提出了ESVI算法和IGA算法。首先针对POMDP模型的求解提出了基于遗传策略的求解POMDP的值迭代算法(Evolution Strategy Based Value Iteration,简称ESVI ),算法在随机迭代过程的基础上通过构造一个效用矩阵来决定在某个信念状态点上所要采取的最优行动,在确定最优行动之后采用贝叶斯法则对信念状态更新。随机迭代过程采用遗传策略选取最优种群,并根据所选取的最优种群对效用矩阵更新。算法的最后对Tag问题和Hallway2问题进行了求解,实验表明ESVI在解决较大规模的POMDP问题时能够迅速收敛到较好的收益值而获得近似最优的行动策略。针对DEC-POMDP模型的求解提出了改进的遗传算法(IGA),算法在对状态集分析的基础上,引入最佳收益态和最佳起始态,并将策略的求解分为两部分:初始状态到最佳起始态的策略和最佳收益态之间的转换策略,两部分策略的分开求解减小了算法的复杂度。前一阶段的目的在于使决策节点到达最佳收益状态,其实质上是剪除了行动序列中存在的部分无效行动。两个阶段的策略求解都使用遗传算法,但在遗传操作和适应度函数的定义方面又有所不同。算法对方格相遇问题和多入口广播通道问题进行了求解,通过实验可以看出IGA压缩了要搜索的策略空间,减小了编码长度,是求解DEC-POMDP的有效的近似算法。
【关键词】:部分可观测马尔科夫 马尔科夫决策过程 序列决策 不确定性
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP18;C934
【目录】:
  • 摘要7-8
  • ABSTRACT8-10
  • 第一章 绪论10-19
  • 1.1 研究背景10-12
  • 1.2 国内外研究现状12-17
  • 1.2.1 MDP研究现状13
  • 1.2.2 POMDP研究现状13-15
  • 1.2.3 DEC-POMDP研究现状15-17
  • 1.3 论文研究内容17-18
  • 1.4 论文组织结构18-19
  • 第二章 马尔科夫决策理论19-32
  • 2.1 MDP基本模型及典型算法19-20
  • 2.1.1 基本模型19-20
  • 2.1.2 典型算法20
  • 2.2 POMDP基本模型及算法20-28
  • 2.2.1 基本模型21-23
  • 2.2.2 精确求解算法23-26
  • 2.2.3 近似求解算法26-28
  • 2.3 DEC-POMDP基本模型及算法28-31
  • 2.3.1 基本模型29
  • 2.3.2 典型算法29-31
  • 2.4 本章小结31-32
  • 第三章 基于遗传策略的POMDP值迭代算法32-48
  • 3.1 基本值迭代算法32-35
  • 3.1.1 值函数在POMDP中的表示32-33
  • 3.1.2 值迭代算法的表示33-35
  • 3.2 基于遗传策略的值迭代算法35-43
  • 3.2.1 随机迭代过程35-36
  • 3.2.2 效用矩阵及其更新36-38
  • 3.2.3 信念状态的更新38-41
  • 3.2.4 算法表示41-42
  • 3.2.5 算法分析42-43
  • 3.3 Tag问题和Hallway2 问题的求解43-47
  • 3.4 本章小结47-48
  • 第四章 应用改进的遗传算法求解DEC-POMDP问题48-63
  • 4.1 基本遗传算法求解DEC-POMDP问题的难点48-49
  • 4.2 遗传算法的改进49-59
  • 4.2.1 最佳收益态和最佳起始态50-52
  • 4.2.2 编码、交叉及变异52-53
  • 4.2.3 适应度函数53-56
  • 4.2.4 最佳收益态之间的转换策略56-57
  • 4.2.5 算法描述及复杂性分析57-59
  • 4.3 算法可行性验证59-62
  • 4.4 本章小结62-63
  • 第五章 总结与展望63-65
  • 5.1 工作总结63-64
  • 5.2 研究展望64-65
  • 致谢65-66
  • 参考文献66-72
  • 作者在学期间取得的学术成果72

【参考文献】

中国期刊全文数据库 前2条

1 卞爱华;王崇骏;陈世福;;基于点的POMDP算法的预处理方法[J];软件学报;2008年06期

2 桂林;武小悦;;部分可观测马尔可夫决策过程算法综述[J];系统工程与电子技术;2008年06期

中国博士学位论文全文数据库 前2条

1 吴锋;基于决策理论的多智能体系统规划问题研究[D];中国科学技术大学;2011年

2 范长杰;基于马尔可夫决策理论的规划问题的研究[D];中国科学技术大学;2008年

中国硕士学位论文全文数据库 前1条

1 王健;机器人导航POMDP算法研究[D];哈尔滨工程大学;2008年


  本文关键词:不确定环境下的序列决策问题研究,,由笔耕文化传播整理发布。



本文编号:263855

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/263855.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2051c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com