当前位置:主页 > 管理论文 > 领导决策论文 >

部分可观察马氏决策问题的近似规划方法研究

发布时间:2023-04-02 14:20
  能否在不确定、动态环境下正确地决策,是衡量自主机器人性能好坏的一项重要指标。部分可观察马尔科夫决策过程(Partially Observable Markov Decision Processes,POMDPs)为自主机器人在不确定性环境中的规划问题,提供了一个极富表达力的数学框架。POMDP现已在无人驾驶、机械臂操作等自主机器人任务中得到成功的应用。现有的处理连续空间POMDP规划问题的方法常使用离散化来求解策略,该方法计算量大,效率偏低。本文为了解决连续空间中的POMDP规划问题,提出三种新的算法:(1)针对连续状态空间中现有算法使用离散化,将连续的状态离散化为网格,导致算法性能低下的缺陷,提出一种面向连续空间POMDP问题的高效算法——GPG算法。该算法在状态空间和相应的信念空间中抽样,同时使用广义策略图和抽样最大化方法,将算法推广到连续观察和连续动作空间。实验结果表明,GPG算法收敛速度快且能获得更优的策略。(2)针对连续状态空间中蒙特卡罗值迭代算法所得策略图会随着时间迅速增长,算法性能急剧降低的问题,提出一种优化的连续状态蒙特卡罗值迭代算法——OMVCI算法。该算法优化新增结...

【文章页数】:77 页

【学位级别】:硕士

【文章目录】:
中文摘要
abstract
第一章 引言
    1.1 研究背景及意义
    1.2 研究现状
    1.3 研究内容
    1.4 论文组织结构
第二章 背景知识
    2.1 马尔科夫决策过程
    2.2 POMDP模型
    2.3 信念状态
    2.4 值函数与最优策略的计算方法
    2.5 POMDP的基本方法
        2.5.1 精确值迭代方法
        2.5.2 改进的Perseus算法
    2.6 本章小结
第三章 面向连续空间POMDP问题的高效算法
    3.1 策略图
    3.2 面向连续空间POMDP问题的高效算法
        3.2.1 连续状态空间的表示方法
        3.2.2 连续动作空间的表示方法
        3.2.3 连续观察空间的表示方法
        3.2.4 GPG算法
        3.2.5 算法分析
    3.3 实验及结果分析
        3.3.1 一维Corridor问题
        3.3.2 Intersection问题
        3.3.3 Navigation问题
    3.4 本章小结
第四章 优化的连续状态蒙特卡罗值迭代算法
    4.1 蒙特卡罗值迭代算法
        4.1.1 蒙特卡罗更新
        4.1.2 蒙特卡罗值迭代算法
    4.2 连续状态POMDP问题的优化算法
        4.2.1 OMCVI算法
        4.2.2 算法分析
    4.3 实验及结果分析
        4.3.1 一维Corridor问题
        4.3.2 Music-Chair问题
    4.4 本章小结
第五章 连续状态大规模观察空间的银杏叶搜索算法
    5.1 基于试验的异步值迭代算法
        5.1.1 基于试验的搜索和银杏叶搜索
        5.1.2 HSVI2算法
        5.1.3 SARSOP算法
    5.2 连续状态大规模观察空间的银杏叶搜索算法
        5.2.1 GLS算法
        5.2.2 算法分析
    5.3 实验及结果分析
        5.3.1 Gantry Crane问题
    5.4 本章小结
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
攻读硕士学位期间公开发表(录用)的论文及参与的项目
    一、公开发表(录用)的学术论文
    二、参加的科研项目
致谢



本文编号:3779374

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3779374.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户18adf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com