部分可观察马氏决策问题的近似规划方法研究

发布时间：2023-04-02 14:20

　　能否在不确定、动态环境下正确地决策,是衡量自主机器人性能好坏的一项重要指标。部分可观察马尔科夫决策过程(Partially Observable Markov Decision Processes,POMDPs)为自主机器人在不确定性环境中的规划问题,提供了一个极富表达力的数学框架。POMDP现已在无人驾驶、机械臂操作等自主机器人任务中得到成功的应用。现有的处理连续空间POMDP规划问题的方法常使用离散化来求解策略,该方法计算量大,效率偏低。本文为了解决连续空间中的POMDP规划问题,提出三种新的算法:(1)针对连续状态空间中现有算法使用离散化,将连续的状态离散化为网格,导致算法性能低下的缺陷,提出一种面向连续空间POMDP问题的高效算法——GPG算法。该算法在状态空间和相应的信念空间中抽样,同时使用广义策略图和抽样最大化方法,将算法推广到连续观察和连续动作空间。实验结果表明,GPG算法收敛速度快且能获得更优的策略。(2)针对连续状态空间中蒙特卡罗值迭代算法所得策略图会随着时间迅速增长,算法性能急剧降低的问题,提出一种优化的连续状态蒙特卡罗值迭代算法——OMVCI算法。该算法优化新增结...

【文章页数】：77 页

【学位级别】：硕士

【文章目录】：
中文摘要
abstract
第一章引言
    1.1 研究背景及意义
    1.2 研究现状
    1.3 研究内容
    1.4 论文组织结构
第二章背景知识
    2.1 马尔科夫决策过程
    2.2 POMDP模型
    2.3 信念状态
    2.4 值函数与最优策略的计算方法
    2.5 POMDP的基本方法
        2.5.1 精确值迭代方法
        2.5.2 改进的Perseus算法
    2.6 本章小结
第三章面向连续空间POMDP问题的高效算法
    3.1 策略图
    3.2 面向连续空间POMDP问题的高效算法
        3.2.1 连续状态空间的表示方法
        3.2.2 连续动作空间的表示方法
        3.2.3 连续观察空间的表示方法
        3.2.4 GPG算法
        3.2.5 算法分析
    3.3 实验及结果分析
        3.3.1 一维Corridor问题
        3.3.2 Intersection问题
        3.3.3 Navigation问题
    3.4 本章小结
第四章优化的连续状态蒙特卡罗值迭代算法
    4.1 蒙特卡罗值迭代算法
        4.1.1 蒙特卡罗更新
        4.1.2 蒙特卡罗值迭代算法
    4.2 连续状态POMDP问题的优化算法
        4.2.1 OMCVI算法
        4.2.2 算法分析
    4.3 实验及结果分析
        4.3.1 一维Corridor问题
        4.3.2 Music-Chair问题
    4.4 本章小结
第五章连续状态大规模观察空间的银杏叶搜索算法
    5.1 基于试验的异步值迭代算法
        5.1.1 基于试验的搜索和银杏叶搜索
        5.1.2 HSVI2算法
        5.1.3 SARSOP算法
    5.2 连续状态大规模观察空间的银杏叶搜索算法
        5.2.1 GLS算法
        5.2.2 算法分析
    5.3 实验及结果分析
        5.3.1 Gantry Crane问题
    5.4 本章小结
第六章总结与展望
    6.1 总结
    6.2 展望
参考文献
攻读硕士学位期间公开发表(录用)的论文及参与的项目
    一、公开发表(录用)的学术论文
    二、参加的科研项目
致谢

本文编号：3779374

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/lindaojc/3779374.html

上一篇：北京市海淀区初中家庭体育作业开展现状研究
下一篇：基于哈佛分析框架的恒源煤电公司财务分析

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|