基于生成模型的世界模型建立与智能决策算法研究
发布时间:2022-02-19 22:07
智能决策一直是机器人的关键技术之一。当前机器人技术的应用正面临着从面向结构化的工厂环境和任务转换到面向如家庭室内、办公楼、马路、野外等复杂日常生活环境及多变任务的考验,对机器人的智能化程度提出了更高的要求。现有的智能算法开发模式依赖于研究人员对环境及机体的提前建模,对于新的环境和机体往往需要重新建模,因此不具有通用性,开发成本巨大,无法适应未来行业中对于智能的大量需求。本课题旨在以智能决策算法的通用性为目标,探索智能决策问题的一般化描述方法与解决方案。首先,基于强化学习中常用的POMDP过程建立智能决策问题的通用数学描述,并通过对其进行分析,将智能决策算法等价于信息的提取与利用。利用信息论对环境中信息的分布方式进行分析,最终基于世界模型概念得出解决智能决策问题的一般性框架,将世界模型按照提取的信息类型不同拆分为感知抽象和状态预测两个过程。并基于Mo Jo Co仿真平台,选取了5种典型的视觉控制任务作为本文的验证平台。其次,推导感知抽象过程与生成模型之间的关系,利用POMDP过程中的内部约束,将感知抽象过程转化为生成问题,并基于变分自编码器对感知抽象过程进行了实现。从理论角度对优化目标中...
【文章来源】:哈尔滨工业大学黑龙江省211工程院校985工程院校
【文章页数】:76 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题来源及研究的背景和意义
1.2 国内外研究现状及分析
1.2.1 强化学习研究现状
1.2.2 表征学习研究现状
1.2.3 研究现状分析
1.3 本文研究内容
第2章 基于POMDP与信息论的智能决策问题描述方法
2.1 引言
2.2 智能决策问题的一般化描述方法
2.3 信息的存在形式
2.3.1 信息的度量方式
2.3.2 信息在观测信号中的分布
2.4 基于世界模型的智能决策算法框架
2.5 基于MoJoCo仿真环境的任务简介
2.6 本章小结
第3章 基于生成模型与变分自编码器的感知抽象算法研究
3.1 引言
3.2 感知抽象过程的生成模型式描述
3.3 基于变分自编码器的感知抽象模型
3.4 静态表征中的信息约束分析
3.5 实验及结果分析
3.5.1 模型及默认参数设置
3.5.2 感知抽象信息提取验证实验
3.6 本章小结
第4章 基于生成模型与循环神经网络的状态预测算法研究
4.1 引言
4.2 状态预测过程的生成模型式描述
4.3 基于循环神经网络的状态预测模型
4.4 实验及结果分析
4.4.1 模型及默认参数设置
4.4.2 状态预测模型的信息提取及预测能力实验
4.5 本章小结
第5章 基于演员-评论家框架的智能决策算法与实验研究
5.1 引言
5.2 演员-评论家框架简介
5.3 基于世界模型的演员-评论家控制器
5.4 实验及结果分析
5.4.1 模型及默认参数设置
5.4.2 算法在线学习验证实验
5.4.3 离线学习探索实验
5.5 本章小结
结论
参考文献
致谢
本文编号:3633704
【文章来源】:哈尔滨工业大学黑龙江省211工程院校985工程院校
【文章页数】:76 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题来源及研究的背景和意义
1.2 国内外研究现状及分析
1.2.1 强化学习研究现状
1.2.2 表征学习研究现状
1.2.3 研究现状分析
1.3 本文研究内容
第2章 基于POMDP与信息论的智能决策问题描述方法
2.1 引言
2.2 智能决策问题的一般化描述方法
2.3 信息的存在形式
2.3.1 信息的度量方式
2.3.2 信息在观测信号中的分布
2.4 基于世界模型的智能决策算法框架
2.5 基于MoJoCo仿真环境的任务简介
2.6 本章小结
第3章 基于生成模型与变分自编码器的感知抽象算法研究
3.1 引言
3.2 感知抽象过程的生成模型式描述
3.3 基于变分自编码器的感知抽象模型
3.4 静态表征中的信息约束分析
3.5 实验及结果分析
3.5.1 模型及默认参数设置
3.5.2 感知抽象信息提取验证实验
3.6 本章小结
第4章 基于生成模型与循环神经网络的状态预测算法研究
4.1 引言
4.2 状态预测过程的生成模型式描述
4.3 基于循环神经网络的状态预测模型
4.4 实验及结果分析
4.4.1 模型及默认参数设置
4.4.2 状态预测模型的信息提取及预测能力实验
4.5 本章小结
第5章 基于演员-评论家框架的智能决策算法与实验研究
5.1 引言
5.2 演员-评论家框架简介
5.3 基于世界模型的演员-评论家控制器
5.4 实验及结果分析
5.4.1 模型及默认参数设置
5.4.2 算法在线学习验证实验
5.4.3 离线学习探索实验
5.5 本章小结
结论
参考文献
致谢
本文编号:3633704
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3633704.html