基于强化学习的机械臂投掷问题研究
发布时间:2022-10-09 18:55
当前投掷问题的研究主要着重于对运动轨迹的优化,对其释放动作的研究较少。尤其在使用强化学习方法时,该问题尤为明显。近年来,强化学习被广为应用在各种领域。然而当某些动作有着特殊限制的情况时,直接使用强化学习算法处理将难以得到有效的结果。本文研究的投掷问题就有着这类问题的特点。本文研究使用强化学习处理带释放动作的机械臂投掷问题。由于释放动作有着执行后会直接结束本回合的特殊限制,释放动作会影响策略的学习。本文针对该问题提出了结合贝叶斯优化的强化学习方法,并在实践中证明该方法的有效性。本文先介绍了当前强化学习的发展和机械臂控制方面的研究现状,以及基于强化学习的机械臂控制的研究意义。并发现众多基于强化学习的机械臂投掷研究中,对释放动作的简化。因此本文将直面该问题,研究如何使用强化学习处理不简化释放动作的投掷问题。其次,本文详细介绍了强化学习的相关知识。包括强化学习的基础知识、分类方法等,并对一些主流算法的发展以及各个算法之间的优势、特点进行介绍。接着,本文研究带释放动作的机械臂投掷问题。本文先具体化一个带释放动作的机械臂投掷任务,再基于V-REP仿真平台,构建仿真环境,直接对接强化学习算法进行实验...
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题背景与研究意义
1.2 强化学习研究现状
1.3 机械臂投掷研究现状
1.4 本文主要工作
1.5 本文组织结构
第2章 深度强化学习
2.1 强化学习基础
2.1.1 马尔科夫决策过程
2.1.2 动态规划方法
2.1.3 蒙特卡罗方法
2.1.4 时间差分方法
2.2 强化学习算法分类
2.2.1 Model-based和Model-free方法
2.2.2 Value-based、Policy-based和Actor-Critic方法
2.2.3 On-policy和Off-policy方法
2.3 深度强化学习算法的发展
2.3.1 深度Q网络(DQN)算法
2.3.2 策略梯度(PG)算法
2.3.3 演员-评论家(AC)算法
2.3.4 深度确定策略梯度(DDPG)算法
2.3.5 信赖域策略优化(TRPO)算法
2.3.6 近端策略优化(PPO)算法
第3章 基于深度强化学习的投掷控制方法
3.1 本文的特点与难点
3.2 选择强化学习算法
3.3 选择贝叶斯优化方法
3.4 结合贝叶斯优化与强化学习方法
第4章 仿真环境与训练场景
4.1 V-REP机器人仿真环境
4.2 仿真环境场景模型搭建
4.3 强化学习场景构造
4.4 对接场景与算法
第5章 实验结果分析
5.1 单纯的强化学习方法
5.2 强制约束释放时机结合强化学习方法
5.3 结合贝叶斯优化的强化学习方法
第6章 结论与展望
6.1 结论
6.2 展望
致谢
参考文献
本文编号:3689178
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题背景与研究意义
1.2 强化学习研究现状
1.3 机械臂投掷研究现状
1.4 本文主要工作
1.5 本文组织结构
第2章 深度强化学习
2.1 强化学习基础
2.1.1 马尔科夫决策过程
2.1.2 动态规划方法
2.1.3 蒙特卡罗方法
2.1.4 时间差分方法
2.2 强化学习算法分类
2.2.1 Model-based和Model-free方法
2.2.2 Value-based、Policy-based和Actor-Critic方法
2.2.3 On-policy和Off-policy方法
2.3 深度强化学习算法的发展
2.3.1 深度Q网络(DQN)算法
2.3.2 策略梯度(PG)算法
2.3.3 演员-评论家(AC)算法
2.3.4 深度确定策略梯度(DDPG)算法
2.3.5 信赖域策略优化(TRPO)算法
2.3.6 近端策略优化(PPO)算法
第3章 基于深度强化学习的投掷控制方法
3.1 本文的特点与难点
3.2 选择强化学习算法
3.3 选择贝叶斯优化方法
3.4 结合贝叶斯优化与强化学习方法
第4章 仿真环境与训练场景
4.1 V-REP机器人仿真环境
4.2 仿真环境场景模型搭建
4.3 强化学习场景构造
4.4 对接场景与算法
第5章 实验结果分析
5.1 单纯的强化学习方法
5.2 强制约束释放时机结合强化学习方法
5.3 结合贝叶斯优化的强化学习方法
第6章 结论与展望
6.1 结论
6.2 展望
致谢
参考文献
本文编号:3689178
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3689178.html