基于深度强化学习的机械臂抓捕控制研究
发布时间:2021-04-23 07:39
在轨抓捕技术是世界各航天大国研究的热门领域。我国空间站即将建成,对空间机械臂的应用也具有很大需求。深度强化学习(Deep Reinforcement Learning,DRL)近年来发展迅速,能够在无数学模型的情况下实现高维原始输入到输出的端到端的控制策略。本文以智能机器人和对空间飞行目标进行捕获追踪为应用背景,开展了神经网络激活函数的选择、近端策略优化算法(Proximal Policy Optimization,PPO)及其改进措施、基于比例导引法的机械臂动目标抓捕轨迹规划、多自由度机械臂和多场景任务下的深度强化学习抓捕训练等方面进行了研究,以期对我国空间机器人实现高度智能化捕捉飞行目标提供参考。针对深度神经网络的激活函数梯度消失问题,基于不同激活函数曲线及其导函数曲线,对激活函数特征及选择方法进行分析,以此作为研究深度强化学习中策略与值函数拟合的基础。深度强化学习算法是生成策略的核心。本文研究了深度强化学习过程及原理,基于策略与值函数两要素,推导近端策略优化算法的目标函数。针对方差与偏差的平衡问题,提出结合使用泛化优势估计的近端策略优化算法的改进措施。通过仿真获得了合理的置信区间...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:76 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题背景及研究的目的和意义
1.2 国内外研究现状
1.2.1 空间机器人发展现状
1.2.2 深度强化学习发展现状
1.2.3 深度强化学习在机器人控制中的应用
1.3 本文的主要研究内容
第2章 基于深度强化学习的机械臂控制算法
2.1 引言
2.2 机械臂控制的RL过程分析
2.2.1 机械臂的RL过程
2.2.2 RL值函数与最优控制策略
2.3 机械臂控制的DRL网络模型分析
2.3.1 全连接网络模型
2.3.2 机械臂网络模型激活函数的分析与选择
2.4 机械臂控制策略的PPO训练算法
2.5 PPO改进措施及其在机械臂控制中的验证分析
2.5.1 泛化优势估计及仿真
2.5.2 置信区间的调试仿真
2.5.3 置信区间衰减方案设计及仿真
2.6 本章小结
第3章 基于比例导引法的机械臂抓捕运动规划
3.1 引言
3.2 抓捕运动规划问题
3.3 机械臂的正逆运动学与雅克比矩阵
3.4 基于比例导引法的机械臂轨迹规划
3.4.1 二维平面比例导引
3.4.2 三维空间比例导引
3.4.3 基于比例导引的机械臂轨迹规划
3.5 仿真分析
3.5.1 导引系数对抓捕效果的影响
3.5.2 抓捕速度对抓捕效果的影响
3.6 本章小结
第4章 基于PPO算法的机械臂抓捕控制研究
4.1 引言
4.2 仿真环境
4.3 深度强化学习任务建模与仿真
4.3.1 任务设计
4.3.2 动作与状态空间设计
4.3.3 奖赏函数设计
4.3.4 神经网络的设置
4.3.5 训练与测试
4.4 比例导引法与PPO算法对比分析
4.4.1 任务与参数设置
4.4.2 仿真结果对比分析
4.5 本章小结
结论
参考文献
致谢
【参考文献】:
期刊论文
[1]非合作目标接近与跟踪的低复杂度预设性能控制[J]. 殷泽阳,罗建军,魏才盛,袁建平. 宇航学报. 2017(08)
[2]空间站机械臂关键技术研究[J]. 李大明,饶炜,胡成威,王耀兵,唐自新,王友渔. 载人航天. 2014(03)
[3]低速滚转炮弹的三维卫星比例导引控制研究[J]. 戴明祥,何颖,杨新民,易文俊. 弹箭与制导学报. 2013(06)
[4]空间目标在轨捕获技术研究综述[J]. 王超,董正宏,尹航,高永明. 装备学院学报. 2013(04)
[5]国外空间非合作目标抓捕系统研究现状与关键技术分析[J]. 蔡洪亮,高永明,邴启军,卢昱. 装备指挥技术学院学报. 2010(06)
[6]美国“轨道快车”计划中的自主空间交会对接技术[J]. 林来兴. 国际太空. 2005(02)
[7]比例导引法在机器人路径规划中的应用[J]. 鲍平安,陈辉堂. 航天控制. 1997(01)
本文编号:3154922
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:76 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题背景及研究的目的和意义
1.2 国内外研究现状
1.2.1 空间机器人发展现状
1.2.2 深度强化学习发展现状
1.2.3 深度强化学习在机器人控制中的应用
1.3 本文的主要研究内容
第2章 基于深度强化学习的机械臂控制算法
2.1 引言
2.2 机械臂控制的RL过程分析
2.2.1 机械臂的RL过程
2.2.2 RL值函数与最优控制策略
2.3 机械臂控制的DRL网络模型分析
2.3.1 全连接网络模型
2.3.2 机械臂网络模型激活函数的分析与选择
2.4 机械臂控制策略的PPO训练算法
2.5 PPO改进措施及其在机械臂控制中的验证分析
2.5.1 泛化优势估计及仿真
2.5.2 置信区间的调试仿真
2.5.3 置信区间衰减方案设计及仿真
2.6 本章小结
第3章 基于比例导引法的机械臂抓捕运动规划
3.1 引言
3.2 抓捕运动规划问题
3.3 机械臂的正逆运动学与雅克比矩阵
3.4 基于比例导引法的机械臂轨迹规划
3.4.1 二维平面比例导引
3.4.2 三维空间比例导引
3.4.3 基于比例导引的机械臂轨迹规划
3.5 仿真分析
3.5.1 导引系数对抓捕效果的影响
3.5.2 抓捕速度对抓捕效果的影响
3.6 本章小结
第4章 基于PPO算法的机械臂抓捕控制研究
4.1 引言
4.2 仿真环境
4.3 深度强化学习任务建模与仿真
4.3.1 任务设计
4.3.2 动作与状态空间设计
4.3.3 奖赏函数设计
4.3.4 神经网络的设置
4.3.5 训练与测试
4.4 比例导引法与PPO算法对比分析
4.4.1 任务与参数设置
4.4.2 仿真结果对比分析
4.5 本章小结
结论
参考文献
致谢
【参考文献】:
期刊论文
[1]非合作目标接近与跟踪的低复杂度预设性能控制[J]. 殷泽阳,罗建军,魏才盛,袁建平. 宇航学报. 2017(08)
[2]空间站机械臂关键技术研究[J]. 李大明,饶炜,胡成威,王耀兵,唐自新,王友渔. 载人航天. 2014(03)
[3]低速滚转炮弹的三维卫星比例导引控制研究[J]. 戴明祥,何颖,杨新民,易文俊. 弹箭与制导学报. 2013(06)
[4]空间目标在轨捕获技术研究综述[J]. 王超,董正宏,尹航,高永明. 装备学院学报. 2013(04)
[5]国外空间非合作目标抓捕系统研究现状与关键技术分析[J]. 蔡洪亮,高永明,邴启军,卢昱. 装备指挥技术学院学报. 2010(06)
[6]美国“轨道快车”计划中的自主空间交会对接技术[J]. 林来兴. 国际太空. 2005(02)
[7]比例导引法在机器人路径规划中的应用[J]. 鲍平安,陈辉堂. 航天控制. 1997(01)
本文编号:3154922
本文链接:https://www.wllwen.com/kejilunwen/hangkongsky/3154922.html