基于深度强化学习的机械臂运动规划研究
发布时间:2022-07-07 08:44
多自由度机械臂具有运动灵活的特点,其运动规划是机器人领域的研究热点。机械臂在有障碍物的复杂环境中进行抓取、搬运、人机协作等运动时,需要对机械臂的运动路径及抓取姿态进行规划。本文重点研究了基于深度强化学习的机械臂的路径规划和位姿规划,针对机械臂的运动规划训练时间长和训练样本多的问题,进一步提出了具有迁移学习的深度强化学习的机械臂运动规划算法。首先,针对机械臂避障问题,提出了基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的NAO机器人右臂路径规划算法。基于MuJoCo仿真平台搭建了无障碍物和有障碍物仿真环境,在仿真环境中,通过设定的奖励函数,采用DDPG算法进行了机械臂路径规划控制策略的自主学习训练,实现了机械臂由输入到输出的端对端控制,完成了机械臂避障的路径规划。其次,在无障碍物环境下,针对多自由度机械臂抓取物体的位姿规划问题,提出了基于DDPG的位姿规划算法。根据NAO机器人右臂不同的抓取姿态,设计了学习任务的奖励函数。由于DDPG算法在训练过程中需要耗费大量的时间和数据样本,进一步提出了基于迁移学习的DDPG算法,通过对比DD...
【文章页数】:87 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题研究背景及意义
1.2 国内外研究现状
1.2.1 仿人机械臂国外研究现状
1.2.2 仿人机械臂国内研究现状
1.2.3 机械臂运动规划研究现状
1.2.4 深度强化学习研究现状
1.3 课题来源
1.4 本文研究内容
第2章 基于DDPG算法的机械臂路径规划
2.1 引言
2.2 深度确定性策略梯度算法
2.2.1 贝尔曼等式
2.2.2 误差更新
2.2.3 深度确定性策略梯度算法(DDPG)
2.3 NAO机器人右臂建模
2.3.1 NAO机器人右臂参数
2.3.2 NAO机器人右臂DH参数法建模
2.4 仿真研究
2.4.1 无障碍物情景
2.4.2 有障碍物情景
2.5 本章小结
第3章 无障碍环境下基于迁移学习的DDPG算法的机械臂抓取位姿规划
3.1 引言
3.2 迁移学习
3.2.1 深度强化学习的环境-动作迁移
3.2.2 深度强化学习的状态值函数迁移
3.2.3 基于迁移学习的DDPG算法
3.3 无障碍环境下机械臂位姿规划的建模
3.4 仿真训练实验研究
3.5 无障碍环境下NAO机器人抓取实验
3.5.1 手眼标定
3.5.2 物体位姿检测实验
3.5.3 基于迁移学习的DDPG算法的机械臂位姿规划抓取实验
3.6 本章小结
第4章 有障碍环境下基于迁移学习的DDPG算法的机械臂抓取位姿规划
4.1 引言
4.2 有障碍环境下机械臂位姿规划的建模
4.3 仿真训练实验研究
4.4 有障碍环境下NAO机器人抓取实验
4.5 本章小结
结论
参考文献
攻读硕士学位期间承担的科研任务与主要成果
致谢
【参考文献】:
期刊论文
[1]基于迁移学习的全连接神经网络舌象分类方法[J]. 杨晶东,张朋. 第二军医大学学报. 2018(08)
[2]冗余机械臂空间轨迹规划综述[J]. 高涵,张明路,张小俊. 机械传动. 2016(10)
[3]基于HOG特征的优化区域模板匹配检测[J]. 王溪波,王彬,赵海,朱宏博,葛宏帅,朴春赫. 沈阳工业大学学报. 2016(06)
[4]基于协作空间与灵巧度的机器人辅助微创手术术前规划算法[J]. 王伟,王伟东,董为,杜志江,孙永平. 机器人. 2016(02)
[5]基于简化形式的Jacobian矩阵的牛顿迭代法求解6自由度机器人逆解算法[J]. 何理,张军. 机床与液压. 2015(21)
[6]融合旋转平移信息的机器人手眼标定方法[J]. 张召瑞,张旭,郑泽龙,屠大维. 仪器仪表学报. 2015(11)
[7]基于A*算法的空间机械臂避障路径规划[J]. 贾庆轩,陈钢,孙汉旭,郑双奇. 机械工程学报. 2010(13)
[8]一种用于车辆最短路径规划的自适应遗传算法及其与Dijkstra和A*算法的比较[J]. 李擎,谢四江,童新海,王志良. 北京科技大学学报. 2006(11)
[9]基于混合人工势场-遗传算法的移动机器人路径规划仿真研究[J]. 况菲,王耀南. 系统仿真学报. 2006(03)
硕士论文
[1]冗余灵巧臂的示教学习[D]. 沈珑斌.浙江大学 2014
本文编号:3656107
【文章页数】:87 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题研究背景及意义
1.2 国内外研究现状
1.2.1 仿人机械臂国外研究现状
1.2.2 仿人机械臂国内研究现状
1.2.3 机械臂运动规划研究现状
1.2.4 深度强化学习研究现状
1.3 课题来源
1.4 本文研究内容
第2章 基于DDPG算法的机械臂路径规划
2.1 引言
2.2 深度确定性策略梯度算法
2.2.1 贝尔曼等式
2.2.2 误差更新
2.2.3 深度确定性策略梯度算法(DDPG)
2.3 NAO机器人右臂建模
2.3.1 NAO机器人右臂参数
2.3.2 NAO机器人右臂DH参数法建模
2.4 仿真研究
2.4.1 无障碍物情景
2.4.2 有障碍物情景
2.5 本章小结
第3章 无障碍环境下基于迁移学习的DDPG算法的机械臂抓取位姿规划
3.1 引言
3.2 迁移学习
3.2.1 深度强化学习的环境-动作迁移
3.2.2 深度强化学习的状态值函数迁移
3.2.3 基于迁移学习的DDPG算法
3.3 无障碍环境下机械臂位姿规划的建模
3.4 仿真训练实验研究
3.5 无障碍环境下NAO机器人抓取实验
3.5.1 手眼标定
3.5.2 物体位姿检测实验
3.5.3 基于迁移学习的DDPG算法的机械臂位姿规划抓取实验
3.6 本章小结
第4章 有障碍环境下基于迁移学习的DDPG算法的机械臂抓取位姿规划
4.1 引言
4.2 有障碍环境下机械臂位姿规划的建模
4.3 仿真训练实验研究
4.4 有障碍环境下NAO机器人抓取实验
4.5 本章小结
结论
参考文献
攻读硕士学位期间承担的科研任务与主要成果
致谢
【参考文献】:
期刊论文
[1]基于迁移学习的全连接神经网络舌象分类方法[J]. 杨晶东,张朋. 第二军医大学学报. 2018(08)
[2]冗余机械臂空间轨迹规划综述[J]. 高涵,张明路,张小俊. 机械传动. 2016(10)
[3]基于HOG特征的优化区域模板匹配检测[J]. 王溪波,王彬,赵海,朱宏博,葛宏帅,朴春赫. 沈阳工业大学学报. 2016(06)
[4]基于协作空间与灵巧度的机器人辅助微创手术术前规划算法[J]. 王伟,王伟东,董为,杜志江,孙永平. 机器人. 2016(02)
[5]基于简化形式的Jacobian矩阵的牛顿迭代法求解6自由度机器人逆解算法[J]. 何理,张军. 机床与液压. 2015(21)
[6]融合旋转平移信息的机器人手眼标定方法[J]. 张召瑞,张旭,郑泽龙,屠大维. 仪器仪表学报. 2015(11)
[7]基于A*算法的空间机械臂避障路径规划[J]. 贾庆轩,陈钢,孙汉旭,郑双奇. 机械工程学报. 2010(13)
[8]一种用于车辆最短路径规划的自适应遗传算法及其与Dijkstra和A*算法的比较[J]. 李擎,谢四江,童新海,王志良. 北京科技大学学报. 2006(11)
[9]基于混合人工势场-遗传算法的移动机器人路径规划仿真研究[J]. 况菲,王耀南. 系统仿真学报. 2006(03)
硕士论文
[1]冗余灵巧臂的示教学习[D]. 沈珑斌.浙江大学 2014
本文编号:3656107
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3656107.html