当前位置:主页 > 科技论文 > 自动化论文 >

基于强化学习的物体抓取方法研究

发布时间:2022-09-30 12:35
  当前是智能化的时代,无论是对于传统的工业机器人,还是对于目前技术并不太成熟的服务机器人,都提出了新的挑战。而作为机器人的一项非常重要的能力,机械臂抓取物体一直是国内外研究的热点。随着深度学习的不断发展,基于计算机视觉的方法虽然已经有很高的抓取成功率,但其效率和鲁棒性较差。强化学习的抓取方法能够在物品种类繁多且位姿任意摆放的环境下,通过自监督学习的方式有效的完成抓取任务。首先,阐述了基于计算机视觉的传统抓取方法和强化学习的基本原理,并且根据目标策略和行为策略的异同,分为在策略和离策略。在策略只利用目前已知的最优选择,容易收敛到局部最优。相反,离策略通过保持探索,得到多样化的数据,来到达局部最优。基于离策略的TD3算法在Mujoco环境中有较好的效果,但是却并不适用于机械臂抓取任务。利用无导数优化方法CEM代替TD3中的确定性策略(CEM-TD3),解决了TD3算法中环境奖励稀疏的问题,使其更适用于物体抓取工作。其次,针对CEM-TD3算法中的Q函数进行网络结构设计。抓取模型以卷积神经网络为主要结构,输入层分为状态和动作,状态需要经过卷积层提取特征,动作则经过全连接层后与其相加,输出为Q值... 

【文章页数】:66 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 课题研究背景及意义
    1.2 国内外研究现状
        1.2.1 基于计算机视觉的抓取物体方法
        1.2.2 基于深度强化学习的抓取物体方法
    1.3 本文主要研究内容和结构安排
        1.3.1 主要研究内容
        1.3.2 论文结构
第2章 机械臂运动规划方法
    2.1 引言
    2.2 基于计算机视觉的物体抓取方法
        2.2.1 康奈尔数据集
        2.2.2 基于计算机视觉的算法模型
        2.2.3 基于计算机视觉的算法评估标准
    2.3 基于深度强化学习的物体抓取方法
        2.3.1 深度强化学习基本原理
        2.3.2 基于在策略的PPO算法
    2.4 本章小结
第3章 基于CEM-TD3物体抓取算法
    3.1 动机
    3.2 基于离策略的TD3算法
        3.2.1 DDPG算法
        3.2.2 TD3算法
    3.3 CEM算法
    3.4 基于CEM算法的TD3改进
    3.5 算法架构
    3.6 本章小结
第4章 物体抓取CEM-TD3算法的网络设计与实现
    4.1 引言
    4.2 CEM-TD3算法网络设计
        4.2.1 网络结构
        4.2.2 卷积层
        4.2.3 池化层
        4.2.4 残差网络
        4.2.5 损失函数
        4.2.6 激活函数
    4.3 CEM-TD3算法网络训练
        4.3.1 优化方法
        4.3.2 防止过拟合
    4.4 仿真实验结果分析
        4.4.1 仿真实验环境搭建
        4.4.2 仿真实验设置
        4.4.3 实验结果与分析
    4.5 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢


【参考文献】:
期刊论文
[1]基于三级卷积神经网络的物体抓取检测[J]. 喻群超,尚伟伟,张驰.  机器人. 2018(05)
[2]基于深度学习的机器人抓取位置检测方法[J]. 闫哲,杜学丹,曹淼,蔡莹皓,鲁涛,王硕.  高技术通讯. 2018(01)

硕士论文
[1]基于深度强化学习的机器人抓取方法研究[D]. 董贯涛.哈尔滨工业大学 2019
[2]基于深度图像和深度学习的机器人抓取检测算法研究[D]. 王斌.浙江大学 2019



本文编号:3683564

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3683564.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bdcae***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com