当前位置:主页 > 科技论文 > 搜索引擎论文 >

深度逆向强化学习在机器人视觉伺服控制中的应用

发布时间:2020-05-11 08:09
【摘要】:强化学习在机器人视觉伺服控制中的应用一直都是一个极具挑战性的课题。为了构建一套基于深度强化学习算法的视觉伺服控制系统,本文从两方面展开工作:一方面是强化学习在机器人控制系统中的建模方法,另一方面是提升强化学习模型泛化性能的工程化方法。首先,本文从伺服控制建模的角度出发,讨论了强化学习的基本算法框架。一般而言,基于模型的方式进行机器人控制是强化学习首选方法,这种方法先经过环境模型推断获取实际环境的参数化形式,然后利用这个参数化模型进行策略优化。因此这种方法依赖于人工建模,可拓展性不高。为此,本文介绍了一种不依赖于模型而且具备异策略学习能力的策略引导算法。这种算法采用重要性采样的方式,不仅能够在训练过程中引入外部示教数据,而且能够通过历史数据重采样的方式,提升数据利用效率。此外,策略引导算法在实现策略引导过程中能够结合逆向强化学习,对环境模型进行估计。在这种算法框架下,逆向强化学习作为引入人类知识的途径,是一种重要的强化学习方法。因此本文接下来探讨了具有非确定性策略模型以及非线性回报值函数结构的最大熵深度逆向强化学习方法。这种方法增加了强化学习模型的表征能力,能够完成复杂的视觉伺服控制任务。通过引导策略算法和逆向强化学习的结合,虽然能够表征复杂问题,但是因为引入了很多非线性结构,所以模型训练变得很困难。因此,本文接下来介绍了强化学习的工程优化方法。首先,为了降低视觉伺服应用中图像的高维度影响,文中采用了迁移的卷积网络进行状态压缩和特征提取。然后,为了减少强化学习训练样本,文中介绍了仿真环境进行模型预训练的方法,这种方法中利用域随机的方式扩充训练样本,同时提升强化学习模型的泛化性能。最后,完成视觉模型迁移和决策模型的预训练后,利用真实的示教数据对模型进行微调,可以获得较好的实验效果。最后,在上述理论指导下,设计了机器人视觉伺服控制的强化学习系统。并使用ROS搭建了针对Jetson TX1和UR5机器人的学习及控制软件。在这套系统上完成机械臂伸手实验以后,可以发现基于视觉伺服的强化学习方法能够成功完成复杂的视觉任务,而且有很好的适应能力。
【图文】:

视觉伺服控制,传统方式,为学,方法


通过目标检测过程获取观察目标的相对位置信息,这些信息包括目标的类别、轮廓以及距离;然后对不同目标进行姿态辨识,辨识过程一般通过模式匹配的方式实现,例如点云匹配、回归预测;最后,,利用目标检测和位姿辨识获得的信息,结合实际控制系统,规划机械臂的执行路径,即运动规划。整个过程不断迭代最后完成既定任务。由于建模精度和传感器噪声的影响这种方法对整个控制系统采用的模型有很大的依赖性,因此算法的精度和效率直接与建模的精度相关。正因为这种依赖性,这种方法在解决实际问题的过程中,其工作范围和适应能力收到了很大限制。在这种背景下,基于数据驱动的方法成为了一种可替代的视觉伺服解决方案。这种方法并不仅不依赖人工建模,而且对传感器带来的系统误差以及外界条件扰动带来的随机误差也有很好过滤作用。因为这类方法通常采用机器学习的方式,利用人工示教数据训练感知和控制模型,因此这种方式也被称为基于经验的方法或者学习方法。在实践中也有很多实例证明,通过训练得到的模型具有很强的鲁棒性和自适应性[6]。其中强化学习(Reinforcement Learning, RL)是一种重要的机器人学习算法,这种算法在最近几年出现了很多研究成果。

学习方法


前 言流分拣、无人机等。而在机器人的应用中,机器人学习这一领域开始领域研究者和产业工作者的关注,例如美国加州伯克利大学的 BAIR[,PieterAbbeel 和 Sergey Levine 等人在机器人学习控制方面做了很多如在中,Finn 等人[13]利用 Meta-Learning 通过少量的样本让机器人学品放到对应颜色的盘子内。Levine[14]则更进一步提出了一种端到端的方法,用于控制 PR2 机器人抓取不同物品。这些案例表明基于学习的杂任务处理上有很好的综合性能,能够完成很多基于模型的方法所不问题。而且也展示了强化学习作为一种数据驱动方法是一种很有发展觉伺服控制方法。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP18;TP242.62

【相似文献】

相关期刊论文 前10条

1 吴作君;刘国华;;自适应环境的机器人视觉伺服控制方法[J];计算机测量与控制;2016年12期

2 李庆民;;机器人视觉伺服控制应用研究[J];自动化应用;2017年05期

3 平振宇;王付兵;黄荣昌;;基于模糊控制的机器人视觉伺服控制[J];科技资讯;2015年35期

4 辛菁;刘丁;杨延西;;基于图像的机器人视觉伺服免疫控制[J];仪器仪表学报;2008年11期

5 刘洋;倪受东;袁祖强;;机器人视觉伺服仿真研究[J];机床与液压;2008年04期

6 段彦婷;蔡陈生;王鹏飞;王宁;陈平;;机器人视觉伺服技术发展概况综述[J];伺服控制;2007年06期

7 孙洪淋;孙炜;石玉秋;廖继旺;;基于模糊控制的机器人视觉伺服系统[J];科学技术与工程;2006年17期

8 钟金明,徐刚,张海波;机器人视觉伺服系统的研究与发展[J];现代制造工程;2005年08期

9 王麟琨,徐德,谭民;机器人视觉伺服研究进展[J];机器人;2004年03期

10 林靖,陈辉堂,王月娟,蒋平;机器人视觉伺服系统的研究[J];控制理论与应用;2000年04期

相关会议论文 前4条

1 刘晓玉;方康玲;;基于模糊行为和神经网络的机器人视觉伺服控制[A];第25届中国控制会议论文集(下册)[C];2006年

2 唐润宏;陈文楷;余跃庆;陈炜;吕雁;;基于图像的机器人视觉伺服FCMAC控制研究[A];先进制造技术论坛暨第五届制造业自动化与信息化技术交流会论文集[C];2006年

3 郝婷;孟正大;;机器人在复杂环境下的火炬识别[A];2005全国自动化新技术学术交流会论文集(二)[C];2005年

4 郝婷;孟正大;;机器人在复杂环境下的火炬识别[A];2005年全国自动化新技术学术交流会论文集[C];2005年

相关博士学位论文 前9条

1 杨延西;基于图像的智能机器人视觉伺服系统[D];西安理工大学;2003年

2 刘涵;基于位置的机器人视觉伺服控制的研究[D];西安理工大学;2003年

3 王社阳;机器人视觉伺服系统的若干问题研究[D];哈尔滨工业大学;2006年

4 薛艳敏;智能方法在机器人视觉伺服中的应用研究[D];西安理工大学;2009年

5 宗晓萍;智能机器人视觉伺服系统研究[D];河北大学;2007年

6 赵栋杰;对靶喷雾机器人视觉伺服控制系统研究[D];中国农业大学;2017年

7 张晓晖;机器人视觉伺服及网络控制研究[D];西安理工大学;2009年

8 王婷婷;带有约束的机器人视觉伺服控制方法的研究[D];江南大学;2012年

9 金梅;基于深度无关立体视觉模型的机器人控制系统研究[D];燕山大学;2010年

相关硕士学位论文 前10条

1 黄志峰;深度逆向强化学习在机器人视觉伺服控制中的应用[D];上海交通大学;2018年

2 王冠龙;柔性装配机器人视觉伺服控制系统设计[D];宁夏大学;2019年

3 孙涛;服务机器人视觉伺服控制方法研究[D];华中科技大学;2018年

4 朱振伟;关节机器人视觉伺服控制系统研究[D];郑州大学;2009年

5 孙冬雪;基于模型预测方法的机器人视觉伺服控制研究[D];长春工业大学;2018年

6 董鹏飞;基于位置的工业机器人视觉伺服控制系统研究[D];华南理工大学;2015年

7 李萍;基于网络的机器人视觉伺服控制研究[D];河南科技大学;2006年

8 石玉秋;神经网络技术在机器人视觉伺服控制中的应用[D];湖南大学;2006年

9 淮小利;机器人视觉伺服控制研究[D];河北大学;2008年

10 许雅田;机器人视觉伺服半实物仿真研究[D];河北大学;2010年



本文编号:2658158

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2658158.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户383cb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com