深度逆向强化学习在机器人视觉伺服控制中的应用

发布时间：2020-05-11 08:09

【摘要】：强化学习在机器人视觉伺服控制中的应用一直都是一个极具挑战性的课题。为了构建一套基于深度强化学习算法的视觉伺服控制系统,本文从两方面展开工作:一方面是强化学习在机器人控制系统中的建模方法,另一方面是提升强化学习模型泛化性能的工程化方法。首先,本文从伺服控制建模的角度出发,讨论了强化学习的基本算法框架。一般而言,基于模型的方式进行机器人控制是强化学习首选方法,这种方法先经过环境模型推断获取实际环境的参数化形式,然后利用这个参数化模型进行策略优化。因此这种方法依赖于人工建模,可拓展性不高。为此,本文介绍了一种不依赖于模型而且具备异策略学习能力的策略引导算法。这种算法采用重要性采样的方式,不仅能够在训练过程中引入外部示教数据,而且能够通过历史数据重采样的方式,提升数据利用效率。此外,策略引导算法在实现策略引导过程中能够结合逆向强化学习,对环境模型进行估计。在这种算法框架下,逆向强化学习作为引入人类知识的途径,是一种重要的强化学习方法。因此本文接下来探讨了具有非确定性策略模型以及非线性回报值函数结构的最大熵深度逆向强化学习方法。这种方法增加了强化学习模型的表征能力,能够完成复杂的视觉伺服控制任务。通过引导策略算法和逆向强化学习的结合,虽然能够表征复杂问题,但是因为引入了很多非线性结构,所以模型训练变得很困难。因此,本文接下来介绍了强化学习的工程优化方法。首先,为了降低视觉伺服应用中图像的高维度影响,文中采用了迁移的卷积网络进行状态压缩和特征提取。然后,为了减少强化学习训练样本,文中介绍了仿真环境进行模型预训练的方法,这种方法中利用域随机的方式扩充训练样本,同时提升强化学习模型的泛化性能。最后,完成视觉模型迁移和决策模型的预训练后,利用真实的示教数据对模型进行微调,可以获得较好的实验效果。最后,在上述理论指导下,设计了机器人视觉伺服控制的强化学习系统。并使用ROS搭建了针对Jetson TX1和UR5机器人的学习及控制软件。在这套系统上完成机械臂伸手实验以后,可以发现基于视觉伺服的强化学习方法能够成功完成复杂的视觉任务,而且有很好的适应能力。
【图文】：

视觉伺服控制,传统方式,为学,方法

通过目标检测过程获取观察目标的相对位置信息，这些信息包括目标的类别、轮廓以及距离；然后对不同目标进行姿态辨识，辨识过程一般通过模式匹配的方式实现，例如点云匹配、回归预测；最后，，利用目标检测和位姿辨识获得的信息，结合实际控制系统，规划机械臂的执行路径，即运动规划。整个过程不断迭代最后完成既定任务。由于建模精度和传感器噪声的影响这种方法对整个控制系统采用的模型有很大的依赖性，因此算法的精度和效率直接与建模的精度相关。正因为这种依赖性，这种方法在解决实际问题的过程中，其工作范围和适应能力收到了很大限制。在这种背景下，基于数据驱动的方法成为了一种可替代的视觉伺服解决方案。这种方法并不仅不依赖人工建模，而且对传感器带来的系统误差以及外界条件扰动带来的随机误差也有很好过滤作用。因为这类方法通常采用机器学习的方式，利用人工示教数据训练感知和控制模型，因此这种方式也被称为基于经验的方法或者学习方法。在实践中也有很多实例证明，通过训练得到的模型具有很强的鲁棒性和自适应性[6]。其中强化学习(Reinforcement Learning, RL)是一种重要的机器人学习算法，这种算法在最近几年出现了很多研究成果。

学习方法

前言流分拣、无人机等。而在机器人的应用中，机器人学习这一领域开始领域研究者和产业工作者的关注，例如美国加州伯克利大学的 BAIR[，PieterAbbeel 和 Sergey Levine 等人在机器人学习控制方面做了很多如在中，Finn 等人[13]利用 Meta-Learning 通过少量的样本让机器人学品放到对应颜色的盘子内。Levine[14]则更进一步提出了一种端到端的方法，用于控制 PR2 机器人抓取不同物品。这些案例表明基于学习的杂任务处理上有很好的综合性能，能够完成很多基于模型的方法所不问题。而且也展示了强化学习作为一种数据驱动方法是一种很有发展觉伺服控制方法。
【学位授予单位】：上海交通大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP18;TP242.62

【相似文献】