基于MADDPG算法的多智能体协同控制研究
发布时间:2020-12-21 04:26
传统的工业机器人是建立在精确的数学模型的基础上,其控制方法通常是在固定的环境中设定特定任务。然而这样的传统控制系统不具备适应性以及泛化性,当机器人处于的环境发生细微的改变时,机器人则无法准确的完成任务,因此智能控制算法逐渐成为机器控制的研究热点。随着强化学习以及深度学习的不断发展,将深度强化学习算法应用到机器人控制受到了广大的研究人员的关注。本文首先介绍了传统机械控制的控制原理和深度强化学习的发展,阐述了本课题的研究背景与研究目的。其次,在基于物理引擎的MuJoCo环境中采用了确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),重点研究DDPG算法在单个智能体环境的鲁棒性与通用性。然而,随着智能体数量的增加而引起的环境不稳定,导致一般的深度强化学习在联合行动空间中存在一定的困难。最后为了解决这个问题,本次设计一个四个机械手臂通过协作控制到达目标位置的任务,并使用了多智能体确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)在MuJoCo中进行训练。实验结果表明,...
【文章来源】:武汉纺织大学湖北省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
无人机群(来自网络)
1绪论2图1.2流水线机器人(来自网络)智能机器人作为一门新兴的研究学科,其涵盖了机器人运动学、生物仿真学科、人工智能技术、传感器技术等多种学科知识,对社会的发展与人类生活的进步起着重要的作用[4]。智能机器人通过获取与处理外界的信息,自主的完成困难繁琐的工业任务。同时也可随着环境的变化,建立与修正新的环境模型来完成各种作业。智能机器人技术作为未来社会发展的重要工具,在许多领域中有着突出的作用[5]。例如智能机器人在制造领域中的应用能够高效率的提高产量,并成功推动了智能生产系统的发展以及今后人类的智能生活[6]。智能机器人系统最重要的组成部分是机器人的学习模块,也是机器人智能化的重要因素。学习模块实际上是机器人对外界信息的处理过程,而人工智能算法则是学习模块的重要手段,负责赋予机器人判断、逻辑分析、自主适应等能力。我国以及其他国家已经把智能机器人列为人类未来的高技术课题,并制定发展规划,给与巨额扶助[7]。而作为如今火热的协同控制算法则显得更加的重要。1.2课题研究目的与意义近年来,随着智能机器人的飞速发展,各行各业都离不开智能机器人的身影,尤其在一些复杂的工作环境以及人类无法完成的任务中,例如物流搬运、海底探索等高危工作[8]。在以往的机器人系统中,单个的机器人控制上已经有了相对完美的控制算法,同时机器视觉和嵌入式技术趋于成熟,单个机器人系统已经越发的智能化[9]。然而随着生活和科技的发展,对于机器人之间的协同控制研究格外的重要。简单而言,机器人之间的协作能力,就是每个机器智能体组成一个大的系统,多个智能体之间共同协作,感知,决策,完美的完成一个任务。因此相对于传统的单个机器人控制算法,研究人员更迫切的想要研究多智能控制算法[10]。以
1绪论4特征表示。深度神经网络的第三次发展还在继续,现在研究人员已经着眼于无监督学习以及模型在小数据集的泛化能力,研究重点已经发生了重大的变化。但是目前更多目光还是集中于对传统的监督学习算法的研究以及模型在大型数据集的泛化能力[17]。同时,深度学习作为机器学习的一部分,极大地促进了机器学习的发展,最为广泛的应用在语音、图像和自然语言处理这三个研究领域。1.3.2强化学习研究相关知识强化学习与深度学习一样,也有着相当长的发展历史了,直到20世纪末强化学习才在机器学习和人工智能中得到了广泛的研究,同时也与数学学科、机器人控制学等相关学科有关[18]。但是作为机器学习的一个重要研究领域,强化学习不同于深度学习的是更加注重解决问题的策略,同时强化学习是智能体与环境之间的交互,需要的是具有带有回报奖励的交互数据,而不是与深度学习一样需要大量带有标签的数据。强化学习与环境交互的标准框架如图1.3所示。图1.3强化学习标准框架目前,强化学习的主要算法大致分为两大类:一种是基于值的算法(Value-Based),另一种是基于策略的算法(Policy-Based)。同时也可以按模型分类,分为基于模型的算法与模型无关法。强化学习算法更新比较快,已经出现了像Q-learning、Sarsa、DeepQNetwork、PolicyGradients等优秀的算法。同时这些算法已经在自动驾驶汽车,群体机器人,协作机械手,轨迹规划等领域具有广泛的潜在应用。并且在《星际争霸》等游戏中展示了良好的效果。
【参考文献】:
期刊论文
[1]SCARA四轴机器人控制系统综述[J]. 杨明,张如昊,张军,朱昊天,孙永平,陈扬洋,徐殿国. 电气传动. 2020(01)
[2]智能扫地机器人控制系统设计[J]. 苗振腾. 电子世界. 2019(24)
[3]机械臂运动学建模及解算方法综述[J]. 冷舒,吴克,居鹤华. 宇航学报. 2019(11)
[4]基于深度强化算法的机器人动态目标点跟随研究[J]. 徐继宁,曾杰. 计算机科学. 2019(S2)
[5]智能机器人及其控制技术研究[J]. 刘玉玲. 科技创新导报. 2019(26)
[6]基于二连杆任务的深度强化学习算法分析与比较[J]. 万仁卓,王思源,冯绎铭,桂熙,丁雷,王骏,周国鹏. 湖北科技学院学报. 2019(03)
[7]综述智能机器人的发展与组成[J]. 陆昱方. 通讯世界. 2019(01)
[8]智能机器人产业的现状与未来[J]. 王哲,冯晓辉,李艺铭,庄金鑫. 人工智能. 2018(03)
[9]探究智能移动机器人的现状及展望[J]. 武雨飞. 中国战略新兴产业. 2018(12)
[10]深度强化学习进展:从AlphaGo到AlphaGo Zero[J]. 唐振韬,邵坤,赵冬斌,朱圆恒. 控制理论与应用. 2017(12)
硕士论文
[1]基于多智能体强化学习的制造过程建模方法研究[D]. 李志鹏.齐鲁工业大学 2019
[2]基于RoboCup多智能体系统学习与协作问题的研究[D]. 杨宝庆.江南大学 2008
本文编号:2929183
【文章来源】:武汉纺织大学湖北省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
无人机群(来自网络)
1绪论2图1.2流水线机器人(来自网络)智能机器人作为一门新兴的研究学科,其涵盖了机器人运动学、生物仿真学科、人工智能技术、传感器技术等多种学科知识,对社会的发展与人类生活的进步起着重要的作用[4]。智能机器人通过获取与处理外界的信息,自主的完成困难繁琐的工业任务。同时也可随着环境的变化,建立与修正新的环境模型来完成各种作业。智能机器人技术作为未来社会发展的重要工具,在许多领域中有着突出的作用[5]。例如智能机器人在制造领域中的应用能够高效率的提高产量,并成功推动了智能生产系统的发展以及今后人类的智能生活[6]。智能机器人系统最重要的组成部分是机器人的学习模块,也是机器人智能化的重要因素。学习模块实际上是机器人对外界信息的处理过程,而人工智能算法则是学习模块的重要手段,负责赋予机器人判断、逻辑分析、自主适应等能力。我国以及其他国家已经把智能机器人列为人类未来的高技术课题,并制定发展规划,给与巨额扶助[7]。而作为如今火热的协同控制算法则显得更加的重要。1.2课题研究目的与意义近年来,随着智能机器人的飞速发展,各行各业都离不开智能机器人的身影,尤其在一些复杂的工作环境以及人类无法完成的任务中,例如物流搬运、海底探索等高危工作[8]。在以往的机器人系统中,单个的机器人控制上已经有了相对完美的控制算法,同时机器视觉和嵌入式技术趋于成熟,单个机器人系统已经越发的智能化[9]。然而随着生活和科技的发展,对于机器人之间的协同控制研究格外的重要。简单而言,机器人之间的协作能力,就是每个机器智能体组成一个大的系统,多个智能体之间共同协作,感知,决策,完美的完成一个任务。因此相对于传统的单个机器人控制算法,研究人员更迫切的想要研究多智能控制算法[10]。以
1绪论4特征表示。深度神经网络的第三次发展还在继续,现在研究人员已经着眼于无监督学习以及模型在小数据集的泛化能力,研究重点已经发生了重大的变化。但是目前更多目光还是集中于对传统的监督学习算法的研究以及模型在大型数据集的泛化能力[17]。同时,深度学习作为机器学习的一部分,极大地促进了机器学习的发展,最为广泛的应用在语音、图像和自然语言处理这三个研究领域。1.3.2强化学习研究相关知识强化学习与深度学习一样,也有着相当长的发展历史了,直到20世纪末强化学习才在机器学习和人工智能中得到了广泛的研究,同时也与数学学科、机器人控制学等相关学科有关[18]。但是作为机器学习的一个重要研究领域,强化学习不同于深度学习的是更加注重解决问题的策略,同时强化学习是智能体与环境之间的交互,需要的是具有带有回报奖励的交互数据,而不是与深度学习一样需要大量带有标签的数据。强化学习与环境交互的标准框架如图1.3所示。图1.3强化学习标准框架目前,强化学习的主要算法大致分为两大类:一种是基于值的算法(Value-Based),另一种是基于策略的算法(Policy-Based)。同时也可以按模型分类,分为基于模型的算法与模型无关法。强化学习算法更新比较快,已经出现了像Q-learning、Sarsa、DeepQNetwork、PolicyGradients等优秀的算法。同时这些算法已经在自动驾驶汽车,群体机器人,协作机械手,轨迹规划等领域具有广泛的潜在应用。并且在《星际争霸》等游戏中展示了良好的效果。
【参考文献】:
期刊论文
[1]SCARA四轴机器人控制系统综述[J]. 杨明,张如昊,张军,朱昊天,孙永平,陈扬洋,徐殿国. 电气传动. 2020(01)
[2]智能扫地机器人控制系统设计[J]. 苗振腾. 电子世界. 2019(24)
[3]机械臂运动学建模及解算方法综述[J]. 冷舒,吴克,居鹤华. 宇航学报. 2019(11)
[4]基于深度强化算法的机器人动态目标点跟随研究[J]. 徐继宁,曾杰. 计算机科学. 2019(S2)
[5]智能机器人及其控制技术研究[J]. 刘玉玲. 科技创新导报. 2019(26)
[6]基于二连杆任务的深度强化学习算法分析与比较[J]. 万仁卓,王思源,冯绎铭,桂熙,丁雷,王骏,周国鹏. 湖北科技学院学报. 2019(03)
[7]综述智能机器人的发展与组成[J]. 陆昱方. 通讯世界. 2019(01)
[8]智能机器人产业的现状与未来[J]. 王哲,冯晓辉,李艺铭,庄金鑫. 人工智能. 2018(03)
[9]探究智能移动机器人的现状及展望[J]. 武雨飞. 中国战略新兴产业. 2018(12)
[10]深度强化学习进展:从AlphaGo到AlphaGo Zero[J]. 唐振韬,邵坤,赵冬斌,朱圆恒. 控制理论与应用. 2017(12)
硕士论文
[1]基于多智能体强化学习的制造过程建模方法研究[D]. 李志鹏.齐鲁工业大学 2019
[2]基于RoboCup多智能体系统学习与协作问题的研究[D]. 杨宝庆.江南大学 2008
本文编号:2929183
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2929183.html