基于个体-协同触发强化学习的多机器人行为决策方法
发布时间:2021-06-15 18:06
为了提高多机器人行为最优决策控制中强化学习的效率和收敛速度,研究了多机器人的分布式马尔科夫建模与控制策略。根据机器人有限感知能力设计了个体-协同感知触发函数,机器人个体从环境观测结果计算个体-协同触发响应概率,定义一次触发过程后开始计算联合策略,减少机器人间通讯量和计算资源。引入双学习率改进Q学习算法,并将该算法应用于机器人行为决策。仿真实验结果表明,当机器人群组数量在20左右时,本文算法的协同效率较高,单位时步比为1.085 0。同时距离调节参数η对机器人协同搜索效率有影响,当η=0.008时,所需的移动时步比和平均移动距离都能达到最小值。通过双学习率的引入,该算法较基于环境模型的强化学习算法具有更高的学习效率和适用性,平均性能提升35%,对于提高多机器人自主协同能力具有较高的理论意义及应用价值。
【文章来源】:仪器仪表学报. 2020,41(05)北大核心EICSCD
【文章页数】:10 页
【部分图文】:
触发响应强化学习算法流程
相对单智能体强化学习,多智能体强化学习更适合多机器人协作的复杂问题,MDPs是该类学习方法的数学模型基础。该类多机器人强化学习结构如图1所示。将多机器人强化学习过程一般化为马尔可夫随机策略,可以用多元组M:<S,Ai,pi,gi>表示,i=1,2,…,n。其中,n为机器人个数;S代表环境状态集合,s t i ∈S表示第i个机器人在t时刻所处的状态; Ai为机器人个体可选择的动作集合,a t i ∈A表示第i个机器人在t时刻的动作。多机器人联合动作集可表示为A=A1×…×An,pi:S×A×S→[0,1]为状态转移概率函数;gi:S×A×S→R为回报函数,表示机器人个体i在状态s t i 执行动作a t i 到动作s t+1 i 得到的立即回报。设策略π:Si→Ai为联合状态 s → =(s 1 ,?,s n ) 到联合动作空间 a → =(a 1 ,?,a n ) 的一个映射,以使行为从环境中获得的累积回报值如式(1)所示。
多机器人在协作工作过程中,通过自身配备的传感元件获取信息而改变自身状态来获得对环境的适应性。单个机器人如果能获取并响应其他机器人的知识,在局部环境中对强化学习回报进行优化,将有助于在保证学习速度的前提下加强它们之间的协作。在多智能体系统的强化学习中,个体间通过交换即时状态、学习策略等信息可提高个体的学习效率。因此,设计多机器人感知交互结构如图2所示。2.1 个体-协同感知触发函数
【参考文献】:
期刊论文
[1]基于深度强化算法的机器人动态目标点跟随研究[J]. 徐继宁,曾杰. 计算机科学. 2019(S2)
[2]基于改进强化学习的移动机器人路径规划方法[J]. 徐晓苏,袁杰. 中国惯性技术学报. 2019(03)
[3]基于强化学习的移动机器人路径规划研究综述[J]. 刘志荣,姜树海. 制造业自动化. 2019(03)
[4]基于深度Q网络学习的机器人端到端控制方法[J]. 张浩杰,苏治宝,苏波. 仪器仪表学报. 2018(10)
[5]多移动机器人运动目标环绕与避障控制[J]. 易国,毛建旭,王耀南,郭斯羽,缪志强. 仪器仪表学报. 2018(02)
[6]连续空间中的一种动作加权行动者评论家算法[J]. 刘全,章鹏,钟珊,钱炜晟,翟建伟. 计算机学报. 2017(06)
[7]局部环境增量采样的服务机器人路径规划[J]. 陈彦杰,王耀南,谭建豪,毛建旭. 仪器仪表学报. 2017(05)
[8]多移动微小型机器人编队控制与协作避碰研究[J]. 张大伟,孟森森,邓计才. 仪器仪表学报. 2017(03)
[9]多机器人路径规划的安全性验证[J]. 刘涛,王淑灵,詹乃军. 软件学报. 2017(05)
[10]复杂环境移动群机器人最优路径规划方法[J]. 徐雪松,杨胜杰,陈荣元. 电子测量与仪器学报. 2016(02)
本文编号:3231526
【文章来源】:仪器仪表学报. 2020,41(05)北大核心EICSCD
【文章页数】:10 页
【部分图文】:
触发响应强化学习算法流程
相对单智能体强化学习,多智能体强化学习更适合多机器人协作的复杂问题,MDPs是该类学习方法的数学模型基础。该类多机器人强化学习结构如图1所示。将多机器人强化学习过程一般化为马尔可夫随机策略,可以用多元组M:<S,Ai,pi,gi>表示,i=1,2,…,n。其中,n为机器人个数;S代表环境状态集合,s t i ∈S表示第i个机器人在t时刻所处的状态; Ai为机器人个体可选择的动作集合,a t i ∈A表示第i个机器人在t时刻的动作。多机器人联合动作集可表示为A=A1×…×An,pi:S×A×S→[0,1]为状态转移概率函数;gi:S×A×S→R为回报函数,表示机器人个体i在状态s t i 执行动作a t i 到动作s t+1 i 得到的立即回报。设策略π:Si→Ai为联合状态 s → =(s 1 ,?,s n ) 到联合动作空间 a → =(a 1 ,?,a n ) 的一个映射,以使行为从环境中获得的累积回报值如式(1)所示。
多机器人在协作工作过程中,通过自身配备的传感元件获取信息而改变自身状态来获得对环境的适应性。单个机器人如果能获取并响应其他机器人的知识,在局部环境中对强化学习回报进行优化,将有助于在保证学习速度的前提下加强它们之间的协作。在多智能体系统的强化学习中,个体间通过交换即时状态、学习策略等信息可提高个体的学习效率。因此,设计多机器人感知交互结构如图2所示。2.1 个体-协同感知触发函数
【参考文献】:
期刊论文
[1]基于深度强化算法的机器人动态目标点跟随研究[J]. 徐继宁,曾杰. 计算机科学. 2019(S2)
[2]基于改进强化学习的移动机器人路径规划方法[J]. 徐晓苏,袁杰. 中国惯性技术学报. 2019(03)
[3]基于强化学习的移动机器人路径规划研究综述[J]. 刘志荣,姜树海. 制造业自动化. 2019(03)
[4]基于深度Q网络学习的机器人端到端控制方法[J]. 张浩杰,苏治宝,苏波. 仪器仪表学报. 2018(10)
[5]多移动机器人运动目标环绕与避障控制[J]. 易国,毛建旭,王耀南,郭斯羽,缪志强. 仪器仪表学报. 2018(02)
[6]连续空间中的一种动作加权行动者评论家算法[J]. 刘全,章鹏,钟珊,钱炜晟,翟建伟. 计算机学报. 2017(06)
[7]局部环境增量采样的服务机器人路径规划[J]. 陈彦杰,王耀南,谭建豪,毛建旭. 仪器仪表学报. 2017(05)
[8]多移动微小型机器人编队控制与协作避碰研究[J]. 张大伟,孟森森,邓计才. 仪器仪表学报. 2017(03)
[9]多机器人路径规划的安全性验证[J]. 刘涛,王淑灵,詹乃军. 软件学报. 2017(05)
[10]复杂环境移动群机器人最优路径规划方法[J]. 徐雪松,杨胜杰,陈荣元. 电子测量与仪器学报. 2016(02)
本文编号:3231526
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3231526.html