基于深度强化学习算法的空间漂浮基机械臂抓捕控制策略
发布时间:2021-08-06 04:53
针对空间漂浮基座机械臂抓捕非合作目标控制所基于的多体系统动力学模型难以精确建立的问题,基于深度强化学习算法的控制策略,提出一种深度确定性规则策略。通过将机械臂关节控制力矩、抓捕距离以及相对速度等参数定义为高维空间向量,并设置对应的奖励函数,驱动目标参数逼近满足抓捕条件的数值范围,在不依赖运动学模型和动力学模型的情况下,实现对非合作目标的快速逼近和抓捕。仿真算例表明:该控制算法可实现对空间漂浮基机械臂的快速抓捕控制,且能有效降低接触碰撞力的大小,提高抓捕成功率。
【文章来源】:载人航天. 2020,26(06)北大核心CSCD
【文章页数】:7 页
【部分图文】:
空间漂浮基机械臂非合作目标抓捕物理模型
5)定义奖赏折扣系数λ∈[0,1],用于强调即时的回报。DRL算法具有局部决策独立与整体历程的基本特性,即当前环境状态st仅与前一时刻的环境状态st-1和行为at-1有关,而与此前0时刻到t-2时刻对应的环境状态和行为均无关。DRL算法的这种特性满足Markov离散随机变量的概率分布特性,因此其深度强化学习的过程也可称为Markov过程,数学表述如式(1):
DDPG算法的结构流程图
【参考文献】:
期刊论文
[1]基于仿章鱼软体机器人空间碎片柔性自适应捕获装置的设想[J]. 韩亮亮,杨健,赵颖,刘珏,彭福军. 载人航天. 2017(04)
[2]空间站机械臂关键技术研究[J]. 李大明,饶炜,胡成威,王耀兵,唐自新,王友渔. 载人航天. 2014(03)
[3]空间在轨服务技术发展综述[J]. 崔乃刚,王平,郭继峰,程兴. 宇航学报. 2007(04)
[4]空间机械臂技术及发展建议[J]. 于登云,孙京,马兴瑞. 航天器工程. 2007(04)
本文编号:3325107
【文章来源】:载人航天. 2020,26(06)北大核心CSCD
【文章页数】:7 页
【部分图文】:
空间漂浮基机械臂非合作目标抓捕物理模型
5)定义奖赏折扣系数λ∈[0,1],用于强调即时的回报。DRL算法具有局部决策独立与整体历程的基本特性,即当前环境状态st仅与前一时刻的环境状态st-1和行为at-1有关,而与此前0时刻到t-2时刻对应的环境状态和行为均无关。DRL算法的这种特性满足Markov离散随机变量的概率分布特性,因此其深度强化学习的过程也可称为Markov过程,数学表述如式(1):
DDPG算法的结构流程图
【参考文献】:
期刊论文
[1]基于仿章鱼软体机器人空间碎片柔性自适应捕获装置的设想[J]. 韩亮亮,杨健,赵颖,刘珏,彭福军. 载人航天. 2017(04)
[2]空间站机械臂关键技术研究[J]. 李大明,饶炜,胡成威,王耀兵,唐自新,王友渔. 载人航天. 2014(03)
[3]空间在轨服务技术发展综述[J]. 崔乃刚,王平,郭继峰,程兴. 宇航学报. 2007(04)
[4]空间机械臂技术及发展建议[J]. 于登云,孙京,马兴瑞. 航天器工程. 2007(04)
本文编号:3325107
本文链接:https://www.wllwen.com/kejilunwen/hangkongsky/3325107.html