基于强化学习的无地图导航策略研究

发布时间：2021-04-09 16:48

　　导航即机器人从当前位置到达目标姿态,并在这个过程中不与任一障碍物发生碰撞的能力,是移动机器人的核心功能之一。目前已有的成熟技术都是在已知的环境地图上进行规划。相比较,包括人在内的动物能够在知道目标大致方位或特征的基础上穿过或稀松或稠密的障碍物到达目标点,实现无地图导航。强化学习是一种智能体从与环境的不断交互中学习的算法,适合于连续决策的任务,是目前无地图导航的主要研究方向。本文研究了基于强化学习的从记忆到推理两个层次的移动机器人无地图导航,所设计的规划器以RGB图像作为视觉输入、以机器人与目标点的相对位置作为目标信息。提出了使用近端策略优化的端到端导航策略;提出了将视觉图像先压缩再将压缩的特征输入强化学习网络的导航策略,使得规划器的采样效率显著提高;设计了堆积长短时记忆结构使得强化学习网络具有推理能力。为了测试、比较不同的网络结构和算法,搭建了一系列的基准环境并提供了环境接口可快速调用。首先,针对记忆任务提出了基于近端策略优化的端到端导航策略,搭建了基准仿真环境,在该环境中与经典的基于深度Q网络的端到端导航策略进行比较。其次,端到端强化学习网络中用于提取图像特征的的参数无需从交互中学习...

【文章来源】：哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】：80 页

【学位级别】：硕士

【部分图文】：

基于强化学习的无地图导航策略研究

D算法(左图)与A*算法(右图)

地图,机器人导航,导航算法,中间状态

哈尔滨工业大学工学硕士学位论文作中，我们设计、制造了一款基于机器人操作系统(Robo的移动机器人平台 Plantbot[77]，并在该平台上实现了导航 SLAM 系统绘制的，然后机器人在绘制的地图上通过 Alobal planner)规划出全局路径作为局部规划器(local plan收局部成本地图通过动态窗法规划出运动速度通过节点制节点接收到消息后执行相应命令，控制机器人朝目标了全局规划器规划出的路径（导航），也考虑到了局部更。实验效果如图 1-4 所示：

导航图,导航图,地图,导航策略

2.1 引言对于基于深度强化学习的移动机器人无地图导航，目前常到端的，即用神经网络拟合映射函数，将传感器的原始数据映标点所需的动作，考虑到输入的视觉图像为高维 RGB 图像，卷积神经网络(Convolutional Neural Networks, CNN)提取特征组成状态(state)输入深度强化学习网络，进行端到端训练。本领域表现突出的近端策略优化(Proximal Policy Optimization到端导航策略的更新算法，设计了对应的导航规划器，并与基Q-Network, DQN)的端到端导航策略进行了比较。内容上，本化学习的一些基础和理论，然后给出端到端导航策略的数学度 Q 网络的端到端导航策略，提出了基于近端策略优化的端建了基准仿真环境，最后将两策略在基准环境中进行比较。2.2 机器人无地图导航问题定义Real time

【参考文献】：
硕士论文
[1]基于深度强化学习的未知环境下机器人路径规划的研究[D]. 卜祥津.哈尔滨工业大学 2018
[2]面向家庭环境的移动机器人局部路径规划算法研究[D]. 李宁.哈尔滨工业大学 2018

本文编号：3127973

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3127973.html

上一篇：安卓平台程序自动化控制系统的设计与实现
下一篇：水下无线传感器网络的可靠性传输研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|