当前位置:主页 > 管理论文 > 领导决策论文 >

基于深度强化学习的室内无人机避障

发布时间:2021-12-30 20:35
  无人机能代替人类完成许多困难的任务,其自主导航一直是无人机领域的一个研究难题。传统基于模型的无人机导航方法的有效性需要依赖于无人机自身对周围的环境信息进行精确建模,这也就导致了传统的无人机导航算法对于陌生环境的适应能力大大降低。另一方面,自然界生物进化时,展现出对于环境的不确定性有着很强的自适应能力,因此本文从生物强化学习的角度考察无人机在室内环境下自适应导航这一问题。基于强化学习的无人机导航存在强化学习策略的训练和强化学习策略迁移的两方面关键问题。特别的,本次工作用到的传感器为单目摄像头,这对于有行人的室内环境目前仍是个难题。本工作对这三个问题加以深入探讨。针对强化学习策略的训练的问题,本文提出一种基于深度确定性策略梯度(DDPG)的深度强化学习模型的改进模型,以提高现有无人机自主导航策略对环境的适应能力以及学习速度。该模型包含三个部分:首先,仅利用激光雷达数据作为状态输入状,用以感知环境信息;其次,设计合理的回报函数用以激励策略更快、更好地学习;最后,设计合理的动作空间使得无人机流畅决策。经过在仿真环境下的强化学习训练,装载有单线激光雷达的室内小型无人机能够在仿真环境下进行稳定避障... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:96 页

【学位级别】:硕士

【部分图文】:

基于深度强化学习的室内无人机避障


某次任务中无人机避障示意图

树形图,求解策略,贝尔,贝尔曼


最优贝尔开始求解策略评估

示意图,蒙特卡洛,示意图,状态值


哈尔滨工业大学工学硕士学位论文-21-中瓶颈比较明显。图2-8蒙特卡洛采样示意图蒙特卡洛控制的示意图如图2-9所示。图2-9蒙特卡控制示意图2.1.5基于值估计的强化学习方法:Q-Learning由2.1.4部分可以得知,基于无模型的蒙特卡罗法估计状态值函数利用的是大数定理,对同一个状态进行重复采样并且记录该状态下的回报值。最终对同一状态下的所有采样回报值进行求取平均值,得出状态值函数的估计值,因此该过程表达成数学形式如式子(2-17)所示。其中kβ表示在第k次迭代时的状态值函数的估计值,y为针对当前状态下所采集的所有的回报值。经过展开和化简,可以得到式子(2-17)所示的最终的状态值函数的增量式更新形式。在式子(2-17)中,1/k为一个随着样本总数增加而变化的系数,表征状态值函数在增量式更新过程中的更新步长。为了方便研究和简化计算,在这里将更新步长1/k替换成

【参考文献】:
期刊论文
[1]遥感图像中飞机的改进YOLOv3实时检测算法[J]. 戴伟聪,金龙旭,李国宁,郑志强.  光电工程. 2018(12)



本文编号:3558926

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3558926.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a7077***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com