基于强化Q学习和BP神经网络的移动机器人局部路径规划行为研究
发布时间:2021-10-27 20:10
移动机器人导航技术是当今人工智能领域的研究热点,包括建立地图、定位、路径规划等。为了赋予智能移动机器人自主学习的能力,实现和增强移动机器人局部路径规划功能,需要结合具有学习能力的机器学习方法进行移动机器人的局部路径规划行为研究。本文基于强化Q学习算法和BP神经网络模型,研究移动机器人局部路径规划行为。根据路径规划行为的任务要求,设计学习策略和控制规则,针对环境感知信息,提出了相应的控制策略,并进行了仿真验证。主要研究内容包括:基于栅格地图环境,提出了基于CM-Q学习的移动机器人局部路径规划算法。该算法首先根据强化Q学习算法和栅格地图,设计了移动机器人状态和动作,建立了Q矩阵;其次设计了一种坐标匹配(CM)的避障控制规则,以提高移动机器人避障效率;然后针对动作执行的评估问题,设计了回报函数;最后对CM-Q局部路径规划算法的有效性进行实验验证。对于规划路径中可能出现的冗余问题,通过增加学习次数和调整学习率等措施消除,使移动机器人在离散和连续障碍物环境中移动时不再出现冗余现象,运行效果良好。基于自由空间的地图环境和BP神经网络的泛化能力,提出了基于BPNN-Q学习的移动机器人局部路径规划算法...
【文章来源】:山东理工大学山东省
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 课题研究背景及意义
1.2 国内外研究现状
1.2.1 基于强化学习的路径规划研究现状
1.2.2 基于神经网络的路径规划研究现状
1.3 论文主要研究内容及创新点
1.3.1 论文主要研究内容
1.3.2 论文主要创新点
1.4 论文组织结构
第二章 强化学习与神经网络理论背景知识
2.1 强化学习理论概述
2.1.1 马尔科夫决策过程
2.1.2 状态值函数与动作值函数
2.1.3 探索与利用
2.2 基于模型的强化学习方法
2.2.1 策略迭代
2.2.2 值迭代
2.3 基于无模型的强化学习方法
2.3.1 蒙特卡罗方法
2.3.2 时间差分方法
2.4 神经网络理论概述
2.4.1 神经网络基本组成
2.4.2 误差逆传播算法
2.5 本章小结
第三章 基于CM-Q学习的局部路径规划
3.1 CM算法
3.2 基于CM-Q学习的路径规划
3.2.1 栅格地图的建立
3.2.2 状态和动作设计
3.2.3 Q矩阵建立
3.2.4 回报函数设计
3.2.5 CM避障设计
3.2.6 基于栅格地图的CM-Q算法
3.3 基于CM-Q学习的移动机器人路径规划仿真实验
3.3.1 CM-Q算法有效性验证
3.3.2 路径规划冗余问题处理
3.4 本章小结
第四章 基于BPNN-Q学习的局部路径规划研究
4.1 基于BPNN-Q学习的路径规划算法
4.1.1 环境和状态空间描述
4.1.2 动作空间描述及动作选择策略
4.1.3 三次震荡后退避障规则建立
4.1.4 回报函数设计
4.1.5 基于BPNN的Q值函数预测模型设计
4.1.6 确定收敛条件
4.1.7 基于BPNN-Q学习的局部路径规划算法描述及流程
4.2 仿真实验与结果分析
4.2.1 仿真实验环境设计
4.2.2 仿真实验过程及结果分析
4.3 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
参考文献
在读期间取得的科研成果
致谢
本文编号:3462249
【文章来源】:山东理工大学山东省
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 课题研究背景及意义
1.2 国内外研究现状
1.2.1 基于强化学习的路径规划研究现状
1.2.2 基于神经网络的路径规划研究现状
1.3 论文主要研究内容及创新点
1.3.1 论文主要研究内容
1.3.2 论文主要创新点
1.4 论文组织结构
第二章 强化学习与神经网络理论背景知识
2.1 强化学习理论概述
2.1.1 马尔科夫决策过程
2.1.2 状态值函数与动作值函数
2.1.3 探索与利用
2.2 基于模型的强化学习方法
2.2.1 策略迭代
2.2.2 值迭代
2.3 基于无模型的强化学习方法
2.3.1 蒙特卡罗方法
2.3.2 时间差分方法
2.4 神经网络理论概述
2.4.1 神经网络基本组成
2.4.2 误差逆传播算法
2.5 本章小结
第三章 基于CM-Q学习的局部路径规划
3.1 CM算法
3.2 基于CM-Q学习的路径规划
3.2.1 栅格地图的建立
3.2.2 状态和动作设计
3.2.3 Q矩阵建立
3.2.4 回报函数设计
3.2.5 CM避障设计
3.2.6 基于栅格地图的CM-Q算法
3.3 基于CM-Q学习的移动机器人路径规划仿真实验
3.3.1 CM-Q算法有效性验证
3.3.2 路径规划冗余问题处理
3.4 本章小结
第四章 基于BPNN-Q学习的局部路径规划研究
4.1 基于BPNN-Q学习的路径规划算法
4.1.1 环境和状态空间描述
4.1.2 动作空间描述及动作选择策略
4.1.3 三次震荡后退避障规则建立
4.1.4 回报函数设计
4.1.5 基于BPNN的Q值函数预测模型设计
4.1.6 确定收敛条件
4.1.7 基于BPNN-Q学习的局部路径规划算法描述及流程
4.2 仿真实验与结果分析
4.2.1 仿真实验环境设计
4.2.2 仿真实验过程及结果分析
4.3 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
参考文献
在读期间取得的科研成果
致谢
本文编号:3462249
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3462249.html