强化学习及其在智能仓储中的应用研究

发布时间：2017-04-11 21:23

本文关键词：强化学习及其在智能仓储中的应用研究，由笔耕文化传播整理发布。

【摘要】：智能仓储是物流行业不可或缺的重要环节,高效灵敏的智能仓储对提高仓储的工作效率具有至关重要的作用。本文主要探讨强化学习及其在智能仓储中的应用研究。采用强化学习机制的智能体不需要任何先验知识,智能体不会被告知采取何种行为,而是通过与环境“试错”的方式进行自主学习,学习最优行为策略。为了提高智能仓储系统的整体效率,本文提出了一种新的组合解决方案。该方案分别采用遗传算法进行机器人之间的任务分配,运用强化学习进行路径规划。强化学习对于未知环境下的路径规划问题具有很强的自主学习能力。遗传算法是一种通过模拟自然界生物进化的方式来求解问题的随机搜索方法,它使用简单的编码技术和繁殖机制来表示复杂的现象。采用遗传算法进行多机器人之间的任务分配,能获得非常好的效果。本文将这两种算法进行组合使用,为智能仓储的经典问题路径规划和任务分配提供了可行方案。仿真实验将其与相同领域的先进算法进行比较,结果证明,这个组合方法显著减少了机器人执行任务的总时间,有效地提高了仓储系统的运行效率。在多智能体强化学习系统中,环境在所有智能体的联合动作下进行状态的迁移。智能体在选择动作时,可能会受到其他智能体的影响。在这种情况下,研究环境的联合状态和智能体的联合动作是非常必要的。多智能体强化学习系统具有开放性和动态性,为了降低系统的计算复杂度,提高学习效率,本文采用基于稀疏交互的CQ-learning算法来求解智能仓储中多机器人路径规划问题。同时,在机器人学习过程中,引入迁移学习机制,即利用先前机器人已经学到的知识来促进另一个机器人的学习过程。由于获得了环境信息,机器人学习时能有效提高初始阶段的学习效率,从而加快算法的收敛速度。仿真实验证明,改进的CQ-learning算法在多机器人路径规划中是有效的。
【关键词】：强化学习 智能仓储 路径规划 任务分配 稀疏交互 迁移学习
【学位授予单位】：南京大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP18
【目录】：

摘要5-7
ABSTRACT7-11
第一章绪论11-17
1.1 研究背景11-12
1.2 智能仓储研究现状12-13
1.3 强化学习研究现状13-15
1.4 本文研究的主要内容15
1.5 论文组织结构15-17
第二章强化学习17-24
2.1 强化学习模型与基本要素17-19
2.2 强化学习的数学模型19
2.3 典型的强化学习算法19-22
2.3.1 TD算法20
2.3.2 Q-learning算法20-21
2.3.3 Sarsa算法21-22
2.4 本章小结22-24
第三章智能仓储中的路径规划和任务分配24-44
3.1 问题建模24-27
3.2 算法结构27-28
3.3 基于单智能体强化学习的路径规划28-31
3.3.1 奖惩函数29-30
3.3.2 值函数30-31
3.3.3 动作选择策略31
3.4 基于遗传算法的多机器人任务分配31-37
3.4.1 编码33-34
3.4.2 适应度函数设计34-35
3.4.3 遗传操作35-37
3.5 仿真实验与分析37-43
3.5.1 参数设置38
3.5.2 实验结果与分析38-43
3.6 本章小结43-44
第四章基于多智能体强化学习的路径规划44-56
4.1 多智能体强化学习44-45
4.2 多移动机器人路径规划45-46
4.3 基于CQ-learning的多机器人路径规划46-50
4.3.1 稀疏交互46-47
4.3.2 CQ-learning算法47-49
4.3.3 迁移学习49-50
4.4 仿真实验与分析50-55
4.4.1 参数设置及评价标准50-51
4.4.2 实验结果与分析51-55
4.5 本章小结55-56
第五章总结与展望56-58
5.1 本文主要工作总结56
5.2 工作展望56-58
参考文献58-64
致谢64-65
攻读硕士学位发表的论文65-66

【参考文献】

中国期刊全文数据库前5条

1 TARN Tzyh-Jong;;Hybrid MDP based integrated hierarchical Q-learning[J];Science China(Information Sciences);2011年11期

2 ;Path Planning Approach in Unknown Environment[J];International Journal of Automation & Computing;2010年03期

3 范波,潘泉,张洪才;一种基于分布式强化学习的多智能体协调方法[J];计算机仿真;2005年06期

4 高阳,周志华,何佳洲,陈世福;基于Markov对策的多Agent强化学习模型及算法研究[J];计算机研究与发展;2000年03期

5 张汝波,周宁,顾国昌,张国印;基于强化学习的智能机器人避碰方法研究[J];机器人;1999年03期

中国博士学位论文全文数据库前1条

1 陈春林;基于强化学习的移动机器人自主学习及导航控制[D];中国科学技术大学;2006年

中国硕士学位论文全文数据库前1条

1 许亚;基于强化学习的移动机器人路径规划研究[D];山东大学;2013年

本文关键词：强化学习及其在智能仓储中的应用研究，，由笔耕文化传播整理发布。

本文编号：300018

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/300018.html

上一篇：基于语义网的舆情监控系统的设计与实现
下一篇：有机场效应晶体管气体传感器制备工艺的研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|