基于一致性与事件驱动的强化学习研究
发布时间:2021-04-22 17:12
强化学习是一种重要的机器学习方法,通过试错的方式来求解问题,具有学习结构简单,自适应性强等特点,在机器博弈、机器人自主导航和市场决策等领域显示出很大的发展潜力,为解决智能系统知识获取的瓶颈问题提供了一个可行之法。论文围绕如何提高强化学习的效率这一科学问题,从强化学习过程中智能体间的通信方式、强化学习的算法结构和强化学习的策略搜索方式三个方面着手进行研究,建立了分布式局部可观测马尔科夫过程、多智能体强化学习和局部通信之间的理论纽带,为发展基于事件驱动思想的强化学习理论打下了基础。针对大规模多智能体应用中的观测局部性和不确定性问题,围绕分布式局部可观测马尔科夫模型,提出一种基于一致性协议的多智能体强化学习算法。对于一个分布式学习环境,强化学习的要素在局部观测情况下往往难以进行有效描述,且每一个独立智能体的学习行为都受其队友的影响。所提算法利用一致性协议使所有智能体对观测环境达成共识,剔除了重复观测生成的部分策略;针对智能体感知能力有限并随空间变化的特性,引入观测可信度来评估智能体对当前观测的可靠程度。仿真实验表明,观测可信度可以提高团队对观测目标的共识程度,基于一致性协议的学习算法减小了多...
【文章来源】:西南交通大学四川省 211工程院校 教育部直属院校
【文章页数】:125 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
主要符号对照表
第1章 绪论
1.1 课题的背景及意义
1.2 多智能体的协调与协作
1.3 不确定环境下的多智能体系统
1.4 强化学习的策略空间与收敛速度
1.5 论文的主要研究内容及章节安排
第2章 多智能体协作与学习模型
2.1 引言
2.2 强化学习原理
2.2.1 MonteCarlo算法
2.2.2 瞬时差分法
2.2.3 Q-学习
2.2.4 Sarsa算法
2.2.5 Actor-Critic学习算法
2.2.6 R-学习算法
2.3 分布式强化学习原理
2.3.1 分布式强化学习模型
2.3.2 研究现况及存在的问题
2.4 分布式马尔科夫决策模型
2.4.1 分布式马尔科夫模型
2.4.2 局部可观测的马尔科夫模型
2.4.3 分布式局部可观测的马尔科夫模型
2.4.4 研究现状与存在的问题
2.5 多智能体一致性原理
2.5.1 图论
2.5.2 Gossip一致性算法
2.5.3 离散一致性算法
2.6 启发式强化学习原理
2.6.1 盲目搜索与启发式搜索
2.6.2 启发式强化学习
2.7 本章小结
第3章 基于一致性的多智能体强化学习研究
3.1 引言
3.2 基于一致性的DEC-POMDP强化学习框架
3.2.1 强化学习中的局部观测性和不确定性分析
3.2.2 分布式多智能体强化学习模型设计
3.2.3 多智能体强化学习一致性方案设计
3.3 基于一致性的多智能体强化学习算法
3.3.1 基于一致性的多智能体强化学习算法设计
3.3.2 基于一致性的策略化简设计
3.4 收敛性分析
3.5 仿真实验
3.6 本章小结
第4章 基于事件驱动的多智能体强化学习研究
4.1 引言
4.2 事件驱动原理
4.3 强化学习的事件驱动模型与触发规则设计
4.3.1 基于事件驱动的强化学习模型设计
4.3.2 触发规则设计
4.4 基于事件驱动的强化学习
4.4.1 基于事件驱动的强化学习算法设计
4.4.2 计算资源消耗分析
4.4.3 算法收敛性分析
4.5 仿真实验
4.6 本章小结
第5章 基于事件驱动的启发式强化学习研究
5.1 引言
5.2 启发式加速强化学习方法
5.2.1 启发式加速Q-学习
5.2.2 基于状态回溯代价分析启发式Q-学习
5.2.3 基于CaseBasedReasoning的启发式加速Q-学习
5.3 基于事件驱动的启发式Q-学习设计
5.3.1 基于事件驱动的HAQL算法
5.3.1.1 触发函数设计
5.3.1.2 算法设计
5.3.1.3 仿真实验
5.3.2 基于事件驱动的HASB-QL算法
5.3.2.1 触发函数设计
5.3.2.2 算法设计
5.3.2.3 启发式函数分析
5.3.2.4 仿真实验
5.3.3 基于事件驱动的CB-HAQL算法
5.3.3.1 触发函数设计
5.3.3.2 案例设计
5.3.3.3 算法设计
5.3.3.4 仿真实验
5.4 本章小结
结论
致谢
参考文献
攻读博士学位期间发表的论文及科研成果
本文编号:3154153
【文章来源】:西南交通大学四川省 211工程院校 教育部直属院校
【文章页数】:125 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
主要符号对照表
第1章 绪论
1.1 课题的背景及意义
1.2 多智能体的协调与协作
1.3 不确定环境下的多智能体系统
1.4 强化学习的策略空间与收敛速度
1.5 论文的主要研究内容及章节安排
第2章 多智能体协作与学习模型
2.1 引言
2.2 强化学习原理
2.2.1 MonteCarlo算法
2.2.2 瞬时差分法
2.2.3 Q-学习
2.2.4 Sarsa算法
2.2.5 Actor-Critic学习算法
2.2.6 R-学习算法
2.3 分布式强化学习原理
2.3.1 分布式强化学习模型
2.3.2 研究现况及存在的问题
2.4 分布式马尔科夫决策模型
2.4.1 分布式马尔科夫模型
2.4.2 局部可观测的马尔科夫模型
2.4.3 分布式局部可观测的马尔科夫模型
2.4.4 研究现状与存在的问题
2.5 多智能体一致性原理
2.5.1 图论
2.5.2 Gossip一致性算法
2.5.3 离散一致性算法
2.6 启发式强化学习原理
2.6.1 盲目搜索与启发式搜索
2.6.2 启发式强化学习
2.7 本章小结
第3章 基于一致性的多智能体强化学习研究
3.1 引言
3.2 基于一致性的DEC-POMDP强化学习框架
3.2.1 强化学习中的局部观测性和不确定性分析
3.2.2 分布式多智能体强化学习模型设计
3.2.3 多智能体强化学习一致性方案设计
3.3 基于一致性的多智能体强化学习算法
3.3.1 基于一致性的多智能体强化学习算法设计
3.3.2 基于一致性的策略化简设计
3.4 收敛性分析
3.5 仿真实验
3.6 本章小结
第4章 基于事件驱动的多智能体强化学习研究
4.1 引言
4.2 事件驱动原理
4.3 强化学习的事件驱动模型与触发规则设计
4.3.1 基于事件驱动的强化学习模型设计
4.3.2 触发规则设计
4.4 基于事件驱动的强化学习
4.4.1 基于事件驱动的强化学习算法设计
4.4.2 计算资源消耗分析
4.4.3 算法收敛性分析
4.5 仿真实验
4.6 本章小结
第5章 基于事件驱动的启发式强化学习研究
5.1 引言
5.2 启发式加速强化学习方法
5.2.1 启发式加速Q-学习
5.2.2 基于状态回溯代价分析启发式Q-学习
5.2.3 基于CaseBasedReasoning的启发式加速Q-学习
5.3 基于事件驱动的启发式Q-学习设计
5.3.1 基于事件驱动的HAQL算法
5.3.1.1 触发函数设计
5.3.1.2 算法设计
5.3.1.3 仿真实验
5.3.2 基于事件驱动的HASB-QL算法
5.3.2.1 触发函数设计
5.3.2.2 算法设计
5.3.2.3 启发式函数分析
5.3.2.4 仿真实验
5.3.3 基于事件驱动的CB-HAQL算法
5.3.3.1 触发函数设计
5.3.3.2 案例设计
5.3.3.3 算法设计
5.3.3.4 仿真实验
5.4 本章小结
结论
致谢
参考文献
攻读博士学位期间发表的论文及科研成果
本文编号:3154153
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3154153.html