基于内在奖励和辅助任务结合的深度强化学习算法研究
发布时间:2023-12-26 19:47
人工智能技术的发展日新月异,机器博弈作为其中的热门研究领域受到了研究者的广泛关注。近年来,以深度强化学习算法为代表的机器博弈方法得到了长足的发展。一方面,Alpha Go等围棋智能体的成功标志着深度强化学习算法在完备信息机器博弈领域已取得了重大突破。另一方面,非完备信息机器博弈因其复杂度高、信息感知不完全等特点,已成为人工智能领域新的研究焦点。本文主要研究非完备信息条件下三维视频游戏的策略求解问题。针对视频游戏博弈中高维状态空间与信息感知不完全的问题,提出了一种基于内在奖励策略优化算法的深度强化学习方法。在该方法中,首先利用限制行动策略比值更新幅度的手段缓解了运用传统算法时产生的高方差、不稳定问题。其次,针对三维场景中较为常见的缺乏环境反馈奖励值的问题,本文提出了内在奖励模型,通过设计目标映射网络与预测网络产生内在奖励值弥补环境反馈奖励值的缺失,辅助智能体进行策略更新。最后,考虑到内在奖励模型与传统策略优化算法的结构性差异,通过调整价值网络的结构对两者进行融合,进而提出内在奖励策略优化算法,提升了智能体在稀疏奖励三维场景中的行动效果。从增强智能体对环境奖励信息的感知能力和对强化学习状态...
【文章页数】:60 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题研究背景和意义
1.1.1 课题研究背景
1.1.2 研究目的和意义
1.2 国内外相关研究及综述
1.3 主要研究内容及组织结构
1.3.1 主要研究内容
1.3.2 论文的组织结构
第2章 基于深度强化学习的非完备信息博弈
2.1 非完备信息博弈问题简介
2.1.1 非完备信息博弈的特点
2.1.2 传统求解方法
2.2 强化学习
2.2.1 强化学习理论基础
2.2.2 最优策略的时序差分求解方法
2.3 深度强化学习
2.3.1 基于值函数的方法
2.3.2 基于策略梯度的方法
2.3.3 基于值函数与策略梯度结合的方法
2.4 本章小结
第3章 基于内在奖励策略优化的博弈决策方法
3.1 策略优化算法
3.1.1 现有算法存在的不足
3.1.2 改进的策略优化算法
3.2 内在奖励机制
3.3 内在奖励策略优化算法
3.4 本章小结
第4章 基于辅助任务学习的奖励特征增强方法
4.1 奖励特征增强方法
4.2 辅助任务学习机制
4.2.1 基于奖励预测的特征增强方法
4.2.2 基于状态价值的特征增强方法
4.2.3 基于动作价值的特征增强方法
4.3 结合辅助任务的内在奖励策略优化算法
4.4 本章小结
第5章 智能体的设计实现与实验分析
5.1 智能体的设计实现
5.1.1 实验环境
5.1.2 网络结构
5.1.3 Vizdoom场景介绍
5.2 IBPO算法实验分析
5.2.1 IBPO算法性能对比
5.2.2 内在奖励变化趋势分析
5.3 AIBPO算法实验分析
5.3.1 AIBPO算法性能对比
5.3.2 辅助任务对比实验
5.4 本章小结
结论
参考文献
致谢
本文编号:3875444
【文章页数】:60 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题研究背景和意义
1.1.1 课题研究背景
1.1.2 研究目的和意义
1.2 国内外相关研究及综述
1.3 主要研究内容及组织结构
1.3.1 主要研究内容
1.3.2 论文的组织结构
第2章 基于深度强化学习的非完备信息博弈
2.1 非完备信息博弈问题简介
2.1.1 非完备信息博弈的特点
2.1.2 传统求解方法
2.2 强化学习
2.2.1 强化学习理论基础
2.2.2 最优策略的时序差分求解方法
2.3 深度强化学习
2.3.1 基于值函数的方法
2.3.2 基于策略梯度的方法
2.3.3 基于值函数与策略梯度结合的方法
2.4 本章小结
第3章 基于内在奖励策略优化的博弈决策方法
3.1 策略优化算法
3.1.1 现有算法存在的不足
3.1.2 改进的策略优化算法
3.2 内在奖励机制
3.3 内在奖励策略优化算法
3.4 本章小结
第4章 基于辅助任务学习的奖励特征增强方法
4.1 奖励特征增强方法
4.2 辅助任务学习机制
4.2.1 基于奖励预测的特征增强方法
4.2.2 基于状态价值的特征增强方法
4.2.3 基于动作价值的特征增强方法
4.3 结合辅助任务的内在奖励策略优化算法
4.4 本章小结
第5章 智能体的设计实现与实验分析
5.1 智能体的设计实现
5.1.1 实验环境
5.1.2 网络结构
5.1.3 Vizdoom场景介绍
5.2 IBPO算法实验分析
5.2.1 IBPO算法性能对比
5.2.2 内在奖励变化趋势分析
5.3 AIBPO算法实验分析
5.3.1 AIBPO算法性能对比
5.3.2 辅助任务对比实验
5.4 本章小结
结论
参考文献
致谢
本文编号:3875444
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3875444.html