基于强化学习的稀疏奖励问题研究
发布时间:2021-03-12 03:52
随着几年前DeepMind开发的人工智能围棋程序的爆炸新闻,以及后续的AlphaZero在日本将棋上的大放异彩,还有后来OpenAI在电子竞技游戏Dota2上取得的惊人成绩,相信大家对于强化学习已经有了一定的了解。传统的强化学习算法虽然在一些简单的环境中可以很好的收敛,但是由于无法面对复杂的环境以及无法处理来自环境的直接感官数据,所以应用范围一直很受限制。而随着深度学习算法的大力发展,人们看到了深度学习算法的优势所在,于是一种新的趋势就是将深度神经网络技术与强化学习算法相结合,并且相互结合之后的深度强化学习算法,正在逐渐成为强化学习领域非常有意义的研究方向。然而在强化学习面对的实际问题中,稀疏奖励的问题一直是亟待解决的难题之一,即使是深度强化学习算法也无法很好的在奖励稀疏的环境中学习。人们不停的探索,通过人为设计奖励,课程学习,好奇心机制,分层强化学习等不同的方法去改善模型,希望能在稀疏奖励环境中更好的训练。但是效果上并不十分理想,存在很多局限性。本文是基于DQN算法中的经验回放技术,通过改进经验池中状态存储的规则以及目标的设定,并且通过A3C算法提供的并行思想,设计并行化框架,从而使...
【文章来源】:中国地质大学(北京)北京市 211工程院校 教育部直属院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
好奇心机制结构
机器设计课程图示(a)
机器设计课程图示(b)
本文编号:3077632
【文章来源】:中国地质大学(北京)北京市 211工程院校 教育部直属院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
好奇心机制结构
机器设计课程图示(a)
机器设计课程图示(b)
本文编号:3077632
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3077632.html