基于值函数估计偏差修正的强化学习方法研究

发布时间:2024-06-16 08:44
  强化学习是求解马尔科夫决策过程问题的重要方法。强化学习的研究已取得了丰富的成果,特别是自深度强化学习出现以来,强化学习在诸多领域都获得了相当成功的应用。基于值函数的强化学习是其中的一个重要分支,出现了以深度Q网络为代表的一大批经典算法。在迭代求解动作值函数的过程中,都会涉及到最大期望动作值函数的估计问题,与此相伴的是存在其中的估计偏差问题。这个问题同样也存在于机器学习的其它领域中。因此,对最大期望值的准确估计是个非常重要的问题。本文围绕值函数估计偏差修正问题展开研究,主要内容如下:(1)针对Q类学习算法高估、DQ类学习算法低估的问题,研究了最大期望值估计偏差产生的原因,并提出了相应的偏差修正思路。首先,提出了次序估计量,并对次序估计量的估计偏差进行了分析,使得现有的最大期望值估计方法均可视为次序估计量的组合形式。其次,分析了现有估计方法存在高估低估的原因,重点对最大估计量和双估计量的优势与不足进行了分析。最后,得出结论:单纯用某一个次序估计量参与值函数更新都会带来不同程度的估计偏差,有控制地随机组合多个次序估计量能有效修正估计偏差。本部分内容为后续研究工作提供了直接的理论指导。(2)以...

【文章页数】:124 页

【学位级别】:博士

【部分图文】:

图4-4本文用到的Atari2600游戏界面

图4-4本文用到的Atari2600游戏界面

4基于集成双估计的偏差修正强化学习51Space_invaders是一类竞争性游戏,奖励稀疏,环境状态部分可观测,许多算法在该游戏中都不够稳定,用以检测算法的稳定性。Zaxxon游戏中DDQN的执行性能明显的受到低估的影响[52],能测试算法的执行效果。AlienAsterixB....


图6-1DQ中QA与QB在某个状态的估计动作值及其置信区间Figure6-1EstimatedActionValuesandConfidenceIntervalsofQAandQBinDQ

图6-1DQ中QA与QB在某个状态的估计动作值及其置信区间Figure6-1EstimatedActionValuesandConfidenceIntervalsofQAandQBinDQ

6基于值函数探索奖励的贝叶斯深度强化学习81函数探索问题中,值函数之间还存在组合运算等其它操作的问题。显然,值函数探索问题的研究将会复杂的多,更具挑战性。(a)QA(b)QB图6-1DQ中QA与QB在某个状态的估计动作值及其置信区间Figure6-1EstimatedAction....



本文编号:3995169

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3995169.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a425a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com