强化学习样本效率理论研究

发布时间：2020-07-26 08:07

【摘要】：强化学习是机器学习的一个主要分支,主要研究如何让智能体从与环境的交互中推断出最优控制决策。目前的强化学习算法往往需要大量的交互数据才能达到良好的学习效果,这限制了己有技术在交互数据较为昂贵的实际问题中的应用。为减少强化学习对于数据量的高度依赖,我们需要对相关算法的样本效率有更深入的了解。己有的理论分析虽然能够一定程度上刻画出算法、问题实例与样本效率之间的关系,然而其分析结果过于针对最难问题实例,对于一般难易度的问题上的样本效率则无法给出足够精确的预测。这就导致已有理论结果很难用来帮助使用者和研究者比较、挑选、设置、改善算法。本论文通过改善己有分析方法和提出新分析方法这两种思路来尝试得到能够更好地预测实际情况的样本效率理论。在第一个工作中,我们对于己有的PAC-MDP样本复杂度分析方法进行改善,提出停更样本复杂度分析方法,以使之能够更好地反映问题实例不同难易度对于算法样本效率的影响。在此基础之上,我们提出谨慎度逐增的乐观原则,以改善已有的具有PAC-MDP理论保证的算法,使其在保持原有良好理论性质的前提下,提高其实际样本效率。我们使用停更样本复杂度分析方法对改善后的算法进行分析,指出它们在非最难问题上比起原算法具有更好的理论样本效率。实验结果显示改善后的算法也具有更好的实际样本效率,展现出我们的分析方法对于分析和改善算法的有效性。在第二个工作中,我们提出强化学习成功概率分析法,直接刻画算法、具体问题实例、样本效率之间的数学关系,以得出在同一问题上算法不同参数设置对于最终样本效率的影响。我们对一个原型算法在链式MDP问题上的成功概率函数进行逐层分解并详细分析,给出算法成功找出良好策略的概率关于算法参数值和问题特性相关变量的具体数学表达式,并通过使用对数正态分布为成功概率给出了一个更易于计算的近似。实验结果表明我们的成功概率分析结果在链式MDP及迷宫MDP上以较高准确度和精确度预测出了算法在不同参数设置下的实际样本效率。在第三个工作中,我们深入分析导致同一算法在不同问题实例上样本效率有高有低的关键因素,指出估计价值的偏态特性正是这样一个因素。我们对第二个工作的一些结果进行推广,指出一个状态价值估计值等于一系列路径状态价值的加权和,而路径状态价值服从对数正态分布。因此,状态价值估计值服从的分布是一系列具有正偏态的对数正态分布与具有负偏态的“翻转”对数正态分布的卷积,其最终偏态可正可负,取决于两组分布的综合影响孰强孰弱。最终具有正偏态的估计价值有较高概率被低估,而具有负偏态的估计价值则有较高概率被高估,这对于算法正确判断状态价值优劣关系造成严重干扰。我们推导出估计价值偏态的方向与尺度关于问题特性和样本大小的数学表达式,并根据该结果指出一些能够减小负面影响的措施。
【学位授予单位】：中国科学技术大学
【学位级别】：博士
【学位授予年份】：2018
【分类号】：TP181
【图文】：

组织结构图,组织结构

图１．１本文组织结构。逡逑工作中得到的一些中间结果进行推广，通过这些结果指出强化学习算法对逡逑于状态价值的估计值所服从的概率分布具有非零偏态特性，且不同状态价逡逑值可以具有不同的偏态，如果结果为正偏态，则导致价值容易被低估，如果逡逑为负偏态，则容易被高估。这对于算法正确判断状态价值之间优劣关系造逡逑成了严重干扰；干扰越强，问题就越难，算法也就越需要更多数据来排除逡逑这些干扰。我们推导出了估计价值偏态的方向与尺度的数学表达式，由此逡逑找出了影响这些特性的决定性因素，并依此提出了一些针对性的措施，以逡逑帮助降低偏态现象造成的干扰，间接地提高算法的样本效率。最后，我们逡逑通过一些实验结果来对我们的分析进行了补充。逡逑１．４本文的组织结构逡逑本文组织结构如图Ｕ所示。逡逑１绍了强习的研景，述了文的主要工。第逡逑

交互过程,咖啡豆,机器人

强化学习有着更强的自动性、通用性。逡逑强化学习过程中最为重要的部分在于智能体（Ａｇｅｎｔ）与环境（Ｅｎｖｉｒｏｎｍｅｎｔ）逡逑之间的交互。这里智能体是对学习算法和使用学习算法的主体的抽象，而环境则逡逑是对所有会与智能体进行交互的要素的抽象概括。举例来说，假如我们希望设计逡逑．一个人工智能来让机器人通过强化学习学会“对咖啡豆进行研磨”这样的技能，逡逑那么搭载了强化学习算法的机器人从整体上可以视为是一个智能体，而咖啡豆，逡逑研磨器，放着咖啡豆与研磨器的桌子，机器人所处的房间，重力，空气等等所有逡逑不属于智能体本身的要素都可以视为是环境的一部分。逡逑这里需要注意的是，智能体与环境之间的分界线取决于强化学习算法所处逡逑的问题层次。比如对于机器人研磨咖啡豆问题，如果强化学习算法位于较为宏观逡逑的层次，负责机器人在房间里的移动、寻找咖啡豆与研磨器的位置、将咖啡豆倒逡逑入研磨器等高层决策，那么就如上述那样，机器人整体可视为问题中的智能体。逡逑然而如果强化学习算法被作为一个底层控制算法来使用，负责控制机器人所有逡逑的传感器与舵机，那么这些传感器与舵机也可以视为是环境的一部分，而智能体逡逑逦逦逦邋逦

格子,陷阱,迷宫,灰色

有取自ＤｅａｒｄｅｎｅｔａＵ６９］的“旗帜”和Ｌｅｆｆｌｅｒｅｔａｌ．［＂］的“陷阱”要素。智能体在逡逑复合迷宫中的学习任务是找到一个策略，使之能够从起点出发用尽量少的步数逡逑收集所有旗帜，安全地到达终点，同时避开所有陷阱。图３．１给出了一些复合迷逡逑宫问题实例。逡逑复合迷宫的具体设置如下。环境的状态表示为ｓ＝邋（ｐｏｓ，ｆｌａｇ１，ｆｌａｇ２，．．．，ｆｌａｇｆｃ），逡逑其中ｐｏｓ表不智能体所处格子编号，ｆｌａｇｉ，…，ｆｌａｇｆｃ分别表不编号为１，邋．．．，Ａ：的旗巾只逡逑是否己经获得。智能体从标有Ｓ的起始位置开始学习过程，此时没有任何旗帜。逡逑在每一步交互中，智能体必须从上下左右四个方向中选择一个，做出相应移动逡逑动作。当智能体选择一个动作后，其位置有ｐ的概率向相应位置移动一格，而有逡逑１－Ｐ的概率“滑”到与该方向垂直的两个方向的相邻格子之一上。举例来说，如逡逑果智能体选择向上移动，那么其位置将以ｐ概率变为上方相邻格，以０．５（１邋－邋ｐ）逡逑概率变为左方相邻格

【相似文献】