强化学习迁移中的源任务选择研究

发布时间：2020-03-28 09:36

【摘要】：强化学习是解决顺序决策问题的一类重要的机器学习技术,经过几十年的发展已经成功应用于自动控制、机器人、推荐和检索等诸多领域。近年来,使用迁移学习方法来解决强化学习任务的研究表明,从源任务中学到的知识可以用来更好地解决类似的目标任务。然而,当进行迁移学习的源任务与目标任务不相似时,会导致负迁移的发生,但是很少有研究关注如何防止负迁移,因此该问题仍然是一个开放性的问题。目前大部分迁移学习方法假设相似的源任务是由人来选择的;只有少量方法基于任务相似性度量选择最相似的源任务,但是这些方法往往都有比较严格的前提条件;此外,目前还没有一种明确的方法可以根据一个或多个指标确定负迁移何时发生。本文针对强化学习迁移中的负迁移问题,研究如何选择合适的源任务,从不同角度提出了相应的解决方法。其主要贡献可以概括如下:1.针对强化学习迁移中如何选择合适的源任务这一问题,提出了两种新颖的基于整体模型的马尔可夫决策过程(Markov Decision Process,MDP)间的距离度量方法。具体的,(1)这两种度量都是基于状态间距离的。为此,本文提出了同构的MDP(Homogeneous MDP)的概念以及计算同构MDP的状态间距离的方法;(2)这两种度量方法分别使用康托洛维奇度量(Kantorovich Metric)和豪斯多夫度量(Hausdorff Metric)来组合两个MDP的状态间的距离,以此作为两个MDP间的距离。这两种度量能够用于强化学习迁移中,根据任务间的距离选择合适的源任务。此外,本文还提出了两种相应的值函数迁移方法。在通用的实验场景上的实验结果表明,本文提出的度量能够有效地找到相似任务,避免负迁移;同时,所提出的度量和迁移方法能够显著提升算法的学习性能。2.针对强化学习迁移中如何判断迁移学习是否有效这一问题,提出了一种基于深度神经网络模型的识别一对迁移任务的正负迁移性能的方法。本文研究一类视频强化学习任务(Video Reinforcement Learning Tasks),该类任务的特征可由其任务描述图像表示,不同任务间的相关性(或差异)能够体现在图像中。在这类任务上,将预测迁移性能(正迁移或负迁移)的问题形式化为二分类问题;然后采用一个深度卷积神经网络自动学习两个任务的高层特征表示,并用一个全连接网络预测其迁移性能。在通用的实验场景上构造数据集并进行实验,结果表明,本文所提出的方法可以准确地预测迁移性能,并且显著优于对比方法。3.针对课程学习中如何构造合适.的课程这一问题,提出了一类基于源任务自动创建和任务相似度的构建迁移学习任务序列的方法。其主要创新点有:(1)基于面向对象的强化学习任务表示(Object-Oriented Representation),提出了三种简化任务的算子,用于修改目标任务生成源任务集合。(2)针对使用不同算子修改的任务,提出了相应的任务相似性度量方法,这些度量都是基于面向对象的表示,根据对象、状态等的相似性和差异性进行定义;同时,结合任务的难易程度定义了任务迁移潜能。(3)提出了两种基于迁移潜能的任务序列自动构造方法。在通用的实验场景上的实验结果表明,本文所提出的方法能够构造较好的任务序列,显著提升目标任务的学习速度,并且优于现有的最新算法。
【图文】：

源任务,目标任务,目标

识迁移到目标任务，来改变目标任务的学习过程；这相当于智能体在学习之前逡逑获得了一些先验知识，以指导其更好的进行学习。强化学习迁移的基本框架如逡逑图１．２所示。通常，强化学习迁移的过程可以分为三个步骤：（１）根据目标任逡逑务，选择合适的一个或多个源任务（和源任务中学到的知识）；（２）获得源任务逡逑和目标任务之间的相关性，根据该相关性生成迁移知识；（３）将迁移知识迁移逡逑到目标任务，学习目标任务。在连续的迁移场景中（如终身强化学习Ｌｉｆｅｌｏｎｇ逡逑Ｌｅａｍｉｎｇ［ｌ，，２４，邋１５１］），智能体学好目标任务后，可以将该任务及学到的知识也逡逑存入源任务库中，在未来遇到相似的新任务时复用该任务的知识（如图中虚线逡逑所示）。逡逑ＣＴ邋＞邋知识邋Ａ邋＾逦邋／逦Ａ邋逦逡逑源任务库知识Ｋ－２＾迁移算法－移－知％目标任务一＊学习算法Ｉ￣＾逡逑：逦‘逦／逦逦邋Ｉ逡逑■逦Ｋｎ邋Ｍ逦Ｉ逡逑Ｌ：．逦Ｊ逡逑图１．２：强化学习迁移的基本框架逡逑我们知道，如果源任务与目标任务相似，那么从源任务迁移知识到目标任逡逑务，很可能会提高智能体在目标任务的学习性能；反之，如果源任务和目标任逡逑务不相似

组织结构图,组织结构,源任务,负迁移

本文主要针对强化学习迁移中的负迁移问题，研究如何选择合适的源任务，逡逑从不同角度提出了相应的解决方法。全文共六章，各章的组织结构和主要研究逡逑内容如图１．３所示。其具体研宄内容可以概括如下：逡逑１．
【学位授予单位】：南京大学
【学位级别】：博士
【学位授予年份】：2018
【分类号】：TP181

【相似文献】