强化学习迁移中的源任务选择研究
【图文】:
识迁移到目标任务,来改变目标任务的学习过程;这相当于智能体在学习之前逡逑获得了一些先验知识,以指导其更好的进行学习。强化学习迁移的基本框架如逡逑图1.2所示。通常,强化学习迁移的过程可以分为三个步骤:(1)根据目标任逡逑务,选择合适的一个或多个源任务(和源任务中学到的知识);(2)获得源任务逡逑和目标任务之间的相关性,根据该相关性生成迁移知识;(3)将迁移知识迁移逡逑到目标任务,学习目标任务。在连续的迁移场景中(如终身强化学习Lifelong逡逑Leaming[l,,24,邋151]),智能体学好目标任务后,可以将该任务及学到的知识也逡逑存入源任务库中,在未来遇到相似的新任务时复用该任务的知识(如图中虚线逡逑所示)。逡逑CT邋>邋知识邋A邋^逦邋/逦A邋逦逡逑源任务库知识K-2^迁移算法-移-知%目标任务一*学习算法I ̄^逡逑:逦‘逦/逦逦邋I逡逑■逦Kn邋M逦I逡逑L:.逦J逡逑图1.2:强化学习迁移的基本框架逡逑我们知道,如果源任务与目标任务相似,那么从源任务迁移知识到目标任逡逑务,很可能会提高智能体在目标任务的学习性能;反之,如果源任务和目标任逡逑务不相似
本文主要针对强化学习迁移中的负迁移问题,研究如何选择合适的源任务,逡逑从不同角度提出了相应的解决方法。全文共六章,各章的组织结构和主要研究逡逑内容如图1.3所示。其具体研宄内容可以概括如下:逡逑1.
【学位授予单位】:南京大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP181
【相似文献】
相关期刊论文 前10条
1 谢超兰;;高中英语任务型阅读教学初探[J];青少年日记(教育教学研究);2016年08期
2 杨玲丽;;优化方式,自主探究——“任务学习单”在综合实践活动中的运用[J];华夏教师;2014年S1期
3 华芳;;例谈用好“任务学习单”[J];七彩语文(教师论坛);2015年08期
4 ;介绍Jane Willis著《任务学习法概览》[J];外语教学与研究;1998年04期
5 许棣华;王志坚;;基于多任务学习的邮件过滤系统的研究[J];计算机技术与发展;2010年10期
6 李松林,甘健侯;基于任务学习法的素质教育研究[J];学术探索;2002年02期
7 余传明;李浩男;安璐;;基于多任务深度学习的文本情感原因分析[J];广西师范大学学报(自然科学版);2019年01期
8 韩凤娟;肖春静;王欢;;基于多任务学习的微博流行度预测[J];河南大学学报(自然科学版);2017年05期
9 马恺;;基于树结构的多任务学习算法[J];福建电脑;2017年09期
10 严育洪;;设计好“大任务”,让学生看见“知识就是力量”[J];小学教学(数学版);2018年03期
相关会议论文 前4条
1 ;任务驱动式教学法[A];中学教育科研2017年5-6期(总第216-217期)[C];2017年
2 张宇;张鹏远;颜永红;;基于注意力LSTM和多任务学习的远场语音识别[A];第十四届全国人机语音通讯学术会议(NCMMSC’2017)论文集[C];2017年
3 雷加美;;英语教学中的任务型阅读模式研究[A];十三五规划科研成果汇编(第二卷)[C];2017年
4 田满红;;中级工数学课程与专业结合的教学实践[A];中国职协2016年度优秀科研成果获奖论文集(学校二等奖)[C];2016年
相关重要报纸文章 前6条
1 江苏省无锡市锡山教师进修学校 严育洪;寻找撬起课堂的支点[N];中国教师报;2017年
2 记者 徐爱龙;紧抓首要政治任务学习宣传贯彻好十八大精神 紧密联系自身实际主动服务全面小康社会建设[N];甘肃日报;2012年
3 记者 徐爱龙;紧抓首要政治任务学习宣传贯彻好十八大精神 紧密联系自身实际主动服务全面小康社会建设[N];甘肃法制报;2012年
4 浙江省特级教师、金华市教育局教研室副主任 朱孝平;“完美”学习任务源自生动实践[N];中国教育报;2019年
5 本报记者 朱颖婕;课堂如何跟上“超越课本”的学生[N];文汇报;2018年
6 撰稿 段丽 策划 吉奉刚;MVP注入发展新动力[N];中国邮政报;2012年
相关博士学位论文 前5条
1 宋锦华;强化学习迁移中的源任务选择研究[D];南京大学;2018年
2 张晓彤;多任务聚类研究[D];大连理工大学;2018年
3 李亚;多任务学习的研究[D];中国科学技术大学;2018年
4 浦剑;多任务学习算法研究[D];复旦大学;2013年
5 杨名;矩阵广义逆高斯分布在多任务学习中的应用[D];浙江大学;2014年
相关硕士学位论文 前10条
1 马建阳;基于多任务学习的数据分类方法研究[D];北京交通大学;2018年
2 金凤;多视角的构建及其在单任务学习和多任务学习中的应用[D];华东师范大学;2010年
3 黄艾青;基于叠加模型的多任务学习及应用[D];中国科学技术大学;2015年
4 刘凌波;基于多任务学习的年龄估计研究[D];中南大学;2012年
5 戴美银;基于动态模糊集的半监督多任务学习[D];苏州大学;2012年
6 周茜;基于多任务学习的人脸识别方法[D];西北大学;2013年
7 邹亮;基于多任务学习的微博信息流重排序研究[D];西安电子科技大学;2017年
8 曹佳炯;基于多任务学习和度量学习的人脸属性分类研究[D];浙江大学;2018年
9 田贝贝;基于流形学习和多任务学习的肿瘤基因表达数据分类方法研究[D];武汉科技大学;2015年
10 罗忠莉;网络环境下任务牵引式教学在初中信息技术课程中的应用探究[D];云南师范大学;2017年
本文编号:2604268
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2604268.html