基于样本优选与演示的深度强化学习
发布时间:2021-04-13 17:22
经过多年发展,深度强化学习的理论研究已经逐步成熟,在解决高维原始输入数据问题和控制决策问题上表现得尤为突出。但是面对复杂的环境,深度强化学习算法在网络进行训练时需要耗费大量的时间,从而导致算法效率不高。针对这一问题,本文的主要研究内容为:第一,针对随机选择样本进行经验回放而导致智能体训练效率低下的问题,提出了基于样本优选的优先经验回放算法。首先,根据预训练网络生成样本选择的阈值,选取优先级较高的样本进入优先回放单元;其次,在训练过程中,通过优先级更新的方法,加大优先级高的样本被挑选的概率,使得智能体更快地学习到最终目标;最后,采用了部分奖励重塑的方法,对最终目标的前几步给予一个额外的奖赏,使智能体在最后探索时能朝着最终目标更快的学习。第二,针对在已有演示样本的实验环境中,如何利用演示样本提高智能体训练效率的问题,提出了基于演示样本的深度逆强化学习算法。首先,通过预训练网络使智能体尽可能的模仿演示样本;其次,通过深度学徒学习网络重新构建演示样本的回报函数,输出演示样本中动作的策略分布,并且通过逆强化学习网络重新构建随机探索样本的回报函数;最后,利用重构的回报函数与动作的策略分布构建深度正...
【文章来源】:中国矿业大学江苏省 211工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
深度强化学习的各种应用
离散Figure3-2Discreteexp
硕士学位论文34(a)Acrobot-v1(b)MountainCar-v0(c)Riverraid-v0(d)Breakout-v0图3-3回报曲线Figure3-3Returncurve图3-3给出了三种算法在四个离散动作空间上的回报曲线。在Acrobot-v1与MountainCar-v0中,与原始DQN相比,基于样本优选的优先经验回放DQN能更快的学习到最终目标,且回报也更好。由图3-3中的(a)可知,基于样本优选的优先经验回放在实验起始时间段与DQN算法、优先经验回放DQN算法的回报值相差不大,并且三种算法的回报曲线初始时刻都有十分明显的波动,这是因为初始时刻的状态时随机从环境中获取的,且刚开始训练的过程中,智能体探索的动作要比利用更大一些,所以回报曲线的起伏会很大。随着训练时间的延长,探索的动作所占比例会越来越小,回报曲线也会逐渐趋于稳定。同样,在图3-3中(b)的回报曲线中,也会发现同样的情况。最初的300步中,基于样本优选的优先经验回放在实验起始时间段与DQN算法、优先经验回放DQN算法的回报值都具有波动大、回报值不稳定的特点。但相较于优先经验回放DQN,基于样本优选的优先经验回放算法的回报提升的不明显。究其原因,可能是Acrobot-v1与MountainCar-v0环境中动作空间相对简单,状态数较少,在Acrobot-v1中,只有智能体超过上方的黑线时才能得到回报,而在MountainCar-v0中,只有当小车到达山顶之后,才能获得有效回报。所以在这两个环境中,样本的状态数少,回报更为稀疏,而基于样本优选的优先经验回放DQN主要是针对样本进行优化从而提高智能体获得的回报值,所以与优先经验回放DQN相比,回报有所提高,但
【参考文献】:
期刊论文
[1]机器学习的主要策略综述[J]. 闫友彪,陈元琰. 计算机应用研究. 2004(07)
本文编号:3135709
【文章来源】:中国矿业大学江苏省 211工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
深度强化学习的各种应用
离散Figure3-2Discreteexp
硕士学位论文34(a)Acrobot-v1(b)MountainCar-v0(c)Riverraid-v0(d)Breakout-v0图3-3回报曲线Figure3-3Returncurve图3-3给出了三种算法在四个离散动作空间上的回报曲线。在Acrobot-v1与MountainCar-v0中,与原始DQN相比,基于样本优选的优先经验回放DQN能更快的学习到最终目标,且回报也更好。由图3-3中的(a)可知,基于样本优选的优先经验回放在实验起始时间段与DQN算法、优先经验回放DQN算法的回报值相差不大,并且三种算法的回报曲线初始时刻都有十分明显的波动,这是因为初始时刻的状态时随机从环境中获取的,且刚开始训练的过程中,智能体探索的动作要比利用更大一些,所以回报曲线的起伏会很大。随着训练时间的延长,探索的动作所占比例会越来越小,回报曲线也会逐渐趋于稳定。同样,在图3-3中(b)的回报曲线中,也会发现同样的情况。最初的300步中,基于样本优选的优先经验回放在实验起始时间段与DQN算法、优先经验回放DQN算法的回报值都具有波动大、回报值不稳定的特点。但相较于优先经验回放DQN,基于样本优选的优先经验回放算法的回报提升的不明显。究其原因,可能是Acrobot-v1与MountainCar-v0环境中动作空间相对简单,状态数较少,在Acrobot-v1中,只有智能体超过上方的黑线时才能得到回报,而在MountainCar-v0中,只有当小车到达山顶之后,才能获得有效回报。所以在这两个环境中,样本的状态数少,回报更为稀疏,而基于样本优选的优先经验回放DQN主要是针对样本进行优化从而提高智能体获得的回报值,所以与优先经验回放DQN相比,回报有所提高,但
【参考文献】:
期刊论文
[1]机器学习的主要策略综述[J]. 闫友彪,陈元琰. 计算机应用研究. 2004(07)
本文编号:3135709
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3135709.html