聚焦对象的Q值学习算法改进研究
发布时间:2021-07-09 03:47
本论文主要研究聚焦对象的Q值学习算法改进。强化学习是机器学习中一大分支,其中Q值学习算法是一个经典的算法。Q值学习算法缺点之一是无法应用于状态较多的场景。聚焦对象的Q值学习算法是Q值学习算法的一种改进算法,可以应用于特定的状态更多的场景。通过人为分类场景中的对象,分解场景的状态空间,指数级减少了该场景的状态空间的规模,使算法可以在一定时间内训练出结果。本论文将从稳定性、收敛速度等角度研究改进聚焦对象的Q值学习算法。论文主要内容如下:首先将传统的聚焦对象的Q值学习算法与基于模型的学习算法相结合,在原算法的流程中结合了Prioritized Sweeping算法。算法在训练的同时增加了对模型采样学习的步骤。通过实验验证该改进加快收敛速度。第二,尝试改变聚焦对象的Q值学习算法使用的控制策略,通过场景测试不同控制策略对收敛的影响。原算法改进了控制策略,再结合基于模型的学习算法后,减少了原算法的参数数量,内存开销更低,收敛更加稳定。第三,论文尝试从提高计算资源利用的角度改进聚焦对象的Q值学习算法。将传统的结合基于模型学习的算法步骤中,模型学习的部分通过异步方式实现。本论文参考已有的Actor-C...
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
马尔可夫决策过程下agent环境交互马尔可夫决策过程给出了一种简洁的框架,即agent从交互中学习,实现目标
东南大学硕士学位论文2.4 模型学习和无模型学习结合的算法基于模型的方法主要是以规划为重心,而无模型方法主要依赖于探索学习。规划和学习相结合是是多年来逐渐发展起来的一种方法[39][40][41][42][43]。Equation Section (Next)2.4.1 模型和无模型结合的方法模型方法和无模型方法有着共通点,即都是关于值函数计算的方法。所有的方法都是基于对未来事件的预测,用这个值来更新值函数。不断的做值函数近似值。因此,可以将二者相结合。如图 2-1 就是一种模型和无模型相结合的典型框架。
估 的两个相邻的值,这样 T 集合中每个类的阈值 小个候选值。阈值集 T 运行固定周期数,分别比较这三个值得到的期得到最高期望奖赏的那个值 。下次更新就取新阈值 为 10%时算法在不同的应用场景下都有不错的效果[17], 。例像素游戏 Space Invader 为例,简单介绍一下聚焦对象算法的区别。der 是经典的像素游戏之一,界面如图 3-1:
本文编号:3272957
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
马尔可夫决策过程下agent环境交互马尔可夫决策过程给出了一种简洁的框架,即agent从交互中学习,实现目标
东南大学硕士学位论文2.4 模型学习和无模型学习结合的算法基于模型的方法主要是以规划为重心,而无模型方法主要依赖于探索学习。规划和学习相结合是是多年来逐渐发展起来的一种方法[39][40][41][42][43]。Equation Section (Next)2.4.1 模型和无模型结合的方法模型方法和无模型方法有着共通点,即都是关于值函数计算的方法。所有的方法都是基于对未来事件的预测,用这个值来更新值函数。不断的做值函数近似值。因此,可以将二者相结合。如图 2-1 就是一种模型和无模型相结合的典型框架。
估 的两个相邻的值,这样 T 集合中每个类的阈值 小个候选值。阈值集 T 运行固定周期数,分别比较这三个值得到的期得到最高期望奖赏的那个值 。下次更新就取新阈值 为 10%时算法在不同的应用场景下都有不错的效果[17], 。例像素游戏 Space Invader 为例,简单介绍一下聚焦对象算法的区别。der 是经典的像素游戏之一,界面如图 3-1:
本文编号:3272957
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3272957.html