当前位置:主页 > 管理论文 > 领导决策论文 >

稳定的深度增强学习算法研究

发布时间:2022-01-08 02:18
  深度增强学习是深度学习和增强学习的有机结合,继承了他们各自的优点,包括深度学习对事物较强的感知能力以及增强学习较强的决策能力,但也仍具有深度学习或增强学习中存在的一些问题。如较多基于值的深度增强学习算法仍具有原始增强学习算法中的过高(低)计问题,过高(低)估计会产生正(负)偏差从而影响算法的稳定性,因此本文针对该问题进行了以下工作:(1)分析研究了影响增强学习稳定性的因素,从偏差和方差两大方面进行了探讨。在偏差方面包括正偏差、负偏差和妄想偏差;在方差方面包括随机方差和重要性采样方差。本文分析了这些因素产生的原因和对算法稳定性造成的影响,为解决这些问题提供了思路。(2)针对解决正负偏差问题,本文创新的提出了一种名为交错存取的解决方法,该方法包括三个部分:一是提出了一种新的估计器——耦合估计器,耦合估计器可以权衡最大估计器和双估计器产生的正负偏差,提高估计的准确率;二是对耦合估计器的耦合率提出了一种创新的设计方式,使得耦合率可以根据样本的变化自适应的调节进而提高性能;三是在耦合估计器的基础上引入交错存取的方式,进一步降低耦合估计器的方差。本文将这三部分统称为交错存取方法。(3)将交错存取方... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

稳定的深度增强学习算法研究


一个简单的马尔可夫决策过程实例

样本,差别


样就把最大估计器和双估计器统一起来,它们之间唯一的差别就两个估计器是否独立,而估计器的独立取决取估计器所用的样本是否独立,形象的表示如图 3-1: (a)

过程图,样本,过程,估计值


电子科技大学硕士学位论文20图3-2通过耦合样本得到耦合估计器的过程现在我们将最大估计器,双估计器和耦合估计器统一到了同一层面:最大估计器为两个完全相同的估计器;双估计器为两个相互独立的估计器;耦合估计器为两个相互耦合的估计器,且三种估计器都采用交叉估计的方式。因而耦合估计器是最大估计器和双估计器的中间状态,其估计值也应在两者之间,即:(())≤(())≤(()),具体证明如下:(())=((2))=(∑()(2))=∑()((1∩2)+(1)(1∩2))=∑()(((1∩2))+(1)((1∩2)))=∑()(()+(1)())(3-2)由上述推导可以看耦合估计器的估计值是最大估计器和双估计器关于耦合系数的加权,从而可以由此推出耦合估计器估计值的上下界:上界:(())=∑()(()+(1)())

【参考文献】:
期刊论文
[1]深度强化学习综述[J]. 刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.  计算机学报. 2018(01)
[2]关于詹森不等式证明不等式问题[J]. 刘勇.  科教文汇(中旬刊). 2009(10)



本文编号:3575709

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3575709.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户20ab1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com