免参数调节的学习自动机算法研究
发布时间:2025-01-01 06:51
学习自动机,是一种借助与环境的不断交互调整自身的学习机制,其理论模型隶属于机器学习中强化学习的范畴。学习自动机由于其所具有的快速收敛、全局优化、抗噪能力和完备理论等特点,已受到了相当程度的关注,并且已在模式识别、函数优化、路径规划等领域得到了初步应用。然而,目前学习自动机算法的性能在很大程度上受超参数设置的影响。为获得合适的超参数取值,需要寻优以调节参数设置,而参数调节通常会带来大量的计算开销。特别地,在与环境交互代价大的场景下,超参数调节可能会带来高昂甚至毁灭性的损失,从而成为学习自动机发展的一大瓶颈。因此,从免参数调节的角度拓展其理论使之适用于应用场景已经成为学习自动机领域的发展趋势。有鉴于此,本文深入研究了学习自动机算法的免参数调节机制,在有限与连续行为集合、平稳与非平稳环境下的免参数调节机制方面丰富和完善了目前的学习自动机理论,创新性工作归纳如下:第一,针对平稳环境下有限行为集合学习自动机(FALA)理论,本文分析了现有绝大多数含超参数算法对参数的依赖和寻参代价、以及唯一不含超参数算法无法摆脱概率向量的局限性,设计了使得采样策略和终止条件不依赖于概率向量的免参数调节思路,分别从损...
【文章页数】:179 页
【学位级别】:博士
【部分图文】:
本文编号:4022200
【文章页数】:179 页
【学位级别】:博士
【部分图文】:
图1–1论文组织结构
图1–1展示了后续各章节的组织结构安排情况,具体如下:第一章介绍了论文的研究背景和意义、国内外研究现状以及本文的研究内容。
图2–1学习自动机与随机环境的交互框架
数学上描述的学习自动机模型通常包含了学习自动机与随机环境两大实体,通过行为和反馈形成了一个闭环循环。学习自动机与随机环境的交互示意如下图2–1[76]所示,以下是其简要的运作流程:在t时刻,学习自动机从行为集合中选择一个行为α(t)并输送给随机环境。随机环境收到行为后响应一个反馈....
图3–1当前含超参数学习自动机与不含超参数学习自动机的算法框架图
事实上,虽然该算法通过去掉行为选择概率向量的方式达成了免参数调节的效果,但取代行为选择概率向量功能的变量是对每个行为好坏性能的假设,本质上也是一个概率向量。如图3–1所示,在学习自动机算法的行为选择、状态更新和终止判定的依据选取上,PFLA实现了从P=[p1,p2···pr]到P....
图3–2在环境E1-E5中LFPLAmulti相对于对比算法的性能
更进一步,表3–14给出了LFPLAmulti与一些经典FALA算法的准确率对比结果,表3–15给出了LFPLAmulti与一些经典FALA算法的迭代数对比结果,图3–2以图形方式以图形方式给出了本节算法在迭代数角度的提升性能,其中,LFPLAmulti采用了最好的采样策略即汤普....
本文编号:4022200
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/4022200.html
上一篇:基于QPSO算法求解复杂优化问题的策略研究
下一篇:没有了
下一篇:没有了