当前位置:主页 > 科技论文 > 机电工程论文 >

传送带给料生产加工站的神经元在线优化算法

发布时间:2020-09-10 21:55
   现实世界的一些生产加工企业中,存在一类由生产加工站作为加工主体的生产线,称为传送带给料生产加工站(CSPS)。论文研究CSPS系统的最优控制问题,其优化目标是通过合理选择站点的前视(look-ahead)控制策略,实现系统的长远期望代价达到最优。理论上,该优化问题可通过数值方法求解,但是该方法存在“建模难”的问题。基于性能势的在线策略迭代(OPI)算法能够克服该问题,然而学习过程中采用查表法,缺少信息泛化能力,且CSPS系统中行动空间是连续的,离散化时离散粒度将影响系统的优化性能。因此,论文应用小脑模型关节控制器(CMAC)神经网络和在线支持向量机(Online SVM)对CSPS系统进行在线优化。 论文首先应用CMAC神经网络逼近Q学习中具有连续行动值的Q值函数,并给出相应的在线Q学习。然后应用CMAC神经网络逼近OPI算法中的Q值函数或性能势函数以构造OPI-Q算法和OPI-Qg算法。实验结果表明,基于CMAC的各算法学习、收敛速度更快,使系统的平均代价值更接近理论最优值,具有良好的优化效果。 论文还应用在线支持向量机作为Q学习中的Q值函数的逼近器,并设计了两种基于在线支持向量机的Q学习算法。一种是为每个探索状态各设置一个在线支持向量机的OSVM-Q算法;另一种是只设置一个在线支持向量机,用来逼近CSPS系统的所有状态-行动对的Q值函数的OSVM-Q-1算法。仿真结果表明两算法均提高了学习系统的优化性能。
【学位单位】:合肥工业大学
【学位级别】:硕士
【学位年份】:2010
【中图分类】:TH237.1
【部分图文】:

传送带,给料


简要介绍传送带给料生产加工站(Conveyor-Serviced P称 CSPS)模型、CSPS 模型的控制模式和优化目标、半 MSemi-Markov Decision Process,简称 SMDP)及其优化目标inforcement Learning,简称 RL)的基本知识及其主要学习算涉及的基本概念和基本理论进行概括的介绍。最后,给出本结构安排。S 系统简介机器人技术的发展,机器人的应用领域和范围也随之不断扩一些生产加工企业中,存在一类由生产加工站作为加工主体先进制造业中的一些机器人装配线,其中,加工站由传送带工,这样的一类系统称为传送带给料生产加工站[1-6]。如图 1题是如何控制站点的前视(look-ahead)距离,使得系统的长远优。

基本方式,神经网络,迭代改进,神经元


迭代优化求解算法。神经元动态规划 CSPS 系统中,前视距离为一连续的行动变量于常规的强化学习算法只适用于状态-行动集间大、学习速度慢、学习效率低等问题,可决[39, 41-43]。神经元动态规划方法结合了仿真,它的基本思想是选择参数较少的网络逼近),然后通过仿真学习来迭代改进网络参数,态规划技术与强化学习结合在一起,主要是强大存储能力。一般来说,神经网络在这类外界的动作描述,将其作为神经网络的输入输出强化学习系统所需的 Q 值。采用将神经合的方式可以在很大程度上发挥它们各自特如图 3.1。

【引证文献】

相关硕士学位论文 前1条

1 刘冰;多工序传送带给料加工站系统协同优化控制方法研究[D];合肥工业大学;2012年



本文编号:2816377

资料下载
论文发表

本文链接:https://www.wllwen.com/jixiegongchenglunwen/2816377.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d42e5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com