当前位置:主页 > 科技论文 > 自动化论文 >

基于直接强化学习的面向目标的仿生导航模型

发布时间:2020-02-17 19:08
【摘要】:针对连续动作和状态空间中面向目标的导航问题,依据海马结构中位置细胞相关特性和相关信息传递通路,构建海马位置细胞到前额叶皮层假设的动作细胞的脉冲神经网络模型.连续的状态空间和动作空间分别由位置细胞和动作细胞进行表征,模型采用直接强化学习与脉冲响应模型相结合的算法进行面向目标的自主导航.在Morris水迷宫环境中的仿真实验结果表明,该模型能够解决连续状态空间中面向目标导航问题,所采用算法在性能上优于传统的时间差分学习算法.调整网络中动作细胞的数量,模型的收敛性能不变,在改变状态空间和目标位置时,也可以实现面向目标的导航.
【图文】:

示意图,细胞突,示意图


I逦Delayed邋and邋weighted.逦i逡逑|逦postsynaptic邋potential^邋\逦|逡逑;/邋?邋■邋^邋^逡逑i邋/逦\邋Total邋potential邋Postsynaptic邋potentials逡逑Presynaptie/逦/邋\一邋|\逦A逡逑\邋i逦i邋/逦Stochastic邋threshold邋model逡逑:xs-?——^逦_逡逑Place邋cellj逦Delayed邋synaptic逦|逦Action邋cell逡逑图2位置细胞到动作细胞突触连接示意图逡逑Figure邋2邋The邋sketch邋map邋of邋synaptic邋from邋place邋cells邋to邋action邋cells逡逑中为最大放龟设定为100邋Hz,邋(m,?)是当前位置、,a表示位置野的宽度.由(1)式可}当前逡逑位置可由位置细胞群联合编码,通过这种密集编码方式,位置细胞对整个环境进行了表征.位置细胞逡逑被建模为Poisson神经元,所以,瞬时放电率为巧的位置细胞在:无穷小的持续时间(At)产生脉冲的逡逑可能性为b6(spike)邋=邋e邋r邋(^At)邋?悐p._}0)大宁一个到1之_.均句分布的随机懫样逡逑值时,位置细胞产生一个脉冲.逡逑模型假设前额叶皮层中存在着代表动物运动方向的动作细胞丨action邋cells),将动作细胞构建成环逡逑状模型,不同于文献[12,13,27],动作细胞之间不存在着横向突触连接.动作细胞被建模成脉冲响应模逡逑M邋(spikeiesponse:皿idel,SRM)邋_,位置细胞到动作细胞的突..触信息传递示?Yj图如画2所示,动作细逡逑胞i的膜电位为逡

动作空间,标位,连续状态,细胞的


、、、、、逡逑14-邋-邋'邋一一、■逡逑12-邋:;;;:■逦/邋l^vw-逡逑s./Z/Z/H邋t邋t邋t\邋^邋H逡逑/邋/邋M邋/逦f邋f邋\邋\邋\逡逑\逦/邋M邋\邋\邋.逡逑/邋/邋#逦逦逦//f邋令、、逡逑4_.邋,/#邋令\\邋\逦爹邋\\\.逡逑//邋/邋/邋\\邋\^-逦\邋v\逡逑2.,、、--,,,方丨、?逦*■逡逑\逦\逦<逦\逦\邋V邋?邋V邋t逦\邋I逡逑0l逦'逦'逦'逦逡逑0逦5逦10逦15逦20逡逑图10有障碍物环境中的导航地图逡逑Figure邋10邋Navigation邋map邋with邋obstacle邋environment逡逑5结论逡逑本文根据海马体到前额叶皮晨的生理学研究,,构建位置细胞到假设动作细胞的脉冲神经网络模逡逑型,在无先验知识的条件下,在连续的状态和动作空间中进行面向g标位置的导航,其中,状态空间由逡逑位置野构成,动作空间由动作细胞所代表的运动方向表示.本文使用基于脉冲响应模型的宣接强化学逡逑习,调节位置细胞到动作细胞的突触连接权构成整个状态空间的导航地图.仿真实验结果表明,该逡逑模型能够有效的学习到连续状态和动作空间面向S标位置的导航策略,所采用的方法在收敛性上优于逡逑传统的强化学习方法,在改变模型中位置细胞和动作细胞的数量、_目标位置以及在环境中加入障碍物逡逑后,模型也能够有稳定的表现,能够实现在连续状态和动作空_中的有效的学习和导航活动.逡逑模型采用脉冲神经网络,更加切合生物学事实,但也使得整个模型的计算鸶有所增加.仿真实验逡逑中,初始位置和目标位置是随机给定的二维坐标,使得模型输入信息不是智能体完全自主探测所得.


本文编号:2580486

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2580486.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户67f79***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com