当前位置:主页 > 科技论文 > 仪器仪表论文 >

基于内在激励学习机制的电子鼻系统

发布时间:2024-05-20 01:47
  电子鼻技术发展至今已有几十年的历史,在环境监测、食品安全、医疗诊断等方面得到了广泛的应用。嗅觉和其他人类知觉类似,是一种主动感知(Active Perception)过程,可以用马尔可夫决策过程(MDP)来描述,强化学习是解决MDP问题的重要的方法。近年来,结合了深度学习的强化学习算法(如DQN、A3C等)取得了很大的突破,受到了越来越多的重视。传统的强化学习算法依赖外部奖励信号,但在外部奖励稀疏或者缺乏时强化学习算法便无法适用。而生物体可以在只有稀疏外部奖励信号或者没有外部奖励信号的情况下进行学习。本文在生物学习的仿生基础上提出了一种基于内在激励学习机制的强化学习框架,模拟生物在学习过程中产生内部奖励信号(如好奇心和赋能),通过内部奖励信号和外部奖励信号共同作用,以弥补强化学习的缺陷。针对目前电子鼻存在的不足,本文应用基于内在激励学习机制的强化学习框架来提高电子鼻性能。主要进行了以下研究:(1)硬件传感器由于其电子特性、数量等原因决定了电子鼻无法与生物嗅觉相媲美,本文尝试在改善进气气道设计、传感器布置以及动态调制采样速度基础上,将传统的静态分类算法,转换为动态马尔可夫决策过程,以充分...

【文章页数】:67 页

【学位级别】:硕士

【部分图文】:

图1-1机器学习分类结构图??监督学习在分类时存在很多问题,例如泛化问题、正确学习数据的选择和处??

图1-1机器学习分类结构图??监督学习在分类时存在很多问题,例如泛化问题、正确学习数据的选择和处??

奖励信号才能得以持续工作。在许多场景下,比物嗅觉机制一样,生物进行嗅探行为并不是或者了奖励信号刺激,而是生物内在自发的根据自身在少数,而是广泛存在于各种现实场景,在外部,传统的强化学习算法将不再适用。因此,如何术领域的重要研究方向。??可获取和计算机算力的快速提升,图形图像识别得....


图1-2论文章节结构图??以下是图丨-2中论文的具体结构:??

图1-2论文章节结构图??以下是图丨-2中论文的具体结构:??

着更高的准确性。??1.5.2?本文的主要贡献??(1)提出了一种基于内在激励学习机制的强化学习框架;??(2)在框架中使用两种方式组成内在激励信号;??(3)实验研究了不同气体(黄酒、VOC气体)的进气流速与传感器响应的??关系,并将本文的框架与现有分类算法进行对比。??1.5....


图2-s外部激励行为和内部激励行为流程对比图

图2-s外部激励行为和内部激励行为流程对比图

?基于内在激励学习机制的电子鼻系统???动?他们从事各种各样的活动,出于好奇或乐趣,没有得到回报。这种行为在成??人和动物身上也能观察到,这种行为现象被称为内在动机。心理学家依据动机的??来源区分内在动机和外在动机。当奖励来自环境时,它被称为外部动机。??大脑会同时受外部环境和内....


图3-1现有强化学习框架??

图3-1现有强化学习框架??

现有强化学习框架是Agent在已有动作序列中选择一个动作对环境产生影??响,环境把观测值和外部奖励反馈给Agent,然后Agent据此使用算法对下一个??动作序列进行动作选取。如图3-1:??atu动作???观测值〇,?t??环境?Agent?一???^?DQN,A3C算法??外....



本文编号:3978773

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yiqiyibiao/3978773.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9e49d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com