多智能体深度强化学习方法及应用研究
发布时间:2022-01-23 00:14
在大数据时代,最亟待解决的问题是如何在海量数据中获取最需要的信息。这主要有两方面的困难,一是海量数据难以处理,二是人类社会是一个多智能体系统,智能体之间存在很大的差异性,难以对“最需要”这一模糊概念下统一的准确定义。因此,本论文研究多智能体深度强化学习方法,希望能学习出用户模式,在数据中挖掘到每个用户最需要的信息,最大化用户体验,进而可以根据用户模式实现定制化推荐系统、自动控制、智能资源动态分配以及智能导航等应用场景。一方面,深度学习能够利用深度神经网络,在复杂的数据中高效的提取特征,从而使得计算设备可以对抽象概念进行感知,因此是处理海量数据的有效手段。另一方面,强化学习通过奖励的设置可以对智能体进行定制化学习。随之而来的深度强化学习,可以利用深度神经网络直接从数据中提取特征,并最终学习到智能体的最优策略,这种强大的特征提取方法是传统强化学习方法所不具备的。但是多智能体深度强化学习却面临着更多的挑战。在多智能体系统中,智能体在决策时不仅需要考虑环境因素,更要考虑其他智能体的决策。此外,由于智能体存在的差异性,无法统一对其收益进行描述,难以学习和预测其行为。因此需要引入用户模式,用以描述...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:120 页
【学位级别】:博士
【部分图文】:
细胞壁的等效电路示意图
[84]-[87]。图1.2 多智能体深度强化学习的应用场景此外,多智能体深度强化学习的应用场景还包含其他领域。其中最有名的是在游戏领域中,以战胜世界围棋冠军的 AlphaGo[65]所闻名。在机器人领域,多个机器人可以学习出不互相干扰的最优行径路线[88],或者同类/异类机器人协作[89]。在自然语言处理方面,语言架构学习[90]、语义分析[91]、语句分析[92]、信息提取[93]等都是非常前沿的研究方向。另一个主要研究方向就是计算机视觉,希望计算机能直接从图像或视频中获取知识。深度强化学习的开山之作可以视为计算机视觉的一个应用[62][63],此外
[120]。图2.1 机器学习的分类与机器学习的其他两个分支不同的是,强化学习的思路来源于心理学,即利用试错法和奖励来训练智能体学习行为,这也是强化学习的精髓所在。强化学习算法大致分为三类:动态规划,蒙特卡洛和瞬时差分法。强化学习的基本环境是一个马尔科夫决策过程。一个马尔科夫决策过程包含五个量,即 , , ,
本文编号:3603191
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:120 页
【学位级别】:博士
【部分图文】:
细胞壁的等效电路示意图
[84]-[87]。图1.2 多智能体深度强化学习的应用场景此外,多智能体深度强化学习的应用场景还包含其他领域。其中最有名的是在游戏领域中,以战胜世界围棋冠军的 AlphaGo[65]所闻名。在机器人领域,多个机器人可以学习出不互相干扰的最优行径路线[88],或者同类/异类机器人协作[89]。在自然语言处理方面,语言架构学习[90]、语义分析[91]、语句分析[92]、信息提取[93]等都是非常前沿的研究方向。另一个主要研究方向就是计算机视觉,希望计算机能直接从图像或视频中获取知识。深度强化学习的开山之作可以视为计算机视觉的一个应用[62][63],此外
[120]。图2.1 机器学习的分类与机器学习的其他两个分支不同的是,强化学习的思路来源于心理学,即利用试错法和奖励来训练智能体学习行为,这也是强化学习的精髓所在。强化学习算法大致分为三类:动态规划,蒙特卡洛和瞬时差分法。强化学习的基本环境是一个马尔科夫决策过程。一个马尔科夫决策过程包含五个量,即 , , ,
本文编号:3603191
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3603191.html