基于自适应动态规划的分布式控制研究及应用
发布时间:2023-04-22 06:16
近几年来,鉴于社会对复杂系统经济调度、资源分配、网络布局等优化问题的迫切需求,分布式最优控制已经成为控制科学领域中的一个研究热点。分布式最优控制问题需要对Hamilton-Jacobi-Bellman(HJB)方程进行求解,由此带来“维数灾难”问题。自适应动态规划(Adaptive Dynamic Programming,ADP)融合了动态规划、增强学习、神经网络、自适应控制、最优控制等理论和方法,是解决“维数灾难”问题的有效方法之一。因此,本文利用ADP方法研究多智能体系统的跟踪控制问题、包含控制问题、反同步控制问题以及下肢助行外骨骼机器人的人机协同控制问题。针对这些控制问题,我们提出了模型未知情况下的分布式控制器设计方法,并且对传统的ADP算法和神经网络结构进行了有效改进,提高了多智能体系统的分布式控制性能。本文的主要研究结果如下:1.研究了离散时间多智能体系统的最优跟踪控制问题。提出了一种新的ADP算法,即两阶段策略迭代算法来计算迭代控制律和迭代性能指标函数。与经典的策略迭代ADP算法相比,该算法包含一个子迭代过程来计算策略评估过程的迭代性能指标函数。其次,给出了迭代性能指标函数...
【文章页数】:133 页
【学位级别】:博士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究工作的背景与意义
1.2 国内外研究发展与现状
1.2.1 自适应动态规划
1.2.1.1 传统的自适应动态规划
1.2.1.2 无模型的增强学习
1.2.2 基于ADP的多智能体系统控制
1.3 本文的主要研究内容及组织结构
第二章 自适应动态规划的理论基础
2.1 动态规划的基本原理
2.1.1 离散时间系统的动态规划
2.1.2 连续时间系统的动态规划
2.2 自适应动态规划的基本框架
2.3 近似迭代算法原理
2.3.1 值迭代算法
2.3.2 策略迭代算法
2.4 本章小结
第三章 基于数据驱动的多智能体系统最优跟踪控制
3.1 引言
3.2 最优跟踪控制问题建模
3.3 分布式最优控制设计
3.3.1 离散Hamilton-Jacobi-Bellman方程
3.3.2 两阶段策略迭代算法
3.3.3 算法性能及控制系统稳定性分析
3.4 基于神经网络的在线学习实现方法
3.4.1 Critic网络设计
3.4.2 Actor网络设计
3.5 数值仿真分析
3.6 本章小结
第四章 基于自适应动态规划的多智能体系统包含控制
4.1 引言
4.2 离散时间系统的包含控制问题
4.2.1 最优包含控制问题建模
4.2.2 分布式最优控制设计与分析
4.2.3 执行-评价神经网络的控制实现
4.2.4 数值仿真分析
4.3 带有扰动的连续时间系统的包含控制问题
4.3.1 分布式最优包含控制设计
4.3.2 稳定性分析
4.3.3 最优控制的在线学习
4.3.4 数值仿真分析
4.4 本章小结
第五章 合作-竞争网络下多智能体系统的最优输出反同步控制
5.1 引言
5.2 最优输出反同步控制问题建模
5.3 基于输入-输出数据的多智能体系统模型重构
5.4 基于可测数据的分布式最优控制设计
5.4.1 基于可测数据的值迭代算法
5.4.2 系统稳定性分析
5.4.3 算法收敛性分析
5.5 增量式执行-评价网络在线求解方法
5.5.1 增量式Critic网络设计
5.5.2 增量式Actor网络设计
5.5.3 在线学习控制算法
5.6 数值仿真分析
5.7 本章小结
第六章 基于自适应动态规划的下肢外骨骼机器人助行控制
6.1 引言
6.2 外骨骼系统人机协同控制问题建模
6.2.1 穿戴者-外骨骼交互机制
6.2.2 系统动力学建模与问题描述
6.3 基于自适应动态规划的分布式控制策略
6.3.1 分布式助行控制算法设计
6.3.2 基于神经网络的在线学习机制
6.4 仿真实验分析
6.4.1 数值仿真分析
6.4.2 下肢助行外骨骼实验验证
6.5 本章小结
第七章 总结与展望
7.1 全文总结
7.2 后续工作展望
致谢
参考文献
攻读博士学位期间取得的成果
本文编号:3797082
【文章页数】:133 页
【学位级别】:博士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究工作的背景与意义
1.2 国内外研究发展与现状
1.2.1 自适应动态规划
1.2.1.1 传统的自适应动态规划
1.2.1.2 无模型的增强学习
1.2.2 基于ADP的多智能体系统控制
1.3 本文的主要研究内容及组织结构
第二章 自适应动态规划的理论基础
2.1 动态规划的基本原理
2.1.1 离散时间系统的动态规划
2.1.2 连续时间系统的动态规划
2.2 自适应动态规划的基本框架
2.3 近似迭代算法原理
2.3.1 值迭代算法
2.3.2 策略迭代算法
2.4 本章小结
第三章 基于数据驱动的多智能体系统最优跟踪控制
3.1 引言
3.2 最优跟踪控制问题建模
3.3 分布式最优控制设计
3.3.1 离散Hamilton-Jacobi-Bellman方程
3.3.2 两阶段策略迭代算法
3.3.3 算法性能及控制系统稳定性分析
3.4 基于神经网络的在线学习实现方法
3.4.1 Critic网络设计
3.4.2 Actor网络设计
3.5 数值仿真分析
3.6 本章小结
第四章 基于自适应动态规划的多智能体系统包含控制
4.1 引言
4.2 离散时间系统的包含控制问题
4.2.1 最优包含控制问题建模
4.2.2 分布式最优控制设计与分析
4.2.3 执行-评价神经网络的控制实现
4.2.4 数值仿真分析
4.3 带有扰动的连续时间系统的包含控制问题
4.3.1 分布式最优包含控制设计
4.3.2 稳定性分析
4.3.3 最优控制的在线学习
4.3.4 数值仿真分析
4.4 本章小结
第五章 合作-竞争网络下多智能体系统的最优输出反同步控制
5.1 引言
5.2 最优输出反同步控制问题建模
5.3 基于输入-输出数据的多智能体系统模型重构
5.4 基于可测数据的分布式最优控制设计
5.4.1 基于可测数据的值迭代算法
5.4.2 系统稳定性分析
5.4.3 算法收敛性分析
5.5 增量式执行-评价网络在线求解方法
5.5.1 增量式Critic网络设计
5.5.2 增量式Actor网络设计
5.5.3 在线学习控制算法
5.6 数值仿真分析
5.7 本章小结
第六章 基于自适应动态规划的下肢外骨骼机器人助行控制
6.1 引言
6.2 外骨骼系统人机协同控制问题建模
6.2.1 穿戴者-外骨骼交互机制
6.2.2 系统动力学建模与问题描述
6.3 基于自适应动态规划的分布式控制策略
6.3.1 分布式助行控制算法设计
6.3.2 基于神经网络的在线学习机制
6.4 仿真实验分析
6.4.1 数值仿真分析
6.4.2 下肢助行外骨骼实验验证
6.5 本章小结
第七章 总结与展望
7.1 全文总结
7.2 后续工作展望
致谢
参考文献
攻读博士学位期间取得的成果
本文编号:3797082
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3797082.html