基于强化学习的量子系统控制研究
发布时间:2021-10-05 18:13
量子系统控制的设计被认为是建立强大量子信息技术所需的关键任务,而在实际的应用中,量子系统的控制实验经常会面临不同的限制条件。对于一类控制资源有限的量子系统控制任务,本文提出利用强化学习算法解决该类问题。此外,从优化强化学习算法角度,本文提出了情绪强化学习并将其应用于量子系统控制问题中。针对基于现有强化学习算法解决量子系统控制问题,本文将待解决的量子控制任务建模为强化学习可优化解决的问题,其中根据可选择的酉操作数量的不同定义了两种控制方法:三开关控制和Bang-Bang控制。然后利用经典的强化学习算法学得令人满意的控制策略使得量子系统能够从初始态演化控制到目标态。本文设计了仿真实验,即在两种控制方法下分别利用Q学习、概率Q学习和量子强化学习算法验证了强化学习算法对于解决量子系统控制问题的有效性。针对利用新算法解决量子系统控制问题,首先,本文给出优化传统强化学习方法,即基于情绪理论设计强化学习奖励函数,提出了一种情绪强化学习算法。相比传统强化学习算法,新算法注重智能体的学习过程信息,允许智能体具备反思学习能力。然后,新算法与传统强化学习算法在迷宫环境下进行实验对比,实验结果表明新算法可以加...
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
量子比特的Bloch球面表示
南京大学硕士学位论文第二章量子系统及强化学习17图2.2探索策略展示greedy策略就是根据后继状态的状态值(或状态动作对值)来进行执行动作概率的分配。比如在图2.2所示在状态s的情况下,其下一个后继状态中值最大的为2s,greedy策略就是将执行动作2a的概率2p数值大小设置为1,除了动作2a外其他所有的动作的概率设置为n1,n代表可执行动作数量。Softmax策略的主要思想是利用下一个后继状态的值函数进行动作概率分配,具体以公式(2.16)的方法进行各个动作的执行概率分配。上述介绍的探索策略其本质上可被理解为强化学习基本框架中的状态转移概率问题,不同的探索策略对状态转移概率以各自不同的方式进行重置,但是在智能体真正做决策的时候,其往往是以一种产生随机数的方式进行,即智能体在每次执行动作时都会随机产生一个0至1之间的随机数,具体执行的动作取决于该随机数位于哪个动作概率区间。不难发现,相比无策略的学习(各个动作选择概率相同),采用学习策略(动作选择概率被重置)能够实现让智能体以更高效的方式进行学习,由此加速学习速率。
南京大学硕士学位论文第三章基于常见强化学习算法的量子系统控制21次可执行的动作为1U,2U和3U;在Bang-Bang控制方法下,智能体每次可选择的动作为2U和3U。针对在量子系统下的某一特定初始态initial|,图3.1展示了在三开关控制方法下自旋1/2系统的初始态在Bloch球面上的一步演化控制效果。可以看到,强化学习智能体在量子系统状态下可选择的动作数量为3个。图3.2是Bang-Bang控制方法下自旋1/2系统的初始态在Bloch球面上的一步演化控制效果,其表示出了强化学习智能体在与量子系统环境交互学习过程中可选择的动作数量为2个。图3.1三开关控制方法下自旋1/2系统初始状态的一步演化控制效果
本文编号:3420273
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
量子比特的Bloch球面表示
南京大学硕士学位论文第二章量子系统及强化学习17图2.2探索策略展示greedy策略就是根据后继状态的状态值(或状态动作对值)来进行执行动作概率的分配。比如在图2.2所示在状态s的情况下,其下一个后继状态中值最大的为2s,greedy策略就是将执行动作2a的概率2p数值大小设置为1,除了动作2a外其他所有的动作的概率设置为n1,n代表可执行动作数量。Softmax策略的主要思想是利用下一个后继状态的值函数进行动作概率分配,具体以公式(2.16)的方法进行各个动作的执行概率分配。上述介绍的探索策略其本质上可被理解为强化学习基本框架中的状态转移概率问题,不同的探索策略对状态转移概率以各自不同的方式进行重置,但是在智能体真正做决策的时候,其往往是以一种产生随机数的方式进行,即智能体在每次执行动作时都会随机产生一个0至1之间的随机数,具体执行的动作取决于该随机数位于哪个动作概率区间。不难发现,相比无策略的学习(各个动作选择概率相同),采用学习策略(动作选择概率被重置)能够实现让智能体以更高效的方式进行学习,由此加速学习速率。
南京大学硕士学位论文第三章基于常见强化学习算法的量子系统控制21次可执行的动作为1U,2U和3U;在Bang-Bang控制方法下,智能体每次可选择的动作为2U和3U。针对在量子系统下的某一特定初始态initial|,图3.1展示了在三开关控制方法下自旋1/2系统的初始态在Bloch球面上的一步演化控制效果。可以看到,强化学习智能体在量子系统状态下可选择的动作数量为3个。图3.2是Bang-Bang控制方法下自旋1/2系统的初始态在Bloch球面上的一步演化控制效果,其表示出了强化学习智能体在与量子系统环境交互学习过程中可选择的动作数量为2个。图3.1三开关控制方法下自旋1/2系统初始状态的一步演化控制效果
本文编号:3420273
本文链接:https://www.wllwen.com/kejilunwen/wulilw/3420273.html