利用高斯过程对金融市场中的在线知识选择性重用的探索研究
发布时间:2023-11-14 17:35
金融市场的资产价格形成机制复杂。受到宏观与微观因素的影响,金融市场的环境总是处在不断地变化之中,这种非平稳的特性使得仅用单一策略刻画金融市场的算法(如ARMA、SVR、NN等)往往在样本内外存在着较大的差异性。为了解决环境非平稳的问题,强化学习的技术被引入了金融市场的在线动态决策问题中。强化学习(Reinforcement Learning,以下简称为RL)是一个智能体在与环境交互的过程中,通过与环境的交互反馈来学习如何采取动作,从而获得最大累积奖励的训练过程,它在许多场景都有着广泛的应用。利用反馈的信息,智能体具备了感知市场动向的能力,从而确保模型可以动态在线地纠正对环境的认识,不断适应变化的环境。然而前人应用在金融领域的强化学习技术依然遗留一个难点:由于市场风格的切换可能是很快的,当智能体依据反馈进行样本级别的更新时,很可能需要花费很久才能学出当前环境下的最优策略,在这一过程中原有的旧知识可能会成为一种阻碍;而如果抛弃旧知识的桎梏,每次都从白板学起,那么首先旧有的知识会被白白浪费,其次当未来又切换到原有风格上,智能体又需要重新学习,并且也无法保证模型学完前环境不会切换到其他风格。为...
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 序言
第一节 选题背景
第二节 问题描述及研究方法
第三节 结构安排
第二章 文献综述
第一节 投资策略研究
第二节 强化学习中的利用与探索
一、利用知识的研究
二、探索知识的研究
第三章 问题定义及模型描述
第一节 问题描述与符号定义
第二节 预备知识
一、探索与利用
二、高斯过程
三、策略重用
第三节 模型框架
一、奖励及遗憾的定义
二、GP的植入
三、如何利用EE植入探索
四、如何结合PR提升重用效率
五、模型框架总结
第四章 实验验证
第一节 主实验准备
一、数据集描述
二、任务描述
三、对比基线策略
四、评价指标
第二节 主实验结果与结论
一、十年期CBTBAI vs现金
二、不同久期CBTBAI之间的动态切换
三、烧蚀实验
第三节 辅助实验
一、任务描述
二、实验设计
三、结果分析
第五章 总结
参考文献
附录 A 股价的形成机理
致谢
个人简历及研究成果
本文编号:3863875
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 序言
第一节 选题背景
第二节 问题描述及研究方法
第三节 结构安排
第二章 文献综述
第一节 投资策略研究
第二节 强化学习中的利用与探索
一、利用知识的研究
二、探索知识的研究
第三章 问题定义及模型描述
第一节 问题描述与符号定义
第二节 预备知识
一、探索与利用
二、高斯过程
三、策略重用
第三节 模型框架
一、奖励及遗憾的定义
二、GP的植入
三、如何利用EE植入探索
四、如何结合PR提升重用效率
五、模型框架总结
第四章 实验验证
第一节 主实验准备
一、数据集描述
二、任务描述
三、对比基线策略
四、评价指标
第二节 主实验结果与结论
一、十年期CBTBAI vs现金
二、不同久期CBTBAI之间的动态切换
三、烧蚀实验
第三节 辅助实验
一、任务描述
二、实验设计
三、结果分析
第五章 总结
参考文献
附录 A 股价的形成机理
致谢
个人简历及研究成果
本文编号:3863875
本文链接:https://www.wllwen.com/jingjilunwen/hongguanjingjilunwen/3863875.html