当前位置:主页 > 经济论文 > 企业经济论文 >

基于深度强化学习的交易策略技术研究

发布时间:2020-03-21 13:31
【摘要】:量化交易策略通常由数据特征提取、算法的构建及学习三部分组成。在日内交易中,影响交易策略盈利的关键因素是交易手续费和行情数据规律的挖掘。以循环强化学习(RRL)为代表的交易策略经典算法,可通过动作反馈降低交易成本,但是RRL没有考虑行情数据的特征提取。深度强化学习作为解决上述问题的一种途径,一方面通过神经网络表达马尔科夫决策过程,另一方面通过神经网络提取高维抽象特征。本文研究的关键问题是如何应用深度强化学习方法,从数据的状态表示、特征提取和策略表示三个方面,构建并学习交易策略,以在日内交易中获利。针对上述问题,本文以实验室承担的实际项目为背景,在对经典RRL算法、深度强化学习等相关技术深入研究的基础上,提出了一种基于深度强化学习的交易策略DDRRL。首先,考虑单因子价格回报作为状态表示,并基于RRL的策略表示采用深度网络构建MODRRL交易策略。然后,DDRRL在MODRRL网络的基础上,改进为多因子状态表示和双网络特征提取,进一步提高平均日收益。两种交易策略在沪深300股指期货IF和中证500股指期货IC上验证有效性。本文工作意义及要点如下:1)构建MODRRL交易策略。状态表示的时间窗口长度和特征提取网络是发现数据特征的关键因素。通过实验对比不同长度的时间窗口以及不同网络特征提取效果,选择窗口长度为120和多层全连接网络进行特征提取;考虑因日内步长而产生梯度消失问题,使用LSTM网络实现基于RRL的决策网络;为降低平均日收益损失,采用多目标学习方式,实验表明该方法在IF上平均日收益提高约0.4个点。2)构建DDRRL交易策略。基于MODRRL,在4种多因子状态表示组合、价格短期变化的特征提取和不同策略表示三个方面分别进行实验分析。采用基于价格回报和交易量的状态表示,并加入基于价格回报预测的特征提取网络,实验表明双网络特征提取在IF上平均日收益提高约0.6个点。3)基于TensorFlow计算框架实现MODRRL和DDRRL的交易策略。为提高网络泛化能力,深入研究Dropout,自适应学习率的优化器等方法。实验表明在交易手续费为每手1.5个点时,DDRRL在IF上平均日收益达到1个点。交易手续费为每手2个点时,在IC上平均日收益达到2个点。
【图文】:

训练集,时间段,时间窗口,取值范围


身有较稳定的变化范围,,对价格回报进行预处理(标准化,归一化,或者正则化),效果没有提升。所以 MODRRL 交易策略没有对价格回报进行预处理。3.1.2 时间窗口长度对平均日收益影响分析由 3.1.1 可知,环境状态由前面 m 个时间段的价格回报组成。该方法认为市场在当前时刻的状态与前面 m 个时间段的价格回报密切相关。前 m 段的价格回报展现了市场价格发展的走势,以及变化的情况。前 m 个时间段的价格一直上涨,则价格回报一直是正值,表明该趋势继续保持下去的概率很大。此外,价格回报的数值大小还可以表明该趋势的变化情况。当金融市场价格一直处于上涨阶段,价格回报可以看出涨幅的大小。m 个时间段的价格回报不仅表明了市场的趋势,同时表明了市场涨跌幅的情况,更好地帮助网络去分析当前市场的状态,以便更好地决策。因此,选择合适时间窗口 m 的长度能够更好地反映金融市场状态。本文对 m 的取值范围进行实验,以找到能反映市场状态的最佳 m 值。m 的取值范围是{10min, 30min, 60min, 120min, 180min, 240min}。实验结果如图 3-2 和图3-3 所示。

测试集,训练集,取值范围,实验结果


m 的取值范围是{10min, 30min, 60min, 120min, 180min, 240min}。实验结果如图 3-2 和图3-3 所示。图 3-2 训练集上不同时间窗口效果对比Fig.3-2 Comparison of different time windows on training sets
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F274;TP181

【相似文献】

相关期刊论文 前10条

1 黄佐

本文编号:2593404


资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/xmjj/2593404.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户82e0a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com