基于XGBoost算法的多因子选股策略研究
发布时间:2023-04-02 20:57
量化投资在投资过程中以计算机和数学模型为媒介,具有高效、易评价、低波动的优点,而机器学习因为处理高维数据效率较高渐渐被应用到量化投资领域,XGBoost算法作为一种具有较高预测准确度、速率较高的算法,被越来越多的应用到现代多因子选股模型中。本文正是采用XGBoost算法构建多因子量化选股策略进行实证研究。梳理了通过Tushare Pro平台获取的因子数据以及日频数据等财务数据进行计算最后得到398个因子,然后通过Rank-IC和信息熵综合选取排名前50的因子,通过对Logistic回归模型、随机森林、XGBoost算法构建选股模型,选取三个股票收益率具有各自特征的时间段作为回测区间来评价策略表现,分别为股灾前(2010年1月-2014年12月),股灾期间(2012年1月-2016年12月)以及股灾后(2016年3月-2021年12月)对三种模型的对比分析,结果表明综合三个时间段,虽然XGBoost算法在最后一个时间段略逊于Logistic回归模型和随机森林,但整体来看XGBoost算法的策略表现还是三个模型中最为理想的。接下来文章通过改变训练集长度以及加入因子动态筛选对XGBoost算...
【文章页数】:91 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 选题背景及意义
1.1.1 选题背景
1.1.2 选题意义
1.2 文献综述
1.2.1 传统多因子选股
1.2.2 机器算法与多因子选股
1.2.3 XGBoost算法在选股策略中的应用
1.2.4 文献评述
1.3 研究框架与方法
1.3.1 研究框架
1.3.2 研究方法
2 机器学习算法与多因子选股
2.1 量化投资原理及策略介绍
2.2 多因子量化选股模型
2.2.1 CAPM单因子模型
2.2.2 Fama-French三因素模型
2.2.3 APT理论(套利定价理论)
2.3 机器学习基础理论
3 多因子选股策略常用模型简介及应用
3.1 LOGISTIC回归模型
3.2 随机森林模型
3.3 XGBOOST算法
3.4 Logistic、随机森林、XGBoost算法指标对比分析
3.4.1 模型评价指标介绍
3.4.2 三种算法的指标对比分析
4 基于XGBOOST算法的多因子选股策略构建以及实证分析
4.1 数据获取与预处理
4.1.1 数据来源
4.1.2 数据预处理
4.2 基于RANK-IC与信息熵的因子筛选
4.2.1 基于Rank-IC理论概述
4.2.2 基于信息熵因子理论概述
4.2.3 结合Rank-IC值与信息熵综合选取因子
4.3 因子数量的选择
4.4 参数调优
4.5 不同模型构建的策略回测表现对比分析
4.5.1 Logistic回归模型策略表现
4.5.2 随机森林策略表现
4.5.3 XGBoost算法策略表现
4.5.4 三种算法回测对比分析
4.6 本章小结
5 基于训练集以及滚动建模对XGBOOST算法策略的改进
5.1 因子有效性与训练集设定逻辑
5.2 因子重要性动态分析
5.3 不同训练集长度及等权融合下策略的绩效和分析
5.4 基于XGBOOST算法构建的量化策略建议
5.4.1 本章结论
5.4.2 策略建议
6 总结与展望
6.1 本文结论与创新点
6.1.1. 本文结论
6.1.2. 本文创新点
6.2 本文不足和未来展望
6.2.1 本文不足
6.2.2 研究展望
附录
参考文献
后记
本文编号:3779941
【文章页数】:91 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 选题背景及意义
1.1.1 选题背景
1.1.2 选题意义
1.2 文献综述
1.2.1 传统多因子选股
1.2.2 机器算法与多因子选股
1.2.3 XGBoost算法在选股策略中的应用
1.2.4 文献评述
1.3 研究框架与方法
1.3.1 研究框架
1.3.2 研究方法
2 机器学习算法与多因子选股
2.1 量化投资原理及策略介绍
2.2 多因子量化选股模型
2.2.1 CAPM单因子模型
2.2.2 Fama-French三因素模型
2.2.3 APT理论(套利定价理论)
2.3 机器学习基础理论
3 多因子选股策略常用模型简介及应用
3.1 LOGISTIC回归模型
3.2 随机森林模型
3.3 XGBOOST算法
3.4 Logistic、随机森林、XGBoost算法指标对比分析
3.4.1 模型评价指标介绍
3.4.2 三种算法的指标对比分析
4 基于XGBOOST算法的多因子选股策略构建以及实证分析
4.1 数据获取与预处理
4.1.1 数据来源
4.1.2 数据预处理
4.2 基于RANK-IC与信息熵的因子筛选
4.2.1 基于Rank-IC理论概述
4.2.2 基于信息熵因子理论概述
4.2.3 结合Rank-IC值与信息熵综合选取因子
4.3 因子数量的选择
4.4 参数调优
4.5 不同模型构建的策略回测表现对比分析
4.5.1 Logistic回归模型策略表现
4.5.2 随机森林策略表现
4.5.3 XGBoost算法策略表现
4.5.4 三种算法回测对比分析
4.6 本章小结
5 基于训练集以及滚动建模对XGBOOST算法策略的改进
5.1 因子有效性与训练集设定逻辑
5.2 因子重要性动态分析
5.3 不同训练集长度及等权融合下策略的绩效和分析
5.4 基于XGBOOST算法构建的量化策略建议
5.4.1 本章结论
5.4.2 策略建议
6 总结与展望
6.1 本文结论与创新点
6.1.1. 本文结论
6.1.2. 本文创新点
6.2 本文不足和未来展望
6.2.1 本文不足
6.2.2 研究展望
附录
参考文献
后记
本文编号:3779941
本文链接:https://www.wllwen.com/jingjifazhanlunwen/3779941.html