基于机器学习的选股策略实证研究
发布时间:2021-09-04 18:25
由于经济的日益全球化发展,中国的资本市场也变得日益复杂,其规模也在发展的过程中逐渐扩大,市场中各式各样的投资种类层出不穷,投资的数目也变得越来越大,不管是投资资金的来源是个人还是机构,他们所拥有的投资渠道和方式也因此呈上升趋势。其中,一种新兴的投资方式——量化投资,正在吸引了越来越多的投资人的目光。量化投资起源于国外资本市场,以一种全新的先进技术在海外资本市场掀起了巨大的波澜[1]。本文主要是研究如何将人工智能和传统多因子模型的量化投资策略结合在—起,构建基于机器学习的选股策略。通过该策略,从上市股票中选取具有投资价值的股票构建投资组合,从而希望可以通过这样的方式获取稳定的高额收益回报。这种策略优势明显,既可以扩充传统的因子选股模型构建方式的内容,又可以在研究者进行深入探究的时候给予方向和数据。本文则从该方面入手,选择了中证全指成份股2015年1月至2018年7月的交易日的因子截面数据作为数据样本。构建流程主要分为数据预处理与构建模型,检验模型构建是否具有可行性,对使用该模型得到的结果进行研究分析,对该模型进行全面的优化升级。本文分别采用了机器学习算法里的线性回归...
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
决策树例子
上海交通大学MBA学位论文基于机器学习的选股策略实证研究20候往往是为了用于交叉验证训练后的机器学习模型,或者可以用于选择模型参数。3.测试集(Testset):对于模型来说是未知数据,用于评估最终模型。(来源:CSDN1)图2训练集、验证集和测试集FIGURE2Trainningset、ValidationsetandTestset(2)泛化、过拟合和欠拟合如果一个算法对没见过的数据做出准确的预测,则称它能够从训练集泛化(generalize)到测试集。一般来说,总是想要构建一个泛化精度尽可能高的算法。判断一个算法在新数据上表现好坏的唯一度量,就是在测试集上的评估。一般来说,简单的模型对新数据的泛化能力更好。构建一个对现有信息量来说过于复杂的模型,称为过拟合(overfitting)。这种情况下,在拟合模型时过分关注训练集的细节,得到了一个在训练集上表现很好,但不能泛化到测试集或新数据上的模型,那么就存在过拟合。与之相反,如果模型过于简单,那么可能无法抓住数据的全部内容以及数据中的变化,模型在一开始训练集上的表现就很差,这种现象称之为欠拟合(underfitting)。模型越复杂,在训练集上的预测结果就越好,但是由于模型过于复杂,使得我们过多地关注1https://blog.csdn.net/lhx878619717/article/details/49079785
上海交通大学MBA学位论文基于机器学习的选股策略实证研究21训练集上的每个单独的数据点,模型就不能很好地泛化到新数据上。过拟合和欠拟合之间存在一个最佳位置,参考图3的中间位置,可以得到最好的泛化模型。这是模型探索的最终目标。(来源:CNBLOG2)图3模型复杂度与预测误差关系FIGURE3Relationshipbetweenmodelcomplexityandpredictionerror(3)交叉验证交叉验证(Cross-validation),也称循环估计,是一种评估泛化性能的统计学方法,它比单次划分训练集和测试集的方法更加稳定全面。在交叉验证中,数据被多次划分为训练集和测试集,或者保留测试集不动,将训练集多次划分为训练集和验证集。本文采用后者。常见的交叉验证是K折交叉验证(k-foldcross-validation),其中K是由用户指定的数字在执行K折交叉验证时,首先将训练集划分为大致相等的K部分,每一部分称之为折(fold)。接下来训练一系列模型。使用第K折作为验证集,来评估精度,其他折(1~K-1)作为训练集来训练第一个模型。依次使用第K-1、K-2、…..2、1折作为验证集,其他折作为训练集来训练不同的模型,每一次都计算精度,最后得到K个精度值。以K=10为例,十折交叉验证可参考图4所示。2https://www.cnblogs.com/sthinker/p/6837597.html
【参考文献】:
期刊论文
[1]基于市场资金流向的商品期货量化交易策略研究[J]. 彭素静,贾秀燕,谢芮. 商场现代化. 2018(12)
[2]协整套利下的股票市场实证分析[J]. 王晶. 市场周刊. 2018(06)
[3]综采工作面装备机器人化技术研究[J]. 牛剑峰. 煤矿机电. 2018(02)
[4]基于机器学习对优质股的选择[J]. 王智. 电子制作. 2018(07)
[5]全球首只机器人选股诞生[J]. 董伟. 计算机与网络. 2017(22)
[6]多因子量化模型在投资组合中的应用——基于LASSO与Elastic Net的比较研究[J]. 谢合亮,胡迪. 统计与信息论坛. 2017(10)
[7]基于多因子模型的量化选股分析[J]. 徐景昭. 金融理论探索. 2017(03)
[8]ML-TEA:一套基于机器学习和技术分析的量化投资算法[J]. 李斌,林彦,唐闻轩. 系统工程理论与实践. 2017(05)
[9]A股牛熊市特征及追涨杀跌交易策略实证研究[J]. 陈珂,陈伟. 特区经济. 2017(02)
[10]智能投顾:新金融的下一战场[J]. 许亚岚. 经济. 2016(32)
博士论文
[1]五因子资产定价模型及其在我国证券市场的应用研究[D]. 高春亭.重庆大学 2016
硕士论文
[1]高频交易下的沪深300股指期货跨期套利研究[D]. 史玥明.首都经济贸易大学 2018
[2]投资者情绪和上证指数关系的实证研究[D]. 侯瑞波.山西财经大学 2018
[3]基于聚宽量化投资平台的股票多因子策略应用[D]. 杨世林.浙江大学 2018
[4]面向A股的基本面量化交易策略的设计[D]. 陈子宁.电子科技大学 2018
[5]基于Logistic回归的Barra因子选股模型研究[D]. 张冬阳.南京大学 2018
[6]随机森林在技术指标量化选股中的应用[D]. 吴卫星.电子科技大学 2018
[7]沪深300指数量化增强策略研究[D]. 范嘉琪.河北经贸大学 2018
[8]机器学习算法对中国A股的适应性比较[D]. 谢翔.暨南大学 2017
[9]截面型多因子量化模型在沪深300指数的投资应用研究[D]. 郭磊.北京交通大学 2017
[10]基于统计套利的A股量化交易策略研究[D]. 陈斌.青岛大学 2017
本文编号:3383780
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
决策树例子
上海交通大学MBA学位论文基于机器学习的选股策略实证研究20候往往是为了用于交叉验证训练后的机器学习模型,或者可以用于选择模型参数。3.测试集(Testset):对于模型来说是未知数据,用于评估最终模型。(来源:CSDN1)图2训练集、验证集和测试集FIGURE2Trainningset、ValidationsetandTestset(2)泛化、过拟合和欠拟合如果一个算法对没见过的数据做出准确的预测,则称它能够从训练集泛化(generalize)到测试集。一般来说,总是想要构建一个泛化精度尽可能高的算法。判断一个算法在新数据上表现好坏的唯一度量,就是在测试集上的评估。一般来说,简单的模型对新数据的泛化能力更好。构建一个对现有信息量来说过于复杂的模型,称为过拟合(overfitting)。这种情况下,在拟合模型时过分关注训练集的细节,得到了一个在训练集上表现很好,但不能泛化到测试集或新数据上的模型,那么就存在过拟合。与之相反,如果模型过于简单,那么可能无法抓住数据的全部内容以及数据中的变化,模型在一开始训练集上的表现就很差,这种现象称之为欠拟合(underfitting)。模型越复杂,在训练集上的预测结果就越好,但是由于模型过于复杂,使得我们过多地关注1https://blog.csdn.net/lhx878619717/article/details/49079785
上海交通大学MBA学位论文基于机器学习的选股策略实证研究21训练集上的每个单独的数据点,模型就不能很好地泛化到新数据上。过拟合和欠拟合之间存在一个最佳位置,参考图3的中间位置,可以得到最好的泛化模型。这是模型探索的最终目标。(来源:CNBLOG2)图3模型复杂度与预测误差关系FIGURE3Relationshipbetweenmodelcomplexityandpredictionerror(3)交叉验证交叉验证(Cross-validation),也称循环估计,是一种评估泛化性能的统计学方法,它比单次划分训练集和测试集的方法更加稳定全面。在交叉验证中,数据被多次划分为训练集和测试集,或者保留测试集不动,将训练集多次划分为训练集和验证集。本文采用后者。常见的交叉验证是K折交叉验证(k-foldcross-validation),其中K是由用户指定的数字在执行K折交叉验证时,首先将训练集划分为大致相等的K部分,每一部分称之为折(fold)。接下来训练一系列模型。使用第K折作为验证集,来评估精度,其他折(1~K-1)作为训练集来训练第一个模型。依次使用第K-1、K-2、…..2、1折作为验证集,其他折作为训练集来训练不同的模型,每一次都计算精度,最后得到K个精度值。以K=10为例,十折交叉验证可参考图4所示。2https://www.cnblogs.com/sthinker/p/6837597.html
【参考文献】:
期刊论文
[1]基于市场资金流向的商品期货量化交易策略研究[J]. 彭素静,贾秀燕,谢芮. 商场现代化. 2018(12)
[2]协整套利下的股票市场实证分析[J]. 王晶. 市场周刊. 2018(06)
[3]综采工作面装备机器人化技术研究[J]. 牛剑峰. 煤矿机电. 2018(02)
[4]基于机器学习对优质股的选择[J]. 王智. 电子制作. 2018(07)
[5]全球首只机器人选股诞生[J]. 董伟. 计算机与网络. 2017(22)
[6]多因子量化模型在投资组合中的应用——基于LASSO与Elastic Net的比较研究[J]. 谢合亮,胡迪. 统计与信息论坛. 2017(10)
[7]基于多因子模型的量化选股分析[J]. 徐景昭. 金融理论探索. 2017(03)
[8]ML-TEA:一套基于机器学习和技术分析的量化投资算法[J]. 李斌,林彦,唐闻轩. 系统工程理论与实践. 2017(05)
[9]A股牛熊市特征及追涨杀跌交易策略实证研究[J]. 陈珂,陈伟. 特区经济. 2017(02)
[10]智能投顾:新金融的下一战场[J]. 许亚岚. 经济. 2016(32)
博士论文
[1]五因子资产定价模型及其在我国证券市场的应用研究[D]. 高春亭.重庆大学 2016
硕士论文
[1]高频交易下的沪深300股指期货跨期套利研究[D]. 史玥明.首都经济贸易大学 2018
[2]投资者情绪和上证指数关系的实证研究[D]. 侯瑞波.山西财经大学 2018
[3]基于聚宽量化投资平台的股票多因子策略应用[D]. 杨世林.浙江大学 2018
[4]面向A股的基本面量化交易策略的设计[D]. 陈子宁.电子科技大学 2018
[5]基于Logistic回归的Barra因子选股模型研究[D]. 张冬阳.南京大学 2018
[6]随机森林在技术指标量化选股中的应用[D]. 吴卫星.电子科技大学 2018
[7]沪深300指数量化增强策略研究[D]. 范嘉琪.河北经贸大学 2018
[8]机器学习算法对中国A股的适应性比较[D]. 谢翔.暨南大学 2017
[9]截面型多因子量化模型在沪深300指数的投资应用研究[D]. 郭磊.北京交通大学 2017
[10]基于统计套利的A股量化交易策略研究[D]. 陈斌.青岛大学 2017
本文编号:3383780
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3383780.html