基于LightGBM算法的量化选股策略方案策划
发布时间:2020-05-29 01:47
【摘要】:最近几十年,科学技术飞速发展。与此同时在此背景下,计算机技术也在飞速的发展,接连取得突破性成就。也正是计算机技术的飞速发展,金融量化事业才得以快速发展。量化投资不同于以往的投资方式,量化投资是一种主动型的资产管理方法,它是指通过数量化的方法和程序化的计算机软件算法来进行交易。量化投资作其以系统性、纪律性和分散性等等一些特点获得了投资者的广泛青睐。我国量化投资事业在一些方面与发达国家还有较大差距,比如量化思想、量化市场环境和量化技术。但是可喜的是,我国这几年在量化方面也取得了很大的成就,很多券商、基金公司、银行等金融机构都配置了专门的量化部门。本文着眼于眼下国内量化投资的大环境,也期望通过量化投资方式,在股票市场上取得良好的回报。因此,本文选取沪深300成份股2013年7月至2018年6月每月最后一个交易日的因子数据作为数据样本,模型构建主要分为数据预处理、因子筛选、模型参数寻优、模型构建与结果分析、模型比较与优化几个部分。本文构建基于Light GBM算法的多因子选股模型,以沪深300成份股为备选股票池,通过上述方案从中选取具有投资价值的股票构建投资组合,选出的股票组合的总收益为40.09%,年化复合收益率高达18.36%,夏普比率为0.4110,有75%的月份跑赢沪深300指数,最后净值达到1.4009,远超基准沪深300指数收益率。总的来说,此多因子选股模型是能够取得持续正收益的模型。
【图文】:
训练样本空间呈现出线性可分状态时,这时的支持向量机分类最为简单,只要到一个找的分割面就好了。但是,往往样本不是线性可分的状态,这时候支持量机算法就会通过核函数这个方法,将原始的数据投射到更加高维度的特征间,这样做的目的就是为了使线性不可分状态变成线性可分状态。这时候就可找出最好的超平面去实现分类任务。与此同时,,找到最优分类平面是在以使得构风险降到最低为条件的,以将置信范围降低到最小范围当做其目标的。如下图所示,就是支持向量机算法的简单原理示意图。原理示意图还是比直观明了的,这说明支持向量机模型虽然有很复杂的原理内容,但是支持向量算法的最直接的思路却是很直观明了的。下图中蓝色的点和橙色的点代表着两不同样例,支持向量机算法的目的就是找出将他们分为两类的那个最优的超平H 。1H 是橙色样本构成的平面,这个平面是距离最优超平面最近的,并且还超平面是平行的关系。2H 也是相同原理。
的三倍标准差范围上下波动,而异常值就是那些与平均值相差超过三倍围的值,用公式表示就是:P (x 3 ) 0.03(如果特征数值满足正态分布的条件这种情况,那么偏差绝对值大于这个的值出现的概率不会大于 0.03 这个概率值。这一般很难会发生,此时可以将之成为数据中的异常值。相比于3 原则使用条件苛刻,处理异常值的箱型图方法就不要求特征如此严格的分布。箱型图的原理也是十分的简单,它通过四分位数来检的存在。箱型图通过作图来给出特征数据的直观分布展示,从这个箱型就可以清楚地看出异常值的存在。另外,用箱型图而不是3 原则来检的存在的另外的一个好处在于四分位数更具有鲁棒性,有四分之一的数得任意远且不会使四分位数受到干扰。
【学位授予单位】:上海师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F832.51
本文编号:2686183
【图文】:
训练样本空间呈现出线性可分状态时,这时的支持向量机分类最为简单,只要到一个找的分割面就好了。但是,往往样本不是线性可分的状态,这时候支持量机算法就会通过核函数这个方法,将原始的数据投射到更加高维度的特征间,这样做的目的就是为了使线性不可分状态变成线性可分状态。这时候就可找出最好的超平面去实现分类任务。与此同时,,找到最优分类平面是在以使得构风险降到最低为条件的,以将置信范围降低到最小范围当做其目标的。如下图所示,就是支持向量机算法的简单原理示意图。原理示意图还是比直观明了的,这说明支持向量机模型虽然有很复杂的原理内容,但是支持向量算法的最直接的思路却是很直观明了的。下图中蓝色的点和橙色的点代表着两不同样例,支持向量机算法的目的就是找出将他们分为两类的那个最优的超平H 。1H 是橙色样本构成的平面,这个平面是距离最优超平面最近的,并且还超平面是平行的关系。2H 也是相同原理。
的三倍标准差范围上下波动,而异常值就是那些与平均值相差超过三倍围的值,用公式表示就是:P (x 3 ) 0.03(如果特征数值满足正态分布的条件这种情况,那么偏差绝对值大于这个的值出现的概率不会大于 0.03 这个概率值。这一般很难会发生,此时可以将之成为数据中的异常值。相比于3 原则使用条件苛刻,处理异常值的箱型图方法就不要求特征如此严格的分布。箱型图的原理也是十分的简单,它通过四分位数来检的存在。箱型图通过作图来给出特征数据的直观分布展示,从这个箱型就可以清楚地看出异常值的存在。另外,用箱型图而不是3 原则来检的存在的另外的一个好处在于四分位数更具有鲁棒性,有四分之一的数得任意远且不会使四分位数受到干扰。
【学位授予单位】:上海师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F832.51
【参考文献】
相关期刊论文 前4条
1 曹正凤;纪宏;谢邦昌;;使用随机森林算法实现优质股票的选择[J];首都经济贸易大学学报;2014年02期
2 陈荣达;虞欢欢;;基于启发式算法的支持向量机选股模型[J];系统工程;2014年02期
3 苏治;傅晓媛;;核主成分遗传算法与SVR选股模型改进[J];统计研究;2013年05期
4 董伯明;美国股票市场的技术分析法及其理论[J];世界经济研究;1990年01期
本文编号:2686183
本文链接:https://www.wllwen.com/jingjilunwen/jinrongzhengquanlunwen/2686183.html