基于机器学习的股票指数预测研究

发布时间：2020-06-15 07:07

【摘要】：股票指数是一个非线性的动态时间序列,它具有高波动、低稳定、噪声大、易受外界因素干扰等特性,这些特性使得股票指数准确预测成为一个非常有挑战性的问题。研究发现股票指数基础数据特征间存在多重共线性与噪音干扰等问题,这些问题往往导致股票指数预测模型精度的严重下降;此外,研究还显示不同结构的机器学习模型性能存在较大差异性,这些差异性导致不同模型在同一支股票指数预测中的表现大相径庭。本文在股票指数价格短时预测的问题中,针对输入特征与预测模型这两种对股票指数预测影响最大的因素,分别提出了基于Xgboost模型的特征生成方法及动态加权集成学习模型。本文的主要研究内容如下:(1)基于Xgboost模型的特征生成方法研究。研究发现输入特征对股票指数预测模型的性能具有重大影响。现有特征选择与特征提取方法在利用基础数据信息方面存在着部分丢失与不充分的问题。本文在研究中发现Xgboost模型将股票指数基础数据特征投影到叶子节点所表示的高维空间的过程中,叶子节点是否参与表达对预测性能具有重要影响。本文仅提取样本在Xgboot中参与表达的叶子节点信息,对其进行one-hot编码通过将参与表达叶子节点映射到高维空间中提高该特征的表达能力。将编码后特征与样本原始特征组合作为最终的输入特征。实验结果表明,该方法生成的组合特征可以有效的提高股票指数回归预测的精度。(2)基于动态加权集成学习的股票指数回归预测方法研究。研究发现预测模型对股票指数的预测同样具有重大影响。传统的集成学习模型在股票指数回归预测中,存在忽略基础学习器性能的贡献度,对高性能的基础分类器利用有限等问题。由于基础分类器间结构各不相同,导致其在不同股票指数预测中表现各异。本文在研究中发现基础分类器间存在一定程度的互补性,通过动态加权的方式对不同结构的基础分类器进行组合,可以合理的利用互补性提高高性能分类器的贡献度。基于此研究本文提出了适用于股票指数预测的动态加权集成学习模型。实验结果表明,本文提出的动态加权集成学习模型同单一预测模型相比精确度更高,且适用于不同股票指数的回归预测。
【学位授予单位】：河南大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：F832.51;TP181
【图文】：

框架图,框架图,算法,强性

图 2-2 Stacking 算法框架图Boosting 被认为是机器学习文献中最重要的集成学习方法之一，广泛应用于归的多个实际应用中。Boosting 作为一种集成学习方法，结合了多个并行运算法，构建了最终的强性能算法。Boosting 结合了多个并行运行的弱执行算

框架图,框架图,算法

但适用于更一般的一类学习问题。Boosting 算法的框架图如图 2-3 所示：图 2-3 Boosting 算法框架图2.3 实验设置及评估指标目前，国内市场流通的证券种类繁多，股票的群体十分庞大，仅就我国 A 股市场而言，上证、深证两个交易市场的股票就有近三千支。若构建以个股数据为主的数据集，则需面临可选择样本种类繁多，数据面选择宽泛等问题。这一现状不利于本课题进行有效的研究，为了构建综合性更强且能够反应整体市场行情及走向的股票数据，本课题使用股票指数数据作为实验研究对象，并通过 Tushare 财经数据接口包获取所需要的实验数据。本中获取指数数据结构如表 2-1 所示：

【参考文献】