基于Spark MLlib的股票数据分析研究
发布时间:2021-01-27 06:36
股票是一个国家经济社会的主要组成部分,但是股票价格深受经济环境、国家政策、国内外环境等的影响,所以股票的波动方向与股票价格本身就很难预测,再加上股票交易中市场的随机性、信息的不对称性和投资者的从众心态使得对股票数据的分析研究十分困难。但是对金融市场的研究、对股票的分析却一直都是研究的热点。为了能够更加准确地分析股价的波动方向,本文提出了对股票交易数据进行小波降噪处理,并且计算和收集股票市场中常用到的技术指标因子与情绪类因子,并对这些因子数据做主成分分析,经过预处理再进行机器学习的分类分析。应用机器学习中的逻辑回归、支持向量机、随机森林对股票数据做分类分析后,利用预测得到的结果进行组合投票,并做对比实验,实验表明,数据在降噪降维后,经过组合投票分析能够得到较为理想的结果。关于股票价格的预测也是目前研究的重点之一,本文应用长短时记忆网络对股票价格做了预测,在LSTM中应用滑动时间窗口对股票价格做短期预测选择出最佳窗口,之后在相同迭代次数下,比较了降噪降维数据与对比文献使用的原始数据做LSTM的实验结果。最后应用平均绝对误差、均方误差、均方根误差和平均绝对误差百分比对误差进行了分析。之后,应...
【文章来源】:华北电力大学(北京)北京市 211工程院校 教育部直属院校
【文章页数】:50 页
【学位级别】:硕士
【部分图文】:
图2-1浦发银行降噪前后对比图??
??图3-2支持向量机训练流程??在选择不同核函数时,五家公司涨跌分类准确率如下表3-1所示,???表3-1不同核函数分类准确率???公司?多项式核函数分类准确率?高斯核函数分类准确率??浦发银行?0.5032?0.6854??禾嘉股份?0.6039?0.6912??岷江水电?0.6498?0.7052??北大荒?0.5909?0.6874??华发股份?0.6976?0.7114??可以看到高斯核函数更具有优势,因此在后面实验中用到的支持向量机模型采??用高斯核函数,惩罚系数釆用默认值。??3.1.3随机森林??随机森林算法是Leo?Breiman在Amit等人的基础上提出来的,是一种基于决??策树分类的组合算法。它将多棵决策树组合在一起做出决策,其中的每棵决策树都??是由随机产生特征值的一个独立集合产生的[3()]。结构图如下图3-2所示。??15??
小结??绍了投票组合机器学习预测股票波动方向的模型,对我国上海证券交公司做了实验,实验结果平均准确率在70%-75%之间,相较之前实准确率有了提升,并且相比于神经网络,机器学习训练时间更短一些小,同时,通过与对比实验中使用的数据集对比,说明本实验中降噪作对后续的实验结果有明显的帮助。??
【参考文献】:
期刊论文
[1]基于复杂网络法的股票市场特征分析与指数构建[J]. 王小燕,姚佳含,袁欣. 管理现代化. 2018(06)
博士论文
[1]随机森林算法优化研究[D]. 曹正凤.首都经济贸易大学 2014
硕士论文
[1]基于PCA-SVM-GARCH模型的股价预测[D]. 景秋玉.首都经济贸易大学 2018
[2]基于百度指数的上证50指数预测研究[D]. 刘燕.上海师范大学 2018
[3]基于支持向量机参数优化算法的股票智能投顾策略研究[D]. 高雯.上海师范大学 2018
[4]基于文本挖掘的投资者情绪与股票市场的关联性研究[D]. 尹乐民.青岛大学 2018
[5]用Stacking算法堆积随机森林、GBDT、SVM、Adaboost等七种算法的多因子选股模型[D]. 李佩琛.浙江工商大学 2018
[6]基于LSTM和投资者情绪的股票行情预测研究[D]. 周凌寒.华中师范大学 2018
[7]基于聚类分析的多因子动态加权实证检验[D]. 陈悦竹.山东大学 2018
[8]多指标选股智能投顾策略构建研究[D]. 刘晨.上海师范大学 2018
[9]随机森林在技术指标量化选股中的应用[D]. 吴卫星.电子科技大学 2018
[10]基于递归神经网络的股票趋势预测研究[D]. 石浩.北京邮电大学 2018
本文编号:3002617
【文章来源】:华北电力大学(北京)北京市 211工程院校 教育部直属院校
【文章页数】:50 页
【学位级别】:硕士
【部分图文】:
图2-1浦发银行降噪前后对比图??
??图3-2支持向量机训练流程??在选择不同核函数时,五家公司涨跌分类准确率如下表3-1所示,???表3-1不同核函数分类准确率???公司?多项式核函数分类准确率?高斯核函数分类准确率??浦发银行?0.5032?0.6854??禾嘉股份?0.6039?0.6912??岷江水电?0.6498?0.7052??北大荒?0.5909?0.6874??华发股份?0.6976?0.7114??可以看到高斯核函数更具有优势,因此在后面实验中用到的支持向量机模型采??用高斯核函数,惩罚系数釆用默认值。??3.1.3随机森林??随机森林算法是Leo?Breiman在Amit等人的基础上提出来的,是一种基于决??策树分类的组合算法。它将多棵决策树组合在一起做出决策,其中的每棵决策树都??是由随机产生特征值的一个独立集合产生的[3()]。结构图如下图3-2所示。??15??
小结??绍了投票组合机器学习预测股票波动方向的模型,对我国上海证券交公司做了实验,实验结果平均准确率在70%-75%之间,相较之前实准确率有了提升,并且相比于神经网络,机器学习训练时间更短一些小,同时,通过与对比实验中使用的数据集对比,说明本实验中降噪作对后续的实验结果有明显的帮助。??
【参考文献】:
期刊论文
[1]基于复杂网络法的股票市场特征分析与指数构建[J]. 王小燕,姚佳含,袁欣. 管理现代化. 2018(06)
博士论文
[1]随机森林算法优化研究[D]. 曹正凤.首都经济贸易大学 2014
硕士论文
[1]基于PCA-SVM-GARCH模型的股价预测[D]. 景秋玉.首都经济贸易大学 2018
[2]基于百度指数的上证50指数预测研究[D]. 刘燕.上海师范大学 2018
[3]基于支持向量机参数优化算法的股票智能投顾策略研究[D]. 高雯.上海师范大学 2018
[4]基于文本挖掘的投资者情绪与股票市场的关联性研究[D]. 尹乐民.青岛大学 2018
[5]用Stacking算法堆积随机森林、GBDT、SVM、Adaboost等七种算法的多因子选股模型[D]. 李佩琛.浙江工商大学 2018
[6]基于LSTM和投资者情绪的股票行情预测研究[D]. 周凌寒.华中师范大学 2018
[7]基于聚类分析的多因子动态加权实证检验[D]. 陈悦竹.山东大学 2018
[8]多指标选股智能投顾策略构建研究[D]. 刘晨.上海师范大学 2018
[9]随机森林在技术指标量化选股中的应用[D]. 吴卫星.电子科技大学 2018
[10]基于递归神经网络的股票趋势预测研究[D]. 石浩.北京邮电大学 2018
本文编号:3002617
本文链接:https://www.wllwen.com/jingjilunwen/hongguanjingjilunwen/3002617.html