基于LSTM和社交媒体文本信息的股票趋势预测研究
发布时间:2020-09-28 13:58
随着中国市场经济的发展,证券市场在国民经济中的占据着越来越重要的地位,股票趋势预测也被越来越多的研究者关注。传统的预测模型受技术限制,多数围绕股票的历史数据本身展开,通过对股票历史数据进行建模,探究其潜在规律从而达到对股价未来趋势的变化预测的目的。然而这类预测方式并未考虑到其他会对股价产生影响的因素,如市场的宏观调控、公司的经营状况等。实际生活中,投资者在做出决定时并非完全理性,会受到社交媒体、新闻等影响,而当市场中大量投资者的对某一股票的进行买卖交易等行为时,这些信息也会对该股票价格产生影响,引起股市的变动。基于这一现象本文建立了一种基于LSTM和社交媒体文本信息的股票趋势预测模型,使用LSTM和自注意力机制对文本信息特征进行提取,与股票历史数据信息特征进行结合,以此来对股票趋势进行预测,该模型可显著提升股票短期预测模型的准确率。首先,本文构建了基于LSTM的股票趋势预测模型,该模型利用了LSTM模型便于处理时序数据的特点同时在此模型的基础上加入基本的社交媒体文本信息特征,以此来提高模型预测性能。LSTM模型是循环神经网络的一种,通过改良内部结构,解决了传统循环神经网络出现的梯度消失的问题。实验表明,LSTM模型可以有效的学习到股票历史数据中时序信息,在预测准确率方面高于传统的时间序列模型。针对传统股票趋势预测模型中忽略社交媒体文本信息对股价变化的影响,本文在预测模型的输入层面加入社交媒体文本信息特征。本文利用TF-IDF和Weighted Removal的方法提取文本特征信息,将文本特征信息与股票历史数据特征相结合,构建融合基本社交媒体文本信息的LSTM股票趋势预测模型,实验表明与基于LSTM的股票预测模型相比,该模型在准确率方面有进一步提升。然后,融合基本社交媒体文本信息的预测模型采用对帖子向量简单平均的方法得到文本信息特征,忽略了帖子时间顺序的信息,导致对社交媒体文本信息提取不够充分。针对这一问题,通过对文本信息提取方式的改进和信息源种类的增加,构建基于LSTM和深度社交媒体文本信息的预测模型。采用基于LSTM和自注意力机制模型提取社交媒体文本信息特征。先将帖子向量输入双向LSTM模型,在LSTM模型的隐藏状态层引入注意力机制,进一步分析与获取不同帖子对于最终预测的不同贡献程度。通过实验证明,融合深度社交媒体文本信息的股票趋势预测模型与融合基本社交媒体文本信息的LSTM股票趋势预测模型相比,在预测准确率上有显著的提升。在输入数据源层面,增加基本面数据,构建了基于多种信息源的LSTM预测模型。通过实验对比,改进模型预测准确率有进一步提升,证明了在一定程度下,增加数据源可以提升预测模型的性能。
【学位单位】:华中师范大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP391.1;F830.91
【部分图文】:
2.2.1多层感知机逡逑多层感知机(MLP)是人工神经网络的一种[4°],是由感知机模型推广而来。感知逡逑机(PLA)模型是一种二分类的线性分类模型,感知机的神经网络表示如图2.1所逡逑示:逡逑?逦二逦?邋f邋逦?Output逡逑图2.邋1感知机神经网络表示图逡逑感知机模型的将实力特征向量作为输入,类别为输出。感知机模型通过寻找将逡逑数据划分的分离超平面完成分类,所以感知机模型可以用来解决线性可分的二分类逡逑的问题,即将样本分为丨+1,-1}两类。分离超平面方程为:逡逑w邋■邋x邋+邋b邋=邋0逡逑由输入空间到输出空间的函数:逡逑f{x)邋=邋sign邋(w邋■邋x邋+邋b)逡逑其中,W和6为感知机模型的参数,we邋叫作权值(weight),邋be尺叫作逡逑偏置,sign表示符号函数,即逡逑sign(x)邋=邋\+1,邋X ̄°逡逑v一1,x邋<邋0逡逑多层感知机模型相较于感知机模型
2.2.1多层感知机逡逑多层感知机(MLP)是人工神经网络的一种[4°],是由感知机模型推广而来。感知逡逑机(PLA)模型是一种二分类的线性分类模型,感知机的神经网络表示如图2.1所逡逑示:逡逑?逦二逦?邋f邋逦?Output逡逑图2.邋1感知机神经网络表示图逡逑感知机模型的将实力特征向量作为输入,类别为输出。感知机模型通过寻找将逡逑数据划分的分离超平面完成分类,所以感知机模型可以用来解决线性可分的二分类逡逑的问题,即将样本分为丨+1,-1}两类。分离超平面方程为:逡逑w邋■邋x邋+邋b邋=邋0逡逑由输入空间到输出空间的函数:逡逑f{x)邋=邋sign邋(w邋■邋x邋+邋b)逡逑其中,W和6为感知机模型的参数,we邋叫作权值(weight),邋be尺叫作逡逑偏置,sign表示符号函数,即逡逑sign(x)邋=邋\+1,邋X ̄°逡逑v一1,x邋<邋0逡逑多层感知机模型相较于感知机模型
中xt表示在t时刻的训练样本的输入;ht代表在t时刻,模型的隐藏状态;和;Cm共同决定:逡逑ht邋=邋f{UXt邋+邋WhtJ逡逑、W和V是模型相关的线性关系参数,这些参数在隐层中是相互共享的。逡逑在t时刻模型的输出;化与模型的当前隐藏状态\有关:逡逑ot邋—邋Vhl邋+邋c逡逑t时刻模型的损失函数;yt代表t时刻训练样本序列的真实输出。逡逑常用反向传播算法(BPTT)对循环神经网络模型(RNN)进行训练,调整算法的本质是BP算法,因为RNN处理时间序列的数据,所以需要基于播。BPTT算法的中心思想与BP算法相同,即沿着需要优化参数的福梯寻找更优点,直至模型收敛。逡逑长短期记忆神经网络逡逑期记忆神经网络(LSTM)很好的解决了长期以来问题,能够记住长期的。1996
本文编号:2828878
【学位单位】:华中师范大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP391.1;F830.91
【部分图文】:
2.2.1多层感知机逡逑多层感知机(MLP)是人工神经网络的一种[4°],是由感知机模型推广而来。感知逡逑机(PLA)模型是一种二分类的线性分类模型,感知机的神经网络表示如图2.1所逡逑示:逡逑?逦二逦?邋f邋逦?Output逡逑图2.邋1感知机神经网络表示图逡逑感知机模型的将实力特征向量作为输入,类别为输出。感知机模型通过寻找将逡逑数据划分的分离超平面完成分类,所以感知机模型可以用来解决线性可分的二分类逡逑的问题,即将样本分为丨+1,-1}两类。分离超平面方程为:逡逑w邋■邋x邋+邋b邋=邋0逡逑由输入空间到输出空间的函数:逡逑f{x)邋=邋sign邋(w邋■邋x邋+邋b)逡逑其中,W和6为感知机模型的参数,we邋叫作权值(weight),邋be尺叫作逡逑偏置,sign表示符号函数,即逡逑sign(x)邋=邋\+1,邋X ̄°逡逑v一1,x邋<邋0逡逑多层感知机模型相较于感知机模型
2.2.1多层感知机逡逑多层感知机(MLP)是人工神经网络的一种[4°],是由感知机模型推广而来。感知逡逑机(PLA)模型是一种二分类的线性分类模型,感知机的神经网络表示如图2.1所逡逑示:逡逑?逦二逦?邋f邋逦?Output逡逑图2.邋1感知机神经网络表示图逡逑感知机模型的将实力特征向量作为输入,类别为输出。感知机模型通过寻找将逡逑数据划分的分离超平面完成分类,所以感知机模型可以用来解决线性可分的二分类逡逑的问题,即将样本分为丨+1,-1}两类。分离超平面方程为:逡逑w邋■邋x邋+邋b邋=邋0逡逑由输入空间到输出空间的函数:逡逑f{x)邋=邋sign邋(w邋■邋x邋+邋b)逡逑其中,W和6为感知机模型的参数,we邋叫作权值(weight),邋be尺叫作逡逑偏置,sign表示符号函数,即逡逑sign(x)邋=邋\+1,邋X ̄°逡逑v一1,x邋<邋0逡逑多层感知机模型相较于感知机模型
中xt表示在t时刻的训练样本的输入;ht代表在t时刻,模型的隐藏状态;和;Cm共同决定:逡逑ht邋=邋f{UXt邋+邋WhtJ逡逑、W和V是模型相关的线性关系参数,这些参数在隐层中是相互共享的。逡逑在t时刻模型的输出;化与模型的当前隐藏状态\有关:逡逑ot邋—邋Vhl邋+邋c逡逑t时刻模型的损失函数;yt代表t时刻训练样本序列的真实输出。逡逑常用反向传播算法(BPTT)对循环神经网络模型(RNN)进行训练,调整算法的本质是BP算法,因为RNN处理时间序列的数据,所以需要基于播。BPTT算法的中心思想与BP算法相同,即沿着需要优化参数的福梯寻找更优点,直至模型收敛。逡逑长短期记忆神经网络逡逑期记忆神经网络(LSTM)很好的解决了长期以来问题,能够记住长期的。1996
【参考文献】
相关期刊论文 前4条
1 黄润鹏;左文明;毕凌燕;;基于微博情绪信息的股票市场预测[J];管理工程学报;2015年01期
2 张美英;何杰;;时间序列预测模型研究综述[J];数学的实践与认识;2011年18期
3 周广旭;一种新的时间序列分析算法及其在股票预测中的应用[J];计算机应用;2005年09期
4 胡桔州,兰秋军;金融时间序列的数据挖掘技术与经典统计模型的比较[J];系统工程;2005年06期
相关硕士学位论文 前3条
1 胡新辰;基于LSTM的语义关系分类研究[D];哈尔滨工业大学;2015年
2 尤作军;时间序列分析在股票中的研究与应用[D];沈阳工业大学;2014年
3 王洋;基于时间序列分析的IP语音收入预测[D];吉林大学;2004年
本文编号:2828878
本文链接:https://www.wllwen.com/jingjilunwen/jinrongzhengquanlunwen/2828878.html