当前位置:主页 > 经济论文 > 股票论文 >

股市舆情潜藏情感倾向对收益率的预测研究

发布时间:2021-04-08 12:54
  以网络股评舆情数据作为非结构型文本数据研究对象,结合股票市场的相关交易指标,使用文本挖掘技术和机器学习算法确定投资者情绪测度指标,分析舆情数据中潜藏情感倾向对未来短期内股票收益率的预测能力.实证结果表明,舆情文本中挖掘潜藏情感信息能够以较高的准确率实现对股市收益率的预测.分析讨论了对预测结果有一定影响的特征字段与训练样本两个因素,发现在特征字段数量不变的情况下,随着训练数据的增多,预测结果的解释能力会有所提高;而当训练数据维持在一定范围内时,特征词数量的选取对预测结果也有很大的影响. 

【文章来源】:兰州理工大学学报. 2019,45(05)北大核心

【文章页数】:6 页

【部分图文】:

股市舆情潜藏情感倾向对收益率的预测研究


图1主题信息获取示意图Fig.1Schematicdiagramofsubjectinformationacquirement

示意图,朴素贝叶斯,分类模型,示意图


分类算法,将训练数据中的自变量与目标变量输入到学习算法中,反复多次训练,训练出一个较为成熟的朴素贝叶斯情感倾向分类器.在测试数据的情感倾向分类阶段,用已经训练好的朴素贝叶斯情感倾向分类器对测试数据进行情感值分类.分类训练的过程如图2所示,图中左侧训练数据的变量为日期、情感值和主题,经过学习后,实现对右侧测试数据的情感值的分类.图2朴素贝叶斯分类模型示意图Fig.2SchematicdiagramofnaiveBayesclassificationmodel2.3SVR收益率预测实证分析的预测阶段使用支持向量机回归模型(SVR,supportvectorregression)实现舆情数据中潜藏情感倾向信息对指定区间内股票收益率的预测.实验中的支持向量机回归模型表达的是一个线性回归方程在拟合样本点时寻求一个回归平面,并让一个集合中所有样本点到该平面距离最近的过程.对于线性可分的样本数据,假定存在一个超平面y=wx+b去实现拟合,它会将训练样本分为两类.若超平面是实现这两类训练样本最大间隔所建立的平面,则该超平面可用于解决回归问题.对于非线性可分样本,SVR使用核函数进行非线性映射变化,将实际数据映射到高维的特征空间,在高维空间中找寻线性最佳超平面得到回归模型,SVR通过核函数将低维线性不可分问题转化到高维特征空间进行处理,避免了维数灾难发生的概率.SVR学习模型简单的思路如下:给定一个训练集D={(x1,y1),…,(xl,yl)},x=Rn,y=R,

示意图,预测模型,示意图,特征词


则支持向量回归训练的最终目的是最小化函数:Φ(ω,ξ)=[||ω||2+C∑i(ξ-i+ξ+i)]/2其中:C是预先设定的值;ξ-i和ξ+i是松弛变量的上下限.当SVR是非线性回归时需要借助核函数,将非线性不可分问题转换成高维线性可分问题.如图3所示,将不同类型的变量作为影响因子进行相关性分析,将因子输入到SVR回归模型中进行训练学习,在此基础上用训练好的模型预测股票收益率的风向.图3SVR预测模型示意图Fig.3SchematicdiagramofSVRpredictionmodel3实证分析投资者情绪度量指标的选取对回归模型的预测结果有影响,本文在朴素贝叶斯分类器得到的情感分类结果基础上,引入能反映股评文本数据中特征词在文档集中重要程度的权重矩阵,构建情感指标因子作为回归模型的主要影响因子,再结合成交量、收盘价等股市交易指标作为辅助影响因子预测股票收益率的风向.由于特征词项个数的变化和训练集、测试集大小的变化都会对回归模型的预测性能有影响,因此实验中分析了不同训练集和特征词项之间不同组合的预测效果,改变股评训练样本集的大小,综合比较不同训练集分别在特征词项较多或较少情况下回归模型的预测准确率.由表3可以看出,在特征词项数量不变的情况下,随着训练数据的增多,预测结果的准确率会有所提高,而当训练数据可用区间维持在一定范围内时,特征词数量的选取对预测结果也有很大的影响.实验发现,预测准确率与特征词数量和训练集数量的选取有关.实证研

【参考文献】:
期刊论文
[1]基于R语言的网络舆情对股市影响研究[J]. 朱昶胜,孙欣,冯文芳.  兰州理工大学学报. 2018(04)
[2]财经新闻与股市预测——基于数据挖掘技术的实证分析[J]. 孔翔宇,毕秀春,张曙光.  数理统计与管理. 2016(02)
[3]投资者情绪特征对股票价格行为的影响研究[J]. 文凤华,肖金利,黄创霞,陈晓红,杨晓光.  管理科学学报. 2014(03)
[4]基于投资者情绪的行为资产定价模型[J]. 李潇潇,杨春鹏,姜伟.  青岛大学学报(自然科学版). 2008(04)

硕士论文
[1]网络舆情与股市收益率的互动关系研究[D]. 梅腾飞.福建师范大学 2016
[2]基于向量空间模型的文本相似度算法研究[D]. 谭静.西南石油大学 2015
[3]基于微博情感分析的网络舆情热点发现模型研究[D]. 李炤.兰州大学 2013



本文编号:3125591

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/jinrongzhengquanlunwen/3125591.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户efdf1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com