基于文本大数据的已实现波动率预测研究
发布时间:2021-08-04 02:54
在金融市场,股市波动率的研究对于投资者和监管者而言具有重要的参考意义。波动率的研究实则为金融时间序列的预测研究,通常采用传统的GARCH模型进行预测,但是该模型使用的数据是低频数据,难以捕捉更多的金融有效信息。现有诸多学者采用基于高频数据的HAR-RV模型与之对比,发现该模型预测精度较GARCH模型而言有所提升。随着深度学习算法在金融界的逐步拓展,越来越多的金融时间序列预测问题被证实可以用深度学习算法较好的拟合预测。由于目前深度学习算法预测的对象多为股票价格,故本文尝试将深度学习算法应用于股市波动率的预测研究,因此选用适合于时间序列的神经网络GRU模型,对中国股票市场的波动率进行预测研究。已有研究表明新闻媒体对股市波动存在影响,在此背景下,如何将新闻信息对股市波动的影响提取出来用于波动率的提升预测成为新的研究方向。本文将基于新闻文本大数据,通过构建情感词典、量化情绪指标的方式,提取新闻文本信息,并将其加入到基于高频数据的HAR-RV模型和GRU模型中,形成其扩展模型。此外,本文以损失函数法和MCS检验法为评价体系,将模型两相比较,判定新兴的深度学习算法是否在股市波动率预测方面有更加出色...
【文章来源】:浙江工商大学浙江省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
论文思路框架
17如图3.1为中文财经情感词典构建流程图:图3.1情感词典构建流程图如表3.2展示了各个基础词典和本文所构建的中文财经情感词典的正负面词语数量表。经上述步骤构建的中文财经情感词典,共计包含负面词语2622个,正面词语3275个。表3.2各个词典正负词语对照表TSINGHUADLUTSDLMCFED负面词语46201078312752622正面词语5569112292253275利用基础词典和中文财经情感词典分别对新闻文本中的词语进行分析,统计出各个词典中在新闻文本中出现的词语占自身词语的比重,如表3.3所示:表3.3各个词典新闻词语频率对照表TSINGHUADLUTSDLMCFED负面词语33.35%14.21%60.16%100%正面词语44.01%18.35%75.56%100%总数39.18%16.34%62.47%100%因为中文财经情感词典的词语全部来自于新闻语料库,所以该词典中在新闻语料库出现的词语占自身词语的比重为100%,从表3.3中可以看出,清华词典和大连词典中只有39.18%和16.34%的正负面词语适用于财经新闻领域,LM翻译词典中有62.47%的
新闻范本
本文编号:3320857
【文章来源】:浙江工商大学浙江省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
论文思路框架
17如图3.1为中文财经情感词典构建流程图:图3.1情感词典构建流程图如表3.2展示了各个基础词典和本文所构建的中文财经情感词典的正负面词语数量表。经上述步骤构建的中文财经情感词典,共计包含负面词语2622个,正面词语3275个。表3.2各个词典正负词语对照表TSINGHUADLUTSDLMCFED负面词语46201078312752622正面词语5569112292253275利用基础词典和中文财经情感词典分别对新闻文本中的词语进行分析,统计出各个词典中在新闻文本中出现的词语占自身词语的比重,如表3.3所示:表3.3各个词典新闻词语频率对照表TSINGHUADLUTSDLMCFED负面词语33.35%14.21%60.16%100%正面词语44.01%18.35%75.56%100%总数39.18%16.34%62.47%100%因为中文财经情感词典的词语全部来自于新闻语料库,所以该词典中在新闻语料库出现的词语占自身词语的比重为100%,从表3.3中可以看出,清华词典和大连词典中只有39.18%和16.34%的正负面词语适用于财经新闻领域,LM翻译词典中有62.47%的
新闻范本
本文编号:3320857
本文链接:https://www.wllwen.com/kejilunwen/yysx/3320857.html