当前位置:主页 > 经济论文 > 银行论文 >

不同社交平台上公众情感与股市关系的对比研究

发布时间:2020-09-28 07:35
   近年来,社交媒体不断渗透进大众日常生活的各个方面,而与此同时,随着大数据技术与人工智能的不断发展,使得研究者们对于社交平台上用户的行为跟踪和预测的想法成为可能。许多研究者也开始利用群体情感数据对股票金融市场这个复杂系统进行相关预测,并构建出了对应的预测股票价格或是其他市场指数的模型,其所取得的相关成果与都表明了公众情感和市场数据的结合对于提升预测股票价格准确性的可能性。尽管如此,在如今现有的研究中,并没有研究能够很好地对比不同群体情感数据对于股票价格预测的差异性,并总结这种差异性的存在对于预测结果的影响。不同的社交平台,由于其主要用户群体的分布截然不同,显然会产生不同风格的用户文本数据,例如,在话题较为泛社会化的新浪微博平台和专注于股票投资分析的雪球网平台上,用户对于股票的相关讨论具有完全不同的风格。本研究着眼于这种不同社交媒体平台之间的差异性,特别是雪球网与新浪微博这两大公众社交平台,主要对于不同社交平台上的公众情感数据与股票价格走势之间的关系进行了对比研究。在本文的研究中,(1)采集获取了来自雪球网和新浪微博的用户评论数据用于代表用户的情感状态;(2)在对这些数据进行整理清洗分类之后,通过情感分析中的词典法,利用金融领域相关的情感词典,分别对不同社交平台上的用户所发表的文本数据进行了情感分析,获得了不同平台的用户群体随时间变化的情感得分,并对该情感得分进行POMS平滑处理;(3)分析了雪球网用户情感以及新浪微博用户情感与具体股票价格走势之间的差异性,利用格兰杰因果分析检验验证了雪球网与新浪微博情感时间序列与金融时间序列之间的因果性联系,并对比之后得出,雪球网用户产生的情感时间序列在特定滞后期条件下与股票价格时间序列之间的格兰杰因果性更为强烈,其统计学特征更为显著;(4)分别基于雪球网与新浪微博的情感时间序列,利用SOFNN模型构建了股票价格变动走势的预测模型,该模型以前三天的股票价格变动以及情感时间序列作为输入,能够实现对于当天股票价格变动较为准确的预测。其中,在MAPE以及方向准确性方面,以雪球网用户情感序列作为输入的模型预测结果表现均优于以新浪微博用户情感序列为输入的预测模型,其模型预测准确度可以达到1.83%的平均绝对百分比误差以及72.3%的方向准确性。
【学位单位】:东南大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:F830.51;TP391.1
【部分图文】:

序列,回报率,对数


如图 3-1 所示,以贵州茅台(SH600519)为例,绘制了期内贵州茅台的每日股价变动情况。如图 3-1 可以看出,SH600519 在活动期内,每日股价变动情况较为稳定,其中在2017 年 10 月 25 日前后出现的大幅波动,也符合其当时在 2017 年 10 月 25 日发布 2017年第三季度报告的真实情况,该报告对于公司业绩的披露导致了当时股票价格的剧烈波动,也充分的体现在图 3-2 的每日股票价格变动图中,较好的体现了使用每日股票价格变动这个指标作为金融时间序列的价值。对数回报率指的是两个时期资产价值取对数后的差额:即资产多个时期的对数收益率等于其各时期对数收益率之和。具体来说,就是当日股价取对数后的值与前一日股价取对数值之间的差值,这同样反映了股票价格每天的变化情况。与每日股价变动相比,由于对数回报率具有可直接线性叠加的特点,因此常被作为建模的输入,通过数据预处理,可以得到稳定序列,方便应用到模型中进行分析。对数回报率的公式如下: = log( ) log( ) (15)其中, 为日期为 t 的当天的股票收盘价,如图 3-3,同样以贵州茅台(SH600519)为例,绘制了期内每日的对数回报率图像。

雪球,股票,页面


东南大学硕士学位论文操作,准备好各只股票的金融数据,为后续的相关性研究以及预测模型准备好相关的股票价格数据。3.3 雪球数据的采集与预处理 雪球网(www.xueqiu.com)是一家供投资者讨论相关股票的专业性网站,其号称是聪明的投资者的聚集地。在其网站上,每只股票都有其对应的股票讨论页面,如图 3-3所示,是 SH600519 的讨论页面的部分截图。其中,在红线框部分,可以看到每一条评论都由用户昵称,发布时间以及用户具体评论内容组成。由于雪球官方并未向开发者提供相关的数据接口或者是信息获取的 API,于是本文选择使用 Scrapy 爬虫框架自主编写爬虫对该网站上投资者的相关讨论进行数据采集。

框架结构,框架结构,中间件,引擎


第三章 数据采集与预处理给 Spiders 来处理;Spiders:它负责处理所有 Responses,从中分析提取数据,获取 Item字段需要的数据,并将需要跟进的 URL 提交给引擎,再次进入 Scheduler 调度器;ItemPipeline:它负责处理 Spiders 中获取到的 Item,并进行处理,比如去重,持久化存储(存数据库,写入文件,总之就是保存数据用的);DownloaderMiddlewares 下载中间件,可以理解为是一个可以自定义扩展下载功能的组件;SpiderMiddlewares(Spider 中间件):可以理解为是一个可以自定扩展和操作引擎和 Spiders 中间通信的功能组件(比如进入Spiders 的 Responses;和从 Spiders 出去的 Requests)。

【参考文献】

相关期刊论文 前4条

1 宋佳颖;贺宇;付国宏;;领域相关的汉语情感词典扩展[J];中文信息学报;2015年06期

2 史伟;王洪伟;何绍义;;基于微博情感分析的电影票房预测研究[J];华中师范大学学报(自然科学版);2015年01期

3 张对;;网络股评影响股市走势吗——基于股票情感分析的视角[J];现代经济信息;2015年01期

4 胡昌生;池阳春;;投资者情绪、资产估值与股票市场波动[J];金融研究;2013年10期

相关硕士学位论文 前2条

1 宋敏晶;基于情感分析的股票预测模型研究[D];哈尔滨工业大学;2013年

2 汤建明;基于神经网络的股市预测[D];华中科技大学;2006年



本文编号:2828516

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/huobiyinxinglunwen/2828516.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4d148***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com