基于文本挖掘的投资者情绪与股票市场波动关系研究
发布时间:2024-05-09 01:22
自1990年上海证券交易所成立以来,中国的股票市场规模快速扩大,发展速度迅速,截止2018年末,总有1449家公司上市,上市证券共有12373只。在中国股票市场向成熟的市场化发展的进程中,投资者是该市场中重要的一个部分,但由于市场的不成熟,如受政策影响大,信息不对称情况严重,易产生股市暴跌暴涨现象等,加上投资者自身金融知识的不足与心理认知偏差等,导致股票市场中存在着许多非理性行为,使得股市波动更加剧烈。同时,随着网络的不断发展和互联网时代的到来,投资者越来越多的使用网络来进行股票的投资,并实时的在网络平台上留下自己的观点或表达自己的情绪,在对股市持看涨积极态度时会在网络上留下买入、加仓和持有股票等信息,在对股市持看跌消极态度时会在网络上留下卖出、减仓和推出等信息。在这样的背景下,使得研究投资者情绪与股票市场的互动影响成为了可能。本文基于行为金融学和投资者心理认知偏差理论,通过构建合适的投资者情绪指标来刻画投资者在股票市场中的非理性行为。基于Python语句对东方财富网站股吧内的帖子进行抓取后,利用文本挖掘技术对清洗后的数据进行处理分析,使文本数据量化为投资者情绪指数,从而与反映股票市场...
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
本文编号:3968108
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
图2-1中国石油词云图
基于文本挖掘的投资者情绪与股票市场波动关系研究17包,该分词包的底层使用的是C++,而后通过Rcpp进行调用,相较于其他方法的分词包,它具有分词精度高、分词速度快等优点。因此,本文采用了jiebaR程序包对文本数据进行中文分词,并对中国石油的文本数据分词处理结果后进行了可视化,形....
图2-2朴素贝叶斯分类
第二章投资者情绪指数测度18图2-2朴素贝叶斯分类图2-3支持向量机分类在对所有的文本数据进行分类之前,需要合理的选取一定比例的训练数据集作为样本,运用训练集的拟合效果来选择合适的分类方法。因为是从股吧中抓取出来的文本,文本数据较为口语化、不规范化,因此本文从最终清洗完成的数据集....
图2-3支持向量机分类在对所有的文本数据进行分类之前,需要合理的选取一定比例的训练数据集
第二章投资者情绪指数测度18图2-2朴素贝叶斯分类图2-3支持向量机分类在对所有的文本数据进行分类之前,需要合理的选取一定比例的训练数据集作为样本,运用训练集的拟合效果来选择合适的分类方法。因为是从股吧中抓取出来的文本,文本数据较为口语化、不规范化,因此本文从最终清洗完成的数据集....
图2-4中国石油2018年日投资者情绪指数折线图
爬取,随后通过文本挖掘技术和机器学习方法对经过文本清洗后的未标记的数据样本进行了投资者情绪分类,主要分为看涨、看平和看跌三类。现已得到每个帖子投资者情绪的预测值,最后需要利用所构建的投资者情绪指标计算得出中国石油股票最终的每天的投资者情绪指数值。根据投资者情绪指数计算方法可以看出....
本文编号:3968108
本文链接:https://www.wllwen.com/guanlilunwen/shengchanguanlilunwen/3968108.html