基于社交情感数据挖掘的股票市场预测研究
发布时间:2020-12-07 18:02
在互信息与左右熵识别新词的基础上,针对股票市场建立了金融情感词典,提出结合粒子群阈值优化改进的贝叶斯算法,并对每条评论的情感倾向进行自动识别,从而完成对股票市场的分析.实验与多种预测方法进行比较,基于情感词典的改进贝叶斯算法识别准确率为90.6%,表明该方法能够获得较为理想的预测结果.
【文章来源】:东北师大学报(自然科学版). 2020年03期 第105-110页 北大核心
【文章页数】:6 页
【部分图文】:
图1分词算法比较表24个数据库的新词识别
情感数据挖掘的股票市场预测研究通过粒子群算法找出Ssentiment的最佳阈值,以此阈值为界限,大于此阈值的视为积极情绪,标记为1(Pnumber为大于此阈值的评论数目),小于此阈值的视为消极情绪,标记为0(Nnumber为小于此阈值的评论数目),以归一化的ψdaily_sentiment和实际的上证指数的价格变动曲线(ψprice_change)为研究目标,以灰色相关联系数作为判定标准,经过300次迭代,如图3所示,得出最佳阈值为0.546,此时灰自相关系数达到最大,为0.729,ψdaily_sentiment的计算公式为ψdaily_sentiment=PnumberPnumber+Nnumber.(14)图3计算的灰自相关系数4实验及其结果分析为验证经过改进贝叶斯的情感判别结果,实验使用准确率、灰色相关系数、同斜率占天数比来评判实验结果.实验选取5000条已人工标注好情感极性的帖子(即积极记为1,消极记为0),其中4000条作为实验样本,1000个作为测试样本,同时使用KNN、最大熵、SVM等机器学习方法与实验改进方法进行比较.准确率为MacroP=1N∑Ni=1Precisioni.(15)灰色相关系数为ξi(k)=minsmint|x0(t)-xs(t)|+ρmaxsmaxt|x0-xs(t)||x0(t)-xi(t)|+ρmaxsmax
【参考文献】:
期刊论文
[1]数据挖掘中并行离散化数据准备优化[J]. 刘云,袁浩恒. 四川大学学报(自然科学版). 2018(05)
[2]在线社交网络信息有效分类传播模型研究[J]. 杨林枫,黄贤英,刘小洋,刘超,刘万平. 四川大学学报(自然科学版). 2018(04)
[3]基于扩展规则与统计特征的未登录词识别[J]. 曾浩,詹恩奇,郑建彬,汪阳. 计算机应用研究. 2019(09)
[4]基于文本信息的股票指数预测[J]. 董理,王中卿,熊德意. 北京大学学报(自然科学版). 2017(02)
[5]基于中文股票博客的情感分类[J]. 李亚珍,李晓戈,于根. 武汉大学学报(理学版). 2015(02)
[6]基于情感分析技术的股票研究报告分类[J]. 彭敏,汪清,黄济民,周李,胡鑫汇. 武汉大学学报(理学版). 2015(02)
[7]自然语言理解在Web数据挖掘中的应用[J]. 蔡霞,张森. 计算机工程与设计. 2003(11)
博士论文
[1]朴素贝叶斯分类器及其改进算法研究[D]. 蒋良孝.中国地质大学 2009
硕士论文
[1]针对文本情感分类的特征生成方法研究[D]. 周哲.南京大学 2016
[2]基于雪球网的股市波动数据分析与预测[D]. 王迪.北京邮电大学 2017
[3]基于领域特殊性和统计语言知识的新词抽取方法[D]. 梅莉莉.北京理工大学 2016
[4]基于微博舆情的股票高频交易分析技术研究与实现[D]. 陈亮.复旦大学 2014
本文编号:2903679
【文章来源】:东北师大学报(自然科学版). 2020年03期 第105-110页 北大核心
【文章页数】:6 页
【部分图文】:
图1分词算法比较表24个数据库的新词识别
情感数据挖掘的股票市场预测研究通过粒子群算法找出Ssentiment的最佳阈值,以此阈值为界限,大于此阈值的视为积极情绪,标记为1(Pnumber为大于此阈值的评论数目),小于此阈值的视为消极情绪,标记为0(Nnumber为小于此阈值的评论数目),以归一化的ψdaily_sentiment和实际的上证指数的价格变动曲线(ψprice_change)为研究目标,以灰色相关联系数作为判定标准,经过300次迭代,如图3所示,得出最佳阈值为0.546,此时灰自相关系数达到最大,为0.729,ψdaily_sentiment的计算公式为ψdaily_sentiment=PnumberPnumber+Nnumber.(14)图3计算的灰自相关系数4实验及其结果分析为验证经过改进贝叶斯的情感判别结果,实验使用准确率、灰色相关系数、同斜率占天数比来评判实验结果.实验选取5000条已人工标注好情感极性的帖子(即积极记为1,消极记为0),其中4000条作为实验样本,1000个作为测试样本,同时使用KNN、最大熵、SVM等机器学习方法与实验改进方法进行比较.准确率为MacroP=1N∑Ni=1Precisioni.(15)灰色相关系数为ξi(k)=minsmint|x0(t)-xs(t)|+ρmaxsmaxt|x0-xs(t)||x0(t)-xi(t)|+ρmaxsmax
【参考文献】:
期刊论文
[1]数据挖掘中并行离散化数据准备优化[J]. 刘云,袁浩恒. 四川大学学报(自然科学版). 2018(05)
[2]在线社交网络信息有效分类传播模型研究[J]. 杨林枫,黄贤英,刘小洋,刘超,刘万平. 四川大学学报(自然科学版). 2018(04)
[3]基于扩展规则与统计特征的未登录词识别[J]. 曾浩,詹恩奇,郑建彬,汪阳. 计算机应用研究. 2019(09)
[4]基于文本信息的股票指数预测[J]. 董理,王中卿,熊德意. 北京大学学报(自然科学版). 2017(02)
[5]基于中文股票博客的情感分类[J]. 李亚珍,李晓戈,于根. 武汉大学学报(理学版). 2015(02)
[6]基于情感分析技术的股票研究报告分类[J]. 彭敏,汪清,黄济民,周李,胡鑫汇. 武汉大学学报(理学版). 2015(02)
[7]自然语言理解在Web数据挖掘中的应用[J]. 蔡霞,张森. 计算机工程与设计. 2003(11)
博士论文
[1]朴素贝叶斯分类器及其改进算法研究[D]. 蒋良孝.中国地质大学 2009
硕士论文
[1]针对文本情感分类的特征生成方法研究[D]. 周哲.南京大学 2016
[2]基于雪球网的股市波动数据分析与预测[D]. 王迪.北京邮电大学 2017
[3]基于领域特殊性和统计语言知识的新词抽取方法[D]. 梅莉莉.北京理工大学 2016
[4]基于微博舆情的股票高频交易分析技术研究与实现[D]. 陈亮.复旦大学 2014
本文编号:2903679
本文链接:https://www.wllwen.com/jingjilunwen/jinrongzhengquanlunwen/2903679.html