中概股的新闻极性市场预测研究
发布时间:2021-09-04 14:56
股票市场的预测一直是数据研究热点,但是受到很多因素的影响,其预测难度较高.新闻是影响股价的重要因素,投资者也经常依赖新闻进行股票交易与决策,因此对新闻的剖析可以为投资者提供有效信息.新闻作为非结构性数据运用到股票预测中困难重重,而随着机器学习技术和自然语言分析技术的发展,使得该问题的解决成为了可能.目前国内外资本市场政策上的显著差异性导致越来越多的国内企业在国外上市,而关于中文新闻对中概股预测影响的研究却很少.本文提出了一种新的循环评估支持向量机(Cyclic Evaluation Support Vector Machine,CE-SVM)模型,并将其应用于新闻极性对中概股预测的研究中.实验证明,CE-SVM相比起朴素贝叶斯模型提高了4%的准确率,证明了方法的有效性.
【文章来源】:小型微型计算机系统. 2020,41(03)北大核心CSCD
【文章页数】:6 页
【部分图文】:
方案整体流程图
考虑到股票市场大环境以及不同中概股之间的相互影响,本文自定义了中概股指数使标签标准化,并设计了全自动机器打标签模型,将金融新闻和股票波动相结合.中概股指数指的是中概股股票平均股价变动率(上涨为正,下降为负),具体计算详见公式(1),模型如图2所示.通过公示(2)的逻辑关系,根据文章对股市的影响来自动标注可以实现基本的标记功能,且节省了人力与时间.默认交易日当天报道的新闻会即时影响到当天股价的变动,同时考虑到非交易日报道新闻的影响力,将非交易日的新闻合并至下一交易周期的第一个交易日的新闻数据集中.结合交易日当天金融股票交易数据中的开盘与收盘价格的变化进行打标签操作.将股票交易数据与金融新闻数据同时输入全自动机器打标签模型中,经过模型处理后输出完成打标签操作后的语料,其结构组成为“极性标签+新闻标题+新闻内容”.式中:β为中概股指数,αi为第i只中概股的股价变动率,n为中概股股票总数,li为与第i只中概股相关新闻的极性标签.
将SVM模型训练与评估操作嵌入模型预期预测准确率已设定的循环中,使用交叉验证思想,重复地使用数据,把得到的样本内数据进行切分,在此基础上可以得到多组不同的训练集和验证集.通过引入随机数种子作为参数,将语料向量集合随机划分为训练集和验证集,其中,训练集占语料向量集合总数的80%,验证集占语料向量集合总数的20%.重复实验时,在其他参数不变的情况下,设置不同的随机数种子以确保得到不一样的随机序列,避免伪随机数序列的产生,增加实验训练与验证集组合的多样性.在不断训练与评估的过程中寻找预测准确率达到设定要求的模型.经过实践可得,预期预测准确率设定为0.65时得到的结果较为合理.通过调用SVM模型评估函数,获取当前模型的精确率(precision)、召回率(recall)、f1值(f1-score)等信息,并计算准确度(accuracy).
【参考文献】:
期刊论文
[1]信息熵特征加权核函数的SVM数据分类方法[J]. 李长生,吴辰文,梁靖涵,王伟. 小型微型计算机系统. 2017(07)
[2]社会互动对股票市场的影响——基于新浪财经博客的实证分析[J]. 杨晓兰,高媚,朱淋. 证券市场导报. 2016(07)
[3]论重大资产重组信息披露制度的完善[J]. 李有星,冯泽良. 浙江大学学报(人文社会科学版). 2015(03)
[4]基于微博情绪信息的股票市场预测[J]. 黄润鹏,左文明,毕凌燕. 管理工程学报. 2015(01)
[5]大数据技术研究综述[J]. 刘智慧,张泉灵. 浙江大学学报(工学版). 2014(06)
[6]SVM分类核函数及参数选择比较[J]. 奉国和. 计算机工程与应用. 2011(03)
本文编号:3383478
【文章来源】:小型微型计算机系统. 2020,41(03)北大核心CSCD
【文章页数】:6 页
【部分图文】:
方案整体流程图
考虑到股票市场大环境以及不同中概股之间的相互影响,本文自定义了中概股指数使标签标准化,并设计了全自动机器打标签模型,将金融新闻和股票波动相结合.中概股指数指的是中概股股票平均股价变动率(上涨为正,下降为负),具体计算详见公式(1),模型如图2所示.通过公示(2)的逻辑关系,根据文章对股市的影响来自动标注可以实现基本的标记功能,且节省了人力与时间.默认交易日当天报道的新闻会即时影响到当天股价的变动,同时考虑到非交易日报道新闻的影响力,将非交易日的新闻合并至下一交易周期的第一个交易日的新闻数据集中.结合交易日当天金融股票交易数据中的开盘与收盘价格的变化进行打标签操作.将股票交易数据与金融新闻数据同时输入全自动机器打标签模型中,经过模型处理后输出完成打标签操作后的语料,其结构组成为“极性标签+新闻标题+新闻内容”.式中:β为中概股指数,αi为第i只中概股的股价变动率,n为中概股股票总数,li为与第i只中概股相关新闻的极性标签.
将SVM模型训练与评估操作嵌入模型预期预测准确率已设定的循环中,使用交叉验证思想,重复地使用数据,把得到的样本内数据进行切分,在此基础上可以得到多组不同的训练集和验证集.通过引入随机数种子作为参数,将语料向量集合随机划分为训练集和验证集,其中,训练集占语料向量集合总数的80%,验证集占语料向量集合总数的20%.重复实验时,在其他参数不变的情况下,设置不同的随机数种子以确保得到不一样的随机序列,避免伪随机数序列的产生,增加实验训练与验证集组合的多样性.在不断训练与评估的过程中寻找预测准确率达到设定要求的模型.经过实践可得,预期预测准确率设定为0.65时得到的结果较为合理.通过调用SVM模型评估函数,获取当前模型的精确率(precision)、召回率(recall)、f1值(f1-score)等信息,并计算准确度(accuracy).
【参考文献】:
期刊论文
[1]信息熵特征加权核函数的SVM数据分类方法[J]. 李长生,吴辰文,梁靖涵,王伟. 小型微型计算机系统. 2017(07)
[2]社会互动对股票市场的影响——基于新浪财经博客的实证分析[J]. 杨晓兰,高媚,朱淋. 证券市场导报. 2016(07)
[3]论重大资产重组信息披露制度的完善[J]. 李有星,冯泽良. 浙江大学学报(人文社会科学版). 2015(03)
[4]基于微博情绪信息的股票市场预测[J]. 黄润鹏,左文明,毕凌燕. 管理工程学报. 2015(01)
[5]大数据技术研究综述[J]. 刘智慧,张泉灵. 浙江大学学报(工学版). 2014(06)
[6]SVM分类核函数及参数选择比较[J]. 奉国和. 计算机工程与应用. 2011(03)
本文编号:3383478
本文链接:https://www.wllwen.com/jingjilunwen/jinrongzhengquanlunwen/3383478.html