基于主题模型和实体识别的股市热点概念挖掘
发布时间:2020-11-16 20:06
随着互联网的发展,推特和微博等社交平台的流行,一个突发事件会快速在网络上形成热点话题,如果是和股票相关的话题,往往会形成股票概念,话题相关股票又称概念股,突发事件会对关联股票股价产生较大的影响。分析事件关联股票往往需要专业的行业研究员,普通投资者无法准确地判断哪些股票可能受到影响。所有如果有一套完整的系统可以及时检测到话题的产生,记录其发展过程,并能够识别出话题对应的股票概念,进而基于海量的互联网资讯,准确地挖掘出事件概念股,那么将会给投资者带来巨大的帮助。针对上述问题,本文利用主题模型实现了股市热点话题检测与追踪算法。主题模型采用了经典的潜在狄利克雷分配算法,并通过引入组合关键词提取进一步过滤干扰词;对于聚类话题个数的选择,本文通过最小类间相似度准则来选取,该方法可以使各个话题间差异较大,话题可解释性强。同时本文提出了话题热度计算方法,可以记录话题发展过程。股票概念词通常是一个和话题极度相关的词,概念词组词结构没有明显规律,常常是新词或者特定领域词,目前的分词算法无法有效识别。本文通过组合命名实体识别算法和词粗切分算法来识别股票概念,首先对基于统计方法的命名实体识别方法和基于神经网络的命名实体识别方法进行了研究,提出了引入边界熵,词向量的神经网络实体识别方法,在公开语料集上达到了较好的效果,然后本文还提出了一种基于词粗切分的新词发现算法,用于概念名识别。最终,本文设计实现了基于Web的股市热点话题检测及概念股票抽取系统。本系统包括话题检测与话题热度走势监控,话题对应概念股以及概念走势监测等模块,可以帮助投资者做决策支持。
【学位单位】:浙江大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:F832.51;TP391.1
【部分图文】:
位论文网资讯信息质量较差,网页文本中常常存在很多噪声以文本特征提取是一个重要步骤。此外,话题一般经历多任务是要从新闻流中识别与己知话题相关的新报道,可追踪,自动记录话题发展过程有助于进一步分析事件与事件的发展,对股市有重大影响的事件会形成对应的人对于事件的总结,而“概念股”,“龙头股”则是己经影响的股票,龙头股是很多股民的重点配仓标的。目前,比如“同花顺”网站,“概念股”网站,中国财经头概念板块“沪港通”概念的成分股榜单。??成分股涨跌排行榜??
第3章基于主题模型的股市热点话题检测与追踪??3.?6.?3结果对比??实验一结果:如图3.2所示。图3.2展示了不同关键词提取个数对LDA模型??效果的影响,图中三条线分别展示了提取关键词个数为10、30、50、80、全部all??(不进行关键词过滤)情况下LDA聚类结果,由图可以看出关键词提取个数为??50的情况下为较优情况,而提取关键词个数为10情况较差,过少的关键词扭曲??了原始概率分布,损失了较多的信息,不建议采用;而在关键词提取个数大于50??时,聚类效果有所下降。所以关键词提取个数为50时,聚类效果优于其他,建??议选择提取个数为50。??关键字提取个数对聚类影响对比实验??0.7????0.65??二:..…??????〇-6?????SSSSWSS4?9??[p|??0.55????—Fi??Y??0.5???10?30?50?80?all??关键词提取个数??图3.2关键字提取个数对聚类影响对比实验??实验二结果:基于数据集二,本文采用最小主题间平均相似度作为标准确定??最终聚类话题个数,如图3.3所示为不同话题个数对应的平均主题间相似度。可??以看到当话题为35时
第3章基于主题模型的股市热点话题检测与追踪??3.?6.?3结果对比??实验一结果:如图3.2所示。图3.2展示了不同关键词提取个数对LDA模型??效果的影响,图中三条线分别展示了提取关键词个数为10、30、50、80、全部all??(不进行关键词过滤)情况下LDA聚类结果,由图可以看出关键词提取个数为??50的情况下为较优情况,而提取关键词个数为10情况较差,过少的关键词扭曲??了原始概率分布,损失了较多的信息,不建议采用;而在关键词提取个数大于50??时,聚类效果有所下降。所以关键词提取个数为50时,聚类效果优于其他,建??议选择提取个数为50。??关键字提取个数对聚类影响对比实验??0.7????0.65??二:..…??????〇-6?????SSSSWSS4?9??[p|??0.55????—Fi??Y??0.5???10?30?50?80?all??关键词提取个数??图3.2关键字提取个数对聚类影响对比实验??实验二结果:基于数据集二,本文采用最小主题间平均相似度作为标准确定??最终聚类话题个数,如图3.3所示为不同话题个数对应的平均主题间相似度。可??以看到当话题为35时
【参考文献】
本文编号:2886602
【学位单位】:浙江大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:F832.51;TP391.1
【部分图文】:
位论文网资讯信息质量较差,网页文本中常常存在很多噪声以文本特征提取是一个重要步骤。此外,话题一般经历多任务是要从新闻流中识别与己知话题相关的新报道,可追踪,自动记录话题发展过程有助于进一步分析事件与事件的发展,对股市有重大影响的事件会形成对应的人对于事件的总结,而“概念股”,“龙头股”则是己经影响的股票,龙头股是很多股民的重点配仓标的。目前,比如“同花顺”网站,“概念股”网站,中国财经头概念板块“沪港通”概念的成分股榜单。??成分股涨跌排行榜??
第3章基于主题模型的股市热点话题检测与追踪??3.?6.?3结果对比??实验一结果:如图3.2所示。图3.2展示了不同关键词提取个数对LDA模型??效果的影响,图中三条线分别展示了提取关键词个数为10、30、50、80、全部all??(不进行关键词过滤)情况下LDA聚类结果,由图可以看出关键词提取个数为??50的情况下为较优情况,而提取关键词个数为10情况较差,过少的关键词扭曲??了原始概率分布,损失了较多的信息,不建议采用;而在关键词提取个数大于50??时,聚类效果有所下降。所以关键词提取个数为50时,聚类效果优于其他,建??议选择提取个数为50。??关键字提取个数对聚类影响对比实验??0.7????0.65??二:..…??????〇-6?????SSSSWSS4?9??[p|??0.55????—Fi??Y??0.5???10?30?50?80?all??关键词提取个数??图3.2关键字提取个数对聚类影响对比实验??实验二结果:基于数据集二,本文采用最小主题间平均相似度作为标准确定??最终聚类话题个数,如图3.3所示为不同话题个数对应的平均主题间相似度。可??以看到当话题为35时
第3章基于主题模型的股市热点话题检测与追踪??3.?6.?3结果对比??实验一结果:如图3.2所示。图3.2展示了不同关键词提取个数对LDA模型??效果的影响,图中三条线分别展示了提取关键词个数为10、30、50、80、全部all??(不进行关键词过滤)情况下LDA聚类结果,由图可以看出关键词提取个数为??50的情况下为较优情况,而提取关键词个数为10情况较差,过少的关键词扭曲??了原始概率分布,损失了较多的信息,不建议采用;而在关键词提取个数大于50??时,聚类效果有所下降。所以关键词提取个数为50时,聚类效果优于其他,建??议选择提取个数为50。??关键字提取个数对聚类影响对比实验??0.7????0.65??二:..…??????〇-6?????SSSSWSS4?9??[p|??0.55????—Fi??Y??0.5???10?30?50?80?all??关键词提取个数??图3.2关键字提取个数对聚类影响对比实验??实验二结果:基于数据集二,本文采用最小主题间平均相似度作为标准确定??最终聚类话题个数,如图3.3所示为不同话题个数对应的平均主题间相似度。可??以看到当话题为35时
【参考文献】
相关期刊论文 前2条
1 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期
2 张海军;史树敏;朱朝勇;黄河燕;;中文新词识别技术综述[J];计算机科学;2010年03期
本文编号:2886602
本文链接:https://www.wllwen.com/jingjilunwen/jinrongzhengquanlunwen/2886602.html