当前位置:主页 > 科技论文 > 软件论文 >

基于主题模型的金融论坛文本挖掘

发布时间:2023-02-12 10:00
  金融论坛,作为面向股民的平台,拥有着很高的热度。利用好金融论坛里面的文本信息,对投资具有很大的帮助。对于访问金融论坛的网民,最想要了解的信息主要有两点:近期讨论度比较高的事件以及网民对个股是看好还是看衰,本文将通过主题模型对这两种信息进行挖掘。本文的主要工作如下:对金融论坛新闻版块进行主题挖掘。论坛语料拥有回复短、水帖多等特点,传统的主题模型不适用于短文本,且没有考虑无意义文本,这使得传统主题模型在论坛语料上很难取得很好的效果。针对论坛语料的这些特点,本文提出了BBS-LDA主题模型,该模型以句子为单位采样主题,且每个帖子中的句子具有相同的主题分布,这样的做法考虑了论坛的结构特性,并且可以缓解单条回复字数少导致的稀疏性问题。同时,该模型引入了无意义主题和用户的信息,以缓解水帖对于主题挖掘的影响。通过真实语料进行对比实验,该主题模型能够提升主题关键词的质量。对金融论坛个股版块进行情感分析。论坛语料没有标注信息,很多有监督的分类方法需要人工标注,所以并不适用。本文通过Word2vec和SO-PMI构建了金融情感词典,并以此为监督信息使用情感主题混合模型对个股的帖子进行情感分析。通过在由人工...

【文章页数】:75 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
        1.2.1 针对论坛的研究
        1.2.2 主题模型相关研究
    1.3 本文的研究内容
    1.4 本文的组织结构
第二章 相关技术研究
    2.1 文本预处理
        2.1.1 分词
        2.1.2 去停用词
    2.2 文本表示
    2.3 主题模型
        2.3.1 Unigram模型
        2.3.2 Mixture of unigrams模型
        2.3.3 PLSA模型
        2.3.4 LDA模型
    2.4 吉布斯采样
    2.5 本章小结
第三章 基于BBS-LDA的金融论坛主题挖掘
    3.1 论坛主题挖掘的难点分析
    3.2 BBS-LDA主题模型
    3.3 模型参数估计
        3.3.1 模型概率分布
        3.3.2 吉布斯采样过程
        3.3.3 参数估计
        3.3.4 采样算法整体流程
    3.4 垃圾回复识别
    3.5 模型评估
        3.5.1 数据获取
        3.5.2 数据处理
        3.5.3 实验与分析
    3.6 本章小结
第四章 基于JST的个股情感分析
    4.1 个股版块文本分析
    4.2 JST主题模型
    4.3 情感词典
        4.3.1 开源情感词典
        4.3.2 金融情感词典构建
    4.4 实验分析
        4.4.1 分类性能分析
        4.4.2 情感与股价分析
    4.5 本章小结
第五章 基于主题模型的金融论坛分析系统的实现
    5.1 系统需求分析
    5.2 系统架构设计
    5.3 各模块实现细节
        5.3.1 爬虫模块
        5.3.2 算法模块
        5.3.3 展示模块
    5.4 系统演示
    5.5 本章小结
第六章 结论与展望
    6.1 结论
    6.2 展望
参考文献
致谢
作者简介
    1 作者简历
    2 攻读硕士学位期间发表的学术论文
    3 参与的科研项目及获奖情况
    4 发明专利
学位论文数据集
附件 2



本文编号:3740886

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3740886.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户eda59***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com