LDA模型稳定性的研究及其改进

发布时间:2021-05-20 21:28
  主题模型能够提取文本数据中潜在的主题,进而根据每篇文本所属的主题对大规模文档集进行聚类。一个广泛使用的主题模型是LDA(Latent Dirichlet allocation)模型,但是LDA模型存在“顺序效应”,也就是说,如果建模时改变文本数据的读入顺序,模型会产生不同的主题,文本也可能会被划分到不同的主题中。这种“顺序效应”使结果具有误导性,严重降低文本挖掘的效率和准确性。有学者曾提出基于遗传进化算法(Genetic algorithms)的LDA模型,在某种程度上提高了模型的稳定性,但这种基于遗传进化算法的LDA模型收敛速度相对较慢,易陷入局部最优解,且对聚类结果的解释性较差。针对这些不足,本文应用差分进化算法对LDA模型的相关参数进行优化,并将优化之后的模型称为LDA-DE模型。在建立LDA-DE模型之后,本文定义了描述模型稳定性的概念:主题稳定度,之后以主题稳定度和文本聚类的准确度作为模型评价指标,对LDA模型和LDA-DE模型的建模结果进行对比。结果表明,LDA-DE模型具有更高的主题稳定度和准确度。最后,本文以“2019年315消费者权益日”热点新闻为语料库,建立LDA模... 

【文章来源】:中国石油大学(北京)北京市 211工程院校 教育部直属院校

【文章页数】:57 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景
    1.2 研究意义
    1.3 研究现状
    1.4 研究内容
第2章 理论基础
    2.1 前置知识
        2.1.1 Beta分布
        2.1.2 Dirichlet分布
        2.1.3 共轭先验分布
    2.2 记号和术语
    2.3 LDA模型
    2.4 LDA模型与可交换性
    2.5 推断和参数估计
        2.5.1 推断
        2.5.2 变分推断
        2.5.3 参数估计
第3章 基于差分进化算法的LDA-DE模型
    3.1 LDA模型参数
    3.2 LDA模型的不稳定性
    3.3 差分进化算法
    3.4 LDA-DE模型
    3.5 本章小结
第4章 LDA-DE模型的热点新闻发现
    4.1 LDA-DE模型用于热点新闻主题挖掘
    4.2 数据来源
    4.3 数据预处理
    4.4 模型比较与选择
    4.5 主题挖掘
第5章 总结与展望
参考文献
附录 A.推断与参数估计
    A.1 计算E_q[log(θ_i)|γ]
    A.2 变分推断
    A.3 E步
        A.3.1 求解φ_(n,i)
        A.3.2 求解γ_i
    A.4 M步
致谢


【参考文献】:
期刊论文
[1]基于GV-LDA的微博话题检测研究[J]. 李少华,李卫疆,余正涛.  软件导刊. 2018(02)



本文编号:3198457

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3198457.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a7eb4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com