主题模型的快速吉布斯采样主题推断算法研究

发布时间：2020-03-25 02:01

【摘要】：随着智能手机的逐渐普及以及互联网尤其是移动互联网的飞速发展,网络上文本类型数据的数量呈现爆炸式地增长,政府、企业以及个人对智能文本挖掘方法的需求越来越强。为解决这些需求,学术界相继提出了一系列智能文本挖掘方法。在已提出的众多文本挖掘方法中,主题模型是一种能够有效地挖掘和发现文本数据中潜在语义主题的非监督学习方法。采用主题模型准确地并快速地挖掘文本数据中的潜在主题能够在较大程度上满足我们在较高概念层次上对大量文本进行组织和管理的需求。因此,在主题模型研究领域中,提高挖掘主题的“准确性”和“时效性”是两个关键的基本问题。其中,在兼顾“准确性”的前提下提高挖掘主题过程的“时效性”是一个较为重要的研究方向。本文主要针对主题模型挖掘过程的“时效性”进行研究,在不改变算法结果“准确性”的前提下提出时效性更高的快速吉布斯采样主题推断算法:~1)针对潜在狄利克雷分配(~(Latent Dirichlet Allocation,LDA))这种较具有代表性和一般性的主题模型,本文提出了一种更适用于长文本数据集主题推断的快速吉布斯采样算法(~(ESparseLDA));~2)针对用于短文本数据集主题挖掘的双词主题模型(~(Biterm Topic Model,BTM)),本文提出了两种快速吉布斯采样主题推断算法(~(SparseBTM)和~(ESparseBTM))。详细地,本文的主要工作内容如下:(1)针对~(LDA)模型的~(SparseLDA)算法在主题推断过程中存在的“重用计算”问题,我们基于~(SparseLDA)算法提出了一种精确的和时效性更高的用于~(LDA)模型主题推断的快速吉布斯采样算法——~(ESparseLDA)算法。~(SparseLDA)算法是用于~(LDA)模型的一种精确的和快速的吉布斯采样主题推断算法。然而,由于在主题推断过程中“相邻词项的词型通常是不同的”导致它“不能重用更多的中间计算结果”。因此,它的时效性受到了限制而不能进一步地得到提高。~(ESparseLDA)算法解决这个问题的核心想法是:首先根据词型重排每个文本内的词项,以使得文本内词型相同的词项聚集在一起;然后采用缓存策略以重用更多的中间计算结果,并最终达到提高算法时效性的目的。~(ESparse LDA)算法完成和~(SparseLDA)算法同样的任务,并且保证结果的精确度不变。我们从理论分析和对比实验两个方面验证了~(ESparse LDA)算法思路的正确性、结果的精确性和收敛速度的时效性。理论上,~(ESparse LDA)算法的时间复杂度低于~(SparseLDA)算法。相应的对比实验结果表明,在实验使用的不同数据集上~(ESparseLDA)算法的时效性能够高于SparseLDA算法~(31.85%)。从实际情况来看,~(ESparseLDA)算法更适用于文本内词型数相对较少且词项数相对较多的长文本数据集(比如小说、专利和学术论文等)。此外需要说明的是,~(ESparseLDA)算法中的核心想法具有一定的一般性,也可以用来为部分其他的主题模型提出相应的快速吉布斯采样主题推断算法。(2)针对~(BTM)模型主题推断过程中存在的“时间复杂度较高”、“收敛时间较长”问题,我们提出了一种精确的用于~(BTM)模型主题推断的快速吉布斯采样算法——~(SparseBTM)算法。~(BTM)模型是一种有效地用于短文本数据集主题挖掘的主题模型,但是它的标准吉布斯采样算法(~(StdBTM)算法)存在“时间复杂度较高”、“收敛时间较长”问题。针对这个问题,我们基于~(StdBTM)算法提出了一种精确的用于~(BTM)模型主题推断的快速吉布斯采样算法——~(SparseBTM)算法。SparseBTM算法的主要想法是通过重用中间计算结果和利用~(BTM)模型中主题~-词型计数矩阵~(NT)W的稀疏性来减少~(StdBTM)算法中不必要的计算,并最终达到降低推断算法时间复杂度和减少模型收敛时间的目的。本质上,~(SparseBTM)算法在时间开销和空间开销上进行了权衡,即通过增加部分空间开销来减少部分时间开销。理论上,~(SparseBTM)算法的时间复杂度低于~(StdBTM)算法。相应的对比实验结果表明,在较大的主题个数(~K为~(1000))设置下,~(SparseBTM)算法的收敛速度可以达到~(StdBTM)算法的~(18)倍。(3)为解决~(BTM)模型的~(SparseBTM)算法在短本文主题推断过程中存在的“重用计算”问题,我们基于~(SparseBTM)算法提出了一种精确的和时效性更高的用于~(BTM)模型主题推断的快速吉布斯采样算法——~(ESparseBTM)算法。SparseBTM算法是~(BTM)模型的一种精确的和快速的吉布斯采样主题推断算法。然而,由于在主题推断过程中“相邻双词词项的双词词型通常是不同的”导致它“不能重用更多的中间计算结果”。因此,它的时效性受到了限制而不能进一步地得到提高。~(ESparseBTM)算法解决这个问题的核心想法是:首先根据双词词型重排整个双词数据集内的所有双词词项,以使得数据集内双词词型相同的所有双词词项聚集在一起;然后采用缓存策略以重用更多的中间计算结果,并最终达到提高算法时效性的目的。~(ESparseBTM)算法完成和~(SparseBTM)算法同样的任务,并且保证结果的精确度不变。我们从理论分析和对比实验两个方面验证了ESparseBTM算法结果的精确性和收敛速度的时效性。理论上,~(ESparseBTM)算法的时间复杂度低于~(SparseBTM)算法。相应的对比实验结果表明,~(ESparseBTM)算法的时效性高于~(SparseBTM)算法,尤其是在双词词型个数与双词词项个数比率较小的数据集上。具体地,在对比实验使用的不同数据集上,~(ESparseBTM)算法的时效性能够高于~(SparseBTM)算法~(39.5%)。
【图文】：

概率分布,图模型,词型,主题

）是表示主题t内各词型概率分布的参数。出现的概率。直观地，从t可以看出主题示文本d内的词项个数。内第n个词项的主题标识；d内第n个词项的词型标识。说明的是wd,n是观测量，d,t和zd,n非观参数，zd,n是需要推断的变量。因此，，总的各文本内词项（wd,n）的情况下，计算各词比重（d）以及各主题内词型概率分布（t）分布的一种有效方法，吉布斯采样算法首先后对变量z进行推断，最后再由变量z得到详细地介绍吉布斯采样算法推断LDA模型

混合模型,图模型,模型,形式化描述

(b) LDA 模型，(c) 一元混合模型。BTM LDA根据BTM模型生成过程的形式化描述，它的图模型表示如图2.2所示。为了更好的理解BTM模型，从概率图模型的角度它可以看作一元混合模型和LDA模型的组合。图2.2展示了这三个模
【学位授予单位】：吉林大学
【学位级别】：博士
【学位授予年份】：2018
【分类号】：TP391.1

【参考文献】