结合深度学习的主题模型及其应用
发布时间:2021-01-06 12:59
随着互联网上电子文档数量的爆炸式增长,如何有效地理解和挖掘这些电子文档的隐含语意,已经成为机器学习、自然语言处理等领域的热点问题。潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)定义每篇文档由所有主题混合而成,其中主题定义为词典上特异的概率分布,混合比例θ可作为文档在主题空间的特征表示。监督主题模型利用文档监督信息,同时对文档词语和标签建模,能够获得更有预测能力的文档主题低秩表示。本文对主题模型及其应用展开深入研究,主要贡献如下:(1)本文提出一种结合深度学习的监督主题模型(DL-sLDA)框架,利用深度网络强大的非线性拟合能力建立文档主题分布与标签之间的映射关系,通过改变网络结构和激活函数的类型,DL-sLDA可用于分类和回归任务。在无监督主题模型的基础上,DL-sLDA在模型生成假设中加入描述文档主题分布与标签映射关系的步骤,使之能够同时对文档词语与标签建模;对于模型参数的求解,本文提出一种基于平均场理论(Mean Field Theory)的变分期望最大化(EM)结合深度网络训练的方法共同完成贝叶斯框架下模型参数的近似。实验表明:DL-sLDA既...
【文章来源】:宁波大学浙江省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
词的二义性质Fig1.1Theambiguousnatureoftheword
狄利克雷分布
宁波大学硕士学位论文-17-2.置信度传播(Beliefpropagation)方法。利用消息传递过程中各个节点之间产生的概率生成影响,去改变相邻节点的分布形式。经过多次传播使得每个节点的变量值趋于稳定状态。3.蒙特卡洛采样(montecarlosampling)。与以上基于优化的方法不同,蒙特卡洛采样法直接通过依据未知的概率分布利用计算机去大量采样样本出来,来分析隐变量的统计学特性,如均值、方差等。这种办法的好处是能够对整个分布进行全局最优的刻画。图2.2概率有向图示例Fig2.2DirectedGraphicalModel2.6深度神经网络简介图2.3深度神经网络图示Fig2.3DeepNetwork近些年,深度学习[26](DeepLearning)作为一种具有多层结构的非线性模型,由于其强大的对任意复杂数据分布的逼近能力,即可以学习到更为复杂的映射关系,已经被广泛地应用在计算机视觉[27]、自然语言处理[28]等领域。深度网络的示意图如图2.3所示,包含输入层、隐藏层以及输出层,每一
本文编号:2960613
【文章来源】:宁波大学浙江省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
词的二义性质Fig1.1Theambiguousnatureoftheword
狄利克雷分布
宁波大学硕士学位论文-17-2.置信度传播(Beliefpropagation)方法。利用消息传递过程中各个节点之间产生的概率生成影响,去改变相邻节点的分布形式。经过多次传播使得每个节点的变量值趋于稳定状态。3.蒙特卡洛采样(montecarlosampling)。与以上基于优化的方法不同,蒙特卡洛采样法直接通过依据未知的概率分布利用计算机去大量采样样本出来,来分析隐变量的统计学特性,如均值、方差等。这种办法的好处是能够对整个分布进行全局最优的刻画。图2.2概率有向图示例Fig2.2DirectedGraphicalModel2.6深度神经网络简介图2.3深度神经网络图示Fig2.3DeepNetwork近些年,深度学习[26](DeepLearning)作为一种具有多层结构的非线性模型,由于其强大的对任意复杂数据分布的逼近能力,即可以学习到更为复杂的映射关系,已经被广泛地应用在计算机视觉[27]、自然语言处理[28]等领域。深度网络的示意图如图2.3所示,包含输入层、隐藏层以及输出层,每一
本文编号:2960613
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2960613.html