短文本主题模型的研究与系统实现
发布时间:2021-07-30 16:19
在移动互联网高速发展的今天,短文本以其便捷高效的传播优势,极大地满足了人们随时随地参与网络活动的需求,日渐作为主流的信息载体。同时海量的短文本信息也是人们在现实世界与网络世界的真实映射,对这些短文本信息进行分析和挖掘,能够更好地引导真实世界的行为,也促使更多新的应用落地,从而更好地服务于人类自身。主题挖掘作为一项基础的文本分析任务,可以从规模庞大的文本中挖掘出潜在的主题信息,传统的主题模型在长文本的主题挖掘中已经有较为成熟稳定的应用,但是短文本受限于文本长度,在信息的表达上非常简短随意,具有严重的稀疏性和上下文信息匮乏的问题,稀疏的词共现信息使得模型推断的准确性遭受很大挑战。针对短文本稀疏性、语义缺乏的特性,本文分析了现有的短文本主题模型,并提出了基于语义增强和词频逆文档频率的词对主题模型(Semantic Enhancement-TFIDF based Biterm Topic Model,SEI-BTM),模型包括以下几点:(1)以词对为建模对象,缓解统计推断上的词共现信息的匮乏;(2)使用词嵌入技术,在大规模短文本集合中训练得到词表示,将词对在词表示上的相似性作为模型的上下文语义...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:87 页
【学位级别】:硕士
【部分图文】:
图2-1有向图:贝叶斯网络?
对模型中的多种参数进行学习和修正,简化直接计算概率分布的复杂性,被??广泛应用到概率的自动推断。??贝叶斯网络和马尔科夫随机场分别是无向概率图和有向概率图的代表,图2-1和??2-2给出了两种模型的表示形式,其中实心点表示可观测变量,空心点表示隐藏变量,??节点之间的连线表示变量之间的依赖关系。??图2-1有向图:贝叶斯网络?图2-2无向图:马尔科夫随机场??大部分主题模型属于有向图模型中的贝叶斯网络,对图2-1中的随机变量??XKXpXhXiXJ,联合概率计算方法如式2-1所示。??p(x1,x2,x3,x4)?=?pCXi)?*?pcx^xj?*PCX3IX!)?*p(x4|x2,?x3)?(2-1)??7??
在贝叶斯网络的图形表示上,通常采用盘式记法,规定空心表示隐藏变量,实心??表示可观测变量,有向边表示两个随机变量的依赖关系,方框表示重复采样,方框中??的数值表示重复采样的次数,具体表示方法如图2-3所示。??择含变置?可观涵变置?变纛间条件依纊?重5过程??图2-3盘子表示法??2.1.2常见概率分布及其关系??主题模型中主要涉及四个概率分布,分别是二项分布、多项分布、贝塔分布和狄??利克雷分布。本部分简要介绍这四个概率分布及其之间的关联。??二项分布(Binomial?Distribution)是伯努利分布的推广,伯努利分布也称为0-1??分布,随机变量的取值只有0和1两类,二项分布是N次独立的伯努利实验中,期望??结果出现次数的概率,假设某个事件出现的概率为P,不出现的概率为1-p,?k对应不??同的实验结果出现的次数,对应的概率分布如公式2-3所示。??p(K?=?k)?=?〇pk(l?-?P)n ̄k?(2-3)??多项式分布(Multinomial?Distribution)是二项式分布拓展到多维情况下的概率分??布,在多项式分布中,每次实验的随机变量不一定服从伯努利分布,对于随机变量??(XpXh?...,Xk),各自出现的概率分别为(PhPh?...,pk),则多项式分布的概率分布如公式??2-4所示。??8??
【参考文献】:
期刊论文
[1]中文文本聚类常用停用词表对比研究[J]. 官琴,邓三鸿,王昊. 数据分析与知识发现. 2017(03)
[2]知识图谱技术综述[J]. 徐增林,盛泳潘,贺丽荣,王雅芳. 电子科技大学学报. 2016(04)
[3]知识表示学习研究进展[J]. 刘知远,孙茂松,林衍凯,谢若冰. 计算机研究与发展. 2016(02)
[4]网络舆情观点提取的LDA主题模型方法[J]. 陈晓美,高铖,关心惠. 图书情报工作. 2015(21)
[5]基于动态LDA主题模型的内容主题挖掘与演化[J]. 胡吉明,陈果. 图书情报工作. 2014(02)
本文编号:3311729
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:87 页
【学位级别】:硕士
【部分图文】:
图2-1有向图:贝叶斯网络?
对模型中的多种参数进行学习和修正,简化直接计算概率分布的复杂性,被??广泛应用到概率的自动推断。??贝叶斯网络和马尔科夫随机场分别是无向概率图和有向概率图的代表,图2-1和??2-2给出了两种模型的表示形式,其中实心点表示可观测变量,空心点表示隐藏变量,??节点之间的连线表示变量之间的依赖关系。??图2-1有向图:贝叶斯网络?图2-2无向图:马尔科夫随机场??大部分主题模型属于有向图模型中的贝叶斯网络,对图2-1中的随机变量??XKXpXhXiXJ,联合概率计算方法如式2-1所示。??p(x1,x2,x3,x4)?=?pCXi)?*?pcx^xj?*PCX3IX!)?*p(x4|x2,?x3)?(2-1)??7??
在贝叶斯网络的图形表示上,通常采用盘式记法,规定空心表示隐藏变量,实心??表示可观测变量,有向边表示两个随机变量的依赖关系,方框表示重复采样,方框中??的数值表示重复采样的次数,具体表示方法如图2-3所示。??择含变置?可观涵变置?变纛间条件依纊?重5过程??图2-3盘子表示法??2.1.2常见概率分布及其关系??主题模型中主要涉及四个概率分布,分别是二项分布、多项分布、贝塔分布和狄??利克雷分布。本部分简要介绍这四个概率分布及其之间的关联。??二项分布(Binomial?Distribution)是伯努利分布的推广,伯努利分布也称为0-1??分布,随机变量的取值只有0和1两类,二项分布是N次独立的伯努利实验中,期望??结果出现次数的概率,假设某个事件出现的概率为P,不出现的概率为1-p,?k对应不??同的实验结果出现的次数,对应的概率分布如公式2-3所示。??p(K?=?k)?=?〇pk(l?-?P)n ̄k?(2-3)??多项式分布(Multinomial?Distribution)是二项式分布拓展到多维情况下的概率分??布,在多项式分布中,每次实验的随机变量不一定服从伯努利分布,对于随机变量??(XpXh?...,Xk),各自出现的概率分别为(PhPh?...,pk),则多项式分布的概率分布如公式??2-4所示。??8??
【参考文献】:
期刊论文
[1]中文文本聚类常用停用词表对比研究[J]. 官琴,邓三鸿,王昊. 数据分析与知识发现. 2017(03)
[2]知识图谱技术综述[J]. 徐增林,盛泳潘,贺丽荣,王雅芳. 电子科技大学学报. 2016(04)
[3]知识表示学习研究进展[J]. 刘知远,孙茂松,林衍凯,谢若冰. 计算机研究与发展. 2016(02)
[4]网络舆情观点提取的LDA主题模型方法[J]. 陈晓美,高铖,关心惠. 图书情报工作. 2015(21)
[5]基于动态LDA主题模型的内容主题挖掘与演化[J]. 胡吉明,陈果. 图书情报工作. 2014(02)
本文编号:3311729
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3311729.html