基于神经语义主题的微博主题识别的研究
发布时间:2021-08-11 12:40
近些年来,互联网相关技术得到高速的发展,特别是微博、Twitter等社交媒体网络平台的出现,使得社交媒体成为媒体和大众分享新闻事件和生活情感的重要媒介。新浪微博得益于应用平台广泛、操作逻辑简单和信息传播速度极快等特点,迅速成为中国规模和影响力巨大的社交媒体网络新平台。新浪微博的日发文量高达数千万,其中包含的文本信息规模巨大。应对庞大的微博文本数据,如何进行合理高效的信息整合并从中提取出热点主题是文本主题挖掘的核心问题。本文在神经主题模型(Neural Topic Model,NTM)的基础上,针对传统的文本主题模型对微博短文本的主题特征表达不够充分、微博主题挖掘不够准确以及挖掘的微博主题缺乏语义信息等问题,充分考虑微博文本的特点,提出了基于神经主题语义强化的微博主题模型(Microblog topic model based on neural semantics enhancement,MNTS)。首先将提取出来的微博文本语料划分成微博概要和微博博文两个部分,利用两个部分各自的特点给予不同的处理,其中微博概要是由含有大量的微博主题信息的短文本构成,利用微博的语义词向量构造单通道的文本...
【文章来源】:长春工业大学吉林省
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
LDA的图模型表示其中表示第篇文档中所拥有的词项数目,表示文档个数,表示主题个数
第2章微博主题挖掘相关理论10其中:∑(|)(|)=(|,)(2-5)将(2-5)式代入(2-4)式中,最终文档的似然概率为:(|0,0,)=∫(|0,02)∏(|,)(|0,0,)=∫(|0,02)(|,)(2-6)其中={1,2…,}是将主题向量映射到词项分布的转换矩阵,是设定的主题个数,是对应词项的主题分布,中的所有元素都是非负的并且相加之和为1。具体神经主题模型如图2.2所示。图2.2神经主题模型2.4微博主题挖掘整体流程本文主要根据微博文本中不同部分的特点进行不同的处理。基于神经主题语义强化的MNTS主题模型的构建,为了进一步增强MNTS主题模型挖掘微博主题的能力,引入了微博文本中大粒度类别标签作为MNTS主题模型的条件,充分利用额外的信息挖掘更精确更具语义的主题。在测试阶段为了能够获取更能够表达测试微博文本主题的词项,使用测试微博文本中的评论文本对主题下的词项进行筛眩整个实施流程图如图2.3所示。
给定隐藏变量的分布(),如果可以通过训练样本学习到条件概率分布(|),之后就可以通过采样公式(,)=()(|)来生成不同的样本[48]。变分自编码本质上还是属于自编码器模型的一种,它们都具体分成编码器和解码器两个部分,解码器接受输入,输出为隐变量,而解码器负责把相应的隐含变量解码成重建的。不同的是,变分自编码网络对其中的隐含变量的分布()有了显式的约束,让隐含变量不断的接近预设的先验分布(),所以在构造模型损失函数的时候,除了在原有重构损失的基础上还需要添加对隐变量的约束。变分自编码网络的模型架构如图3.1所示。图3.1变分自编码网络结构其中Encoder为(|),而Decoder为(|)。假设当前的所有微博文本数据集都是来自于分布(|),其中是隐含变量,此时代表了微博文本的主题特征,这些微博文本的主题特征符合某个先验分布()。一般情况下将先验分布()设置为正态分布等一些已知且常规的分布,假设此时将先验分布()设置为已知的正态分布,我们的目的是能够学习到Decoder生成模型中的(|),这里可以采用一些估计方法,比如最大似然函数。对于生成模型,肯定是希
【参考文献】:
期刊论文
[1]面向微博热点话题发现的改进BBTM模型研究[J]. 黄畅,郭文忠,郭昆. 计算机科学与探索. 2019(07)
[2]采用可变时间窗口的TIF-LDA微博主题模型[J]. 冯勇,屈渤浩,徐红艳,王嵘冰. 小型微型计算机系统. 2018(09)
[3]基于双向LSTM语义强化的主题建模[J]. 彭敏,杨绍雄,朱佳晖. 中文信息学报. 2018(04)
[4]基于词嵌入与概率主题模型的社会媒体话题识别[J]. 余冲,李晶,孙旭东,傅向华. 计算机工程. 2017(12)
[5]面向自然语言处理的深度学习研究[J]. 奚雪峰,周国栋. 自动化学报. 2016(10)
[6]基于MB-HDP模型的微博主题挖掘[J]. 刘少鹏,印鉴,欧阳佳,黄云,杨晓颖. 计算机学报. 2015(07)
[7]微博视角下的言论自由及其法律规制[J]. 魏文圣. 赤峰学院学报(汉文哲学社会科学版). 2014(07)
[8]微博对公民意识形成的影响探析[J]. 陈兰. 学理论. 2012(22)
[9]一种中文微博新闻话题检测的方法[J]. 郑斐然,苗夺谦,张志飞,高灿. 计算机科学. 2012(01)
[10]基于MB-LDA模型的微博主题挖掘[J]. 张晨逸,孙建伶,丁轶群. 计算机研究与发展. 2011(10)
硕士论文
[1]基于文本挖掘技术的微信公众号关系网络研究[D]. 潘伟.东南大学 2018
[2]基于深度学习的文本主题分类研究[D]. 周盈盈.上海交通大学 2017
[3]基于数据挖掘技术的微博好友推荐机制的研究与实现[D]. 张乐.东北大学 2014
[4]微博网络的社区发现研究[D]. 曾王辉.云南大学 2012
[5]基于k-平均算法的文本聚类系统研究与实现[D]. 郑韫旸.武汉理工大学 2008
本文编号:3336176
【文章来源】:长春工业大学吉林省
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
LDA的图模型表示其中表示第篇文档中所拥有的词项数目,表示文档个数,表示主题个数
第2章微博主题挖掘相关理论10其中:∑(|)(|)=(|,)(2-5)将(2-5)式代入(2-4)式中,最终文档的似然概率为:(|0,0,)=∫(|0,02)∏(|,)(|0,0,)=∫(|0,02)(|,)(2-6)其中={1,2…,}是将主题向量映射到词项分布的转换矩阵,是设定的主题个数,是对应词项的主题分布,中的所有元素都是非负的并且相加之和为1。具体神经主题模型如图2.2所示。图2.2神经主题模型2.4微博主题挖掘整体流程本文主要根据微博文本中不同部分的特点进行不同的处理。基于神经主题语义强化的MNTS主题模型的构建,为了进一步增强MNTS主题模型挖掘微博主题的能力,引入了微博文本中大粒度类别标签作为MNTS主题模型的条件,充分利用额外的信息挖掘更精确更具语义的主题。在测试阶段为了能够获取更能够表达测试微博文本主题的词项,使用测试微博文本中的评论文本对主题下的词项进行筛眩整个实施流程图如图2.3所示。
给定隐藏变量的分布(),如果可以通过训练样本学习到条件概率分布(|),之后就可以通过采样公式(,)=()(|)来生成不同的样本[48]。变分自编码本质上还是属于自编码器模型的一种,它们都具体分成编码器和解码器两个部分,解码器接受输入,输出为隐变量,而解码器负责把相应的隐含变量解码成重建的。不同的是,变分自编码网络对其中的隐含变量的分布()有了显式的约束,让隐含变量不断的接近预设的先验分布(),所以在构造模型损失函数的时候,除了在原有重构损失的基础上还需要添加对隐变量的约束。变分自编码网络的模型架构如图3.1所示。图3.1变分自编码网络结构其中Encoder为(|),而Decoder为(|)。假设当前的所有微博文本数据集都是来自于分布(|),其中是隐含变量,此时代表了微博文本的主题特征,这些微博文本的主题特征符合某个先验分布()。一般情况下将先验分布()设置为正态分布等一些已知且常规的分布,假设此时将先验分布()设置为已知的正态分布,我们的目的是能够学习到Decoder生成模型中的(|),这里可以采用一些估计方法,比如最大似然函数。对于生成模型,肯定是希
【参考文献】:
期刊论文
[1]面向微博热点话题发现的改进BBTM模型研究[J]. 黄畅,郭文忠,郭昆. 计算机科学与探索. 2019(07)
[2]采用可变时间窗口的TIF-LDA微博主题模型[J]. 冯勇,屈渤浩,徐红艳,王嵘冰. 小型微型计算机系统. 2018(09)
[3]基于双向LSTM语义强化的主题建模[J]. 彭敏,杨绍雄,朱佳晖. 中文信息学报. 2018(04)
[4]基于词嵌入与概率主题模型的社会媒体话题识别[J]. 余冲,李晶,孙旭东,傅向华. 计算机工程. 2017(12)
[5]面向自然语言处理的深度学习研究[J]. 奚雪峰,周国栋. 自动化学报. 2016(10)
[6]基于MB-HDP模型的微博主题挖掘[J]. 刘少鹏,印鉴,欧阳佳,黄云,杨晓颖. 计算机学报. 2015(07)
[7]微博视角下的言论自由及其法律规制[J]. 魏文圣. 赤峰学院学报(汉文哲学社会科学版). 2014(07)
[8]微博对公民意识形成的影响探析[J]. 陈兰. 学理论. 2012(22)
[9]一种中文微博新闻话题检测的方法[J]. 郑斐然,苗夺谦,张志飞,高灿. 计算机科学. 2012(01)
[10]基于MB-LDA模型的微博主题挖掘[J]. 张晨逸,孙建伶,丁轶群. 计算机研究与发展. 2011(10)
硕士论文
[1]基于文本挖掘技术的微信公众号关系网络研究[D]. 潘伟.东南大学 2018
[2]基于深度学习的文本主题分类研究[D]. 周盈盈.上海交通大学 2017
[3]基于数据挖掘技术的微博好友推荐机制的研究与实现[D]. 张乐.东北大学 2014
[4]微博网络的社区发现研究[D]. 曾王辉.云南大学 2012
[5]基于k-平均算法的文本聚类系统研究与实现[D]. 郑韫旸.武汉理工大学 2008
本文编号:3336176
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3336176.html