基于BERT的微博文本情感引导
发布时间:2021-03-23 16:39
随着社交网络的快速发展以及移动网络设备的普及,互联网用户群体数量显著递增,社交媒体逐渐丰富多样。人们习惯于在各种社交媒体上通过文字、图像和视频等交互数据表达自己的思想和观点。在众多社交媒体平台中,新浪微博拥有覆盖面广的忠实用户群体。通过对新浪微博社交网络产生的海量短文本数据分析文本背后隐含的用户情感和情绪,厘清孕育负向舆情的社交网络局部环境,对我国思政、公共突发事件应对、公众情感情绪预判、舆情传播预测和舆情处置等具有积极意义。本文的研究主题分为两部分,短文本情感分析和基于文本的舆情引导方案。第一,本文以新浪微博历史短文本数据为研究对象,探究其潜在的用户情感,采用深度学习语言模型实现短文本情感分类任务。传统的情感分析主要有:基于字典和基于简单深度学习的方法。传统方法存在着一些问题,例如,基于字典的情感分类方法依赖于所构造词典的质量;简单的深度学习模型计算精度达不到工程化需求,模型本身也存在着缺陷,无法很好地解决上下文信息的语义理解相关任务。本文采用深度学习语言模型研究情感分析任务,提出了一类基于BERT(Bidirectional Encoder Representation from ...
【文章来源】:西华大学四川省
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
反向传播图示
基于BERT的微博文本情感引导10图2.2RNN结构图示Fig.2.2RNNstructurediagram图2.2显示了RNN扩展成完整网络后的结构。这里表达的意思是整个序列的网络结构。图为隐藏层的级别扩展。t-1,t,t+1表示时间序列.X表示输入的样本.St=f(W*St1+U*Xt)表示样本在时间t处的的记忆。W表示输入的权重,U表示此刻输入的样本的权重,V表示输出的样本权重。在t=1时刻,一般初始化输入S0=0,随机初始化W,U,V,进行下面的公式计算:h1101(2.1)11其中,f和g均为激活函数,f可以是Tanh,Relu,Sigmoid等激活函数,g通常是Softmax。时间向前推进,此时的状态1作为时刻1的记忆状态将参与下一个时刻的预测活动,也就是:1(2.2)以此类推,可以得到最终的输出值为:(2.3)这里W,U,V在每个时刻都相等,也就是说,所有权值共享。隐藏状态可以理解为:S=f(现有输入+过去记忆叠加)。以上是RNN前向的传播方法。接下来,我们引入RNN反向传播的方法来更新权重参数。
西华大学硕士学位论文11每一次的输出值Ot都会产生一个误差值Et,总的误差可以表示为Etet。损失函数通常采用交叉熵损失函数或者平方误差损失函数。要注意,每一步的输出依赖于当前步和前一步的网络状态,因此这种BP算法被称为时间反向传播(BackPropagationTroughTime,BPTT),即在输出端通过反向误差值梯度下降法进行更新。所需参数的梯度如下:UV(2.4)W首先,我们求解W的更新方法,W的更新公式表现为每个时刻的偏导数之和。以时间步t=3为例。依据公式s3fUx3Ws,s3除了和W有关,还和前一时刻s有关,于是,我们有:30333333(2.5)类似的,可以获得U的更新规则如下:303333333(2.6)最后,我们给出V的更新公式(V只与输出o有关)3333(2.7)虽然RNN对时间序列问题有很好的效果,但由于BP算法对时间序列的长期依赖性,存在着梯度消失或梯度爆炸等问题。基于此的改进模型LSTM是最成功的方法之一。Schmidhuber院士在1997年提出了LSTM模型。具体模型介绍如下:图2.3LSTM模型结构Fig.2.3LSTMmodelstructure
【参考文献】:
期刊论文
[1]中国房地产网络舆情分析[J]. 朱建平,谢邦昌,骆翔宇,范新妍,曾武雄,郑陈璐. 数理统计与管理. 2016(04)
[2]基于领域情感词典的中文微博情感分析[J]. 肖江,丁星,何荣杰. 电子设计工程. 2015(12)
硕士论文
[1]基于情感词典与句型分类的中文微博情感分析研究[D]. 周杰.宁夏大学 2016
[2]基于情感词典的中文微博情感倾向分析研究[D]. 陈晓东.华中科技大学 2012
本文编号:3096095
【文章来源】:西华大学四川省
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
反向传播图示
基于BERT的微博文本情感引导10图2.2RNN结构图示Fig.2.2RNNstructurediagram图2.2显示了RNN扩展成完整网络后的结构。这里表达的意思是整个序列的网络结构。图为隐藏层的级别扩展。t-1,t,t+1表示时间序列.X表示输入的样本.St=f(W*St1+U*Xt)表示样本在时间t处的的记忆。W表示输入的权重,U表示此刻输入的样本的权重,V表示输出的样本权重。在t=1时刻,一般初始化输入S0=0,随机初始化W,U,V,进行下面的公式计算:h1101(2.1)11其中,f和g均为激活函数,f可以是Tanh,Relu,Sigmoid等激活函数,g通常是Softmax。时间向前推进,此时的状态1作为时刻1的记忆状态将参与下一个时刻的预测活动,也就是:1(2.2)以此类推,可以得到最终的输出值为:(2.3)这里W,U,V在每个时刻都相等,也就是说,所有权值共享。隐藏状态可以理解为:S=f(现有输入+过去记忆叠加)。以上是RNN前向的传播方法。接下来,我们引入RNN反向传播的方法来更新权重参数。
西华大学硕士学位论文11每一次的输出值Ot都会产生一个误差值Et,总的误差可以表示为Etet。损失函数通常采用交叉熵损失函数或者平方误差损失函数。要注意,每一步的输出依赖于当前步和前一步的网络状态,因此这种BP算法被称为时间反向传播(BackPropagationTroughTime,BPTT),即在输出端通过反向误差值梯度下降法进行更新。所需参数的梯度如下:UV(2.4)W首先,我们求解W的更新方法,W的更新公式表现为每个时刻的偏导数之和。以时间步t=3为例。依据公式s3fUx3Ws,s3除了和W有关,还和前一时刻s有关,于是,我们有:30333333(2.5)类似的,可以获得U的更新规则如下:303333333(2.6)最后,我们给出V的更新公式(V只与输出o有关)3333(2.7)虽然RNN对时间序列问题有很好的效果,但由于BP算法对时间序列的长期依赖性,存在着梯度消失或梯度爆炸等问题。基于此的改进模型LSTM是最成功的方法之一。Schmidhuber院士在1997年提出了LSTM模型。具体模型介绍如下:图2.3LSTM模型结构Fig.2.3LSTMmodelstructure
【参考文献】:
期刊论文
[1]中国房地产网络舆情分析[J]. 朱建平,谢邦昌,骆翔宇,范新妍,曾武雄,郑陈璐. 数理统计与管理. 2016(04)
[2]基于领域情感词典的中文微博情感分析[J]. 肖江,丁星,何荣杰. 电子设计工程. 2015(12)
硕士论文
[1]基于情感词典与句型分类的中文微博情感分析研究[D]. 周杰.宁夏大学 2016
[2]基于情感词典的中文微博情感倾向分析研究[D]. 陈晓东.华中科技大学 2012
本文编号:3096095
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3096095.html
最近更新
教材专著