基于域对抗网络的跨领域文本情感分析
发布时间:2020-07-10 08:15
【摘要】:随着web2.0的发展,互联网深入人们生活的方方面面,同时为人们提供了更加方便和宽广的信息交流平台。越来越多的用户在社交平台上表达自己的想法,在购物平台上阐述自己对产品的使用看法,在新闻平台上发表个人观点,由此产生了大量包含用户观点信息的文本数据,因此分析这些文本数据的情感极性也就有了很重要的价值。情感分析又称意见挖掘,是对网上各种新闻资源、社会媒体评论和其他用户生成内容的进行分析、处理、归纳和推理的过程。文本情感分析是情感分析算法的一个分支,典型的监督分类算法都适用于文本的情感极性分析。然而,当训练数据与测试数据不属于同一个领域的时候,传统的分类方法的预测效果就变得很差。通常是因为源领域有强烈情感性的特征在目标领域可能不再具有这些特征或是呈现其他情感极性,为了将源领域的特征泛化到目标领域特征中,并对目标领域进行情感分析,跨领域情感分析成为了解决方案之一。跨领域情感分析方法当前主要关注用特征提取器提取多个领域之间的共享情感特征。其中利用深度学习中特征提取网络优秀的特征提取能力提取不同领域之间的共享情感特征,再利用共享情感特征进行情感分析是当前跨领域文本情感分析的主要研究方向。目前深度学习方案中主要利用自编码器和域对抗实现共享情感特征的提取,因此本文主要优化改进域对抗能力以及利用深度学习中的各种不同的网络结构提取句子中的语义信息,最后将提取出来的不同领域文本中的共享情感特征用于文本情感分析。本文的主要研究内容,及创新点如下:(1)由于不同领域之间的特征不同,使用以往的域对抗方式容易出现梯度消失和梯度爆炸,并且提取的特征泛化能力差的问题。本文通过提出基于Wasserstein距离的域对抗方式,然后结合正交约束来更好地提取领域深层共享特征,同时在整体网络结构上使用降噪自编码器,使得特征提取器能够提取出鲁棒性更强的领域共享情感特征。(2)针对以往特征提取方式提取的共享情感特征中缺少句子语义信息等问题,本文使用BERT模型获取句子中的语义信息,再借助卷积神经网络对提取的特征进一步的特征选择以及特征降维。然后借助域对抗机制混淆源领域和目标领域的特征,同时利用源领域含标签的数据训练情感分类器。最后在亚马逊公开数据集上的对目标领域情感极性进行预测,并且取得了较好的预测结果。
【学位授予单位】:桂林电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP183
【图文】:
图 2-2 文本情感分析方法的一般过程针对图 2-2 中的(b)中的特征提,是指原始特征中经过某种设定的形式转化成具有代表性的特征,通常会在文本预处理时利用人工选择的停用词将一些字词去除,或者是从原始特征中经过某种特征选择的方法来挑选出若干最有效特征,这些提取出来的特征都是底层特征,词与词之间的关系都不能从特征之中体现出来。在具体的实施中,较常用的特征提取方法有句法分析(ParserAnalysis)、N-grams、BOW、TF-IDF等。针对图 2-2 中(c)的深度特征提取,针对不同的文本表示方式将选用不同的深度网络结构搭建深度特征提取模型。一般来说,使用 BOW 等表示特征时,会选用全连接网络,当文本使用词向量表示时,可以利用目前主流的 CNN、RNN 和 RNN 的变形网络 LSTM,GRU[103](Gate Recurrent Unit)等一些不同形式的网络组成的混合深度网络模型等来构建特征提取网络,其中 LSTM 在文本情感分析领域中较常见。这是因为 LSTM 很容易就能获取文本的时序性信息,因此 LSTM 能够在一定程度上体现出词与词之间的关系,从而得到句子的语义信息。BERT 通过自注意力机制建立词与词之间的关系,由于没有遗忘门的参与,特征得以完整保留,并且训练时间较 LSTM
实例的跨领域文本情感分析或是基于共享情感特征的跨领域情领域之间在实例或是在特征上的差异性。域文本情感分析的与 2.2.1 节中的文本预处理方式一致,但是在中不同,研究者们会通过不同的领域适应方式实现领域之间的混分析一般流程如图 2-3 所示。
基于域对抗网络的跨领域文本情感分析§3.2 全连接神经网络网络(FullyConnectedNeuralNetwork)也被称作稠密Multilayer Perceptron)改进形成,其特点是网络中的参数很多。全连接神经网络的核心是矩阵运算,( )fy f W x输出结果,f表示函数的激活,fW表示权重,x在复杂的网络中通常用作网络最后的输出值,对网 3-1 所示,全连接神经网络主要有输入层,隐藏层多个全连接网络构成。
本文编号:2748664
【学位授予单位】:桂林电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP183
【图文】:
图 2-2 文本情感分析方法的一般过程针对图 2-2 中的(b)中的特征提,是指原始特征中经过某种设定的形式转化成具有代表性的特征,通常会在文本预处理时利用人工选择的停用词将一些字词去除,或者是从原始特征中经过某种特征选择的方法来挑选出若干最有效特征,这些提取出来的特征都是底层特征,词与词之间的关系都不能从特征之中体现出来。在具体的实施中,较常用的特征提取方法有句法分析(ParserAnalysis)、N-grams、BOW、TF-IDF等。针对图 2-2 中(c)的深度特征提取,针对不同的文本表示方式将选用不同的深度网络结构搭建深度特征提取模型。一般来说,使用 BOW 等表示特征时,会选用全连接网络,当文本使用词向量表示时,可以利用目前主流的 CNN、RNN 和 RNN 的变形网络 LSTM,GRU[103](Gate Recurrent Unit)等一些不同形式的网络组成的混合深度网络模型等来构建特征提取网络,其中 LSTM 在文本情感分析领域中较常见。这是因为 LSTM 很容易就能获取文本的时序性信息,因此 LSTM 能够在一定程度上体现出词与词之间的关系,从而得到句子的语义信息。BERT 通过自注意力机制建立词与词之间的关系,由于没有遗忘门的参与,特征得以完整保留,并且训练时间较 LSTM
实例的跨领域文本情感分析或是基于共享情感特征的跨领域情领域之间在实例或是在特征上的差异性。域文本情感分析的与 2.2.1 节中的文本预处理方式一致,但是在中不同,研究者们会通过不同的领域适应方式实现领域之间的混分析一般流程如图 2-3 所示。
基于域对抗网络的跨领域文本情感分析§3.2 全连接神经网络网络(FullyConnectedNeuralNetwork)也被称作稠密Multilayer Perceptron)改进形成,其特点是网络中的参数很多。全连接神经网络的核心是矩阵运算,( )fy f W x输出结果,f表示函数的激活,fW表示权重,x在复杂的网络中通常用作网络最后的输出值,对网 3-1 所示,全连接神经网络主要有输入层,隐藏层多个全连接网络构成。
【参考文献】
相关期刊论文 前8条
1 张博;史忠植;赵晓非;张建华;;一种基于跨领域典型相关性分析的迁移学习方法[J];计算机学报;2015年07期
2 赵传君;王素格;李德玉;李欣;;基于分组提升集成的跨领域文本情感分类[J];计算机研究与发展;2015年03期
3 魏现辉;张绍武;杨亮;林鸿飞;;基于加权SimRank的跨领域文本情感倾向性分析[J];模式识别与人工智能;2013年11期
4 杨立公;朱俭;汤世平;;文本情感分析综述[J];计算机应用;2013年06期
5 黄贤立;;基于典型相关分析的多视图跨领域情感分类[J];计算机工程;2010年24期
6 吴琼;谭松波;许洪波;段m#毅;程学旗;;基于随机游走模型的跨领域倾向性分析研究[J];计算机研究与发展;2010年12期
7 赵妍妍;秦兵;刘挺;;文本情感分析[J];软件学报;2010年08期
8 吴琼;谭松波;张刚;段m#毅;程学旗;;跨领域倾向性分析相关技术研究[J];中文信息学报;2010年01期
本文编号:2748664
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2748664.html