基于深度神经网络的网络短文本情感分类研究

发布时间:2021-07-20 16:23
  随着信息化时代的来临,互联网技术的发展愈加成熟,各类网络媒体也应运而生。从最开始的QQ聊天,到后来的豆瓣影视、新浪微博等,人们可以随时随地的发表自己的想法和意见。这种便捷快速的交互信息方式背后带来的则是日益增长的数据量,这些数据中包含着人们对于事物或者事件的看法和意见,利用自然语言处理技术对这些数据进行分析并发现其中所包含的情感倾向,对于我们进行舆情监测、商品营销、金融分析等实际应用有着重要影响。文本情感分类又称之为为文本倾向性分析,是近些年来自然语言处理领域的研究热点之一,吸引了很多研究学者的关注。其中基于深度神经网络的情感分类算法鉴于其优异的特征提取能力,已经慢慢成为了解决文本情感分类问题的主流方法之一。本文基于深度神经网络对网络短文本进行文本情感分类研究,首先借助网络爬虫获取豆瓣电影的影评,随后对爬取的数据按照相应的准则进行预处理和情感标注,从而获取了文本情感分类数据集。为了充分利用文本情感资源,使用word2vec工具将词性特征以及词汇特征分别向量化,随后进行向量拼接并以此作为卷积神经网络的输入。在此基础上,考虑到传统的最大池化方式容易丢失特征信息,使用k-max池化代替最大池... 

【文章来源】:长江大学湖北省

【文章页数】:58 页

【学位级别】:硕士

【部分图文】:

基于深度神经网络的网络短文本情感分类研究


CBOW与Skip-Gram结构示意图

结构图,卷积,神经网络,结构图


取方式更加注重于局部重要特征的提取,每一层的权重和偏置都相同(每个通道之间权重不共享,即引入了先验知识),使得不同位置的同一特征能够被识别。基于其空间共享以及稀疏卷积带来的优势,使得CNN在图像领域中取得了非常优异的成果[37]。虽然文本数据不同于图像结构,但以词向量表示的文本数据也可以使用CNN进行训练学习。最早基于CNN的文本情感分类模型是Kim等人于2014年首次提出的,并且取得了不错的研究成果,打开了使用CNN进行文本分析的大门。在CNN结构中,输入层是以二维矩阵的形式送入隐藏层中,其模型框架如图2-4所示:输入层卷积层池化层输出层图2-4卷积神经网络结构图Figure2-4StructurediagramofCNNnetworkmodel由图2-4可知,CNN的每一层之间都是输出作为输入,直接交互,并以堆叠的方式对底层特征进行学习。不同于人工神经网络,CNN引入稀疏连接的结构,代替传统的密集连接方式。稀疏连接的大小取决于滑动窗口的大小,其一般取值为

示意图,激活函数,示意图


第2章相关理论与技术16sigmoidtanhRelu图2-6激活函数示意图Figure2-6Structurediagramofactivationfunction(1)sigmoid激活函数sigmoid常用在二分类任务中,适用于前向传播。但是也存在一个很严重的缺点,就是输出不是以零为中心(零均值),即函数的输出范围为[0,1]。模型在训练过程中,如果输入的神经元的数值总是为正数或者负数的时候,那么权重参数W在训练时也就全部为正数或者负数的输出,即其下降趋势呈Z字型下降,会导致模型收敛曲线陷入波动的状态,无法快速的收敛。同时由图2-6可以看出,sigmoid函数两端都有一段平缓部分,当数据分布在模型训练的过程中逐渐偏移到两端的时候,会造成梯度消失现象。因此,当神经网络结构较小时,sigmoid表现更好。具体公式为:()=11+(212)(2)tanh激活函数tanh不同于sigmoid的结构,其输出的取值范围为[-1,1],因此不存在零均值问题。但由图2-6可以看出,函数两端依然存在平缓区域,也就是存在梯度消失问题。其公式如下:()=+(313)(3)Relu激活函数由图2-6可知,Relu函数的取值范围为[0,+∞],其曲线的形状为直线状态,因此该函数的导数始终为常数,能够避免模型训练过程中产生梯度消失的问题。此外,由于Relu函数的求导不涉及到浮点运算,所以在反向传播的过程中会有加速运算的效果。但该方法对参数初始化以及学习率的要求较高,即当梯度更新到[-∞,0]的状态时,这个状态下的神经元将无法再次被其它数据单元再次激活(此时的梯度为0),在一定程度上会丢失数据的多样化。其公式表达如下:()=max(0,)(214)经过卷积层提取后的特征图存在一些无用以及相似部分,因此卷积层后面一般会接有一个池化层,用来去噪以及减少训练参数的数量。池化操作主要是通过滑动

【参考文献】:
期刊论文
[1]一种基于CNN与双向LSTM融合的文本情感分类方法[J]. 张翠,周茂杰.  计算机时代. 2019(12)
[2]基于PCA-SVM算法的酒店评论文本情感分析研究[J]. 王大伟,周志玮,曹红根.  现代计算机. 2019(21)
[3]基于基础词典扩展的中文酒店评论情感分析[J]. 杨飞,吴颖丹,王鑫颖.  湖北工业大学学报. 2019(01)
[4]基于半监督卷积神经网络的文本情感分类[J]. 谢博,叶颖雅,陈振彬,黎树俊,陈珂.  广东石油化工学院学报. 2018(06)
[5]基于Scrapy框架的分布式网络爬虫的研究与实现[J]. 华云彬,匡芳君.  智能计算机与应用. 2018(05)
[6]基于机器学习的微博情感分类研究[J]. 冯成刚,田大钢.  软件导刊. 2018(06)
[7]张斌语法研究特点回溯[J]. 吴晓芳.  文化学刊. 2017(02)
[8]基于语义理解和机器学习的混合的中文文本情感分类算法框架[J]. 徐健锋,许园,许元辰,张远健,刘清.  计算机科学. 2015(06)
[9]基于深度学习的微博情感分析[J]. 梁军,柴玉梅,原慧斌,昝红英,刘铭.  中文信息学报. 2014(05)
[10]基于规则的汉语兼类词标注方法[J]. 李华栋,贾真,尹红风,杨燕.  计算机应用. 2014(08)

博士论文
[1]互联网资源标识和寻址技术研究[D]. 毛伟.中国科学院研究生院(计算技术研究所) 2006

硕士论文
[1]基于深度神经网络的文本表示及情感分析研究[D]. 王文凯.郑州大学 2018
[2]基于半监督学习的文本情感分类平台的设计与实现[D]. 吕颖.山西大学 2016
[3]基于复合高斯模型的杂波统计分析与建模[D]. 李思明.哈尔滨工业大学 2015
[4]微博新词发现研究[D]. 苏其龙.哈尔滨工业大学 2013
[5]基于情感词典的中文微博情感倾向分析研究[D]. 陈晓东.华中科技大学 2012
[6]面向产品领域的细粒度情感分析技术[D]. 王山雨.哈尔滨工业大学 2011
[7]基于滤子函数的正则化方法的研究[D]. 刘且根.上海交通大学 2009



本文编号:3293170

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3293170.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户15c39***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com