基于双层卷积神经网络和扩展特征矩阵的中文微博情感分析研究
发布时间:2021-07-15 18:58
随着移动互联网的发展,微博逐渐成为中国网民日常沟通交流的重要平台之一。作为中文社交网络的重要组成部分,微博平台所同时具备的社交及媒体属性,使得用户可以实时了解社会热点事件,并发表自己的观点和看法。无论是对于社会事件,还是商品评论,微博的舆论往往可以影响甚至改变事件走向。因此,如何快速地挖掘出单个微博话题下微博用户的舆论倾向,为政府和企业提供决策参考,有效的引导社会舆论,成为目前自然语言处理领域的研究热点之一,具有较强的现实和经济意义。传统的情感分析模型,主要方法是基于语言学建立情感词典。但是,语言词典的建立和维护往往需要耗费大量的时间。为了适应中文微博情感分析任务中存在的数据稀疏、忽略微博文本中的表情和词语特征等特点,近年来,关于基于机器学习方法的文本分析算法的研究越来越深入。在微博文本情感的二元分析任务上,本文首先对比了不同的浅层学习模型。然后在卷积神经网络(Convolutional Neural Networks,CNN)基础上,采用了一种融合双层卷积神经网络和扩展特征矩阵的微博情感分析算法Extended-Dual-CNN,尝试在深度学习领域解决微博情感分析问题。本文分别对浅层...
【文章来源】:昆明理工大学云南省
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
#重庆公交车坠江原因#话题评论
第三章基于浅层学习的微博文本情感分析比较研究21=11+exp((10))=11+exp()···············(3.5)W取-1时,得到Sigmoid函数示意图,如图3.1所示:图3.1Sigmoid函数具体到本文的微博文本情感分析问题上,本节引入了逻辑回归模型(LogisticRegression,LR)。逻辑回归模型基于最大熵原理,实质上是最大熵模型在类别为二类时的特殊情况,即逻辑回归模型的本质是一个二分类的线性回归模型。基于逻辑回归模型的微博文本情感分析算法定义如下:首先,通过公式3.5的Sigmoid函数,将线性求和后的特征映射到(0,1)区间上。在本节逻辑回归模型上,规定=0时,代表负向微博情感,=1时代表正向微博情感。将微博文本生成的词向量设为,则对应的正向微博情感上的条件概率为(=1|,),负向微博情感上的条件概率为(=0|,)。其中w为权重。则对应的二分类条件概率分布P(Y|X)为:(|)={(=1|,)=11+exp()(=0|,)=exp()1+exp()·················(3.6)然后,对于公式3.6的求解问题,使用随机梯度下降(StochasticGradientDescent,SGD),具体步骤为:。1.首先,令为微博文本的真实情感极性,y为预测微博文本情感极性。尝试定义平方损失函数:(,)=12(y)2·······················(3.7)
第三章基于浅层学习的微博文本情感分析比较研究33Recall_p与Recall_n的分布也更加均衡,差距更校相比于朴素贝叶斯模型在Word2Vec构建的词向量上取得的最佳分类准确率51.85%,逻辑回归模型的分类准确率有了明显的提升。主要原因是逻辑回归模型在训练时,无论特征之间是否存在相关性,都可以通过随机梯度下降获得最佳参数,在数据量较大的情况下可以学习到更多的语义特征,对大规模微博文本数据的支持更好。3.6.3基于支持向量机的情感分析实验及讨论本节使用台湾大学Chih.JenLin教授提出的Lib-SVM[49]。Lib-SVM可以解决各类基于支持向量机的问题,例如C-SVM分类、NU-SUM分类,以及支持向量机回归等。Lib-SVM在Windows操作系统下可以直接被运行,且大部分参数都提供了默认值。对于惩罚参数c和核函数的gamma值g,Lib-SVM会通过交叉验证(CrossValidation)方法确定c和g的最佳取值。图3.4展示的是Lib-SVM的主要使用步骤。其中第一步是导入词向量,然后使用Lib-SVM对特征向量作数据标准化处理。Lib-SVM会通过交叉验证选择和。最后利用与的最佳参数,对训练集进行训练,并在测试集上进行测试。图3.4Lib-SVM训练流程与前两节模型的实验设置相同,本节包含两部分的内容,即分别将One-HotEncoding和Word2Vec模型生成的词向量导入到支持向量机模型中。所使用的训练和测试微博原始数据集和预处理过程与前述相同。实验过程和结果如下:1.使用One-HotEncoding构造词向量,作为支持向量机模型的输入:(1)引入前述训练数据集,并使用Jieba进行文本预处理,并使用One-HotEncoding构造词级别的词向量;
【参考文献】:
期刊论文
[1]结合词性特征与卷积神经网络的文本情感分析[J]. 何鸿业,郑瑾,张祖平. 计算机工程. 2018(11)
[2]基于BTM和K-means的微博话题检测[J]. 李卫疆,王真真,余正涛. 计算机科学. 2017(02)
[3]面向健康问答社区的语义检索技术研究与分析[J]. 范桥青,方钰. 电子技术与软件工程. 2017(02)
[4]基于领域情感词典的中文微博情感分析[J]. 肖江,丁星,何荣杰. 电子设计工程. 2015(12)
[5]深度学习研究综述[J]. 尹宝才,王文通,王立春. 北京工业大学学报. 2015(01)
[6]针对产品命名实体识别的半监督学习方法[J]. 黄诗琳,郑小林,陈德人. 北京邮电大学学报. 2013(02)
[7]基于最大熵模型的汉语句子分析[J]. 徐延勇,周献中,井祥鹤,郭忠伟. 电子学报. 2003(11)
[8]Web文本情感分类研究综述[J]. 王洪伟,刘勰,尹裴,廖雅国. 情报学报. 2010 (05)
硕士论文
[1]基于SVM和半监督学习的短文本分类算法研究[D]. 向俊.南京信息工程大学 2017
[2]基于卷积神经网络的在线商品评论情感倾向性研究[D]. 刘龙飞.大连理工大学 2016
本文编号:3286278
【文章来源】:昆明理工大学云南省
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
#重庆公交车坠江原因#话题评论
第三章基于浅层学习的微博文本情感分析比较研究21=11+exp((10))=11+exp()···············(3.5)W取-1时,得到Sigmoid函数示意图,如图3.1所示:图3.1Sigmoid函数具体到本文的微博文本情感分析问题上,本节引入了逻辑回归模型(LogisticRegression,LR)。逻辑回归模型基于最大熵原理,实质上是最大熵模型在类别为二类时的特殊情况,即逻辑回归模型的本质是一个二分类的线性回归模型。基于逻辑回归模型的微博文本情感分析算法定义如下:首先,通过公式3.5的Sigmoid函数,将线性求和后的特征映射到(0,1)区间上。在本节逻辑回归模型上,规定=0时,代表负向微博情感,=1时代表正向微博情感。将微博文本生成的词向量设为,则对应的正向微博情感上的条件概率为(=1|,),负向微博情感上的条件概率为(=0|,)。其中w为权重。则对应的二分类条件概率分布P(Y|X)为:(|)={(=1|,)=11+exp()(=0|,)=exp()1+exp()·················(3.6)然后,对于公式3.6的求解问题,使用随机梯度下降(StochasticGradientDescent,SGD),具体步骤为:。1.首先,令为微博文本的真实情感极性,y为预测微博文本情感极性。尝试定义平方损失函数:(,)=12(y)2·······················(3.7)
第三章基于浅层学习的微博文本情感分析比较研究33Recall_p与Recall_n的分布也更加均衡,差距更校相比于朴素贝叶斯模型在Word2Vec构建的词向量上取得的最佳分类准确率51.85%,逻辑回归模型的分类准确率有了明显的提升。主要原因是逻辑回归模型在训练时,无论特征之间是否存在相关性,都可以通过随机梯度下降获得最佳参数,在数据量较大的情况下可以学习到更多的语义特征,对大规模微博文本数据的支持更好。3.6.3基于支持向量机的情感分析实验及讨论本节使用台湾大学Chih.JenLin教授提出的Lib-SVM[49]。Lib-SVM可以解决各类基于支持向量机的问题,例如C-SVM分类、NU-SUM分类,以及支持向量机回归等。Lib-SVM在Windows操作系统下可以直接被运行,且大部分参数都提供了默认值。对于惩罚参数c和核函数的gamma值g,Lib-SVM会通过交叉验证(CrossValidation)方法确定c和g的最佳取值。图3.4展示的是Lib-SVM的主要使用步骤。其中第一步是导入词向量,然后使用Lib-SVM对特征向量作数据标准化处理。Lib-SVM会通过交叉验证选择和。最后利用与的最佳参数,对训练集进行训练,并在测试集上进行测试。图3.4Lib-SVM训练流程与前两节模型的实验设置相同,本节包含两部分的内容,即分别将One-HotEncoding和Word2Vec模型生成的词向量导入到支持向量机模型中。所使用的训练和测试微博原始数据集和预处理过程与前述相同。实验过程和结果如下:1.使用One-HotEncoding构造词向量,作为支持向量机模型的输入:(1)引入前述训练数据集,并使用Jieba进行文本预处理,并使用One-HotEncoding构造词级别的词向量;
【参考文献】:
期刊论文
[1]结合词性特征与卷积神经网络的文本情感分析[J]. 何鸿业,郑瑾,张祖平. 计算机工程. 2018(11)
[2]基于BTM和K-means的微博话题检测[J]. 李卫疆,王真真,余正涛. 计算机科学. 2017(02)
[3]面向健康问答社区的语义检索技术研究与分析[J]. 范桥青,方钰. 电子技术与软件工程. 2017(02)
[4]基于领域情感词典的中文微博情感分析[J]. 肖江,丁星,何荣杰. 电子设计工程. 2015(12)
[5]深度学习研究综述[J]. 尹宝才,王文通,王立春. 北京工业大学学报. 2015(01)
[6]针对产品命名实体识别的半监督学习方法[J]. 黄诗琳,郑小林,陈德人. 北京邮电大学学报. 2013(02)
[7]基于最大熵模型的汉语句子分析[J]. 徐延勇,周献中,井祥鹤,郭忠伟. 电子学报. 2003(11)
[8]Web文本情感分类研究综述[J]. 王洪伟,刘勰,尹裴,廖雅国. 情报学报. 2010 (05)
硕士论文
[1]基于SVM和半监督学习的短文本分类算法研究[D]. 向俊.南京信息工程大学 2017
[2]基于卷积神经网络的在线商品评论情感倾向性研究[D]. 刘龙飞.大连理工大学 2016
本文编号:3286278
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3286278.html
最近更新
教材专著