基于深度学习模型的文本情感分类研究
发布时间:2021-06-01 19:44
随着互联网的飞速发展,人们也由以前的被动接收信息,逐步向主动参与转变,更乐于通过微博、博客、论坛等互联网平台公开发表自己的看法与观点。互联网每天都会产生大量的非结构化文本信息,其中包含了用户的看法以及情感。如果对这些具有很好的工业和学术研究价值的信息进行研究,并从中提取出所需的情感信息,便可以进一步促进网络舆情分析、企业管理、事件预测及商品营销等领域的发展。基于情感词典和基于机器学习的传统情感分类方法不适用于数据集庞大的应用场景,因此,深度学习已经成为情感分类领域的主流研究方向。论文主要工作内容如下:(1)构建CNN-Inception-Bi LSTM文本情感分类模型,先通过CNN-Inception网络学习文本的局部特征,再结合Bi LSTM的特点,利用文本的上下文特征,充分发挥两者的优势。本文采用的数据集是imdb影评数据集和toxic comment评论数据集,运用keras框架构建CNN-Inception-Bi LSTM网络,进行多次实验,实验结果表明,CNN-Inception-Bi LSTM模型相对于其他模型取得了较好的分类效果。(2)构建Text RCNN-Text C...
【文章来源】:辽宁科技大学辽宁省
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
情感分类方法
辽宁科技大学硕士学位论文9图2.2基于情感词典的文本情感分类方法Fig.2.2Textsentimentclassificationmethodbasedonsentimentlexicon其中,情感词典的质量是情感分类任务中的重点,下面介绍一些常见的情感词典资源。目前,公开的情感词典有很多,这些情感词典大部分都是人工构建的。英文情感词典有GI(GeneralInquirer)、OpinionLexicon等。GI是由哈佛大学提供的最早的一个英文情感词典,情感词类别是正负两类。OpinionLexicon是伊利诺伊大学BingLiu发布的英文情感词典,该情感词典包括情感词、拼写错误、语法变形、俚语等语义信息。英文情感词典的具体信息见表2.2。表2.2英文情感词典Tab.2.2Englishsentimentdictionary情感词典褒义词个数贬义词个数情感极性词总数GeneralInquirer191422934207OpinionLexi-con200647836789目前常用的中文情感词典主要有知网HowNet情感词典[30]、NTUSD情感词典[31]和DUTIR情感词汇本体库[32]。董振东等人花三十年标注了知网HowNet情感词典,词典分为中文情感词典和英文情感词典两部分,词典中还包括一个词与词的大型关系网络。NTUSD(NationalTaiwanUniversitySentimentDictionary)是台湾大学自然语言处理实验室公布的简体中文情感极性词典,该情感词典扩充了贬义词义词。大连理工大学构建了DUTIR情感词汇本体库,在该词典中,一个情感词有很多信息,主要包括词性、情感类别、情感强度,情感极性等,情感
2.相关技术介绍161(|)()(|)niijijPCXPCPxC(2.20)公式(2.20)就是朴素贝叶斯分类器的表达式。朴素贝叶斯法对条件概率分布做了独立性假设,极大减少了参数的数量,在文本情感分类任务中取得了较好的分类效果。然而,该方法假设样本各个特征词之间是相互独立的,即一个特征词出现的可能性与其他特征词没有任何关系,显然,这个假设不合实际,从而导致该方法存在一定的局限性。(3)支持向量机(SVM)支持向量机(SupportVectorMachine,SVM)[49]是由Vapnik等人提出的一种用于解决二分类问题的机器学习方法。该方法的核心思想是:在保证最小的分类错误率的基础上,在高维特征空间中寻找到一个尽可能将两个数据集合分开的最优超平面。在特征空间中,分割超平面的方程如公式(2.21):0Twxb(2.21)其中,12(,,...,)dwwww用于确定分割超平面的方向;b表示偏置项,用于确定原点与分割超平面之间的距离,x代表样本空间任意点,显然,法向量w和偏置项b共同确定了分割超平面。那么样本空间中任意点到分割超平面的距离如公式(2.22):||||||Twxbrw(2.22)支持向量机示意图如图2.4所示。图2.4支持向量机示意图Fig.2.4SVMdiagram
【参考文献】:
期刊论文
[1]基于混合深度神经网络模型的司法文书智能化处理[J]. 王文广,陈运文,蔡华,曾彦能,杨慧宇. 清华大学学报(自然科学版). 2019(07)
[2]基于N-gram模型的中文分词前k优算法[J]. 李书豪,陈宇,吕淑宝,张猛治. 智能计算机与应用. 2016(06)
[3]基于字符串匹配的中文分词算法的研究[J]. 常建秋,沈炜. 工业控制计算机. 2016(02)
[4]深度学习研究与进展[J]. 孙志远,鲁成祥,史忠植,马刚. 计算机科学. 2016(02)
[5]基于卷积神经网络的微博情感倾向性分析[J]. 刘龙飞,杨亮,张绍武,林鸿飞. 中文信息学报. 2015(06)
[6]基于多粒度计算和多准则融合的情感分类[J]. 王丙坤,黄永峰,李星. 清华大学学报(自然科学版). 2015(05)
[7]基于字符的中文分词、词性标注和依存句法分析联合模型[J]. 郭振,张玉洁,苏晨,徐金安. 中文信息学报. 2014(06)
[8]基于深度学习的微博情感分析[J]. 梁军,柴玉梅,原慧斌,昝红英,刘铭. 中文信息学报. 2014(05)
[9]基于LDA模型的中文微博话题意见领袖挖掘[J]. 冯时,景珊,杨卓,王大玲. 东北大学学报(自然科学版). 2013(04)
[10]有效的中文微博短文本倾向性分类算法[J]. 韩忠明,张玉沙,张慧,万月亮,黄今慧. 计算机应用与软件. 2012(10)
硕士论文
[1]基于深度学习的知乎标题的多标签文本分类[D]. 张闯.北京交通大学 2018
[2]混合深度学习模型在新闻文本分类中的应用[D]. 马晨峰.山东大学 2018
[3]基于改进的LSTM的文本情感分析研究[D]. 闫勇莉.大连海事大学 2018
[4]基于深度神经网络的微博短文本情感分析研究[D]. 张英.中原工学院 2017
[5]基于Attention-Based LSTM模型的文本分类技术的研究[D]. 张冲.南京大学 2016
[6]基于统计学习的中文分词方法的研究[D]. 王威.东北大学 2015
[7]基于统计学习的中文分词改进及其在面向应用分词中的应用[D]. 巫黄旭.浙江大学 2012
[8]基于情感词典的中文微博情感倾向分析研究[D]. 陈晓东.华中科技大学 2012
[9]基于理解的汉语分词系统的设计与实现[D]. 苏勇.电子科技大学 2011
[10]中文情感词汇本体的构建及其应用[D]. 陈建美.大连理工大学 2009
本文编号:3210035
【文章来源】:辽宁科技大学辽宁省
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
情感分类方法
辽宁科技大学硕士学位论文9图2.2基于情感词典的文本情感分类方法Fig.2.2Textsentimentclassificationmethodbasedonsentimentlexicon其中,情感词典的质量是情感分类任务中的重点,下面介绍一些常见的情感词典资源。目前,公开的情感词典有很多,这些情感词典大部分都是人工构建的。英文情感词典有GI(GeneralInquirer)、OpinionLexicon等。GI是由哈佛大学提供的最早的一个英文情感词典,情感词类别是正负两类。OpinionLexicon是伊利诺伊大学BingLiu发布的英文情感词典,该情感词典包括情感词、拼写错误、语法变形、俚语等语义信息。英文情感词典的具体信息见表2.2。表2.2英文情感词典Tab.2.2Englishsentimentdictionary情感词典褒义词个数贬义词个数情感极性词总数GeneralInquirer191422934207OpinionLexi-con200647836789目前常用的中文情感词典主要有知网HowNet情感词典[30]、NTUSD情感词典[31]和DUTIR情感词汇本体库[32]。董振东等人花三十年标注了知网HowNet情感词典,词典分为中文情感词典和英文情感词典两部分,词典中还包括一个词与词的大型关系网络。NTUSD(NationalTaiwanUniversitySentimentDictionary)是台湾大学自然语言处理实验室公布的简体中文情感极性词典,该情感词典扩充了贬义词义词。大连理工大学构建了DUTIR情感词汇本体库,在该词典中,一个情感词有很多信息,主要包括词性、情感类别、情感强度,情感极性等,情感
2.相关技术介绍161(|)()(|)niijijPCXPCPxC(2.20)公式(2.20)就是朴素贝叶斯分类器的表达式。朴素贝叶斯法对条件概率分布做了独立性假设,极大减少了参数的数量,在文本情感分类任务中取得了较好的分类效果。然而,该方法假设样本各个特征词之间是相互独立的,即一个特征词出现的可能性与其他特征词没有任何关系,显然,这个假设不合实际,从而导致该方法存在一定的局限性。(3)支持向量机(SVM)支持向量机(SupportVectorMachine,SVM)[49]是由Vapnik等人提出的一种用于解决二分类问题的机器学习方法。该方法的核心思想是:在保证最小的分类错误率的基础上,在高维特征空间中寻找到一个尽可能将两个数据集合分开的最优超平面。在特征空间中,分割超平面的方程如公式(2.21):0Twxb(2.21)其中,12(,,...,)dwwww用于确定分割超平面的方向;b表示偏置项,用于确定原点与分割超平面之间的距离,x代表样本空间任意点,显然,法向量w和偏置项b共同确定了分割超平面。那么样本空间中任意点到分割超平面的距离如公式(2.22):||||||Twxbrw(2.22)支持向量机示意图如图2.4所示。图2.4支持向量机示意图Fig.2.4SVMdiagram
【参考文献】:
期刊论文
[1]基于混合深度神经网络模型的司法文书智能化处理[J]. 王文广,陈运文,蔡华,曾彦能,杨慧宇. 清华大学学报(自然科学版). 2019(07)
[2]基于N-gram模型的中文分词前k优算法[J]. 李书豪,陈宇,吕淑宝,张猛治. 智能计算机与应用. 2016(06)
[3]基于字符串匹配的中文分词算法的研究[J]. 常建秋,沈炜. 工业控制计算机. 2016(02)
[4]深度学习研究与进展[J]. 孙志远,鲁成祥,史忠植,马刚. 计算机科学. 2016(02)
[5]基于卷积神经网络的微博情感倾向性分析[J]. 刘龙飞,杨亮,张绍武,林鸿飞. 中文信息学报. 2015(06)
[6]基于多粒度计算和多准则融合的情感分类[J]. 王丙坤,黄永峰,李星. 清华大学学报(自然科学版). 2015(05)
[7]基于字符的中文分词、词性标注和依存句法分析联合模型[J]. 郭振,张玉洁,苏晨,徐金安. 中文信息学报. 2014(06)
[8]基于深度学习的微博情感分析[J]. 梁军,柴玉梅,原慧斌,昝红英,刘铭. 中文信息学报. 2014(05)
[9]基于LDA模型的中文微博话题意见领袖挖掘[J]. 冯时,景珊,杨卓,王大玲. 东北大学学报(自然科学版). 2013(04)
[10]有效的中文微博短文本倾向性分类算法[J]. 韩忠明,张玉沙,张慧,万月亮,黄今慧. 计算机应用与软件. 2012(10)
硕士论文
[1]基于深度学习的知乎标题的多标签文本分类[D]. 张闯.北京交通大学 2018
[2]混合深度学习模型在新闻文本分类中的应用[D]. 马晨峰.山东大学 2018
[3]基于改进的LSTM的文本情感分析研究[D]. 闫勇莉.大连海事大学 2018
[4]基于深度神经网络的微博短文本情感分析研究[D]. 张英.中原工学院 2017
[5]基于Attention-Based LSTM模型的文本分类技术的研究[D]. 张冲.南京大学 2016
[6]基于统计学习的中文分词方法的研究[D]. 王威.东北大学 2015
[7]基于统计学习的中文分词改进及其在面向应用分词中的应用[D]. 巫黄旭.浙江大学 2012
[8]基于情感词典的中文微博情感倾向分析研究[D]. 陈晓东.华中科技大学 2012
[9]基于理解的汉语分词系统的设计与实现[D]. 苏勇.电子科技大学 2011
[10]中文情感词汇本体的构建及其应用[D]. 陈建美.大连理工大学 2009
本文编号:3210035
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3210035.html