基于词向量的网络评论多维情感分类算法研究
发布时间:2021-10-04 23:28
针对网络文本情感分析,本文提出了一种基于复杂句式和复杂语义的情感分析模型,并将其应用于句子级多维情感分类。首先在特定领域文本语料基础上进行多维情感词扩充,建立多维情感词典;然后模型根据句式模型和语义复杂度,提取文本特征向量。该文本特征向量包含句式模型中关联词特征、复杂语义中情感主体特征以及多维情感词等;最后结合朴素贝叶斯算法作为分类器进行多维情感分类。实验结果表明,与同类算法比较中本算法在特定领域情感多分类任务中具有良好的准确率和召回率。本文提出了基于词向量的情感倾向判别算法模型,主要工作如下:1.针对特定领域中多维情感新词进行扩展。对基础情感词典的多维情感词进行扩充,构建出特定领域的多维情感词典,使得到的情感词典可以更加深层次的体现特定领域情感导向。同一单词在不同的语义环境中会产生不同的情感倾向,因此要筛选出在该领域下具有情感倾向的词语。基于这样的情感词典来判断句子所表达的情感倾向才会更加准确。2.针对中文句式的复杂性提出对应的句式模型。中文句式根据结构差异划分不同类别,如转折句、否定句等。本文首先提取句子中的主体词组合,该组合包括主体实词以及前后的情感词;然后提取各个复杂句式的特征...
【文章来源】:重庆邮电大学重庆市
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
文本表示模型
重庆邮电大学硕士学位论文第2章相关理论基础10向量空间模型(VectorSpaceModel,VSM)是20世纪60年代末期由G.Salton等人提出的。VSM其实是一种将文档转化成向量的方法,转化之后就可以在同一维度空间内表示一个个文档。VSM应用广泛,作为一种文本表示方法,空间向量模型将每个文档看做是由t维特征组成的向量,将单词作为特征。每篇文档各抽取t个关键词,然后计算其权重,得到的t维权重特征向量来表示一篇文档。VSM模型的流程图如图2.2所示。图2.2VSM模型流程图当有了文本表示模型之后要考虑生成准确表示文本的特征向量,要抓住文本最核心的内容。因此要提取一篇文档的关键词,并对每个关键词计算其对应的特征权值,从而形成特征向量。最常用的算法是TF-IDF算法,其设计到两个重要概念,即词频(TermFrequency,TF)和逆文档频率(InversedDocumentFrequency,IDF)。词频表示某个单词在一篇文档中出现的次数,在一篇文档中反复出现的词最能代表这篇文章的主题信息。逆文档频率表示某一个单词在文档集合内的重要性。向量空间模型具有简单明了意义明确等优点,但是其缺点就是如果词表规模增大的话维度也会变大,向量稀疏性提高,同时也不能识别中文种多种语义或一词多义的情况。为了提高语义的表达能力,将高维向量转成低维,就用到潜在语义分析(Latentsemanticanalysis,LSA),LSA本质是一个共现矩阵,由文档与组成文档单词组成,并通过TF-IDF计算得到结果[51]。2.1.2主题模型方法通过LSA的方法最让可以提高语义的表达性,但是降维之后空间物理意义也变得模糊。所以有研究者提出一种基于“主题”的文本表示模型,一个维度表示一
重庆邮电大学硕士学位论文第2章相关理论基础11个“主题”,“主题”是一个词语组合,通过每个“主题”就可以知道每个维度所代表的含义,从而解决了语义问题。早期的主题文本表示模型pLSA(probabilisticLSA)如图2.3所示,首先假定文档具有多个主题,该文档的词语集合由主题相对应的词分布中提抽取,假设J表示文档,W表示词,Z表示主题(隐含变量),那么文档和单词的联合概率如下所示:(,)=()^(|)(|)(2.1)相较于pLSA中没有假设主题的先验分布导致训练文档和参数增大的问题,后来研究者提出LDA主题模型[52],和pLSA不同的是LDA中假设了很多先验分布。在pLSA中,我们认为主题分布p(zk|dm)和词分布p(wn|zk)就是一个确定的值,我们的目的就是估计出来这个确定的值;而在LDA中,我们假设这两个参数,是不确定的,是服从一定分布的一个变化的东西,这个先验的分布,就是狄利克雷分布。图2.3隐含狄利克雷主题模型基于主题模型在物理方面具有一定的意义,将文章和词语通过“主题”关联起来,从而得到较准确的特征向量。然而主题模型主要侧重于文章级别的文本,对于网络评论来说评论文本大多是短文本,使用主题模型建模效果较差,主题数量需要手动控制随机性较强。2.1.3词嵌入由于计算机不能识别人类自然语言,需要将自然语言中文本转化为数字编码形式,因此产生了词向量。词向量就是将文字词语用向量的形式来表达。在情感识别
【参考文献】:
期刊论文
[1]基于复杂句式短文本情感分类研究[J]. 李毅捷,段利国,李爱萍. 现代电子技术. 2018(22)
[2]基于改进的卷积神经网络的中文情感分类[J]. 张绮琦,张树群,雷兆宜. 计算机工程与应用. 2017(22)
[3]基于双语词典的微博多类情感分析方法[J]. 栗雨晴,礼欣,韩煦,宋丹丹,廖乐健. 电子学报. 2016(09)
[4]Study of Sentiment Classification for Chinese Microblog Based on Recurrent Neural Network[J]. ZHANG Yangsen,JIANG Yuru,TONG Yixuan. Chinese Journal of Electronics. 2016(04)
[5]Words semantic orientation classification based on HowNet[J]. LI Dun1 , MA Yong-tao2, GUO Jian-li3 1. School of Information Engineering, Zhengzhou University, Zhengzhou 450001, China 2. School of Mechanical Engineering, Zhengzhou University, Zhengzhou 450001, China 3. International College for Chinese Studies, Nanjing Normal University, Nanjing 210097, China. The Journal of China Universities of Posts and Telecommunications. 2009(01)
[6]基于HowNet的词汇语义倾向计算[J]. 朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德. 中文信息学报. 2006(01)
本文编号:3418540
【文章来源】:重庆邮电大学重庆市
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
文本表示模型
重庆邮电大学硕士学位论文第2章相关理论基础10向量空间模型(VectorSpaceModel,VSM)是20世纪60年代末期由G.Salton等人提出的。VSM其实是一种将文档转化成向量的方法,转化之后就可以在同一维度空间内表示一个个文档。VSM应用广泛,作为一种文本表示方法,空间向量模型将每个文档看做是由t维特征组成的向量,将单词作为特征。每篇文档各抽取t个关键词,然后计算其权重,得到的t维权重特征向量来表示一篇文档。VSM模型的流程图如图2.2所示。图2.2VSM模型流程图当有了文本表示模型之后要考虑生成准确表示文本的特征向量,要抓住文本最核心的内容。因此要提取一篇文档的关键词,并对每个关键词计算其对应的特征权值,从而形成特征向量。最常用的算法是TF-IDF算法,其设计到两个重要概念,即词频(TermFrequency,TF)和逆文档频率(InversedDocumentFrequency,IDF)。词频表示某个单词在一篇文档中出现的次数,在一篇文档中反复出现的词最能代表这篇文章的主题信息。逆文档频率表示某一个单词在文档集合内的重要性。向量空间模型具有简单明了意义明确等优点,但是其缺点就是如果词表规模增大的话维度也会变大,向量稀疏性提高,同时也不能识别中文种多种语义或一词多义的情况。为了提高语义的表达能力,将高维向量转成低维,就用到潜在语义分析(Latentsemanticanalysis,LSA),LSA本质是一个共现矩阵,由文档与组成文档单词组成,并通过TF-IDF计算得到结果[51]。2.1.2主题模型方法通过LSA的方法最让可以提高语义的表达性,但是降维之后空间物理意义也变得模糊。所以有研究者提出一种基于“主题”的文本表示模型,一个维度表示一
重庆邮电大学硕士学位论文第2章相关理论基础11个“主题”,“主题”是一个词语组合,通过每个“主题”就可以知道每个维度所代表的含义,从而解决了语义问题。早期的主题文本表示模型pLSA(probabilisticLSA)如图2.3所示,首先假定文档具有多个主题,该文档的词语集合由主题相对应的词分布中提抽取,假设J表示文档,W表示词,Z表示主题(隐含变量),那么文档和单词的联合概率如下所示:(,)=()^(|)(|)(2.1)相较于pLSA中没有假设主题的先验分布导致训练文档和参数增大的问题,后来研究者提出LDA主题模型[52],和pLSA不同的是LDA中假设了很多先验分布。在pLSA中,我们认为主题分布p(zk|dm)和词分布p(wn|zk)就是一个确定的值,我们的目的就是估计出来这个确定的值;而在LDA中,我们假设这两个参数,是不确定的,是服从一定分布的一个变化的东西,这个先验的分布,就是狄利克雷分布。图2.3隐含狄利克雷主题模型基于主题模型在物理方面具有一定的意义,将文章和词语通过“主题”关联起来,从而得到较准确的特征向量。然而主题模型主要侧重于文章级别的文本,对于网络评论来说评论文本大多是短文本,使用主题模型建模效果较差,主题数量需要手动控制随机性较强。2.1.3词嵌入由于计算机不能识别人类自然语言,需要将自然语言中文本转化为数字编码形式,因此产生了词向量。词向量就是将文字词语用向量的形式来表达。在情感识别
【参考文献】:
期刊论文
[1]基于复杂句式短文本情感分类研究[J]. 李毅捷,段利国,李爱萍. 现代电子技术. 2018(22)
[2]基于改进的卷积神经网络的中文情感分类[J]. 张绮琦,张树群,雷兆宜. 计算机工程与应用. 2017(22)
[3]基于双语词典的微博多类情感分析方法[J]. 栗雨晴,礼欣,韩煦,宋丹丹,廖乐健. 电子学报. 2016(09)
[4]Study of Sentiment Classification for Chinese Microblog Based on Recurrent Neural Network[J]. ZHANG Yangsen,JIANG Yuru,TONG Yixuan. Chinese Journal of Electronics. 2016(04)
[5]Words semantic orientation classification based on HowNet[J]. LI Dun1 , MA Yong-tao2, GUO Jian-li3 1. School of Information Engineering, Zhengzhou University, Zhengzhou 450001, China 2. School of Mechanical Engineering, Zhengzhou University, Zhengzhou 450001, China 3. International College for Chinese Studies, Nanjing Normal University, Nanjing 210097, China. The Journal of China Universities of Posts and Telecommunications. 2009(01)
[6]基于HowNet的词汇语义倾向计算[J]. 朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德. 中文信息学报. 2006(01)
本文编号:3418540
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3418540.html
最近更新
教材专著