面向电子商务评论文本的情感分析技术研究
发布时间:2020-08-24 23:35
【摘要】:随着电子商务对人们生活产生深刻的影响,面向电子商务评论文本的情感分析研究也成为当前的热点研究方向。评论文本情感分析方法主要分为基于情感词典的方法和基于机器学习的方法,然而传统的情感分析方法面对电子商务评论文本时在特征表示及提取等方面存在诸多不足,而丰富有效的特征提取是提升情感判别准确率的关键因素。为了解决传统情感分析模型在处理电子商务文本时特征构建与使用方面存在的问题,本论文针对传统情感分析方法提出了两种改进模型并在真实的中文电子商务评论上进行试验,验证了我们提出的改进方法的有效性。本文的主要工作有:第一,通过对情感词典采用模板匹配的方式进行扩展和针对不同句型针对性分析评论语句情感值的计算方法,建立了基于情感词典的改进分析模型。本文首先对现有情感词典进行了收集和整理,同时对网络词典进行收集并采用基于模板规则的方法对情感词典进行了拓展,获取领域情感词,构建了面向电子商务评论的情感词典。其次,本文引入决策树对不同句型进行分类,将句子分为四大类,包括肯定句、否定句、双重否定句及反问句,然后针对每类句型设计情感值计算方法,并对双重否定句以及反问句这两类情感强度较强的句子做加权处理,实现整条评论的情感值计算来获取其情感倾向性。最后,通过在京东部分商品评论数据上的实验证明了改进模型的情感判别效果明显优于传统模型,充分体现本文提出的改进模型的有效性。第二,通过融合词向量特征建立了基于机器学习的改进分析模型。传统的基于机器学习的分析方法对于评论这样的短文本进行特征表示时,存在特征稀疏问题。词向量技术能实现文本的向量化表示,向量维度较低,并能有效对词语之间的语义关系进行建模。为了提取更为丰富准确的文本特征,我们在第一部分拓展的情感词典的基础上基于词向量技术对情感词的向量表示进行情感调整构造情感词向量,并利用TF-IDF值表征词在文本中的重要性,作为词向量的权重,最后将词向量进行加权叠加,形成文本的向量化表示。在此基础上,将第一部分中基于情感词典的分析模型输出作为特征与本部分中的情感词向量特征进行融合,并通过机器学习方法进行情感分析。实验结果表明,改进的基于机器学习的情感分析模型相比其它基础模型在性能上有进一步提升。
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F713.36;TP391.1
【图文】:
造情感词典,通过词典分析文本中所有能够影响情感表达的词语,通常包括情感词逡逑以及修饰词,根据情感词语及其修饰词的情感强度赋予其对应的权重值,然后综合逡逑加权来计算文本情感值。基于情感词典的分析流程如图2-1所示:逡逑评论文本邋逦?文本预处理一?捐感词匹配——?情感值计算——?憧感分类逡逑1逦逦_J邋逦逦逦邋逦邋逦逡逑情感词典逡逑图2-1基于情感词典的分析流程逡逑基于情感词典的分析方法关键之一是情感词典的构建,情感词典主要由具有情逡逑感倾向性的情感词语构成,同时也包括副词及否定词等修饰情感倾向性的词语。目逡逑前的研究工作中常用的情感词典构建方法主要分成两种,第一种是以受到广泛认可逡逑的情感词典,例如知网等为基础,再根据情感分类问题所属的具体领域,针对性的逡逑构建特定研宄领域所需的情感词典;第二种是根据特定情感分类领域的特点,完全逡逑由人工通过收集整理的方式,构建特定领域的情感词典。显然第一种方法构建情感逡逑词典的方法有前人的研宄工作作为基础,构建起来速度更快,任务量更小,可以在逡逑相对较短的时间里完成情感词典的构建;相反第二种方法无任何现有词典作为基础
3.1基于情感词典的基础分析模型逡逑基于情感词典的情感分析过程主要包括:情感词典的构建、文本预处理、利用逡逑规则计算句子的情感值,如图3-1所示,其中关键的工作是情感词典的构建和情感逡逑极性值的计算。逡逑12逡逑
现存情感词典包含情感词有限,虽然已通过人工收集整理的方式获取了很多网逡逑络新词,但情感词典的覆盖程度仍然很低,我们采用一种较简单的挖掘情感新词的逡逑方法,即基于模板规则的方法,利用该方法挖掘领域情感词的流程如图3-2所示。逡逑评论ifiS溯逡逑处理逡逑词频统计逦构建规则逡逑t逦/"I逡逑挑选基sE提取候选词逡逑TJX逡逑计算候选词?一
本文编号:2802980
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F713.36;TP391.1
【图文】:
造情感词典,通过词典分析文本中所有能够影响情感表达的词语,通常包括情感词逡逑以及修饰词,根据情感词语及其修饰词的情感强度赋予其对应的权重值,然后综合逡逑加权来计算文本情感值。基于情感词典的分析流程如图2-1所示:逡逑评论文本邋逦?文本预处理一?捐感词匹配——?情感值计算——?憧感分类逡逑1逦逦_J邋逦逦逦邋逦邋逦逡逑情感词典逡逑图2-1基于情感词典的分析流程逡逑基于情感词典的分析方法关键之一是情感词典的构建,情感词典主要由具有情逡逑感倾向性的情感词语构成,同时也包括副词及否定词等修饰情感倾向性的词语。目逡逑前的研究工作中常用的情感词典构建方法主要分成两种,第一种是以受到广泛认可逡逑的情感词典,例如知网等为基础,再根据情感分类问题所属的具体领域,针对性的逡逑构建特定研宄领域所需的情感词典;第二种是根据特定情感分类领域的特点,完全逡逑由人工通过收集整理的方式,构建特定领域的情感词典。显然第一种方法构建情感逡逑词典的方法有前人的研宄工作作为基础,构建起来速度更快,任务量更小,可以在逡逑相对较短的时间里完成情感词典的构建;相反第二种方法无任何现有词典作为基础
3.1基于情感词典的基础分析模型逡逑基于情感词典的情感分析过程主要包括:情感词典的构建、文本预处理、利用逡逑规则计算句子的情感值,如图3-1所示,其中关键的工作是情感词典的构建和情感逡逑极性值的计算。逡逑12逡逑
现存情感词典包含情感词有限,虽然已通过人工收集整理的方式获取了很多网逡逑络新词,但情感词典的覆盖程度仍然很低,我们采用一种较简单的挖掘情感新词的逡逑方法,即基于模板规则的方法,利用该方法挖掘领域情感词的流程如图3-2所示。逡逑评论ifiS溯逡逑处理逡逑词频统计逦构建规则逡逑t逦/"I逡逑挑选基sE提取候选词逡逑TJX逡逑计算候选词?一
本文编号:2802980
本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/2802980.html