基于多种方法组合的在线评论情感分析研究
发布时间:2021-03-30 20:36
近年来,随着互联网技术的快速发展与广泛应用,电商网站、微博、新闻网站等逐渐成为人们生活中不可缺少的一部分,这些网站通常有着海量的在线用户评论,这些由用户撰写的评论蕴含着巨大的价值,已经成为消费者和相关企业的重要信息来源。由于在线评论具有信息量大、非结构化的特点,文本挖掘技术被用于在线评论的分析。情感分析(Sentiment Analysis)是一种分析在线评论情感观点的文本挖掘方法,主要进行两个任务:情感极性分类,分析文本情感观点的情感极性,包括正、负、中性;方面识别,识别情感观点所谈及的具体方面类别,可以是特定实体的任何属性或特征。然而,大多数传统的情感分析方法更多地关注文本中的情感词以及与之相关联的名词等,很少考虑句子其他部分的影响。基于此,本文试图从这一角度出发找到一种切实可行的方法来提高性能。本文对现有的方法进行了并行组合使用,组合方法不只关注明显的情感词和名词等,还关注句子的其他部分。无论是在情感极性分类还是在方面识别任务中,都验证了所使用的组合方法可以有效地提高性能。研究在两个不同层级上展开。首先,在句子层级的情感分析研究中,本文基于情感分析问题的特点,对显式、隐式情感意见...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
论文研究框架
电子科技大学硕士学位论文20虚线上的点,因为它们是对w@S有直接贡献的文档向量。对测试实例的分类只需确定它落在超平面的哪一侧。图3-5支持向量机支持向量机这一算法具有许多优点,尤其是在特征通常比较多的文本分类问题中。在高维度空间中表现良好,当样本数小于特征维数时依然有效,而且这一算法在决策函数中使用的是样本点的子集,因此它也具有存储效率。3.2.3.3逻辑回归逻辑回归(LogisticRegression,LR)尽管其名称中带有“回归”,但这一算法实际上是用于分类而不是回归的线性模型,由于这一算法的简单高效,在实际问题中得到了广泛的应用,逻辑回归模型为最大熵模型在二分类时的特例,也就是说,把逻辑回归引入到多分类问题时等价于最大熵模型。逻辑回归算法由于其使用的便利性,在情感分析中也经常被使用[44,48]。这一算法的思想是通过输入已知的自变量输出一个概率值来预测离散型因变量的值。逻辑回归的核心思想是建立在线性回归的基础上的:线性回归是以训练数据拟合一条直线,并利用这条直线来预测新的输入;逻辑回归是要找到一个合适的假设函数作为分类函数,在此基础上输入训练数据得到初步的预测输出结果,得到这一结果后使用损失函数将训练样本的预测输出与实际类别的偏差表示出来,然后通过最小化这一损失函数来获得最优参数。因此,首先需要确定分类函数,逻辑回归的分类函数必须具备接受所有的输入然后得到结果的能力,输出0到1之间的某个值。符合此要求的有Sigmoid函数:
电子科技大学硕士学位论文24话中两个词之间的具体句法关系。利用依存句法描述一句话的优点是不需要理解词汇本身的含义,而是通过它所承载的语法关系来表示词汇,其数量远远小于词汇的数量。这样一来,大部分的句子都可以用这个框架来表示,同时,我们又能总结出这句话大概讲了些什么。首先,句子中的核心动词是支配其他成分的中心成分,它本身不受支配,这样的词作为句子的根节点,在依存关系中被记为“root”,当然,在非正式的不完整的句子中可能不存在动词,此时形容词或名词也可能成为根节点。其次,依赖于根节点,其它成分间也存在依存关系。以句子“Servicewasalsoverygood”为例,其句法依存关系如图3-6。图中箭头方向由支配词指向从属词,也就是父节点指向子节点。箭头下的小写字母代表依存关系,单词下的大写字母代表该词的词性。在这一句话中“was”为本句的root。通过依存句法分析的方法,我们可以提取出句子中形如“goodservice”这样的短语。图3-6依存句法分析现有的基于依存句法的方法的思想是利用依存句法分析提取文本的主干,再使用其他的分类方法对其分类。而用此类方法提取到的文本主干大多包含明显的情感词与情感对象,文本中不包含明显情感词的部分往往被忽略掉,但这些被忽略的部分也可能表达情感。所以,从提高对文本预料利用率的角度出发,本文的方法考虑了其他部分的影响:使用句法依存关系对评论句子中的短语进行提取,并在此基础上拆分句子,提取句子中可能表达意见的部分来应用我们训练好的监督分类模型判别意见类别。在本文中,我们使用了spacy工具来进行依存句法的分析。表3-2给出了依存句法分析中部分关系的标签及其具体意义,这些标注的关系会在第五章的实验中被用到。
本文编号:3110116
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
论文研究框架
电子科技大学硕士学位论文20虚线上的点,因为它们是对w@S有直接贡献的文档向量。对测试实例的分类只需确定它落在超平面的哪一侧。图3-5支持向量机支持向量机这一算法具有许多优点,尤其是在特征通常比较多的文本分类问题中。在高维度空间中表现良好,当样本数小于特征维数时依然有效,而且这一算法在决策函数中使用的是样本点的子集,因此它也具有存储效率。3.2.3.3逻辑回归逻辑回归(LogisticRegression,LR)尽管其名称中带有“回归”,但这一算法实际上是用于分类而不是回归的线性模型,由于这一算法的简单高效,在实际问题中得到了广泛的应用,逻辑回归模型为最大熵模型在二分类时的特例,也就是说,把逻辑回归引入到多分类问题时等价于最大熵模型。逻辑回归算法由于其使用的便利性,在情感分析中也经常被使用[44,48]。这一算法的思想是通过输入已知的自变量输出一个概率值来预测离散型因变量的值。逻辑回归的核心思想是建立在线性回归的基础上的:线性回归是以训练数据拟合一条直线,并利用这条直线来预测新的输入;逻辑回归是要找到一个合适的假设函数作为分类函数,在此基础上输入训练数据得到初步的预测输出结果,得到这一结果后使用损失函数将训练样本的预测输出与实际类别的偏差表示出来,然后通过最小化这一损失函数来获得最优参数。因此,首先需要确定分类函数,逻辑回归的分类函数必须具备接受所有的输入然后得到结果的能力,输出0到1之间的某个值。符合此要求的有Sigmoid函数:
电子科技大学硕士学位论文24话中两个词之间的具体句法关系。利用依存句法描述一句话的优点是不需要理解词汇本身的含义,而是通过它所承载的语法关系来表示词汇,其数量远远小于词汇的数量。这样一来,大部分的句子都可以用这个框架来表示,同时,我们又能总结出这句话大概讲了些什么。首先,句子中的核心动词是支配其他成分的中心成分,它本身不受支配,这样的词作为句子的根节点,在依存关系中被记为“root”,当然,在非正式的不完整的句子中可能不存在动词,此时形容词或名词也可能成为根节点。其次,依赖于根节点,其它成分间也存在依存关系。以句子“Servicewasalsoverygood”为例,其句法依存关系如图3-6。图中箭头方向由支配词指向从属词,也就是父节点指向子节点。箭头下的小写字母代表依存关系,单词下的大写字母代表该词的词性。在这一句话中“was”为本句的root。通过依存句法分析的方法,我们可以提取出句子中形如“goodservice”这样的短语。图3-6依存句法分析现有的基于依存句法的方法的思想是利用依存句法分析提取文本的主干,再使用其他的分类方法对其分类。而用此类方法提取到的文本主干大多包含明显的情感词与情感对象,文本中不包含明显情感词的部分往往被忽略掉,但这些被忽略的部分也可能表达情感。所以,从提高对文本预料利用率的角度出发,本文的方法考虑了其他部分的影响:使用句法依存关系对评论句子中的短语进行提取,并在此基础上拆分句子,提取句子中可能表达意见的部分来应用我们训练好的监督分类模型判别意见类别。在本文中,我们使用了spacy工具来进行依存句法的分析。表3-2给出了依存句法分析中部分关系的标签及其具体意义,这些标注的关系会在第五章的实验中被用到。
本文编号:3110116
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3110116.html
最近更新
教材专著