基于多元特征融合和LSTM神经网络的中文评论情感分析

发布时间:2017-12-26 22:30

  本文关键词:基于多元特征融合和LSTM神经网络的中文评论情感分析 出处:《太原理工大学》2017年硕士论文 论文类型:学位论文


  更多相关文章: 情感分析 情感特征 权重信息 多元特征 LSTM神经网络


【摘要】:随着移动互联网的飞速发展,网购成了人们日常生活的一部分。电商网站上存在大量的产品评论信息。挖掘这些评论的情感倾向不仅可以为商家提供商品的各种信息,方便商家做出销售决策,也有利于买家对商品做出客观判断,从而做出购买决策。面对数量庞大的评论文本信息,仅靠人工浏览去获取评论的情感倾向费时且费力,如何利用人工智能领域中的相关技术对产品评论自动化地进行情感分析成为了一个重要且有意义的课题。现有的情感分析方法主要有基于规则的方法、基于机器学习的方法和基于深度神经网络的方法,随着大数据技术的发展以及语言的形式越来越多元化,深度神经网络技术成为了自然语言处理领域的主流技术,在情感分析领域也取得了很大的突破,本文主要研究基于深度神经网络的情感分析方法。本文的主要研究工作如下:(1)针对文本情感分析中对文本表示时遇到的维度过高和语义不相关的问题,本文采用word embedding机制,通过神经网络语言模型对大量评论文本进行训练,并在此基础上通过distributed representation的方式表示文本,从而将文本映射为一个低维实数向量。这种文本表示方法同时也可以表达文本的语义信息,有助于神经网络模型对文本更好地理解。(2)针对情感分析任务的特殊性,本文提出了一种新的文本表示方法-——多元特征词向量。这种表示方法是对distributed representation表示方法的优化。考虑到情感分析中含有情感要素的词对文本整体情感极性的影响,通过构建情感要素词典捕捉文本中含有情感要素的词,并通过构造词的情感特征向量来表达词的情感要素,接着与用distributed representation方式表示的词向量进行特征融合构成多元特征词向量。用多元特征词向量表示的文本不仅含有文本的语义信息,而且可以捕捉文本的情感特征,更适合情感分析任务。(3)情感分析的本质是一个分类问题,计算特征权重是分类问题的重要步骤,基于此理论,本文在提出的多元特征词向量的基础上,进一步对其优化,借鉴特征权重算法为多元特征词向量分配权重,从而突出对分类更重要的词。本文提出的基于权重分配的多元特征词向量的文本表示方法对传统的文本表示方法从两方面进行了改进,丰富了对文本语义的表达,将其作为神经网络分类模型的输入,更适合神经网络模型对文本进行深层次特征捕捉与情感分类。(4)本文使用LSTM神经网络模型挖掘文本的深层特征。用基于权重分配的多元特征词向量表示文本,并作为LSTM神经网络模型的输入,然后利用LSTM神经网络能够学习文本中远距离依赖的特性捕捉文本的序列特征及上下文的依赖关系。最后本文通过和传统的基于LSTM神经网络的情感分析方法做对比实验,验证本文提出的改进方案的有效性。在上述四个工作中,本文充分考虑情感分析任务的特性,将情感词典资源以及特征权重信息等先验知识引入神经网络模型,在此基础上提出的基于权重分配的多元特征词向量可以捕捉更适用于情感分析任务的特征,利用LSTM神经网络模型的特性可以捕捉更丰富的特征组合,从而有效提高情感分类模型对文本的理解以及情感分类的准确率。
[Abstract]:With the rapid development of mobile Internet, online shopping has become a part of people's daily life. There is a lot of product comment information on the e-commerce website. Mining these reviews' emotional tendencies can not only provide businesses with various kinds of information, facilitate businesses to make sales decisions, but also help buyers make objective judgments on goods, so as to make purchase decisions. Faced with the huge amount of comment text information, it is time-consuming and laborious to get emotional sentiment of reviews only by manual browsing. How to make use of the related technology in artificial intelligence to automatically analyze the product reviews has become an important and meaningful topic. The emotion of the existing analysis methods are mainly based on rule based methods, machine learning method and method based on the depth of the neural network, with the development of big data technology and language in the form of more and more diversified, the depth of the neural network technology has become a mainstream technology in the field of Natural Language Processing, in the field of sentiment analysis has made great breakthrough in this paper study on the depth of the neural network analysis method based on emotion. The main research work of this paper is as follows: (1) according to the related encountered problems of high dimension and semantic representation for text sentiment analysis, this paper uses the word embedding mechanism, the neural network model of language training on a large number of comments and text, on the basis of the distributed representation representation of the text, which maps text as a low dimensional real vector. This method of text representation can also express the semantic information of the text, which helps the neural network model to understand the text better. (2) in view of the particularity of the emotional analysis task, a new method of text representation, multi feature word vector, is proposed in this paper. This representation is an optimization of the distributed representation representation method. Considering the effect of sentiment analysis contains the emotional factors of the word polarity on the whole text by emotion, emotional factors to construct the emotional elements containing the words in the dictionary to capture the text, and through the emotional feature vector to construct the word to express emotion words, then the features are fused to form multiple feature vectors and vector expressed by distributed representation the way. The text expressed with multiple feature words not only contains the semantic information of the text, but also can capture the emotional features of the text, which is more suitable for the emotional analysis task. (3) the nature of sentiment analysis is a classification problem, feature weight calculation is an important step in the classification problem, based on this theory, based on the characteristics of multi word vector proposed on the further optimization, using feature weighting algorithm for multi feature vector weights, which are more important to the classification of words. This text multi term vector representation method based on the weight distribution on the traditional text representation methods are improved from two aspects, enrich the expression of the text, as the neural network classification model is more suitable for the input of the neural network model of the deep features capture and sentiment classification. (4) this paper uses the LSTM neural network model to excavate the deep features of the text. We use weight based multi feature vector to represent text and use it as input of LSTM neural network model. Then we use LSTM neural network to learn the characteristics of long distance dependency in text, and capture the sequence characteristics and Contextual Dependency of text. Finally, this paper compares the traditional LSTM neural network based affective analysis method to verify the effectiveness of the proposed scheme. In the four work, considering the characteristics of sentiment analysis tasks, emotional dictionary resources and feature weight information such as prior knowledge into the neural network model is proposed based on multiple feature vector based on weight distribution can capture more suitable features in sentiment analysis tasks, using the characteristics of LSTM neural network model you can capture the feature combination more abundant, so as to effectively improve the accuracy of text classification model of understanding emotion and sentiment classification.
【学位授予单位】:太原理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP18

【参考文献】

相关期刊论文 前10条

1 朱艳辉;张永平;杜锐;徐叶强;;基于LDA与评价对象的微博观点摘要[J];郑州大学学报(理学版);2017年01期

2 杨小平;张中夏;王良;张永俊;马奇凤;吴佳楠;张悦;;基于Word2Vec的情感词典自动构建与优化[J];计算机科学;2017年01期

3 刘艳梅;;深度学习技术下的中文微博情感的分析与研究[J];软件;2016年05期

4 刘勇华;李爱萍;段利国;邸鹏;王鸿翔;;以主观线索为特征的主观性文本识别[J];计算机工程与设计;2015年09期

5 梁军;柴玉梅;原慧斌;高明磊;昝红英;;基于极性转移和LSTM递归网络的情感分析[J];中文信息学报;2015年05期

6 张佳明;席耀一;王波;唐浩浩;李天彩;;基于词向量的微博事件追踪方法[J];计算机工程与应用;2016年17期

7 汝承森;饶岚;王挺;;网络信息中评价搭配识别及倾向性判断[J];计算机科学;2013年07期

8 刘欢欢;李寿山;周国栋;李逸薇;;中文情绪识别方法研究[J];江西师范大学学报(自然科学版);2013年02期

9 陆文星;王燕飞;;中文文本情感分析研究综述[J];计算机应用研究;2012年06期

10 夏火松;刘建;朱慧毅;;中文情感分类挖掘预处理关键技术比较研究[J];情报杂志;2011年09期

相关博士学位论文 前1条

1 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年

相关硕士学位论文 前10条

1 王飞飞;基于改进卷积神经网络算法的研究与应用[D];南京邮电大学;2016年

2 隋浩;基于Word2Vec的微博情感新词识别与倾向判断研究[D];广西大学;2016年

3 廖纯;基于句法和语义的话题细粒度情感分析的研究[D];北京理工大学;2016年

4 杨云;基于句法结构的评价对象抽取方法研究[D];东北师范大学;2015年

5 于永波;Web信息抽取中的若干关键问题研究[D];中国科学技术大学;2015年

6 赵亚红;面向多类标分类的随机森林算法研究[D];哈尔滨工业大学;2014年

7 朱少杰;基于深度学习的文本情感分类研究[D];哈尔滨工业大学;2014年

8 李惠;组合型中文分词方法的研究[D];广东工业大学;2014年

9 雷龙艳;中文微博细粒度情绪识别研究[D];南华大学;2014年

10 陆洋;基于语义分析的文本挖掘研究[D];浙江工业大学;2012年



本文编号:1339147

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1339147.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4330e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com