互联网商品评论情感分析研究
本文选题:情感倾向 + 文本分类 ; 参考:《重庆大学》2016年硕士论文
【摘要】:在电子商务蓬勃发展的网络环境下,越来越多的关于商品的主观性评论文本出现在各类购物网站上。这些评论文本中包含用户对产品各个方面的情感倾向,如喜欢、讨厌等。对其进行情感分析不仅可以帮助商家及时了解商品的优缺点,从而改善商品质量,而且也能为潜在消费者的购买决策提供数据支持。情感分析技术能充分利用这些海量的评论文本,从中挖掘出用户对商品的褒贬态度,越来越多的研究者涉足到这一领域的研究。情感分析技术的主要任务是从给定的文本中标注出用户对某个事物所表达的情感倾向。研究内容包括非结构化文本的主客观内容识别、情感倾向性分类,情感强度等。其涉及到自然语言处理、文本分类、机器学习等多个研究领域。本文的主要研究重点主要是对主观性文本所表达正向或负向的情感进行分类。本文从商品的属性出发,提出了基于组合神经网络的属性聚类算法,并用该方法对商品属性进行聚类。随后提出将评论文本表示成一个四维向量的表示方法,并结合SVM算法来实现对商品评论的情感分析。针对商品评论文本中经常出现网络情感词语这一特点,本文提出了基于Google的word2vec工具来构建商品评论情感词典的方法,并用该方法来对评论文本进行情感分析。基于组合神经网络的属性聚类方法综合考虑了评论文本中属性词与其上下文中词语的位置关系,根据语法和上下文信息来对评论文本中的属性进行聚类。通过聚类,评论文本被划分成若干个簇,随后给每个簇标注一个类别标签。每个类别标签中的评论文本都是针对商品的同一属性进行评价的。由于商品评论文本具有篇幅短小、褒贬情感鲜明等特点,本文将评论文本转换为一个四维的向量。通过用网络爬虫获取的真实的商品评论作为数据源,将本文提出的方法与常见的几种特征选择算法进行对比,用SVM算法对评论文本的情感倾向进行分类,验证了该方法的准确性和有效性。通过对word2vec工具进行训练,构建商品评论情感词典,然后用该词典对评论文本进行情感倾向性分类,实验证明该方法具有较高的分类准确率。
[Abstract]:In the booming network environment of electronic commerce, more and more subjective comments on goods appear on various shopping websites. These comments contain the user's emotional tendencies towards all aspects of the product, such as likes, dislikes, etc. Emotional analysis can not only help merchants to understand the advantages and disadvantages of goods in time, thus improve the quality of goods, but also provide data support for potential consumers to make purchase decisions. Emotion analysis technology can make full use of these massive comment texts to dig out the user's praise and demerit attitude to the goods. More and more researchers are involved in the research in this field. The main task of affective analysis is to identify the user's emotional tendency towards something from a given text. The research includes subjective and objective content identification, emotional preference classification, emotional intensity and so on. It involves many research fields, such as natural language processing, text classification, machine learning and so on. The main research focus of this paper is to classify positive or negative emotions expressed in subjective texts. In this paper, an attribute clustering algorithm based on combinatorial neural network is proposed for commodity attributes. Then a representation of comment text as a four-dimensional vector is proposed, and a SVM algorithm is used to realize the emotional analysis of commodity comment. In view of the fact that online emotive words often appear in commodity review texts, this paper proposes a method to construct a commodity comment emotion dictionary based on word2vec, and use this method to analyze the emotion of a comment text. The attribute clustering method based on combinatorial neural network considers the location relationship between attribute words in comment text and the words in its context, and clusters attributes in comment text according to syntax and context information. By clustering, the comment text is divided into several clusters, and then each cluster is labeled with a category label. The comment text in each category label is evaluated against the same attribute of the item. Because the commodity review text has the characteristics of short length and distinct emotions, this paper transforms the comment text into a four-dimensional vector. By using the real commodity comment obtained by the web crawler as the data source, the proposed method is compared with several common feature selection algorithms, and SVM algorithm is used to classify the emotional tendency of the comment text. The accuracy and validity of the method are verified. Through the training of word2vec tools, this paper constructs a commodity comment emotion dictionary, and then classifies the comment text with this dictionary. The experiment shows that this method has a high classification accuracy.
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【参考文献】
相关期刊论文 前10条
1 唐晓丽;白宇;张桂平;蔡东风;;一种面向聚类的文本建模方法[J];山西大学学报(自然科学版);2014年04期
2 肖辉辉;段艳明;;基于属性值相关距离的KNN算法的改进研究[J];计算机科学;2013年S2期
3 杨立公;朱俭;汤世平;;文本情感分析综述[J];计算机应用;2013年06期
4 杨源;马云龙;林鸿飞;;评论挖掘中产品属性归类问题研究[J];中文信息学报;2012年03期
5 刘文;吴陈;;一种新的中文文本分类算法——One Class SVM-KNN算法[J];计算机技术与发展;2012年05期
6 金涛;;网络爬虫在网页信息提取中的应用研究[J];现代计算机(专业版);2012年01期
7 张玉芳;王勇;刘明;熊忠阳;;新的文本分类特征选择方法研究[J];计算机工程与应用;2013年05期
8 张彩琴;袁健;;改进的正向最大匹配分词算法[J];计算机工程与设计;2010年11期
9 张紫琼;叶强;李一军;;互联网商品评论情感分析研究综述[J];管理科学学报;2010年06期
10 康岚兰;董丹丹;;常用特征选择方法的比较研究[J];电脑知识与技术;2009年34期
相关博士学位论文 前1条
1 施寒潇;细粒度情感分析研究[D];苏州大学;2013年
相关硕士学位论文 前4条
1 胡馨云;基于属性的商品评论情感挖掘研究[D];华中科技大学;2013年
2 叶升阳;基于网络评论的倾向性分析研究[D];北京邮电大学;2013年
3 岑松祥;领域无关的产品评论分析研究[D];北京邮电大学;2009年
4 陈建美;中文情感词汇本体的构建及其应用[D];大连理工大学;2009年
,本文编号:2090966
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/2090966.html