当前位置:主页 > 科技论文 > 软件论文 >

面向产品评论的情感文本分类研究

发布时间:2018-07-24 13:07
【摘要】:随着电子商务的发展,网站上产品评论信息日益增多。消费者针对所购产品或服务表达观点、立场、看法,而这些观点、看法可以从不同方面反应产品或服务的品质。根据在线产品评论信息,意向消费者可以了解所需产品信息,商家也可以及时对产品或服务不足之处进行改进。由于以消费者为中心发表的评论信息比较杂乱,为便于其他消费者更好的了解产品信息以及商家及时获取用户反馈信息,对评论文本进行情感倾向分析分类是必要的。文本情感分析,主要是对文本的情感特征进行分析,为了有效提取文本情感特征,论文通过特征选择算法以及情感词典的方法进行提取,然后对文本进行分类。本文主要研究内容如下:(1)基于卡方统计的n-gram特征提取与冗余约简方法,对n-gram特征项之间存在冗余而影响实际分类效果的问题改进传统卡方统计算法,利用特征之间共现与不共现的关联性,选取具有关联性的n-gram特征;然后利用特征与类别之间的相关性,判别多元特征间是否冗余,并对冗余特征进行约简,从而选取高类别相关性而低冗余的n-gram特征。最后,对上述方法利用SVM算法在不同情感语料集上进行测试,实验结果表明该方法提高了文本情感分类的效率,验证了方法的有效性。(2)基于情感词典的方法,可以直接提取文本的情感特征,但情感词典的质量会影响分类的效果,且修饰情感词的上下文结构特征也会影响文本中情感词的极性。针对情感词典的构建以及情感词极性变化问题,提出基于产品属性的情感分类。该方法,首先利用Word2vec训练特征生成词向量,利用词向量之间的相似性对相似特征进行聚类,利用属性词与情感词的依存关系,提取属性词与情感词;然后,分析情感文本特征,构造领域情感词典,抽取文本的属性词、情感词以及其上下文结构特征;最后,结合SVM算法对文本进行分类,分析该方法对情感分类的影响,验证该方法对分类是有效的。在此基础上,分析LDA主题特征对文本情感分类的影响。为考虑情感特征的结构信息,提出结合n-gram模型生成n-gram特征的方法,同时对多元特征进行冗余约简。然后,将LDA主题概率作为特征,利用SVM算法在不同情感语料集上进行测试,分析不同n-gram特征结合LDA对文本分类的影响。最后,将该方法与不同的分类方法进行对比分析,实验结果表明该方法提高了文本情感分类的结果,验证了方法的有效性。
[Abstract]:With the development of e-commerce, the product comment information on the website is increasing day by day. Consumers express their views, positions, opinions on the products or services they purchase, which can reflect the quality of the products or services in different ways. According to the online product review information, the intended consumer can know the required product information, and the merchant can improve the product or service deficiency in time. Because of the disorderly comments published by consumers, it is necessary to analyze and classify comment texts in order to help other consumers better understand product information and get timely feedback from users. Text emotional analysis is mainly to analyze the emotional characteristics of text. In order to extract the emotional features of text effectively, this paper extracts the text by feature selection algorithm and emotion dictionary, and then classifies the text. The main contents of this paper are as follows: (1) based on chi-square statistics, the traditional chi-square statistical algorithm is improved for the problem that there is redundancy between n-gram feature items, which affects the actual classification effect, based on the n-gram feature extraction and redundancy reduction method. By using the correlation between co-occurrence and non-co-occurrence among features, the n-gram feature with relevance is selected, and then the correlation between feature and category is used to judge whether the multivariate features are redundant or not, and the redundant features are reduced. In order to select a high category of correlation and low redundancy of n-gram features. Finally, the method is tested on different affective corpus using SVM algorithm. The experimental results show that the method improves the efficiency of text emotion classification and verifies the effectiveness of the method. (2) the affective dictionary based approach. The emotion features of the text can be extracted directly, but the quality of the emotion dictionary will affect the classification effect, and the contextual structure of the modified emotion words will also affect the polarity of the emotional words in the text. Aiming at the construction of emotion dictionary and the change of polarity of emotion words, the emotion classification based on product attributes is proposed. In this method, we first use Word2vec to train features to generate word vectors, cluster similar features by using the similarity between word vectors, extract attribute words and affective words by using the dependency between attribute words and affective words, and then analyze the affective text features. Construct domain emotion dictionary, extract attribute words, affective words and its context structure features of text. Finally, combine SVM algorithm to classify text, analyze the influence of this method on emotion classification, and verify that this method is effective for classification. On this basis, the influence of LDA theme features on text affective classification is analyzed. In order to consider the structural information of affective features, a method of generating n-gram features based on n-gram model is proposed. At the same time, the multivariate features are reduced by redundancy. Then, the LDA topic probability is used as the feature, and the SVM algorithm is used to test the different affective corpus to analyze the influence of different n-gram features combined with LDA on text classification. Finally, the method is compared with different classification methods. The experimental results show that the method improves the result of text emotion classification and verifies the effectiveness of the method.
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 李洋;;微博文本规范化研究综述[J];现代计算机(专业版);2014年03期

2 于鸣镝;;再论读者与文本[J];图书情报工作;2006年01期

3 梅约翰;早期中国文本诠释的折衷方式:以《论语》为例[J];中国哲学史;2004年02期

4 阎立峰;;电视文本的美、善、真[J];现代传播-中国传媒大学学报;2009年03期

5 周佩妮;;略论文本概念的两组对应范畴[J];图书馆理论与实践;2006年06期

6 万敏;;《老王》文本意义之“冷暖”维度建构[J];现代语文(教学研究版);2013年05期

7 胡昌斗;;关于文本概念语义规范的思考[J];中国图书馆学报;2006年04期

8 王燕子;;介质:文本媒介的意义言说[J];阴山学刊;2012年05期

9 于鸣镝;;我的读者观[J];图书馆论坛;2005年06期

10 李佳徽;;多媒介文本联合解码——产品服务体系设计[J];中国包装工业;2013年18期

相关会议论文 前1条

1 佴荣本;;文学史的文本与人本[A];2006年江苏省哲学社会科学界学术大会论文集(下)[C];2006年

相关重要报纸文章 前5条

1 许彦达;朗读不是鹦鹉学舌[N];中国教师报;2005年

2 徐妍;在伤痛中承担意义[N];文艺报;2010年

3 山东省宁阳县鹤山乡中心小学 尹承香;走进人物的心灵[N];学知报;2011年

4 王志耕;从失语走向历史透视[N];中华读书报;2002年

5 藏策;图文书的歧途[N];中国新闻出版报;2003年

相关博士学位论文 前3条

1 谢云才;文本意义的诠释与翻译[D];上海外国语大学;2010年

2 李金凤;“评价—顺应”视角的读者定位研究[D];复旦大学;2009年

3 黄小扬;背景知识对英语阅读理解的干预效应研究[D];浙江大学;2012年

相关硕士学位论文 前10条

1 张剑;基于概念的文本表示模型的研究[D];清华大学;2006年

2 王宣又;心理空间与文学文本意义的认知探寻[D];四川外语学院;2011年

3 王海霞;文学翻译理解过程——文本视界与译者视界的融合[D];湖南师范大学;2004年

4 柴凤英;文本意义的阐释与建构[D];内蒙古师范大学;2004年

5 程敏;关联理论与翻译[D];南京师范大学;2005年

6 张婷婷;再现译者决策过程[D];浙江大学;2006年

7 曹忠华;儿童文学视野下小学神话类文本教学探究[D];苏州大学;2014年

8 张鹏;基于FrameNet框架关系的文本蕴含识别研究[D];山西大学;2012年

9 卓今;《马语者》翻译实践报告[D];中南大学;2012年

10 林怡;视点—文本意义的生成[D];福建师范大学;2008年



本文编号:2141476

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2141476.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d2be3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com