当前位置:主页 > 科技论文 > 软件论文 >

基于有序分类的文本情感分析

发布时间:2018-03-20 05:02

  本文选题:文本情感分析 切入点:word2vec 出处:《中国科学技术大学》2017年硕士论文 论文类型:学位论文


【摘要】:大数据时代,人们所接触的数据在数量与维度上与日俱增,网络上有着丰富的量化数据和文本数据,相对于量化数据,文本数据具有比重大,复杂,新颖等特点。其中文本情感分析在大数据时代这个背景下不断地发展并吸引着大量研究者的关注,如何充分有效地利用文本数据,挖掘其中所包含的信息是一个巨大又有意义的挑战。文本分析是指对文本的表示及其特征项的选取;文本分析即让计算机能够对于人类文字进行理解和分析,它要从文本数据中抽取出文本所包含的特征与信息。本文着重探究的对象是文本情感的有序分类,利用神经网络语言模型word2vec将文本数据量化,再通过成对比较有序分类算法将量化数据做情感分类,完成文本情感分析。首先为了更好地利用计算机来分析文本数据,本文利用神经网络语言模型word2vec来对文本数据进行量化,相对于其他的方法具有模型简单、效率高、易调参的优点,并且在此基础上本文结合了其他的特征提取方法,如:TF-IDF,LDA4主题模型,再加以优化得到词向量,此综合法在数值实验上取得了更好的效果。另一方面,本文研究的是有序分类问题,提出了成对比较策略的有序分类算法(PairCode),详细介绍了如何使用成对比较将有序分类转化成无序分类,再将无序分类结果转化成有序分类类别,给出了成对比较下类标签编码矩阵设计、样本均衡、分类器训练、新样本预测等环节中的可行策略。并在数值实验中与其他有序分类算法比较,PairCode算法在MAE、MMAE等有序度量指标上有较好的表现,然而,由于PairCode算法本身策略的特点,其分类速度是较慢的,在后续研究中需要不断改进。
[Abstract]:In the era of big data, the number and dimension of the data that people come into contact with is increasing day by day, and there are abundant quantitative data and text data on the network. Compared with the quantitative data, the text data has a large proportion and complexity. In the context of big data's time, text emotional analysis has been developing and attracting the attention of a large number of researchers, how to make full and effective use of text data, Mining the information contained therein is a huge and meaningful challenge. Text analysis refers to the representation of text and the selection of its features. Text analysis enables computers to understand and analyze human text. The object of this paper is the orderly classification of text emotion, and the neural network language model word2vec is used to quantify the text data. In order to use computer to analyze the text data better, this paper uses the neural network language model word2vec to quantify the text data. Compared with other methods, it has the advantages of simple model, high efficiency and easy to adjust parameters. On this basis, this paper combines other feature extraction methods, such as: TF-IDF / LDA4 topic model, and then optimizes the word vector. On the other hand, the problem of ordered classification is studied in this paper. In this paper, an ordered classification algorithm based on pairwise comparison strategy is proposed, and how to use pairwise comparison to transform ordered classification into unordered classification is introduced in detail, and then the result of disordered classification is transformed into ordered classification category. The design of class label coding matrix, sample equalization, classifier training under pairwise comparison are given. In numerical experiments, compared with other ordered classification algorithms, PairCode algorithm has a better performance on the ordered metrics such as MAEMMAE. However, due to the characteristics of the PairCode algorithm itself, the proposed algorithm has a good performance in some aspects, such as the prediction of new samples, and so on. Its classification speed is slow, need to be improved continuously in the follow-up research.
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】

相关期刊论文 前9条

1 黄仁;张卫;;基于word2vec的互联网商品评论情感倾向研究[J];计算机科学;2016年S1期

2 郑文超;徐鹏;;利用word2vec对中文词进行聚类的研究[J];软件;2013年12期

3 周咏梅;杨佳能;阳爱民;;面向文本情感分析的中文情感词典构建方法[J];山东大学学报(工学版);2013年06期

4 侯敏;滕永林;李雪燕;陈毓麒;郑双美;侯明午;周红照;;话题型微博语言特点及其情感分析策略研究[J];语言文字应用;2013年02期

5 周胜臣;瞿文婷;石英子;施询之;孙韵辰;;中文微博情感分析研究综述[J];计算机应用与软件;2013年03期

6 孙艳;周学广;付伟;;基于主题情感混合模型的无监督文本情感分析[J];北京大学学报(自然科学版);2013年01期

7 樊娜;安毅生;李慧贤;;基于K-近邻算法的文本情感分析方法研究[J];计算机工程与设计;2012年03期

8 叶志飞;文益民;吕宝粮;;不平衡分类问题研究综述[J];智能系统学报;2009年02期

9 徐琳宏;林鸿飞;潘宇;任惠;陈建美;;情感词汇本体的构造[J];情报学报;2008年02期

相关硕士学位论文 前1条

1 董婧灵;基于LDA模型的文本聚类研究[D];华中师范大学;2012年



本文编号:1637599

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1637599.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户08b34***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com