当前位置:主页 > 科技论文 > 软件论文 >

基于主题模型的文本情感分析研究

发布时间:2018-07-07 23:24

  本文选题:文本情感分析 + 主题情感混合模型 ; 参考:《太原理工大学》2017年硕士论文


【摘要】:互联网中各类评论信息数量巨大、变化迅速,海量的评论表达着信息发布者的情感倾向,这些信息对于政府部门的舆情监控、企业的经营决策和个人的购买决定,都起着至关重要的作用。但通过人工收集分析这些数据不仅成本较高,也无法满足时效性要求,因此文本情感分析受到了学术界与工业界的广泛关注。主题模型是能够从大规模离散数据集中自动提取隐含语义信息的生成概率模型。近年来,主题模型在文本分类、图像分类、热点事件监测、多文档自动文摘、推荐系统等领域得到了广泛应用。主题情感混合模型以主题模型为基础,可以无监督地提取语料的主题信息和对应的情感倾向,在文本情感分析领域得到了越来越多的关注。本文针对长文本和短文本的不同特性,分别提出了词加权LDA算法(Weighted Latent Dirichlet Allocation Algorithm,WLDA)和BJSTM模型(Biterm Joint Sentiment Topic Model,BJSTM)。针对长文本,本文针对现有主题/情感联合分析方法中主题间区分度较低的问题提出了WLDA算法。通过在吉布斯采样中对不同词汇赋予不同权重,增强了具有情感倾向的词汇在采样过程中的影响,从而改善了主题间的区分性。实验表明,与JST模型(Joint Sentiment/Topic model,JST)相比,WLDA不仅在采样中迭代速度快,也能够更好地实现主题提取和情感分类。由于短文本具有稀疏性,面向短文本的主题/情感联合分析方法较少,本文针对这一问题提出适用于短文本的BJSTM模型。该方法为BTM模型(Biterm Topic Model,BTM)增加情感层,对每个双词的情感和主题进行采样。BJSTM模型充分利用了语料级别的丰富词汇共现和词频信息,从某种程度上降低了短文本特征稀疏对主题/情感联合分析的影响。实验表明,与JST和SSTM(Short-text sentiment-topic model,SSTM)相比,BJSTM模型在情感分类和主题关键词提取方面都取得了良好效果。
[Abstract]:There are a lot of comments on the Internet, which are changing rapidly and expressing the emotional tendency of the information publishers. These comments monitor the public opinion of the government, the business decisions of the enterprises and the purchase decisions of the individuals. All play a vital role. However, it is not only expensive to collect and analyze these data manually, but also can not meet the requirements of timeliness. Therefore, text emotional analysis has been widely concerned by academia and industry. Topic model is a generation probability model which can automatically extract implicit semantic information from large scale discrete data sets. In recent years, topic models have been widely used in the fields of text classification, image classification, hot spot event monitoring, multi-document automatic summarization, recommendation system and so on. Subject emotion mixed model is based on topic model, which can extract subject information and corresponding emotional tendency of corpus without supervision, and has been paid more and more attention in the field of text emotion analysis. According to the different characteristics of long text and short text, this paper presents weighted Latent Dirichlet Allocation algorithm WLDA and BJSTM (BJSTM). For the long text, the WLDA algorithm is proposed to solve the problem of low discrimination among the existing methods of topic / emotion joint analysis. By assigning different weights to different words in Gibbs sampling, the influence of affective predisposition words on the sampling process is enhanced, and the distinction between subjects is improved. Experimental results show that WLDA not only has a faster iterative speed in sampling than JST (Joint topic Model JST), but also can achieve better topic extraction and emotional classification. Due to the sparsity of short text and the lack of subject / emotion joint analysis methods for short text, a BJSTM model for short text is proposed in this paper. This method adds affective layer to BTM (Biterm topic Model BTM), and takes full advantage of the abundant lexical co-occurrence and word frequency information at corpus level. To some extent, it reduces the influence of the sparse text features on the thematic / emotional joint analysis. The experimental results show that the BJSTM model has a good effect on emotion classification and topic keyword extraction compared with JST and SSTM (Short-text sentiment-topic Model SSTM).
【学位授予单位】:太原理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 邵华;李杨;丁远;刘凤臣;;基于词对主题模型的中分辨率遥感影像土地利用分类[J];农业工程学报;2016年22期

2 王亚民;胡悦;;基于BTM的微博舆情热点发现[J];情报杂志;2016年11期

3 吴斌;吉佳;孟琳;石川;赵惠东;李仪清;;基于迁移学习的唐诗宋词情感分析[J];电子学报;2016年11期

4 王杰;李德玉;王素格;;面向非平衡文本情感分类的TSF特征选择方法[J];计算机科学;2016年10期

5 李博;陈志刚;黄瑞;郑祥云;;基于LDA模型的音乐推荐算法[J];计算机工程;2016年06期

6 熊蜀峰;姬东鸿;;面向产品评论分析的短文本情感主题模型[J];自动化学报;2016年08期

7 江腾蛟;万常选;刘德喜;刘喜平;廖国琼;;基于语义分析的评价对象-情感词对抽取[J];计算机学报;2017年03期

8 马长林;谢罗迪;王梦;司琪;;基于主题情感混合模型的细粒度观点挖掘[J];华中科技大学学报(自然科学版);2015年S1期

9 欧阳继红;刘燕辉;李熙铭;周晓堂;;基于LDA的多粒度主题情感混合模型[J];电子学报;2015年09期

10 梁军;柴玉梅;原慧斌;高明磊;昝红英;;基于极性转移和LSTM递归网络的情感分析[J];中文信息学报;2015年05期

相关博士学位论文 前2条

1 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年

2 张紫琼;在线中文评论情感分类问题研究[D];哈尔滨工业大学;2010年

相关硕士学位论文 前3条

1 朱琥珀;基于主题模型的新闻标题分类方法研究[D];安徽大学;2016年

2 徐宇婷;基于排序主题模型的自动文摘及评价系统[D];大连海事大学;2014年

3 商任翔;基于主题模型的中医药隐含语义信息挖掘[D];浙江大学;2013年



本文编号:2106617

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2106617.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户962aa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com