中文微博情感词典的构建研究与应用
本文选题:情感词典 + SO-PMI算法 ; 参考:《上海师范大学》2017年硕士论文
【摘要】:近年来随着互联网技术的快速发展,包括微博、即时通讯工具在内的新型社交媒体已从根本上改变了人们的生活方式。以微博为主的带有个人情感色彩的言论信息正迅速发展,深入了解和挖掘微博情感信息,为政府、商家等机构进行微博营销、品牌调查、网络舆情监控提供支撑,具有重要的社会意义和商业价值。情感分析在信息科学中,是指利用自然语言处理、机器学习等技术对作者主观情感倾向的分析研究。微博情感分析是其中的热点问题,主要有两种方法:基于情感词典和基于机器学习。但中文微博在文本长度、表达方式、语言风格等方面与传统文本有着较大区别,传统的机器学习方法无法保留情感特征之间的关系;而基于情感词典的方法,目前又找不到覆盖面较好的可用中文情感词典。针对传统研究中存在的不足,本文主要利用了改进后SO-PMI算法和主题-情感混合模型来构建适合中文微博情感分析的中文微博情感词典,涉及的主要工作有以下几个方面:(1)针对现有情感词典在微博情感词覆盖度低的问题,整合现有情感词典资源,构建了一个基础情感词典;同时提出了利用距离互信息和拉普拉斯平滑技术来改进SO-PMI算法对微博领域情感词典进行构建。并通过实验验证了本文提出的算法在微博情感词语的倾向性判断上,相比于传统方法在准确率上有了较大的提升。(2)研究文本情感分析中基础情感词情感倾向与描述主题的关系,提出主题-情感混合模型。该模型假设微博语料库中的每条微博文本都只符合一种主题-情感分布,利用模型生成文档的过程中输出主题-情感词,从而解决了同一情感词搭配不同主题表现出不同情感倾向的问题。将主题-情感词整理添加到中文微博情感词典中。(3)利用实验验证了利用本文构建的中文微博情感词典在进行微博文本情感分类上的效果要明显好于现有的情感词典,从而验证了本文提出的构建中文微博情感词典的方法的有效性。
[Abstract]:With the rapid development of Internet technology in recent years, new social media, including Weibo and instant messaging tools, have fundamentally changed people's way of life. The speech information with personal emotion color is developing rapidly with Weibo, deeply understanding and mining the emotional information of Weibo, providing support for government, merchants and other institutions to carry out Weibo marketing, brand investigation, network public opinion monitoring. It has important social significance and commercial value. In information science, affective analysis refers to the analysis and research of the author's subjective emotional tendency by using natural language processing, machine learning and other techniques. Weibo affective analysis is one of the hot issues, there are two main methods: affective dictionary and machine based learning. However, Chinese Weibo is different from the traditional text in terms of text length, expression mode, language style and so on. Traditional machine learning methods can not retain the relationship between emotional features. At present, we can not find a Chinese emotion dictionary with good coverage. In view of the shortcomings of the traditional research, this paper mainly uses the improved SO-PMI algorithm and the subject-emotion mixed model to construct the Chinese Weibo emotion dictionary suitable for the Chinese Weibo emotion analysis. The main work involved is as follows: 1) aiming at the low coverage of Weibo affective words in the existing affective dictionaries, a basic affective dictionary is constructed by integrating the existing affective dictionary resources; At the same time, the distance mutual information and Laplace smoothing technique are used to improve the SO-PMI algorithm to construct the Weibo domain emotion dictionary. The experimental results show that the proposed algorithm is more accurate than the traditional method in judging the tendency of Weibo affective words.) the relationship between the affective tendency of the basic affective words and the description of the subject in the text affective analysis is studied. A thematic-emotional hybrid model is proposed. The model assumes that each Weibo text in the Weibo corpus conforms to only one subject-emotion distribution, and outputs theme-emotion words in the process of generating the document by using the model. Thus solving the same affective words collocation different themes show different emotional tendencies. Adding topic-affective words to Chinese Weibo affective dictionary, the experiment proves that the effect of the Chinese Weibo affective dictionary constructed in this paper is better than that of the existing affective dictionary in Weibo text classification. The method proposed in this paper is proved to be effective in constructing Chinese Weibo affective dictionary.
【学位授予单位】:上海师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【参考文献】
相关期刊论文 前10条
1 郑诚;沈磊;代宁;;基于类序列规则的中文微博情感分类[J];计算机工程;2016年02期
2 张佳明;王波;唐浩浩;李天彩;;基于Biterm主题模型的无监督微博情感倾向性分析[J];计算机工程;2015年07期
3 梁亚伟;;基于情感词典的中文微博情感分析模型研究[J];现代计算机(专业版);2015年18期
4 肖江;丁星;何荣杰;;基于领域情感词典的中文微博情感分析[J];电子设计工程;2015年12期
5 罗毅;李利;谭松波;程学旗;;基于中文微博语料的情感倾向性分析[J];山东大学学报(理学版);2014年11期
6 黄时友;;微博情感分析研究综述[J];新西部(理论版);2014年19期
7 周剑峰;阳爱民;周咏梅;;基于中文微博的情感词典构建及分类方法[J];计算机与数字工程;2014年10期
8 周咏梅;阳爱民;杨佳能;;一种新闻评论情感词典的构建方法[J];计算机科学;2014年08期
9 孙建旺;吕学强;张雷瀚;;基于词典与机器学习的中文微博情感分析研究[J];计算机应用与软件;2014年07期
10 郑诚;张吉赓;杨希;;基于共现词的中文微博观点句识别[J];电脑知识与技术;2014年11期
相关会议论文 前1条
1 徐琳宏;林鸿飞;;文本情感语料库的构建和分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
相关硕士学位论文 前10条
1 陈晓东;基于情感词典的中文微博情感倾向分析研究[D];华中科技大学;2012年
2 杨超;基于情感词典扩展技术的网络舆情倾向性分析[D];东北大学;2009年
3 侯小可;微博新闻话题的情感分析研究[D];华北电力大学;2013年
4 杜振雷;面向微博短文本的情感分析研究[D];北京信息科技大学;2013年
5 汤秋莲;基于BTM的短文本聚类[D];安徽大学;2014年
6 朱海欢;中文微博情感分类的研究[D];华东师范大学;2014年
7 黄时友;面向话题型微博评论的观点识别及其情感倾向分析研究[D];杭州电子科技大学;2015年
8 张彬;中文微博情感倾向性分析研究[D];华南理工大学;2015年
9 沈磊;基于规则与机器学习方法的中文微博情感分析研究[D];安徽大学;2015年
10 刘丽娟;基于LDA特征扩展的微博短文本分类[D];燕山大学;2015年
,本文编号:1892616
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1892616.html