中文微博细粒度情绪识别研究
发布时间:2019-08-08 07:31
【摘要】:从本世纪初,文本情感研究逐渐成为信息抽取领域中的研究热点,获得了越来越多的关注。特别是Web2.0技术的逐渐普及,微博因为消息简短、发布便捷、实时交互等特点获得了网民极高的喜爱度,广大网民已经从过去单纯的信息获取者变成网络内容的主要制造者。同时,随着自然语言处理和机器学习技术的不断进步和成熟,对微博这种主观性短文本进行情感分析也成为可能,并逐渐得到广泛应用。 针对中文微博的情感分析研究,国内目前主要集中在微博的情感极性判断上,如分析微博表达是积极还是消极,此类研究已经取得了一定成绩并开始广泛应用,然而,随着应用的深入,用户希望能够获取到微博表达的更细致的情感以便了解用户对某些事物的态度,此时传统的微博情感分析研究方法已很难完全满足需求,虽然目前国内近年来对中文微博细粒度情绪识别正在做一些尝试与努力,但效果并不大理想。因此,本文研究了基于中文微博的细粒度情绪分析方法,通过探索新的研究思路和方法,进一步提高情感分析的准确性和实用性。 文本主要针对中文微博的细粒度情绪识别中的关键技术展开研究。分析了中文微博研究难点和微博情感表达特征,提出了一种基于情感词汇本体的多策略集成分析法。首先在对微博的有无情绪分类中,在有大量测试集合的前提下,我们提出了基于迭代的朴素贝叶斯分类算法,对该算法分类为有情绪的微博文本,我们进一步的分析它所表达的细腻情绪(anger愤怒、disgust厌恶、fear恐惧、happiness高兴、like喜好、sadness悲伤、surprise惊讶),,使用新颖的文本特征向量表示和权重计算方法量化有情绪微博文本,然后基于支持向量基SVM和K 最近邻KNN算法分别进行7类细粒度情绪分类,实现对中文微博的细粒度情绪分析。 最后我们以新浪微博为实验数据,在大连理工情感词汇本体基础之上,构建多策略融合分类算法与单一分类算法对比实验,最终实验结果表明,多策略分类算法融合方案在细粒度情绪分析研究中效果更好。且在两类多策略融合分析方法中,“NBKNN”方案比“NBSVM”方案稍显优势。 论文的主要贡献在于: 1)提出了基于迭代的朴素贝叶斯分类算法,该算法在先验知识不足的情况下能很好的提升分类性能。 2)扩展丰富了大连理工情感本体库,这将对细粒度情绪识别准确度的提升有很大帮助。 3)研究出中文微博文本新颖的特征向量表示法和权重量化方法。该方法能有效降低数据维数灾难,减小算法计算复杂度并最终提高算法性能。 4)实现了多策略分类算法融合的细粒度情绪分析方法。该多分类算法融合方案比直接使用单一的算法效果有显著提高,为今后的更深入细粒度情绪分析工作提供了思路和理论依据。 通过对中文微博进行细粒度情绪识别分析研究,将为推动电子商务发展,组织机关民意调查,网络舆情监控等提供重要的决策依据。但细粒度情绪分析的准确度依然有很大的改进空间。
【学位授予单位】:南华大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【学位授予单位】:南华大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 郭飞飞;王小华;谌志群;王荣波;;基于回应消息的中文微博情感分类方法[J];杭州电子科技大学学报;2013年06期
2 李赫元;俞晓明;刘悦;程学旗;程工;;中文微博客的垃圾用户检测[J];中文信息学报;2014年03期
3 文坤梅;徐帅;李瑞轩;辜希武;李玉华;;微博及中文微博信息处理研究综述[J];中文信息学报;2012年06期
4 王银;吴新玲;;中文微博情感分析方法研究[J];广东技术师范学院学报;2014年03期
5 肖s
本文编号:2524232
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2524232.html