微博短文本细粒度情感分析
本文选题:微博短文本 + 机器学习 ; 参考:《北京邮电大学》2016年硕士论文
【摘要】:微博作为是移动互联网起步最早也发展最快的业务之一,在经历了最初几年的高速增长和热捧之后,一度有些沉寂。但是,伴随着4G网络、WiFi网络大规模覆盖,移动终端智能设备的极速增长,越来越多的人频繁地使用微博。移动端用户的增长,让微博有了日活跃用户超过1亿的基础。基于该庞大的用户群体,利用微博文本对用户进行情感分析,不仅有利于新生代商业模式探索、社会舆情监控与分析,而且对人工智能发展的积极意义也不容小觑。文本情感分析为人工智能在人类情感领域的探索做出了积极的贡献。微博具有典型的网络语言特点,语法规范性差、口语化、新词汇层出不穷、大量的表情符号和文本噪声等。基于传统规范书面语言词典的微博情感分析效果差强人意。为了解决这个问题,本文一方面通过对传统情感词典进行网络语言的扩充,构建了新的适用于微博文本分析的词典,并通过实验验证了词典的有效性;另一方面,使用对特殊情感词汇依赖性小的递归自动编码机(Recursive Autoencoder,RAE)模型,性能得到了提高。含有否定词的文本情感判别较.为复杂,否定词的加入可能使原文本情感极性发生转变,也可能极性保持不变,程度有所削弱。传统本文传统的情感分析方法通常对文本模型进行简化,假设一个词语仅和其前一个词语有关,对含有否定词的文本的积极/消极判别较差。递归神经张量网络(Recursive Neural Tensor Network,RNTN)模型没有进行类似简化,保持了词向量之间的强相关性。本文通过对RNTN模型的训练,使其在含有否定词中文文本情感极性判别上达到了 80.7%的精度。RNTN模型对词语或短语级细粒度情感分析上表现出色,而且不需要大量的人工标注;RAE模型作为较为成熟的深度学习模型,抛弃了传统的词袋模型,利用层次结构和成分语义来进行情感分类;SVM作为传统机器学习方法,通用性强,适用范围广。结合以上方法的特点以及情感分类的任务目标,本文设计了微博短文本的双极性、细粒度情感分类方案,首先使用SVM对微博篇章进行主客观分类,RAE和RNTN对判定为主观情感的文本的每一个句子进行正负极性判断,并选出极性最强的句子,该句子的情感极性即为整个微博的情感极性。若RAE和RNTN评判语句极性一致,即为最终结果。本文设计方案F值、召回率、准确率均高于基于融合特征的方法。通过实验证明了系统的可行性和高效性。
[Abstract]:As one of the earliest and fastest growing mobile Internet services, Weibo has been quiet for a while after its rapid growth and popularity in the first few years. However, with the large-scale coverage of 4G networks and the rapid growth of smart devices in mobile terminals, more and more people frequently use Weibo. The growth of mobile users has given Weibo a daily base of more than 100m active users. Based on this huge group of users, the use of Weibo text for emotional analysis of users is not only conducive to the exploration of the new generation of business models, monitoring and analysis of social public opinion, but also positive significance for the development of artificial intelligence can not be underestimated. Text emotion analysis has made a positive contribution to the exploration of artificial intelligence in the field of human emotion. Weibo has the characteristics of typical network language, poor grammar, colloquial, new vocabulary, a large number of emoji and text noise and so on. The effect of Weibo affective analysis based on the traditional standard written language dictionary is unsatisfactory. In order to solve this problem, on the one hand, this paper constructs a new dictionary suitable for Weibo text analysis by extending the traditional emotional dictionary, and proves the validity of the dictionary through experiments; on the other hand, The performance is improved by using the recursive autocoder rae model, which has small dependency on special emotional vocabulary. The text emotion discriminates with negative words. For complexity, the addition of negative words may change the emotional polarity of the original text, or keep the polarity unchanged, and weaken the degree of the original text. The traditional affective analysis method in this paper usually simplifies the text model, assuming that a word is only related to the previous word, and the positive / negative discrimination of the text containing negative words is poor. Recursive Neural Tensor Network (RNT) model of recurrent neural Zhang Liang network is not simplified, and the strong correlation between word vectors is maintained. In this paper, the RNTN model is trained to achieve a precision of 80.7% in judging the affective polarity of the Chinese text with negative words. The model performs well in the fine-grained emotional analysis of words or phrases. Moreover, it does not need a large number of manual tagged rae model as a more mature in-depth learning model, abandoned the traditional word bag model, using hierarchical structure and component semantics to carry out emotion classification and SVM as the traditional machine learning method, it has strong generality. The scope of application is wide. Combining the characteristics of the above methods and the task goal of emotion classification, this paper designs a bipolar, fine-grained emotional classification scheme for Weibo short text. Firstly, SVM is used to classify Weibo texts subjectively and objectively. Rae and RNTN judge each sentence as subjective and negative, and select the most polar sentence. The emotional polarity of the sentence is the emotional polarity of the whole Weibo. If the polarity of RAE and RNTN judgment statements is the same, it is the final result. In this paper, F value, recall rate and accuracy are higher than those based on fusion feature. The feasibility and efficiency of the system are proved by experiments.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;TP393.092
【相似文献】
相关期刊论文 前10条
1 王宁;钞柯;罗嫔;;实现细粒度访问控制的元模型研究[J];大连理工大学学报;2012年03期
2 孙伟;李艳灵;周文勇;;细粒度基于传递功能的约束委托模型[J];信阳师范学院学报(自然科学版);2013年03期
3 夏汛;陈玲;;基于拦截器的细粒度权限设计[J];福建电脑;2012年11期
4 欧阳纯萍;阳小华;雷龙艳;徐强;余颖;刘志明;;多策略中文微博细粒度情绪分析研究[J];北京大学学报(自然科学版);2014年01期
5 史大伟;袁天伟;;一种粗细粒度结合的动态污点分析方法[J];计算机工程;2014年03期
6 原子;于莉莉;刘超;;引入缺陷的细粒度软件变更识别方法[J];北京航空航天大学学报;2014年09期
7 戢彦泓,郭常杰,钟玉琢,孙立峰;基于细粒度可扩展编码的多源视频流化方案[J];清华大学学报(自然科学版);2004年04期
8 涂登彪;谭光明;孙凝晖;;无锁同步的细粒度并行介度中心算法[J];软件学报;2011年05期
9 张宇轩;魏廷存;樊晓桠;张萌;;面向流体系的细粒度异步访存调度[J];计算机应用研究;2012年03期
10 王宽;;基于细粒度调整的同步播放控制算法[J];山西电子技术;2008年05期
相关会议论文 前10条
1 张智军;沈f ;朱伟;;文本组织方式对介绍性文章搜索绩效的影响研究[A];中国人类工效学学会第六次学术交流会论文摘要汇编[C];2003年
2 岳福新;白玫;;浅析英语旅游信息文本的写作与翻译[A];译学辞典与翻译研究——第四届全国翻译学辞典与翻译理论研讨会论文集[C];2007年
3 刘全升;姚天f ;黄高辉;刘军;宋鸿彦;;汉语意见型主观性文本类型体系的研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 叶蕴芳;杨榆;罗鑫;徐国爱;;Appfuse系统中细粒度权限控制的研究与实现[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
5 江伟玉;高能;刘泽艺;林雪燕;;一种云计算中的多重身份认证与授权方案[A];第27次全国计算机安全学术交流会论文集[C];2012年
6 郭磊;唐玉华;周杰;董亚卓;;基于FPGA的Cholesky分解细粒度并行结构与实现[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
7 李俊青;谢圣献;刘广亮;陈晨;;P2P网络基于蚁群优化的动态细粒度访问控制框架[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
8 房毅宪;王宝文;王永茂;;基于偏差递归神经网络的股价预测(英文)[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
9 刘勇;沈毅;胡恒章;;递归神经网络自适应滤波器[A];1998年中国智能自动化学术会议论文集(上册)[C];1998年
10 赵英凯;蔡宁;;基于对角递归神经网络的肟化投酮量在线预估[A];1998年中国智能自动化学术会议论文集(上册)[C];1998年
相关重要报纸文章 前10条
1 李承贵;学术视域中的文本[N];社会科学报;2001年
2 山东 王霞;巧将文本数值变数字[N];电子报;2006年
3 江苏 许向前;在课件中让文本滚动起来[N];电脑报;2004年
4 赵晓涛;巡展中的三大热门[N];网络世界;2007年
5 辽宁 鸣涧;为光盘制作漂亮的封套[N];电脑报;2002年
6 ;制作CD封套[N];电脑报;2002年
7 广东 Pcking;FlashMX 2004新功能实战[N];电脑报;2003年
8 王先明 李尹蒂;关于义和团各种记忆文本类型比较[N];团结报;2010年
9 乐天邋编译;编织一张更好的Web[N];计算机世界;2007年
10 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
相关博士学位论文 前10条
1 付兴兵;基于属性基加密的细粒度访问控制机制研究[D];电子科技大学;2016年
2 闫琰;基于深度学习的文本表示与分类方法研究[D];北京科技大学;2016年
3 刘健;基于近似文本分析的意见挖掘[D];上海大学;2007年
4 陈洁倩;阅读理解的文本类型和答题形式对外语水平的效力[D];上海外国语大学;2006年
5 时杰;关系数据库细粒度访问控制研究[D];华中科技大学;2010年
6 刘桂兰;论重译的世俗化取向[D];上海外国语大学;2011年
7 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
8 余a\;基于Simulink模型的细粒度多线程技术研究[D];浙江大学;2014年
9 赵永昌;一类时滞静态递归神经网络的动力学行为研究[D];中国海洋大学;2010年
10 高海宾;扰动作用下递归神经网络稳定性研究[D];燕山大学;2006年
相关硕士学位论文 前10条
1 左正;微博短文本细粒度情感分析[D];北京邮电大学;2016年
2 赵黎光;基于依存句法的句子级细粒度情感计算[D];华南理工大学;2015年
3 李星宇;一种细粒度Cloud-RAN框架与关键技术研究[D];电子科技大学;2014年
4 郦丽珍;基于Open vSwitch虚拟网络的细粒度访问控制[D];复旦大学;2013年
5 姚亮;数据访问控制中基于中间代理的用户撤销方法[D];西安电子科技大学;2014年
6 占文平;面向产品评论的情感分析技术研究[D];浙江工商大学;2015年
7 廖纯;基于句法和语义的话题细粒度情感分析的研究[D];北京理工大学;2016年
8 李毅;属性层级观点挖掘技术的研究与应用[D];石家庄铁道大学;2016年
9 周志华;聊天系统文本情感细粒度分类研究与应用[D];西南交通大学;2015年
10 康海蒙;基于细粒度监控的Spark优化研究[D];哈尔滨工业大学;2016年
,本文编号:1875200
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1875200.html