基于渐进直推式支持向量机的Twitter文本情感分析研究
本文选题:Twitter 切入点:情感分析 出处:《合肥工业大学》2015年硕士论文 论文类型:学位论文
【摘要】:近年来,随着互联网技术的迅猛发展和移动终端的进一步普及,社交网络(Social Network Service)己逐渐深入人们的日常生活。Twitter是一个典型的社交网络及微博客服务网站,其访问量位列全球互联网网站前十位。用户可随时随地更新自己的状态,同时可以关注其他用户的动态。每天数以亿计的推文记录了用户的所见、所闻、所为、所感,分享了他们的喜、怒、哀、乐。对表达于Tweets中的情感特征进行深度挖掘在市场营销、舆情监控、突发事件应急等方面都有重要作用。情感计算是近年来人工智能领域的研究热点。情感的主观性、隐藏性、判定标准不统一性等特点致使文本情感分析有别于传统的文本分析。而Tweets的短文本性、口语化、高噪声等特性使得Twitter'情感分析更具挑战性。针对Twitter的特点,研究了Twitter情感分析的若干关键问题,主要包括Tweets的文本预处理、特征分析、基于半监督的情感分析算法等。为降低Tweets中噪声对情感分析造成的影响,研究了一系列改良的Twitter文本预处理方法,重点对URLs、否定词、重复字母等信息进行预处理,并通过对比试验验证了预处理方法对Twitter情感分析的有效性。同时,分析了不同选择标准在特征选择方面的能力,重点对比了文档频率、信息增益和卡方统计量特征选择的效果。实验结果表明,预处理及特征选择操作在提高了情感分类准确率的同时有效降低了特征空间的维度。另外,为克服大量标注数据的难获取性,避免海量未标注数据的资源浪费,研究了一种基于渐进直推式支持向量机的半监督Twitter情感分析算法。通过引入扰动因子稳步优化了Twitter情感分析效果,并且可以自适应数据分布,自动控制学习进度和训练时间。
[Abstract]:In recent years, with the rapid development of Internet technology and the further popularization of mobile terminals, Social Network Service has gradually penetrated into people's daily life. Twitter is a typical social network and Weibo guest service website. Users can update their status anytime, anywhere, and follow the movements of other users. Hundreds of millions of tweets every day record what they see, hear, do and feel. Sharing their joy, anger, sadness, joy, deep mining of emotional features expressed in Tweets in marketing, public opinion monitoring, Emotional computing has become a research hotspot in the field of artificial intelligence in recent years. The disunity of the judging standard makes the text emotional analysis different from the traditional text analysis. However, the characteristics of Tweets, such as short text nature, colloquialization and high noise, make it more challenging. This paper studies some key problems of Twitter affective analysis, including Tweets text preprocessing, feature analysis, semi-supervised affective analysis algorithm and so on. This paper studies a series of improved Twitter text preprocessing methods, focusing on the preprocessing of URLs, negative words and repeated letters, and validates the validity of the preprocessing method for Twitter affective analysis through comparative experiments. The ability of different selection criteria in feature selection is analyzed, and the effects of document frequency, information gain and chi-square statistics feature selection are compared. The experimental results show that, Preprocessing and feature selection not only improve the accuracy of emotion classification, but also reduce the dimension of feature space effectively. A semi-supervised Twitter affective analysis algorithm based on progressive direct push support vector machine (SVM) is studied. By introducing disturbance factor, the effect of Twitter affective analysis can be optimized steadily, and the data distribution can be adaptively distributed, and the learning schedule and training time can be automatically controlled.
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 孔祥南;黎铭;姜远;周志华;;一种针对弱标记的直推式多标记分类方法[J];计算机研究与发展;2010年08期
2 ;火爆的身材 iRiver T7 Volcano[J];汽车生活;2008年07期
3 陈毅松,汪国平,董士海;基于支持向量机的渐进直推式分类学习算法[J];软件学报;2003年03期
4 彭新俊;王翼飞;;双模糊渐进直推式支持向量机算法[J];模式识别与人工智能;2009年04期
5 艾解清;高济;彭艳斌;郑志军;;基于直推式支持向量机的协商决策模型[J];浙江大学学报(工学版);2012年06期
6 张永铮;周勇林;杜飞;;网络异常性指数的一种直推式定量计算方法[J];通信学报;2013年08期
7 薛贞霞;刘三阳;刘万里;;基于可信度的渐进直推式支持向量机算法[J];厦门大学学报(自然科学版);2008年06期
8 廖东平;魏玺章;黎湘;庄钊文;;一种改进的渐进直推式支持向量机分类学习算法[J];信号处理;2008年02期
9 李云飞;;近邻渐进直推式支持向量机算法[J];计算机工程;2008年17期
10 吴薇;胡静涛;;基于代价敏感直推式学习的故障诊断方法[J];仪器仪表学报;2010年05期
相关会议论文 前2条
1 江典林;李巍华;;基于直推式支持向量机的机械故障诊断方法[A];2008年全国振动工程及应用学术会议暨第十一届全国设备故障诊断学术会议论文集[C];2008年
2 李巍华;刘雯;;基于主元分析和直推式支持向量机的齿轮早期故障诊断[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
相关硕士学位论文 前10条
1 鲍艳伟;基于渐进直推式支持向量机的Twitter文本情感分析研究[D];合肥工业大学;2015年
2 余力涛;直推式迁移分类算法与应用研究[D];大连理工大学;2012年
3 廖朝阳;基于直推式学习和迁移学习方法改进的支持向量机分类方法及应用研究[D];西安电子科技大学;2012年
4 胡孔兵;基于自学习的直推式迁移学习方法研究[D];合肥工业大学;2013年
5 汪旗;基于直推式多示例学习的图像分类算法研究[D];安徽大学;2013年
6 秦彦霞;直推式迁移学习及其应用研究[D];哈尔滨工业大学;2012年
7 方玉成;基于Logistic回归的直推式迁移学习方法研究[D];合肥工业大学;2010年
8 沈新宇;基于直推式支持向量机的图像分类算法研究与应用[D];北京交通大学;2008年
9 王利文;直推式支持向量机的研究学习[D];重庆大学;2014年
10 崔鹏;一种基于支持向量机的直推式WEB挖掘[D];大连海事大学;2006年
,本文编号:1614752
本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/1614752.html