基于半监督学习的微博情感分析方法研究
本文选题:微博 + 情感分析 ; 参考:《山东财经大学》2014年硕士论文
【摘要】:微博的快速发展使其平台积累了大量的文本,其中蕴含着大量的有价值的信息,包括商业信息、社交网络和用户观点与情感等。微博的短文本特征使其文本分析具有一定挑战性,并且中文文本固有的特征使得文本分析性能下降。针对上述特征,本文应用半监督学习对微博文本进行情感分类:结合语言资源和标注集合对文本情感分类器进行训练和优化。情感分类包括两个任务:识别情感的极性,如正性、负性;识别情感类别:如高兴、愤怒。本文主要工作如下: 1)微博信息抽取。应用微博运营商提供的API,对微博信息进行采集,以热门话题和认证用户为入口,采集话题相关的微博和用户微博及其评论文本。 2)半监督学习。结合已有的标注集,运用主动学习标注微博文本的情感极性和类别,以减少标注成本。应用标注数据集于监督学习中,包括最大熵、神经网络和支持向量机模型,对不同监督学习模型进行优化,分析其误差和学习曲线。 3)特征抽取。使用已有语言资源和开源软件,如情感词汇本体和同义词词林进行特征抽取,基本特征包括文本所固有的词项、词性和词林编码等。此外,鉴于文本特征空间维度较大,采用PCA对特征空间进行降维。在模型优化过程中,,对比了不同特征空间组合和模型的准确度。 部分的特征抽取过程,如自然语言处理、以及微博信息处理运行在分布式计算框架上,以提高算法的运行效率。情感极性分析的准确率达到0.7,具有一定的应用价值。而多类别情感分析准确度相对较低,为0.34:由于标注语料不充分和文本情感表达的复杂性,频率较高的类别,如喜欢、厌恶,分类效果较好,而惊奇、恐惧等分类效果不佳。 情感分析结果可作用于舆情监测、市场调研和社会计算等方面,具有一定的商业价值。在其分析的基础上,可结合在线网络的结构和时序进行信息传播和受众分析,获得用户的行为模式和规律。结合用户特征,可进一步获得用户在发布信息等行为时的真实情感与心理状态,称之为情感计算,也是情感分析的最终目的。
[Abstract]:The rapid development of Weibo makes its platform accumulate a lot of text, which contains a lot of valuable information, including business information, social networks and user views and feelings. The text analysis of Weibo is challenging due to its short text feature, and the performance of text analysis is degraded by the inherent features of Chinese text. In view of the above characteristics, this paper applies semi-supervised learning to Weibo text affective classification, and combines language resources and tagging sets to train and optimize the text affective classifier. Emotion classification includes two tasks: recognizing the polarity of emotion, such as positivity and negativity, and identifying emotional categories such as happiness and anger. The main work of this paper is as follows: 1) Weibo information extraction. Using API provided by Weibo operator, the information of Weibo is collected, which takes hot topics and authenticated users as the entry, and collects the Weibo and user Weibo and their comment texts related to the topic. 2) Semi-supervised learning. In order to reduce the annotation cost, we use active learning to annotate the emotional polarity and category of Weibo text. The annotated data set is applied to supervised learning, including maximum entropy, neural network and support vector machine model. Different supervised learning models are optimized and their errors and learning curves are analyzed. 3) feature extraction. Using existing language resources and open source software, such as affective lexical ontology and synonym forest, feature extraction is carried out. The basic features include words inherent in the text, part of speech and lexical forest coding, and so on. In addition, in view of the large dimension of text feature space, PCA is used to reduce the dimension of feature space. In the process of model optimization, the combination of different feature spaces and the accuracy of the model are compared. Some of the feature extraction processes such as natural language processing and Weibo information processing run on the distributed computing framework to improve the efficiency of the algorithm. The accuracy of affective polarity analysis is 0.7, which has certain application value. However, the accuracy of multi-category affective analysis is relatively low (0.34): because of the insufficient tagging data and the complexity of the emotional expression of the text, the categories with higher frequency, such as like, disgust, classification effect are better, but surprise, fear and other classification effects are not good. The result of emotion analysis can be used in public opinion monitoring, market research and social calculation, and has certain commercial value. On the basis of its analysis, the structure and timing of online network can be combined with information dissemination and audience analysis, and the behavior patterns and rules of users can be obtained. Combining the characteristics of users, we can further obtain the real emotional and psychological state of users when they publish information, which is called emotional calculation, and is also the ultimate purpose of emotional analysis.
【学位授予单位】:山东财经大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP391.1
【相似文献】
相关期刊论文 前10条
1 李永忠;王汝山;张念贵;王玉雷;;基于半监督模糊聚类的入侵检测技术[J];江苏科技大学学报(自然科学版);2010年04期
2 傅向华,冯博琴,马兆丰,何明;可在线增量自学习的聚焦爬行方法[J];西安交通大学学报;2004年06期
3 丁磊,钱云涛;不同程度的监督机制在自动文本分类中的应用[J];计算机应用与软件;2004年06期
4 张晨光;李玉擰;;基于半监督学习的眉毛图像分割方法[J];计算机工程与应用;2009年21期
5 刘叶青;刘三阳;谷明涛;;一种多项式光滑的半监督支持向量机分类算法[J];计算机科学;2009年07期
6 杨绪兵;潘志松;陈松灿;;半监督型广义特征值最接近支持向量机[J];模式识别与人工智能;2009年03期
7 鲁珂,赵继东,叶娅兰,曾家智;一种用于图像检索的新型半监督学习算法[J];电子科技大学学报;2005年05期
8 罗进;周学君;;半监督学习中非标记数据的利用[J];湖北大学学报(自然科学版);2008年01期
9 曹慧;刘玉峰;;未标记样本在半监督学习中的应用方法研究[J];广西轻工业;2008年12期
10 王汝山;李永忠;张念贵;王玉雷;;半监督学习在入侵检测系统中的应用[J];广西师范大学学报(自然科学版);2009年03期
相关会议论文 前10条
1 谷方明;刘大有;王新颖;;基于半监督学习的加权支持向量域数据描述方法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
2 杨源;马云龙;林鸿飞;;基于权重标准化SimRank与半监督学习的产品属性归类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 朱松豪;梁志伟;;用半监督学习方法实现图像检索[A];第二十九届中国控制会议论文集[C];2010年
4 邱慧宁;黄剑;陈羽;赖剑煌;;基于UDP的半监督学习及其在人脸识别的应用[A];第十四届全国图象图形学学术会议论文集[C];2008年
5 毕锦烟;李巍华;;基于半监督模糊核聚类的齿轮箱早期故障检测方法[A];第九届全国振动理论及应用学术会议论文摘要集[C];2007年
6 柳斌;李之棠;涂浩;;一种基于半监督学习的应用层流量分类方法[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
7 张召;业宁;业巧林;;基于配对约束的核半监督非线性降维算法[A];第五届全国信息检索学术会议论文集[C];2009年
8 王倩影;冯国灿;汤鑫;;δ-距离及其在半监督增强中的应用[A];第十五届全国图象图形学学术会议论文集[C];2010年
9 冯瑞;宋春林;;一种基于局部学习的复杂系统建模方法[A];2007中国控制与决策学术年会论文集[C];2007年
10 何慧;陈博;郭军;;基于流形学习的半监督文本情感分类算法[A];第五届全国信息检索学术会议论文集[C];2009年
相关博士学位论文 前10条
1 孔怡青;半监督学习及其应用研究[D];江南大学;2009年
2 王娇;多视图的半监督学习研究[D];北京交通大学;2010年
3 兰远东;基于图的半监督学习理论、算法及应用研究[D];华南理工大学;2012年
4 徐雪;样本的几何信息在半监督学习中的应用研究[D];中国科学技术大学;2010年
5 朱岩;面向文本数据的半监督学习研究[D];北京交通大学;2012年
6 桂杰;基于图的半监督学习和维数约简方法及其应用研究[D];中国科学技术大学;2010年
7 潘俊;基于图的半监督学习及其应用研究[D];浙江大学;2011年
8 余国先;高维数据上的半监督学习研究[D];华南理工大学;2013年
9 赵志凯;半监督学习及其在煤矿瓦斯安全信息处理中的应用研究[D];中国矿业大学;2012年
10 任广波;基于半监督学习的遥感影像分类技术研究[D];中国海洋大学;2010年
相关硕士学位论文 前10条
1 陈新勇;基于核策略的半监督学习方法研究[D];河北大学;2010年
2 黄明明;半监督学习方法研究及在警用平台中的应用[D];大连理工大学;2010年
3 冯元佶;基于图的半监督学习的改进研究[D];湘潭大学;2010年
4 余养强;半监督学习若干问题的研究[D];福建师范大学;2010年
5 刘伟涛;半监督学习方法及应用研究[D];山东大学;2011年
6 杨伟;半监督学习方法研究[D];国防科学技术大学;2011年
7 魏征丽;基于图半监督学习算法的研究及应用[D];西安电子科技大学;2012年
8 刘孝良;基于半监督学习的随机森林算法研究与应用[D];中国海洋大学;2013年
9 惠成峰;基于半监督学习的电子商务推荐方法[D];南京大学;2013年
10 王竞燕;基于半监督学习的桥梁结构健康分类模型的研究与应用[D];北京工商大学;2012年
本文编号:1933829
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1933829.html