面向中文微博文本的情感极性判别方法研究
本文选题:微博 + 情感分析 ; 参考:《中国民航大学》2017年硕士论文
【摘要】:微博是一个分享实时短信息的社交媒体,为网民提供了一个沟通思想,交流看法的平台。用户既可以作为一个观众来浏览感兴趣的话题信息,也可以作为一个内容发布者提供内容供其他人浏览。这种新的社交形式已经被大众广泛接受,在近十年中取得了用户数量和信息量的爆发式增长。微博文本涉及到的话题广泛,为情感分析研究提供了丰富的语料素材。情感极性判别是情感分析的一种具体任务,通过对带有情感色彩的文本进行处理、分析,从而判断它的情感是属于积极的还是消极的。对微博进行情感极性判别的目的在于识别出微博中的主观信息,从而挖掘出用户对热点话题、新闻事件和产品服务等评价对象的观点和态度,从而实现舆情监控、市场营销等目的。本文选取包含民航舆情关键词的微博进行情感极性判别研究,分别给出了基于情感词和语义规则、基于Adaboost和分类器加权投票的两种方法。第一种方法结合现有情感词典和语义相似度计算来提取情感词,避免了情感词典中词语不全而导致情感词遗漏的情况,然后利用句内规则和句间规则计算出微博文本情感得分,与微博表情符号得分做加权求和,得到最终情感极性分值,从而判断微博的情感极性。第二种方法基于机器学习判别情感极性,利用Adaboost集成学习对效果较差的单一分类器进行提升后,将三种分类器进行加权投票组合,得到最终分类器对测试微博文本进行分类。本文所使用的微博语料是利用微博爬虫抓取的,对其情感极性进行人工标注后用于实验,实验结果表明:两种方法在情感极性分类的准确度上均取得了较好的效果,第一种方法不依赖于领域知识,对微博内容的普适性较强;第二种方法使弱分类器的性能得到提高,结合了不同分类器的优势,克服了单一分类器的缺陷。
[Abstract]:Weibo is a social media that shares real-time short messages and provides a platform for Internet users to communicate ideas and ideas. Users can view topics of interest either as an audience member or as a content publisher for others to browse. This new form of social networking has been widely accepted, in the past decade has achieved explosive growth in the number of users and information. Weibo texts cover a wide range of topics and provide rich corpus material for affective analysis. Emotion polarity discrimination is a kind of concrete task of emotion analysis. By processing and analyzing the text with emotion color, we can judge whether its emotion is positive or negative. The purpose of judging the emotional polarity of Weibo is to identify the subjective information in the Weibo, so as to excavate the opinions and attitudes of the users on the hot topics, news events and products and services, so as to realize the monitoring of public opinion. Marketing, etc. In this paper, we select the Weibo which contains the key words of civil aviation public opinion to study the emotional polarity, and give two methods based on emotional words and semantic rules, Adaboost and classifier weighted voting. The first method combines the existing emotion dictionary and semantic similarity calculation to extract the emotion words, which avoids the omission of the words in the emotion dictionary, and then calculates the emotional score of the Weibo text by using intra-sentence rules and inter-sentence rules. The final emotional polarity score was obtained by weighted summation with the Weibo emoji score, and then the emotional polarity of Weibo was judged. The second method is based on machine learning to distinguish emotional polarity. After using Adaboost ensemble learning to improve a single classifier with poor effect, the three classifiers are weighted to vote together, and the final classifier is obtained to classify the test Weibo text. The Weibo corpus used in this paper is captured by Weibo crawler, and the affective polarity is labeled manually for experiment. The experimental results show that the two methods have achieved good results in the classification accuracy of affective polarity. The first method does not rely on domain knowledge and has a strong universality for Weibo content. The second method improves the performance of weak classifier and combines the advantages of different classifiers to overcome the shortcomings of single classifier.
【学位授予单位】:中国民航大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP393.092
【相似文献】
相关期刊论文 前10条
1 郭红玲;程显毅;;多分类器选择集成方法[J];计算机工程与应用;2009年13期
2 吕岳,施鹏飞,赵宇明;多分类器组合的投票表决规则[J];上海交通大学学报;2000年05期
3 韩宏;杨静宇;;多分类器组合及其应用[J];计算机科学;2000年01期
4 陈刚,戚飞虎;多分类器结合的人脸识别[J];上海交通大学学报;2001年02期
5 韩宏,杨静宇,娄震;基于层次的分类器组合[J];南京理工大学学报(自然科学版);2002年01期
6 赵谊虹,程国华,史习智;多分类器融合中一种新的加权算法[J];上海交通大学学报;2002年06期
7 王正群,叶晖,孙兴华,杨静宇;模糊多分类器组合[J];小型微型计算机系统;2003年01期
8 杨利英,覃征,王向华;多分类器融合实现机型识别[J];计算机工程与应用;2004年15期
9 杨利英,覃征,王卫红;多分类器融合系统设计与应用[J];计算机工程;2005年05期
10 陈湘;;1-范数软间隔分类器的风险[J];湖北大学学报(自然科学版);2006年02期
相关会议论文 前10条
1 王占一;徐蔚然;刘东鑫;郭军;;一种基于两级分类器的垃圾短信过滤方法[A];第五届全国信息检索学术会议论文集[C];2009年
2 翟静;李海宏;唐常杰;陈敏敏;李智;;可验证对象集分类器的再训练演进[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 陈继航;刘家锋;赵巍;唐降龙;;联机手写识别笔段特征分类器的学习方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
4 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
5 彭涛;左万利;赫枫龄;;基于链接上下文的分类器主题爬行技术(英文)[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
6 王岚;陈珂;迟惠生;;基于多特征组合多分类器的方法用于“与文本无关”的说话人辨认[A];第四届全国人机语音通讯学术会议论文集[C];1996年
7 谢秋玲;;应用于心电图分类的KNN-SVM分类器研究[A];2006中国控制与决策学术年会论文集[C];2006年
8 胡琼;汪荣贵;胡韦伟;孙见青;;基于级联分类器的快速人脸检测方法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
9 李兰春;王双成;杜瑞杰;;认知结构评估的动态贝叶斯网络分类器方法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年
10 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
相关重要报纸文章 前1条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
相关博士学位论文 前10条
1 张非;对抗逃避攻击的防守策略研究[D];华南理工大学;2015年
2 张文博;多类别智能分类器方法研究[D];西安电子科技大学;2014年
3 许劲松;智能交通中目标检测与分类关键技术研究[D];南京理工大学;2014年
4 赵作林;基于图像分析的北京地区杨树种类识别研究[D];北京林业大学;2015年
5 任亚峰;基于标注和未标注数椐的虚假评论识别研究[D];武汉大学;2015年
6 曹鹏;不均衡数据分类方法的研究[D];东北大学;2014年
7 刘明;分类器组合技术研究及其在人机交互系统中的应用[D];北京交通大学;2008年
8 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
9 王U,
本文编号:1963207
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1963207.html