基于文本分类的微博情感倾向研究
本文选题:微博 切入点:情感倾向 出处:《重庆师范大学》2016年硕士论文
【摘要】:近年来,人们越来越依赖于社交软件来表达自己的观点,如使用微博、论坛、贴吧等渠道发表意见,表达情感。而人们对于热点事件和话题的各种各样的情感信息,则通过上述方式直观的反映了出来。因此,通过挖掘和研究大众对各类事件的情感倾向,可以达到对热点舆论的监控和大众看法的感知,为国家、企业等作出决策提供着重要依据。以往的信息检索及采集技术,多数是以关键词为基础,难以支持情感倾向的挖掘,信息提取和文本分类通常没有进行深层次的语义挖掘,因而对文本中所表达出的情感倾向无法进行深层次的挖掘。因此在大数据时代,有效地利用数据挖掘及文本挖掘的相关知识,挖掘微博热点信息以及评论中的情感倾向,将在商品智能推荐、政府舆情监控、文本自动分类等方面有广阔的发展前景。本论文的主要研究内容如下:(1)对情感倾向分析和文本分类的相关概念和技术做了分析,包括微博短文本情感倾向分类以及文本分类的国内外研究现状、文本分类常用的几种算法:支持向量机(SVM),最大熵、决策树、人工神经网络算法等,并重点分析了传统的k最近邻算法,研究算法的基本思路以及该算法在文本分类当中的应用。(2)基于传统的k最近邻算法,并结合一定的关联规则,本文提出了一种对于k最近邻算法的改进:基于主题--情感相关联的k最近邻算法,在文本分类时主题与情感相关联,进行特征值的组合,能够更好的确定k值,提高分类效率。(3)将改进后的基于主题--情感的k最近邻算法在微博热点信息数据集中加以应用,进行情感倾向正向、负向、中性三种分类实验,同时也利用传统的k最近邻算法进行对比实验。在实验前完成微博短文本预处理、特征频繁项集建立等工作。实验结果表明,较传统的k最近邻算法,本文改进的算法在查准率、查准率以及F1值等各项测评指标中都有所提高,降低了算法的时间复杂度,提高了情感分类的效率,有利于更加准确的挖掘微博热点信息中的情感倾向,在处理海量包含主题的中文热门微博时具有一定的可行性。
[Abstract]:In recent years, people have become increasingly dependent on social software to express their views, such as using Weibo, forums, posts and other channels to express their opinions and feelings. And people on hot events and topics of all kinds of emotional information, Thus, by digging and studying the emotional tendencies of the public on various events, we can achieve the monitoring of hot public opinion and the perception of public opinion, for the country, In the past, most of the information retrieval and collection techniques are based on keywords, so it is difficult to support the mining of emotional tendency, and the information extraction and text classification usually do not carry out deep semantic mining. Therefore, in big data's time, the relevant knowledge of data mining and text mining can be effectively used to mine the hot information and the emotional tendency in commentaries. There will be broad prospects in the fields of intelligent recommendation of commodities, monitoring of government public opinion, automatic text classification, etc. The main contents of this paper are as follows: 1) the related concepts and techniques of affective tendency analysis and text categorization are analyzed. Including the current research situation of Weibo short text text classification and text classification at home and abroad, and several commonly used text classification algorithms: support vector machine (SVM), maximum entropy, decision tree, artificial neural network algorithm, etc. The basic idea of the algorithm and its application in text categorization are studied. (2) based on the traditional k-nearest neighbor algorithm and some association rules. In this paper, an improved k-nearest neighbor algorithm is proposed, which is based on subject-affective association algorithm. When text is classified, the topic is associated with emotion, and the combination of feature values can better determine the value of k. To improve the classification efficiency. (3) the improved subject-based k-nearest neighbor algorithm is applied to Weibo hot spot information data set to carry out three classification experiments: positive, negative and neutral emotional tendency. At the same time, the traditional k-nearest neighbor algorithm is used to carry out comparative experiments. Before the experiment, Weibo short text preprocessing and feature frequent itemsets are completed. The experimental results show that the k-nearest neighbor algorithm is more efficient than the traditional k-nearest neighbor algorithm. In this paper, the improved algorithm improves the precision rate, precision rate and F1 value, which reduces the time complexity of the algorithm and improves the efficiency of emotion classification. It is helpful to excavate the emotion tendency of Weibo hot spot information more accurately, and has certain feasibility when dealing with the massive Chinese hot topic Weibo.
【学位授予单位】:重庆师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 吕国防;;注意新闻表述中的情感倾向[J];新闻实践;2011年06期
2 傅向华;刘国;郭岩岩;郭武彪;;中文博客多方面话题情感分析研究[J];中文信息学报;2013年01期
3 魏晶晶;吴晓吟;;电子商务产品评论多级情感分析的研究与实现[J];软件;2013年09期
4 于潇;万军;何翔;左尾欢;;校园微博情感分析系统的设计与实现[J];河北工业大学学报;2013年06期
5 封二英;庞灵;;基于弱监督迭代法的情感倾向分析[J];无线互联科技;2014年03期
6 庞磊;李寿山;张慧;周国栋;;基于微博的股票投资者未来情感倾向识别研究[J];计算机科学;2012年S1期
7 徐鹏;;基于直觉模糊推理的网页在线评论情感倾向分类[J];计算机应用与软件;2013年06期
8 杨伟杰;马博渊;刘雯;;基于意见目标句抽取的中文股评情感分析方法[J];计算机仿真;2014年03期
9 杨江;彭石玉;侯敏;;基于主题情感句的汉语评论文倾向性分析[J];计算机应用研究;2011年02期
10 张素智;樊得强;李宝燕;;基于网络评论语言学结构的情感倾向识别模型[J];郑州大学学报(理学版);2011年01期
相关会议论文 前4条
1 杨江;侯敏;王宁;;基于主题情感句的汉语评论文倾向性分析[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 林慧恩;林世平;;中文情感倾向分析中主观句子抽取方法的研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
3 王素格;杨安娜;;一种混合语言信息的词语搭配倾向判别方法[A];第五届全国信息检索学术会议论文集[C];2009年
4 宋晓雷;王素格;李红霞;;基于概率潜在语义分析的词汇情感倾向判别[A];第五届全国青年计算语言学研讨会论文集[C];2010年
相关重要报纸文章 前3条
1 唐楠;新闻应避免情感倾向[N];中国新闻出版报;2005年
2 鲁东;不尽乡情入画来[N];中国文化报;2001年
3 杨勇涛;让摄影唤起心灵的本真[N];中国摄影报;2005年
相关博士学位论文 前6条
1 房磊;融合知识的情感分析研究[D];清华大学;2015年
2 张奇;细颗粒度情感倾向分析若干关键问题研究[D];复旦大学;2008年
3 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
4 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
5 李思;WEB观点挖掘中关键问题的研究[D];北京邮电大学;2012年
6 李方涛;基于产品评论的情感分析研究[D];清华大学;2011年
相关硕士学位论文 前10条
1 王帅;情感分析的特征提取算法与观点的聚类算法研究[D];昆明理工大学;2015年
2 冯金刚;网络舆情中文信息情感倾向分析研究[D];华北电力大学;2015年
3 魏从源;网络信息的情感倾向分类技术研究[D];国防科学技术大学;2013年
4 周冬卫;中文微博评论的情感倾向分析[D];华东交通大学;2015年
5 吴斐;跨领域条件下词汇情感倾向判别方法研究[D];合肥工业大学;2015年
6 徐凯;基于产品特征的用户评论情感倾向分析研究[D];合肥工业大学;2015年
7 王格;网络评论的情感倾向分析[D];武汉工程大学;2015年
8 刘其;基于用户评论的群体情绪识别与演化研究[D];东华大学;2015年
9 张佳明;微博话题的公众情感分析技术研究[D];解放军信息工程大学;2015年
10 唐浩浩;面向事件的微博情感倾向性分析技术研究[D];解放军信息工程大学;2014年
,本文编号:1678321
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1678321.html