基于句子结构的中文微博情绪分析系统
发布时间:2018-07-11 14:06
本文选题:中文微博 + 中文分词 ; 参考:《大连理工大学》2014年硕士论文
【摘要】:随着互联网的高速发展以及移动终端的普及,社交网络对人们生活的影响日益增强。随着微博这种便捷并且具有极强即时性的社交网络渐渐进入网民的生活。越来越多的人会选择在微博上分享、获取信息,交流情感与观点。由于微博还具有极强的原创性以及其贴近大众的特点。通过对微博这种短文本进行情绪分析,可以实现舆情监控等许多功能。 情绪分析的含义是在情感极性倾向分析的基础上进行更细粒度的情绪分类。本文所设计的系统主要将情绪分类为愤怒、厌恶、恐惧、高兴、喜好、悲伤和惊讶七种情绪分类。通过分析中文微博的自身特点,其与英文微博的区别以及与传统书面语的差异,设计了本系统。数据来源为新浪微博。通过调用新浪微博官方提供的API接口获取一定数量的微博,提取出其中的微博内容、地域来源、终端来源等基本信息。在将微博内容进行去冗余标点等预处理后,利用中科院提供的开源分词系统以及哈工大的句子结构划分系统得到分词结果以及句子结构划分结果。最后,利用句子结构以及微博的话题、情感词库以及否定和程度副词词库进行量化计算出微博中对于关键词的情感细粒度分类结果,进而通过对愤怒、厌恶、恐惧、高兴、喜好、悲伤和惊讶七种情绪的极性划分,得到微博的情感极性倾向分析结果存入MySQL数据库。 利用jsp和tomcat,将MySQL数据库中的分析结果,以折线图、柱状图和饼状图的方式展现出来。并且用户可以根据地域来源、终端来源以及时间等基本信息分别查看关键词情感极性倾向。对于注册用户,可以在成功登陆后查看关键词的情绪分析结果。
[Abstract]:With the rapid development of the Internet and the popularity of mobile terminals, the social network has a growing influence on people's life. With the convenient and extremely instant social network of micro-blog, the social network has gradually entered the life of Internet users. More and more people will choose to share on micro-blog, obtain information, exchange feelings and views. Because micro-blog is also It has strong originality and its close to the public characteristics. By analyzing the short text of micro-blog, we can achieve many functions such as public opinion monitoring and so on.
The meaning of emotional analysis is to carry out a more fine-grained emotion classification based on the analysis of emotional polarity. The system designed in this paper mainly classifications of emotion into seven kinds of emotional classifications: anger, disgust, fear, delight, preference, sadness and surprise. By analyzing the self characteristics of Chinese micro-blog, the difference between the Chinese and English micro-blog and the traditional book are analyzed. This system is designed. The data source is Sina micro-blog. A certain amount of micro-blog is obtained by calling the API interface provided by Sina micro-blog to extract basic information such as micro-blog content, geographical source, terminal source and so on. The word system and the sentence structure division system of Kazakhstan get the result of the word segmentation and the result of the sentence structure division. Finally, using the sentence structure and the topic of micro-blog, the emotional lexicon and the negative and degree adverb thesaurus to quantify the result of the fine grain classification of the key words in micro-blog, and then through the anger and disgust, The polarity of fear, joy, preference, sadness and surprise are divided into seven kinds of emotions. The result of micro-blog's polar polarity analysis is stored in MySQL database.
Using JSP and tomcat, the analysis results in the MySQL database are displayed in the way of line diagram, bar graph and pie chart. And users can view the keyword emotional polarity according to local sources, terminal sources and time and other basic information. For registered users, they can view the emotional points of key words after successful landing. Analysis the result.
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP391.1
【参考文献】
相关期刊论文 前9条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
3 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
4 魏椺;向阳;陈千;;中文文本情感分析综述[J];计算机应用;2011年12期
5 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
6 周胜臣;瞿文婷;石英子;施询之;孙韵辰;;中文微博情感分析研究综述[J];计算机应用与软件;2013年03期
7 赵妍妍;秦兵;刘挺;;文本情感分析[J];软件学报;2010年08期
8 张春霞,郝天永;汉语自动分词的研究现状与困难[J];系统仿真学报;2005年01期
9 朱明;郭春生;;隐马尔可夫模型及其最新应用与发展[J];计算机系统应用;2010年07期
,本文编号:2115448
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2115448.html