微博的舆情发现与分析研究
本文关键词: 微博 舆情 热点发现 情感分析 出处:《河北地质大学》2017年硕士论文 论文类型:学位论文
【摘要】:随着信息技术的高速发展,互联网得到了广泛普及,对社会产生了日益深远的影响。作为互联网时代的重要产物,微博成为了众多网民生活中不可或缺的一部分。微博是一个分享简短实时信息的广播式社交网络平台。在微博平台上,用户可以描述自己周围发生的事情,发表自己对某个事情的看法,甚至可以推广自己的产品。在满足人们网络社交需求的同时,微博也显现出了在网络舆论中的重要地位。面对每天数以亿计的博文,如何挖掘出微博舆情,并对微博舆情进行分析显得越来越重要。目前对于微博舆情的研究处于起步阶段,仍有许多值得研究的工作。本文的主要研究工作围绕以下三个方面展开。1.采集筛选微博数据及数据预处理。分别研究了基于微博API的数据采集方案,基于网络爬虫的微博数据采集方案。结合了两种微博数据采集方案对公共微博数据和用户微博数据分别进行了采集。从微博用户和微博内容两方面,对微博数据进行了筛选。并且对微博文本进行了分词处理、去停用词处理、特征选择处理,向量表示。2.提出了一种微博舆情发现算法。对现有的微博热点发现算法进行了分析,研究了各个热点发现算法的优点和不足,提出了HEA热点发现算法。针对单个文本聚类算法对微博文本聚类效果差的问题,提出了一种混合聚类算法HKSK。将HKSK算法与HEA算法相结合提出了HKSK-HEA的热点发现算法。实验证明该算法可以有效的发现微博热点。3.提出了一种微博情感分析算法。研究了目前常用的情感分析算法。对目前已有的情感词典进行了整理,构建了基础情感词典,并针对文本语义的特点构建了情感修正词典。考虑到微博文本的网络属性,构建了表情符号词典,并且研究了朴素贝叶斯分类器在情感分类中的应用。针对单一的情感分类算法泛化能力低的问题,设计了情感朴素贝叶斯分类器。实验证明情感朴素贝叶斯分类器可以提高微博情感分析算法的性能。
[Abstract]:With the rapid development of information technology, the Internet has been widely popularized, which has an increasingly far-reaching impact on society. As an important product of the Internet era, Weibo has become an integral part of the lives of many Internet users. Weibo is a broadcast social networking platform that shares short, real-time information. On Weibo, users can describe what's happening around them. Even if you express your opinion on something, you can even promote your product. While meeting people's social needs online, Weibo has also shown an important position in online public opinion. In the face of hundreds of millions of blog posts every day, How to dig out Weibo's public opinion and analyze it is becoming more and more important. At present, the research on Weibo's public opinion is in its infancy. There is still a lot of work worth studying. The main research work in this paper is focused on the following three aspects. 1. Collect and screen Weibo data and data preprocessing. Weibo data acquisition scheme based on network crawler. Combined with two data collection schemes of Weibo, the data of public Weibo and user Weibo were collected separately. From the two aspects of the content of Weibo users and Weibo users, The Weibo data was screened. Then, the participle processing, the deactivation word processing, the feature selection processing, the vector representation. 2. A public opinion discovery algorithm was put forward. This paper studies the advantages and disadvantages of each hot spot discovery algorithm, and puts forward the HEA hot spot discovery algorithm, aiming at the problem that the single text clustering algorithm has poor effect on Weibo text clustering. A hybrid clustering algorithm, HKSK, is proposed. Combining HKSK algorithm with HEA algorithm, a hot spot discovery algorithm for HKSK-HEA is proposed. Experiments show that the algorithm can effectively find Weibo hot spot. In this paper, the commonly used affective analysis algorithms are put forward, and the existing emotion dictionaries are sorted out. The basic emotion dictionary is constructed, and the emotion correction dictionary is constructed according to the semantic characteristics of the text. Considering the network attribute of Weibo's text, the emoji dictionary is constructed. And the application of naive Bayesian classifier in emotion classification is studied. An emotional naive Bayesian classifier is designed, and it is proved by experiments that the performance of Weibo's emotion analysis algorithm can be improved by using this classifier.
【学位授予单位】:河北地质大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【参考文献】
相关期刊论文 前10条
1 张钰莎;;微博热点事件发现与研究[J];信息通信;2017年01期
2 邹学强;包秀国;黄晓军;马宏远;袁庆升;;基于层次分析的微博短文本特征计算方法[J];通信学报;2016年12期
3 周咏梅;王伟;阳爱民;林江豪;方泽锋;;一种基于特征簇的微博短文本情感分类方法[J];小型微型计算机系统;2016年12期
4 马慧芳;吉余岗;李晓红;周汝南;;基于离散粒子群优化的微博热点话题发现算法[J];计算机工程;2016年03期
5 叶成绪;杨萍;刘少鹏;;基于主题词的微博热点话题发现[J];计算机应用与软件;2016年02期
6 马力;刘笑;宫玉龙;;基于语义的微博短文本倾向性分析研究[J];计算机应用研究;2016年10期
7 苏小英;孟环建;;基于神经网络的微博情感分析[J];计算机技术与发展;2015年12期
8 李鹏;于岩;李英乐;李星;何赞园;;基于权重微博链的改进LDA微博主题模型[J];计算机应用研究;2016年07期
9 张昊;刘功申;苏波;;一种微博用户影响力的计算方法[J];计算机应用与软件;2015年03期
10 孙曰昕;马慧芳;姚伟;张志昌;;结合互信息和主题模型的微博话题发现方法[J];计算机工程与应用;2016年06期
相关博士学位论文 前2条
1 丁兆云;面向微博舆情的影响力分析关键技术研究[D];国防科学技术大学;2013年
2 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
相关硕士学位论文 前4条
1 陈险峰;微博舆情分析系统的设计与实现[D];华南理工大学;2015年
2 马治涛;文本分类停用词处理和特征选择技术研究[D];西安电子科技大学;2014年
3 郑毅;基于情感词典的中文微博情感分析研究[D];中山大学;2014年
4 佘伟成;基于微博的热点发现与情感倾向分析[D];云南大学;2013年
,本文编号:1496998
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1496998.html