基于云计算的微博舆情监控系统研究
发布时间:2017-08-30 10:43
本文关键词:基于云计算的微博舆情监控系统研究
更多相关文章: 微博 Hadoop平台 新词发现 话题发现 舆情监控
【摘要】:目前,社会中的很多热点话题往往都是从微博开始传播,如何从微博中发现热点话题并对热点话题做舆情分析,是非常有现实意义的工作。本文针对微博舆情的特点,研究了微博舆情监控系统的实现方法。介绍Hadoop平台处理大数据的优势和原理,实现了数据采集、文本模型表示、话题发现以及舆情分析的功能。本文的主要工作和研究内容如下:第一,本文在数据采集模块采用新浪微博API和网络爬虫技术相结合实现微博数据采集。基于微博热搜词检索实现相关微博的定位,能够在短时间内获取大量领域相关的微博数据。第二,在热点话题发现方法的改进上,采用了基于新词发现的微博文本主题发现方法,将其分为三个步骤:中文分词、LDA主题建模、主题聚类。在中文分词环节,加入了新词发现模块,提高了分词准确率。在建立文本模型时,采用LDA主题模型,提高了话题发现的准确率。第三,为了提高LDA建模的准确度,在构建文本模型前加入文本分类模块,解决了原有的话题发现方法在应用于微博文本时精度不高以及将同一关键字下的不同话题混淆的问题。本文基于实际的新浪微博数据实现热点话题发现、话题传播路径、内容倾向性分析、社会网络分析功能进行测试、分析。最后本文针对系统的缺陷,对未来的工作做展望。
【关键词】:微博 Hadoop平台 新词发现 话题发现 舆情监控
【学位授予单位】:西南科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;TP393.092
【目录】:
- 摘要4-5
- Abstract5-8
- 1 绪论8-14
- 1.1 课题背景研究8-9
- 1.2 国内外研究现状9-11
- 1.2.1 国外话题发现研究现状10-11
- 1.2.2 国内话题发现研究现状11
- 1.3 课题主要内容11-12
- 1.4 课题来源12-13
- 1.5 论文章节安排13-14
- 2 相关技术介绍14-26
- 2.1 云计算技术14-19
- 2.1.1 云计算的服务模式14-15
- 2.1.2 典型的云计算平台15
- 2.1.3 Apache Hadoop15-19
- 2.2 舆情监控主要流程19-24
- 2.2.1 文本模型建立20-21
- 2.2.2 文本相似度计算21-22
- 2.2.3 微博舆情监控分析22-24
- 2.3 本章小结24-26
- 3 基于微博短文本话题发现算法26-38
- 3.1 微博文本分类27-29
- 3.2 中文分词29-31
- 3.2.1 数据预处理30
- 3.2.2 新词发现30-31
- 3.3 改进的LDA模型31-35
- 3.3.1 微博文本的LDA建模32-34
- 3.3.2 选取LDA超越参数34-35
- 3.4 热点话题发现流程35-37
- 3.4.1 LDA主题模型算法流程35-36
- 3.4.2 基于LDA的主题聚类36-37
- 3.5 本章小结37-38
- 4 微博舆情监控系统的设计38-51
- 4.1 数据采集模块38-41
- 4.1.1 基于新浪API的数据采集39
- 4.1.2 基于网络爬虫的数据采集39-41
- 4.2 数据处理模块41-42
- 4.2.1 去除无用符号41-42
- 4.2.2 分词处理42
- 4.2.3 去除停用词42
- 4.2.4 文本模型42
- 4.3 话题发现模块42-48
- 4.3.1 K-means++ 算法实现43-47
- 4.3.2 热点话题发现47-48
- 4.4 舆情分析模块48-50
- 4.4.1 热点话题传播路径48-49
- 4.4.2 热点话题倾向性分析49-50
- 4.4.3 热点话题社会网络分析50
- 4.5 本章小结50-51
- 5 实验结果分析51-61
- 5.1 系统部署51-53
- 5.1.1 集群系统结构51
- 5.1.2 环境配置51-53
- 5.2 微博数据采集53
- 5.3 话题发现实验结果与分析53-60
- 5.3.1 建立分类模型53-54
- 5.3.2 中文分词54-55
- 5.3.3 热点话题发现55-56
- 5.3.4 舆情分析结果展示56-60
- 5.4 本章小结60-61
- 结论61-62
- 致谢62-63
- 参考文献63-68
- 攻读学位期间发表的相关学术论文及研究成果68
本文编号:758858
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/758858.html