基于新浪微博的网络舆情分析系统设计与实现
发布时间:2023-08-25 18:37
随着互联网的快速普及,像微博、论坛、微信公众号、新闻网等已经成为网络舆情发生、发展与演化的重要传播平台。所以,在社交网络高速发展的今天,如何做好相关网络舆情发展趋势的分析,已经从传统的方式过渡到了新兴的网络社交平台。网络舆情分析,一方面可以全面地、系统地反映部分网民的观点与想法,体现社会舆论导向,有助于决策者快速识别突发事件,并对突发事件做出相应的处理与应对准备;另一方面,当出现与社会主义价值观不相符的舆论风向时,可以做出“微调”,使社会稳定团结。针对现有网络舆情分析系统存在的分析方法单一、数据采集困难等问题,本文采用Scrapy分布式的数据爬取、数据预处理、分词、关键特征提取、热点识别、关键词追踪、智能监控、基于短文本的情感分析等方法,研发了一套多功能的网络舆情分析系统,它面向的主要平台为普及率最广的新浪微博。本文所做的工作主要包括以下几个方面:(1)数据采集模块。通过对不同数据爬取技术的对比试验分析,本系统选取了分布式爬虫技术。针对全国34个省(区)的新浪微博用户数据,设计并实现了从总体的框架、到整个分布式系统的调优以及增量的数据存储等分布式爬取数据采集模块。与其他数据爬取技术相比...
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题背景及研究目的和意义
1.2 国内外研究现状
1.2.1 国外网络舆情分析研究现状
1.2.2 国内网络舆情分析研究现状
1.3 本文的主要工作
1.4 论文组织结构
第2章 相关理论与技术
2.1 网络爬虫
2.1.1 Scrapy数据采集框架
2.1.2 Xpath与 BeautifulSoup
2.1.3 Selenium与 WebDriver
2.1.4 MongoDB数据库
2.2 文本情感分析
2.2.1 基于SVM的短文本情感分析模型
2.2.2 基于BILSTM的短文本情感分析模型
2.3 热点词汇与事件挖掘
2.3.1 LDA主题模型
2.3.2 层次聚类
2.3.3 数据相似度量
2.4 本章小结
第3章 数据采集与预处理
3.1 数据采集模块
3.1.1 爬取的主要内容
3.1.2 爬取数据流程
3.2 数据预处理模块
3.2.1 处理“脏数据”
3.2.2 分词、去停用词、新词的处理
3.3 数据采集与预处理的实现
3.3.1 实验平台与工具
3.3.2 采集的原始数据展示
3.3.3 数据预处理展示
3.4 本章小结
第4章 情感分析算法的对比分析与实现
4.1 文本特征向量化
4.1.1 Word2Vec模型
4.1.2 Doc2Num模型
4.2 总体流程设计
4.2.1 实验平台与工具
4.2.2 数据集
4.2.3 评价指标
4.2.4 实验结果及分析
4.3 情感分类模块的实现
4.3.1 数据的准备
4.3.2 数据库表设计
4.3.3 数据的分类与情感对比分析
4.4 本章小结
第5章 热点话题挖掘与智能监控的分析与实现
5.1 热点话题的挖掘
5.1.1 敏感词的发现
5.1.2 热点话题聚类
5.1.3 话题热度和摘要
5.2 微博的智能监控
5.2.1 智能监控算法流程
5.3 热点话题挖掘与智能监控的实现
5.3.1 实验平台与工具
5.3.2 数据集
5.3.3 关键词展示
5.3.4 热点话题分析结果
5.3.5 智能监控分析结果
5.4 本章小结
第6章 系统的总体实现与测试
6.1 系统开发环境
6.2 系统逻辑架构
6.3 系统整体架构
6.4 系统特点
6.5 系统各模块展示
6.5.1 登录注册模块
6.5.2 舆情总览
6.5.3 舆情分析及走势
6.5.4 舆情形象指数
6.5.5 词云
6.5.6 热点事件与微博监控
6.5.7 关键词追踪
6.5.8 事件统计
6.5.9 全部微博
6.6 系统测试
6.6.1 单元测试
6.6.2 集成测试
6.6.3 系统整体测试
6.6.4 性能测试
6.7 本章小结
第7章 总结与展望
7.1 本文总结
7.2 未来展望
参考文献
致谢
本文编号:3843103
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题背景及研究目的和意义
1.2 国内外研究现状
1.2.1 国外网络舆情分析研究现状
1.2.2 国内网络舆情分析研究现状
1.3 本文的主要工作
1.4 论文组织结构
第2章 相关理论与技术
2.1 网络爬虫
2.1.1 Scrapy数据采集框架
2.1.2 Xpath与 BeautifulSoup
2.1.3 Selenium与 WebDriver
2.1.4 MongoDB数据库
2.2 文本情感分析
2.2.1 基于SVM的短文本情感分析模型
2.2.2 基于BILSTM的短文本情感分析模型
2.3 热点词汇与事件挖掘
2.3.1 LDA主题模型
2.3.2 层次聚类
2.3.3 数据相似度量
2.4 本章小结
第3章 数据采集与预处理
3.1 数据采集模块
3.1.1 爬取的主要内容
3.1.2 爬取数据流程
3.2 数据预处理模块
3.2.1 处理“脏数据”
3.2.2 分词、去停用词、新词的处理
3.3 数据采集与预处理的实现
3.3.1 实验平台与工具
3.3.2 采集的原始数据展示
3.3.3 数据预处理展示
3.4 本章小结
第4章 情感分析算法的对比分析与实现
4.1 文本特征向量化
4.1.1 Word2Vec模型
4.1.2 Doc2Num模型
4.2 总体流程设计
4.2.1 实验平台与工具
4.2.2 数据集
4.2.3 评价指标
4.2.4 实验结果及分析
4.3 情感分类模块的实现
4.3.1 数据的准备
4.3.2 数据库表设计
4.3.3 数据的分类与情感对比分析
4.4 本章小结
第5章 热点话题挖掘与智能监控的分析与实现
5.1 热点话题的挖掘
5.1.1 敏感词的发现
5.1.2 热点话题聚类
5.1.3 话题热度和摘要
5.2 微博的智能监控
5.2.1 智能监控算法流程
5.3 热点话题挖掘与智能监控的实现
5.3.1 实验平台与工具
5.3.2 数据集
5.3.3 关键词展示
5.3.4 热点话题分析结果
5.3.5 智能监控分析结果
5.4 本章小结
第6章 系统的总体实现与测试
6.1 系统开发环境
6.2 系统逻辑架构
6.3 系统整体架构
6.4 系统特点
6.5 系统各模块展示
6.5.1 登录注册模块
6.5.2 舆情总览
6.5.3 舆情分析及走势
6.5.4 舆情形象指数
6.5.5 词云
6.5.6 热点事件与微博监控
6.5.7 关键词追踪
6.5.8 事件统计
6.5.9 全部微博
6.6 系统测试
6.6.1 单元测试
6.6.2 集成测试
6.6.3 系统整体测试
6.6.4 性能测试
6.7 本章小结
第7章 总结与展望
7.1 本文总结
7.2 未来展望
参考文献
致谢
本文编号:3843103
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3843103.html
最近更新
教材专著