基于分布式爬虫的游戏舆情监测系统设计与实现
发布时间:2022-08-11 09:34
随着游戏市场的崛起,游戏相关从业人员亟需了解玩家对游戏的实际体验,以便有针对性地指导游戏运营与开发。与此同时,在舆情信息监测的实际业务中,也存在着手动收集评论信息范围过窄、信息处理效率过低以及分析结果过为主观等问题。因此,为了满足业务需求,本文设计并实现了一个基于分布式爬虫的游戏舆情监测系统。该舆情监测系统将高效分布式爬虫与舆情分析系统结合,可以实时高效地进行游戏评论数据获取和分析并通过可视化图表直观地进行展示。文本主要工作如下:1.分布式游戏主题增量爬虫。为解决游戏评价数量大、更新快、分布散的问题,本文设计了一个基于Master-Slave架构的分布式网络增量数据获取系统,以实时、高效地收集信息,同时设计了一个进行信息抽取的通用论坛信息抽取算法。此外,利用redis实现了一个高效的分布式Bloom Filter,极大提升了分布式环境下URL去重的效率。2.游戏评论数据分析。本文设计了包含网络新词发现、游戏热点追踪和游戏情感分析的游戏评论数据分析系统。针对游戏评论数据中新词、专有名词多的问题,使用左右熵和互信息结合游戏知识库实现了Tire树加速的游戏专有新词发现算法;针对从业人员自动探...
【文章页数】:88 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 项目背景
1.2 项目目的与意义
1.3 国内外发展与研究现状
1.3.1 分布式爬虫
1.3.2 情感倾向分析
1.3.3 舆情监测系统
1.4 论文主要工作
1.5 论文组织结构
第二章 相关技术
2.1 分布式网络爬虫
2.1.1 爬虫基本知识
2.1.2 Bloom Filter
2.1.3 Master-Slave分布式架构
2.1.4 信息抽取策略
2.2 文本数据处理
2.2.1 中文分词技术
2.2.2 CBOW与 Skip-Gram模型
2.2.3 LSTM模型
2.3 系统实现相关框架结构
2.3.1 Flask框架
2.3.2 Angular JS
2.3.3 Chart.js图表库
2.4 本章小结
第三章 游戏舆情监测系统总体架构
3.1 游戏舆情监测系统整体结构
3.1.1 游戏舆情监测系统整体层次结构设计
3.1.2 游戏舆情监测系统整体模块设计
3.2 游戏舆情监测系统详细功能设计
3.2.1 系统后台监控
3.2.2 自动处理任务
3.2.3 数据可视化前端
3.3 网络拓扑设计
3.4 数据库设计
3.5 本章小结
第四章 分布式增量爬虫子系统
4.1 论坛信息抽取模块
4.1.1 CPEA论坛信息通用抽取算法
4.1.2 其他关键信息提取
4.1.3 手动抽取标准接口设计
4.2 基于Redis的 Bloom Filter
4.2.1 基于Redis的 Bloom Filter设计原理
4.2.2 基于Redis的 Bloom Filter算法实现
4.3 分布式增量爬虫子系统整体结构
4.3.1 分布式增量爬虫子系统流程设计
4.3.2 分布式增量爬虫支撑性组件
4.3.3 分布式增量爬虫增量策略设计
4.3.4 分布式增量爬虫架构设计
4.4 本章小结
第五章 游戏评论数据分析子系统
5.1 游戏评论数据预处理
5.1.1 游戏评论数据清洗
5.2 游戏评论数据新词发现GCD算法
5.2.1 GCD算法设计
5.2.2 Tire树加速的GCD算法实现
5.2.3 游戏评论数据知识GCD词典生成
5.3 游戏热点挖掘
5.4 GCSC游戏评论数据情感倾向分类器
5.4.1 Emotion-Skip Gram词向量模型
5.4.2 GCSC情感倾向分类器设计
5.5 本章小结
第六章 游戏舆情监测系统实现与测试
6.1 总体实现框架
6.2 重点模块实现
6.2.1 系统监测模块实现
6.2.2 游戏舆情可视化模块实现
6.2.3 分布式增量爬虫监控模块实现
6.3 系统测试
6.3.1 测试环境
6.3.2 测试用例
6.3.3 系统性能测试
6.4 算法效果测试
6.4.1 Tire树加速的GCD算法效果测试
6.4.2 GCSC情感倾向分类器效果测试
6.5 本章小结
第七章 结论与展望
参考文献
攻读硕士学位期间取得的研究成果
致谢
附件
【参考文献】:
期刊论文
[1]基于公众情绪上下文的LSTM情感分析研究——以台风“利奇马”为例[J]. 陈凌,宋衍欣. 现代情报. 2020(06)
[2]基于事理图谱的网络舆情事件预测方法研究[J]. 单晓红,庞世红,刘晓燕,杨娟. 情报理论与实践. 2020(10)
[3]浅析三层架构的组成及优势[J]. 陈敏. 信息通信. 2020(01)
[4]基于TOPSIS的社交网络舆情事件综合评价研究[J]. 赵庆亮,王培勇,刘佳欣,侯亚文,吴靖. 情报探索. 2019(12)
[5]Python最新Web编程框架Flask研究[J]. 叶锋. 电脑编程技巧与维护. 2015(15)
[6]网络舆情热点话题聚类方法研究[J]. 张寿华,刘振鹏. 小型微型计算机系统. 2013(03)
[7]基于话题检测与聚类的内部舆情监测系统[J]. 李忠俊. 计算机科学. 2012(12)
[8]如何开发舆情监测产品?——人民网舆情监测室的运作模式[J]. 罗婷,李成. 中国记者. 2010(06)
[9]网络舆情热点信息自动发现方法[J]. 郑魁,疏学明,袁宏永. 计算机工程. 2010(03)
[10]网络舆情突发事件预警系统、指标与机制[J]. 曾润喜,徐晓林. 情报杂志. 2009(11)
本文编号:3674416
【文章页数】:88 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 项目背景
1.2 项目目的与意义
1.3 国内外发展与研究现状
1.3.1 分布式爬虫
1.3.2 情感倾向分析
1.3.3 舆情监测系统
1.4 论文主要工作
1.5 论文组织结构
第二章 相关技术
2.1 分布式网络爬虫
2.1.1 爬虫基本知识
2.1.2 Bloom Filter
2.1.3 Master-Slave分布式架构
2.1.4 信息抽取策略
2.2 文本数据处理
2.2.1 中文分词技术
2.2.2 CBOW与 Skip-Gram模型
2.2.3 LSTM模型
2.3 系统实现相关框架结构
2.3.1 Flask框架
2.3.2 Angular JS
2.3.3 Chart.js图表库
2.4 本章小结
第三章 游戏舆情监测系统总体架构
3.1 游戏舆情监测系统整体结构
3.1.1 游戏舆情监测系统整体层次结构设计
3.1.2 游戏舆情监测系统整体模块设计
3.2 游戏舆情监测系统详细功能设计
3.2.1 系统后台监控
3.2.2 自动处理任务
3.2.3 数据可视化前端
3.3 网络拓扑设计
3.4 数据库设计
3.5 本章小结
第四章 分布式增量爬虫子系统
4.1 论坛信息抽取模块
4.1.1 CPEA论坛信息通用抽取算法
4.1.2 其他关键信息提取
4.1.3 手动抽取标准接口设计
4.2 基于Redis的 Bloom Filter
4.2.1 基于Redis的 Bloom Filter设计原理
4.2.2 基于Redis的 Bloom Filter算法实现
4.3 分布式增量爬虫子系统整体结构
4.3.1 分布式增量爬虫子系统流程设计
4.3.2 分布式增量爬虫支撑性组件
4.3.3 分布式增量爬虫增量策略设计
4.3.4 分布式增量爬虫架构设计
4.4 本章小结
第五章 游戏评论数据分析子系统
5.1 游戏评论数据预处理
5.1.1 游戏评论数据清洗
5.2 游戏评论数据新词发现GCD算法
5.2.1 GCD算法设计
5.2.2 Tire树加速的GCD算法实现
5.2.3 游戏评论数据知识GCD词典生成
5.3 游戏热点挖掘
5.4 GCSC游戏评论数据情感倾向分类器
5.4.1 Emotion-Skip Gram词向量模型
5.4.2 GCSC情感倾向分类器设计
5.5 本章小结
第六章 游戏舆情监测系统实现与测试
6.1 总体实现框架
6.2 重点模块实现
6.2.1 系统监测模块实现
6.2.2 游戏舆情可视化模块实现
6.2.3 分布式增量爬虫监控模块实现
6.3 系统测试
6.3.1 测试环境
6.3.2 测试用例
6.3.3 系统性能测试
6.4 算法效果测试
6.4.1 Tire树加速的GCD算法效果测试
6.4.2 GCSC情感倾向分类器效果测试
6.5 本章小结
第七章 结论与展望
参考文献
攻读硕士学位期间取得的研究成果
致谢
附件
【参考文献】:
期刊论文
[1]基于公众情绪上下文的LSTM情感分析研究——以台风“利奇马”为例[J]. 陈凌,宋衍欣. 现代情报. 2020(06)
[2]基于事理图谱的网络舆情事件预测方法研究[J]. 单晓红,庞世红,刘晓燕,杨娟. 情报理论与实践. 2020(10)
[3]浅析三层架构的组成及优势[J]. 陈敏. 信息通信. 2020(01)
[4]基于TOPSIS的社交网络舆情事件综合评价研究[J]. 赵庆亮,王培勇,刘佳欣,侯亚文,吴靖. 情报探索. 2019(12)
[5]Python最新Web编程框架Flask研究[J]. 叶锋. 电脑编程技巧与维护. 2015(15)
[6]网络舆情热点话题聚类方法研究[J]. 张寿华,刘振鹏. 小型微型计算机系统. 2013(03)
[7]基于话题检测与聚类的内部舆情监测系统[J]. 李忠俊. 计算机科学. 2012(12)
[8]如何开发舆情监测产品?——人民网舆情监测室的运作模式[J]. 罗婷,李成. 中国记者. 2010(06)
[9]网络舆情热点信息自动发现方法[J]. 郑魁,疏学明,袁宏永. 计算机工程. 2010(03)
[10]网络舆情突发事件预警系统、指标与机制[J]. 曾润喜,徐晓林. 情报杂志. 2009(11)
本文编号:3674416
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3674416.html