网络舆情中热点发现与跟踪系统的设计与实现
发布时间:2022-12-11 17:36
网络技术的不断发展,使得人们越来越多的通过网络媒体发表言论和获取信息,网络舆情也就越来越受到人们的重视。由于网络舆情是通过互联网传播,所以它继承了互联网隐蔽、开放和渗透的特点,同时通过互联网传播网络舆情也使它包含的信息非常丰富,信息量非常大。正是由于这些原因,使得人工收集网络舆情信息非常困难,所以人们就开始研制网络舆情监控系统了。网络舆情系统实时的在互联网上采集信息,对信息进行处理与分析,并将最终结果以一种容易理解的形式展示给用户,有利的辅助用户正确的处理舆情危机。本文首先总结了目前存在的网络舆情热点发现与追踪的实现方法,对其中一些关键技术,如话题发现与追踪技术进行了研究。通过了解这些技术,掌握开发热点发现与追踪系统的关键知识。接下来研究了网页内容解析技术,根据不同新闻网络博客的特点进行定制,利用这些特点提取下一步工作中需要利用到的信息并将这些信息保存以便以后使用。最后详细说明了话题发现、话题热度评估以及话题追踪技术。在信息文本表示中使用了空间向量模型(VSM),包括设置特征项,改进权重计算公式以及确定特征维数等,在进行聚类时,使用改进后的Single-Pass算法,这样得到的聚类结果...
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究意义
1.2 国内外研究现状
1.3 论文研究内容与结构安排
2 关键技术及其理论
2.1 信息预处理技术
2.1.1 网页正文抽取
2.1.2 中文分词技术
2.2 话题发现与追踪技术
2.2.1 文本表示模型
2.2.2 文本相似度
2.2.3 文本聚类算法
2.2.4 话题追踪技术
2.3 本章小结
3 需求分析
3.1 设计目标
3.1.1 功能需求
3.1.2 性能需求
3.1.3 运行环境
3.2 数据流图
3.2.1 预处理
3.2.2 文本特征向量化
3.2.3 话题发现
3.2.4 话题热度计算
3.2.5 话题追踪
3.2.6 主题搜索
3.3 数据需求
3.3.1 数据库分析
4 系统设计
4.1 系统体系结构
4.2 模块设计
4.2.1 规格化与预处理模块
4.2.2 话题发现与热度计算模块
4.2.3 话题追踪与主题搜索模块
4.3 数据设计
5 系统实现
5.1 开发技术与环境
5.1.1 开发技术
5.1.2 开发环境
5.2 规格化实现
5.3 预处理实现
5.4 文本特征向量化实现
5.5 话题发现实现
6 系统测试
6.1 规格化测试
6.2 预处理测试
6.3 特征向量测试
6.4 话题发现及热度计算测试
6.5 话题追踪
7 总结与展望
7.1 总结
7.2 展望
参考文献
致谢
【参考文献】:
期刊论文
[1]基于改进LDA主题模型的社会网络话题发现算法iMLDA[J]. 仇丽青,陈卓艳,丁长青,刘海燕. 情报科学. 2016(09)
[2]面向LDA和VSM模型的微博热点话题发现研究[J]. 李勇,张克亮. 自动化技术与应用. 2016(08)
[3]基于动态LDA主题模型的内容主题挖掘与演化[J]. 胡吉明,陈果. 图书情报工作. 2014(02)
[4]向量空间模型的信息检索技术[J]. 姚玉开,王烨,卢翠荣. 价值工程. 2013(13)
[5]浅议社会舆情及其社会价值[J]. 孟崴,张冬梅. 黑河学刊. 2013(04)
[6]基于主题情感混合模型的无监督文本情感分析[J]. 孙艳,周学广,付伟. 北京大学学报(自然科学版). 2013(01)
[7]微博突发话题检测方法研究[J]. 邱云飞,程亮. 计算机工程. 2012(09)
[8]国内外舆情研究述略[J]. 艾新革. 图书馆学刊. 2011(09)
[9]一种面向网络话题发现的增量文本聚类算法[J]. 殷风景,肖卫东,葛斌,李芳芳. 计算机应用研究. 2011(01)
[10]中文分词技术研究[J]. 于洪波. 东莞理工学院学报. 2010(05)
硕士论文
[1]面向网络新闻的舆情检测与分析系统设计与实现[D]. 李雪.山东师范大学 2014
[2]网络舆情信息的话题发现和追踪技术的研究与应用[D]. 衣波.广东工业大学 2013
[3]基于向量空间模型的文本分类技术研究[D]. 苏力华.西安电子科技大学 2006
本文编号:3719208
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究意义
1.2 国内外研究现状
1.3 论文研究内容与结构安排
2 关键技术及其理论
2.1 信息预处理技术
2.1.1 网页正文抽取
2.1.2 中文分词技术
2.2 话题发现与追踪技术
2.2.1 文本表示模型
2.2.2 文本相似度
2.2.3 文本聚类算法
2.2.4 话题追踪技术
2.3 本章小结
3 需求分析
3.1 设计目标
3.1.1 功能需求
3.1.2 性能需求
3.1.3 运行环境
3.2 数据流图
3.2.1 预处理
3.2.2 文本特征向量化
3.2.3 话题发现
3.2.4 话题热度计算
3.2.5 话题追踪
3.2.6 主题搜索
3.3 数据需求
3.3.1 数据库分析
4 系统设计
4.1 系统体系结构
4.2 模块设计
4.2.1 规格化与预处理模块
4.2.2 话题发现与热度计算模块
4.2.3 话题追踪与主题搜索模块
4.3 数据设计
5 系统实现
5.1 开发技术与环境
5.1.1 开发技术
5.1.2 开发环境
5.2 规格化实现
5.3 预处理实现
5.4 文本特征向量化实现
5.5 话题发现实现
6 系统测试
6.1 规格化测试
6.2 预处理测试
6.3 特征向量测试
6.4 话题发现及热度计算测试
6.5 话题追踪
7 总结与展望
7.1 总结
7.2 展望
参考文献
致谢
【参考文献】:
期刊论文
[1]基于改进LDA主题模型的社会网络话题发现算法iMLDA[J]. 仇丽青,陈卓艳,丁长青,刘海燕. 情报科学. 2016(09)
[2]面向LDA和VSM模型的微博热点话题发现研究[J]. 李勇,张克亮. 自动化技术与应用. 2016(08)
[3]基于动态LDA主题模型的内容主题挖掘与演化[J]. 胡吉明,陈果. 图书情报工作. 2014(02)
[4]向量空间模型的信息检索技术[J]. 姚玉开,王烨,卢翠荣. 价值工程. 2013(13)
[5]浅议社会舆情及其社会价值[J]. 孟崴,张冬梅. 黑河学刊. 2013(04)
[6]基于主题情感混合模型的无监督文本情感分析[J]. 孙艳,周学广,付伟. 北京大学学报(自然科学版). 2013(01)
[7]微博突发话题检测方法研究[J]. 邱云飞,程亮. 计算机工程. 2012(09)
[8]国内外舆情研究述略[J]. 艾新革. 图书馆学刊. 2011(09)
[9]一种面向网络话题发现的增量文本聚类算法[J]. 殷风景,肖卫东,葛斌,李芳芳. 计算机应用研究. 2011(01)
[10]中文分词技术研究[J]. 于洪波. 东莞理工学院学报. 2010(05)
硕士论文
[1]面向网络新闻的舆情检测与分析系统设计与实现[D]. 李雪.山东师范大学 2014
[2]网络舆情信息的话题发现和追踪技术的研究与应用[D]. 衣波.广东工业大学 2013
[3]基于向量空间模型的文本分类技术研究[D]. 苏力华.西安电子科技大学 2006
本文编号:3719208
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3719208.html