新闻热点话题发现及趋势分析研究
发布时间:2022-12-06 22:43
随着互联网的飞速发展,网络新闻逐渐成为网络民众最为关注的信息来源。网络舆情是不可忽视的力量,它需要监控与引导。对于热门话题发现与趋势分析的研究可以及时发现社会热点话题,分析话题的趋势,有利于把握舆情走向,从而进行正确引导,维护社会稳定。本文对新闻热点话题发现及趋势分析进行了研究,主要内容包括以下几个方面:1.针对新闻文本聚类中存在的文本语义缺失、聚类精度不高的问题提出了一种改进DPC(密度峰值聚类,Density Peak Clustering)的话题聚类方法。该方法首先对新闻文本进行向量化,经过文本预处理之后使用Word2Vec计算词向量,然后根据新闻标题与正文的词频等因素提取核心词,使用核心词的词向量来表示一篇新闻文本。接着,基于加权K近邻思想提出了一种改进的密度峰值算法,在局部密度计算、初始聚类中心自动选择、离群点识别以及样本分配策略方面进行改进。最后,在8个基准数据集以及搜狐新闻数据集上进行了实验,实验结果表明提出的算法能有效提高新闻话题发现的准确度。2.针对热点话题发现困难的问题,提出了基于复合关注度模型的热点话题发现算法。从媒体关注度和用户关注度两个方面度量话题的热度,并采...
【文章页数】:72 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及目的
1.2 国内外研究现状
1.2.1 话题检测与跟踪
1.2.2 热点话题趋势分析
1.3 本文主要工作
1.4 本文结构安排
2 基于改进DPC的话题聚类算法
2.1 新闻的分布式表示
2.1.1 向量空间模型
2.1.2 LDA主题模型
2.1.3 Word2Vec模型
2.1.4 基于Word2Vec的新闻文本表示方法
2.2 改进的密度峰值聚类算法
2.2.1 密度峰值聚类算法概述
2.2.2 现有改进方法及在文本挖掘方面的应用
2.2.3 基于加权K近邻的改进DPC算法
2.3 实验结果与分析
2.3.1 实验环境和数据集
2.3.2 实验评价指标
2.3.3 基准数据集聚类
2.3.4 搜狐新闻数据集聚类
2.4 本章小结
3 热点话题发现
3.1 热点话题概念
3.2 热点话题发现模型
3.3 热点话题发现算法
3.4 实验与结果
3.5 本章小结
4 热点话题生命周期阶段识别
4.1 生命周期原理
4.2 生命周期阶段识别相关工作
4.3 热点话题生命周期发展曲线
4.4 基于DTW的生命周期阶段识别算法
4.4.1 DTW算法简介
4.4.2 生命周期阶段识别算法
4.5 实验及结果分析
4.5.1 实验评价指标
4.5.2 生命周期阶段识别实验
4.6 本章小结
5 系统设计与实现
5.1 系统整体架构
5.2 核心模块设计
5.2.1 新闻数据采集模块
5.2.2 新闻预处理模块
5.2.3 热点话题发现及趋势分析模块
5.3 本章小结
6 总结与展望
6.1 本文总结
6.2 未来工作展望
致谢
参考文献
附录
【参考文献】:
期刊论文
[1]基于动态时间归整距的地震动特性分析及合成精度评价[J]. 何浩祥,解鑫,王文涛. 振动与冲击. 2018(12)
[2]基于自动编码器的句子语义特征提取及相似度计算[J]. 马建红,杨浩,姚爽. 郑州大学学报(理学版). 2018(02)
[3]结合语义和结构的短文本相似度计算[J]. 倪高伟,李涛,刘峥. 计算机技术与发展. 2018(08)
[4]基于MFIHC聚类和TOPSIS的微博热点发现方法[J]. 魏德志,陈福集,林丽娜. 计算机应用研究. 2018(04)
[5]多特征融合文本聚类的新闻话题发现模型[J]. 车蕾,杨小平. 国防科技大学学报. 2017(03)
[6]基于动态时间规整距离指纹匹配的Wi-Fi网络室内定位算法[J]. 张明洋,陈剑,闻英友,赵宏,王玉刚. 计算机应用. 2017(06)
[7]一种基于词嵌入与密度峰值策略的大数据文本聚类算法[J]. 田晓艳. 科技创新与应用. 2017(06)
[8]一种基于簇中心点自动选择策略的密度峰值聚类算法[J]. 马春来,单洪,马涛. 计算机科学. 2016(07)
[9]基于事件卷积特征的新闻文本分类[J]. 夏从零,钱涛,姬东鸿. 计算机应用研究. 2017(04)
[10]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春. 计算机科学. 2016(06)
博士论文
[1]网络用户偏好分析及话题趋势预测方法研究[D]. 程辉.北京交通大学 2013
硕士论文
[1]网络热点话题趋势分析及预测研究[D]. 杨艳.哈尔滨工业大学 2017
[2]基于密度峰值的一种文本聚类优化算法的研究与实现[D]. 兰旭.国防科学技术大学 2016
[3]微博生命周期分析与预测[D]. 马星环.华中科技大学 2015
[4]网络新闻生命周期及提升策略研究[D]. 罗奥.重庆师范大学 2015
[5]网络突发事件预警研究[D]. 赵满坤.天津大学 2014
[6]微博热点话题检测与趋势预测研究[D]. 姚海波.华南理工大学 2013
[7]网络热点话题自动发现技术研究[D]. 龚海军.华中师范大学 2008
本文编号:3711760
【文章页数】:72 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及目的
1.2 国内外研究现状
1.2.1 话题检测与跟踪
1.2.2 热点话题趋势分析
1.3 本文主要工作
1.4 本文结构安排
2 基于改进DPC的话题聚类算法
2.1 新闻的分布式表示
2.1.1 向量空间模型
2.1.2 LDA主题模型
2.1.3 Word2Vec模型
2.1.4 基于Word2Vec的新闻文本表示方法
2.2 改进的密度峰值聚类算法
2.2.1 密度峰值聚类算法概述
2.2.2 现有改进方法及在文本挖掘方面的应用
2.2.3 基于加权K近邻的改进DPC算法
2.3 实验结果与分析
2.3.1 实验环境和数据集
2.3.2 实验评价指标
2.3.3 基准数据集聚类
2.3.4 搜狐新闻数据集聚类
2.4 本章小结
3 热点话题发现
3.1 热点话题概念
3.2 热点话题发现模型
3.3 热点话题发现算法
3.4 实验与结果
3.5 本章小结
4 热点话题生命周期阶段识别
4.1 生命周期原理
4.2 生命周期阶段识别相关工作
4.3 热点话题生命周期发展曲线
4.4 基于DTW的生命周期阶段识别算法
4.4.1 DTW算法简介
4.4.2 生命周期阶段识别算法
4.5 实验及结果分析
4.5.1 实验评价指标
4.5.2 生命周期阶段识别实验
4.6 本章小结
5 系统设计与实现
5.1 系统整体架构
5.2 核心模块设计
5.2.1 新闻数据采集模块
5.2.2 新闻预处理模块
5.2.3 热点话题发现及趋势分析模块
5.3 本章小结
6 总结与展望
6.1 本文总结
6.2 未来工作展望
致谢
参考文献
附录
【参考文献】:
期刊论文
[1]基于动态时间归整距的地震动特性分析及合成精度评价[J]. 何浩祥,解鑫,王文涛. 振动与冲击. 2018(12)
[2]基于自动编码器的句子语义特征提取及相似度计算[J]. 马建红,杨浩,姚爽. 郑州大学学报(理学版). 2018(02)
[3]结合语义和结构的短文本相似度计算[J]. 倪高伟,李涛,刘峥. 计算机技术与发展. 2018(08)
[4]基于MFIHC聚类和TOPSIS的微博热点发现方法[J]. 魏德志,陈福集,林丽娜. 计算机应用研究. 2018(04)
[5]多特征融合文本聚类的新闻话题发现模型[J]. 车蕾,杨小平. 国防科技大学学报. 2017(03)
[6]基于动态时间规整距离指纹匹配的Wi-Fi网络室内定位算法[J]. 张明洋,陈剑,闻英友,赵宏,王玉刚. 计算机应用. 2017(06)
[7]一种基于词嵌入与密度峰值策略的大数据文本聚类算法[J]. 田晓艳. 科技创新与应用. 2017(06)
[8]一种基于簇中心点自动选择策略的密度峰值聚类算法[J]. 马春来,单洪,马涛. 计算机科学. 2016(07)
[9]基于事件卷积特征的新闻文本分类[J]. 夏从零,钱涛,姬东鸿. 计算机应用研究. 2017(04)
[10]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春. 计算机科学. 2016(06)
博士论文
[1]网络用户偏好分析及话题趋势预测方法研究[D]. 程辉.北京交通大学 2013
硕士论文
[1]网络热点话题趋势分析及预测研究[D]. 杨艳.哈尔滨工业大学 2017
[2]基于密度峰值的一种文本聚类优化算法的研究与实现[D]. 兰旭.国防科学技术大学 2016
[3]微博生命周期分析与预测[D]. 马星环.华中科技大学 2015
[4]网络新闻生命周期及提升策略研究[D]. 罗奥.重庆师范大学 2015
[5]网络突发事件预警研究[D]. 赵满坤.天津大学 2014
[6]微博热点话题检测与趋势预测研究[D]. 姚海波.华南理工大学 2013
[7]网络热点话题自动发现技术研究[D]. 龚海军.华中师范大学 2008
本文编号:3711760
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3711760.html
最近更新
教材专著