基于主题模型和聚类算法的网络热点话题发现
发布时间:2023-04-12 01:56
社交媒体的快速发展引发的网络复杂性问题给网络的研究带来了很大挑战,网络中出现的舆情问题此起彼伏,用户可以随时随地发表自己的看法,这就积累了大量用户产生的数据。如:图片、文本、视频等。这些数据中隐藏着很有价值的信息,它反映了当前网民关注的热点话题,但是网络的错综复杂使人们不能及时有效地获取信息,如何准确发现网络中的热点话题成了学者们研究的重点问题。本文采集新浪微博数据,通过对微博文本内容、用户转发、评论等信息以及用户特点相关属性深入分析,主要工作如下:(1)针对传统词对主题模型在短文本处理时对所有词采取同一处理,忽略用户个性化问题,提出基于词对主题模型的话题特征提取方法。首先,主题建模时引入用户因素,将同一用户产生的所有文本作为一个文档;其次考虑背景词和主题词,删掉无关背景词,引入用户的吉布斯采样对模型参数推导;最后使用JS和余弦相似度联合判断话题是否为同一个分类,从而保证特征提取的准确度。(2)针对萤火虫算法易陷入局部最优,迭代过程中容易跳过最优解的问题,提出动态自适应步长萤火虫算法。迭代初期较大步长保证以较快的速度定位在接近全局最优解的范围内,迭代后期以较小步长在最优解附近寻优,从而...
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题研究背景及意义
1.2 国内外研究现状
1.3 研究内容及主要工作
1.4 论文组织结构
第二章 相关知识
2.1 网络热点话题发现概述
2.2 文本预处理
2.2.1 中文分词
2.2.2 过滤停用词
2.3 文本特征选择
2.4 文本表示模型
2.4.1 基于Word2vec的文本表示模型
2.4.2 词对主题模型
2.5 文本聚类算法
2.6 群智能算法
2.7 本章小结
第三章 基于词对主题模型的话题特征提取
3.1 问题的提出
3.2 基于词对主题模型的话题特征提取算法
3.2.1 算法概述
3.2.2 用户BTM模型
3.2.3 模型推理
3.3 实验与结果分析
3.3.1 实验数据集及预处理
3.3.2 评价标准
3.3.3 算法比较及分析
3.4 本章小结
第四章 改进萤火虫算法的模糊聚类网络热点话题发现
4.1 问题的提出
4.2 基于DASFA-FCM的网络热点话题发现
4.2.1 改进萤火虫算法
4.2.2 FCM算法
4.2.3 适应度函数
4.2.4 算法描述
4.3 实验结果及分析
4.3.1 实验数据集
4.3.2 评价标准
4.3.3 不同算法性能比较和分析
4.4 本章小结
第五章 总结与展望
5.1 工作总结
5.2 进一步要解决的问题
参考文献
致谢
攻读学位期间发表的论文
本文编号:3790190
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题研究背景及意义
1.2 国内外研究现状
1.3 研究内容及主要工作
1.4 论文组织结构
第二章 相关知识
2.1 网络热点话题发现概述
2.2 文本预处理
2.2.1 中文分词
2.2.2 过滤停用词
2.3 文本特征选择
2.4 文本表示模型
2.4.1 基于Word2vec的文本表示模型
2.4.2 词对主题模型
2.5 文本聚类算法
2.6 群智能算法
2.7 本章小结
第三章 基于词对主题模型的话题特征提取
3.1 问题的提出
3.2 基于词对主题模型的话题特征提取算法
3.2.1 算法概述
3.2.2 用户BTM模型
3.2.3 模型推理
3.3 实验与结果分析
3.3.1 实验数据集及预处理
3.3.2 评价标准
3.3.3 算法比较及分析
3.4 本章小结
第四章 改进萤火虫算法的模糊聚类网络热点话题发现
4.1 问题的提出
4.2 基于DASFA-FCM的网络热点话题发现
4.2.1 改进萤火虫算法
4.2.2 FCM算法
4.2.3 适应度函数
4.2.4 算法描述
4.3 实验结果及分析
4.3.1 实验数据集
4.3.2 评价标准
4.3.3 不同算法性能比较和分析
4.4 本章小结
第五章 总结与展望
5.1 工作总结
5.2 进一步要解决的问题
参考文献
致谢
攻读学位期间发表的论文
本文编号:3790190
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3790190.html