微博网络热点话题发现技术研究
发布时间:2024-11-02 14:12
微博已经成为当今社会新一代的重要媒体,几乎现实社会中的事件都会在微博中形成讨论,并进一步酝酿发酵,进而影响到现实中的社会事件。因此对微博网络中话题的产生发展及影响力研究,是当前业界关注的问题之一,具有较强的社会意义和现实意义。 本论文的主要工作如下: 1、研究了微博文本的特点,并针对其特殊性分析了现有文本处理策略对微博文本的适用性,在现有文本表示策略的基础上,结合微博网络的特点,提出了一种适用于微博短文本的文本表示策略,其基本思想是将TFIDF策略与近义词库应用相结合,对传统的特征空间进行调整,合并具有相关性的特征项,以修正传统特征空间中正交假设带来的文本相似性度量的偏差,并利用微博评论扩充微博文本,从而能够更准确的计算文本间的相似度。 2、在分析现有聚类算法的基础上,给出了传统文本聚类算法的优缺点,并在分析微博网络中话题的发现对聚类算法的要求的基础上,提出了增量式聚类算法Ant-tree的改进算法——RD-Ant-tree算法。该算法利用Ant-tree算法在效率上的先天优势,针对Ant-tree算法对数据输入顺序敏感的问题,通过动态调整结果树,降低了输入顺序对算法结...
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
致谢
中文摘要
ABSTRACT
1 引言
1.1 背景及意义
1.2 相关研究现状
1.2.1 短文本预处理与表示策略相关研究现状
1.2.2 文本聚类相关研究现状
1.3 论文主要工作及组织结构
2 微博网络话题发现相关技术
2.1 微博文本的特点
2.2 短文本表示策略的相关研究
2.3 经典文本聚类算法
2.3.1 基于划分的聚类算法
2.3.2 层次聚类算法
2.3.3 密度聚类算法
2.3.4 增量式聚类算法
2.4 微博用户划分研究
2.5 微博话题传播特点
2.5.1 微博话题生命周期
2.5.2 二次传播理论
2.6 本章小结
3 微博短文本表示策略研究
3.1 短文本降维策略改进
3.1.1 短文本表示策略比较
3.1.2 RD-TFIDF表示策略的理论基础
3.1.3 RD-TFIDF表示策略
3.2 评论信息扩展的微博文本表示
3.2.1 微博评论的表现形式
3.2.2 微博评论的获取
3.2.3 微博评论信息的过滤
3.2.5 微博文本信息扩展策略
3.3 RD-TFIDF文本表示策略验证
3.3.1 实验数据准备
3.3.2 评价方法与标准
3.3.3 实验结果与分析
3.4 本章小结
4 微博信息短文本聚类算法研究
4.1 Ant-tree的改进算法RD-Ant-tree
4.1.1 现有聚类算法分析
4.1.2 Ant-tree算法的相关研究与改进思路
4.1.3 DR-Ant-tree算法的设计思想
4.1.4 DR-Ant-tree算法描述
4.1.5 DR-Ant-tree算法性能分析
4.2 DR-Ant-tree算法验证
4.2.1 性能评价指标
4.2.2 实验结果及分析
4.3 本章小结
5 基于微博网络的话题评估研究
5.1 基于话题能量的话题热度评估
5.1.1 热点话题特征
5.1.2 微博话题热度的影响因素
5.1.3 基于话题能量的热度评估模型
5.2 话题潜在影响力评估
5.2.1 微博平台的用户划分
5.2.2 微博突发事件传播模型分析
5.2.3 微博话题的潜在影响力
5.3 本章小结
6 微博网络热点话题系统总体设计与实现
6.1 整体设计
6.2 话题发现模块核心实现
6.2.1 微博信息的预处理实现
6.2.2 聚类分析实现
6.3 话题评估模块处理流程与运行效果
6.5 本章小结
7 结论与展望
7.1 总结
7.2 研究展望
参考文献
作者简历
学位论文数据集
本文编号:4009632
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
致谢
中文摘要
ABSTRACT
1 引言
1.1 背景及意义
1.2 相关研究现状
1.2.1 短文本预处理与表示策略相关研究现状
1.2.2 文本聚类相关研究现状
1.3 论文主要工作及组织结构
2 微博网络话题发现相关技术
2.1 微博文本的特点
2.2 短文本表示策略的相关研究
2.3 经典文本聚类算法
2.3.1 基于划分的聚类算法
2.3.2 层次聚类算法
2.3.3 密度聚类算法
2.3.4 增量式聚类算法
2.4 微博用户划分研究
2.5 微博话题传播特点
2.5.1 微博话题生命周期
2.5.2 二次传播理论
2.6 本章小结
3 微博短文本表示策略研究
3.1 短文本降维策略改进
3.1.1 短文本表示策略比较
3.1.2 RD-TFIDF表示策略的理论基础
3.1.3 RD-TFIDF表示策略
3.2 评论信息扩展的微博文本表示
3.2.1 微博评论的表现形式
3.2.2 微博评论的获取
3.2.3 微博评论信息的过滤
3.2.5 微博文本信息扩展策略
3.3 RD-TFIDF文本表示策略验证
3.3.1 实验数据准备
3.3.2 评价方法与标准
3.3.3 实验结果与分析
3.4 本章小结
4 微博信息短文本聚类算法研究
4.1 Ant-tree的改进算法RD-Ant-tree
4.1.1 现有聚类算法分析
4.1.2 Ant-tree算法的相关研究与改进思路
4.1.3 DR-Ant-tree算法的设计思想
4.1.4 DR-Ant-tree算法描述
4.1.5 DR-Ant-tree算法性能分析
4.2 DR-Ant-tree算法验证
4.2.1 性能评价指标
4.2.2 实验结果及分析
4.3 本章小结
5 基于微博网络的话题评估研究
5.1 基于话题能量的话题热度评估
5.1.1 热点话题特征
5.1.2 微博话题热度的影响因素
5.1.3 基于话题能量的热度评估模型
5.2 话题潜在影响力评估
5.2.1 微博平台的用户划分
5.2.2 微博突发事件传播模型分析
5.2.3 微博话题的潜在影响力
5.3 本章小结
6 微博网络热点话题系统总体设计与实现
6.1 整体设计
6.2 话题发现模块核心实现
6.2.1 微博信息的预处理实现
6.2.2 聚类分析实现
6.3 话题评估模块处理流程与运行效果
6.5 本章小结
7 结论与展望
7.1 总结
7.2 研究展望
参考文献
作者简历
学位论文数据集
本文编号:4009632
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/4009632.html