中文微博的话题相关性分析研究
发布时间:2021-01-24 03:15
随着Web2.0的发展,微博等社交媒体逐步成为了人们获取网络信息、了解社会动态的主要平台。微博信息主要由个人用户发布、信息通过人与人的社会交互共享,这使得微博呈现出数据规模大、信息质量参差不齐、话题实时更新等特点。如何在这些庞大冗余的微博信息中筛选出热门话题、摘取出有价值的信息片段,对于面向互联网络的信息处理具有重要的意义。本文首先研究了Hashtag话题相关性分析问题。Hashtag是微博文本中的一种主题标签,发布者可以利用Hashtag机制标注微博涉及的话题。微博平台基于Hashtag聚合微博,能帮助用户在海量微博数据中发现热点话题。但Hashtag由用户创建的特性使得不同的Hashtag可能代表着同一个话题,挖掘Hashtag之间的话题相关性将有助于热点话题发现。因此在分析了微博内容特征及结构特点的基础上,本文抽取了Hashtag文本特征、微博内容、Hashtag出现次数-时间分布以及Hashtag共现等一系列特征,用于分析Hashtag之间的话题相关性。在新浪微博数据上的实验结果显示,这一系列特征组合能较好地帮助Hashtag话题相关性分析。为了摘取出有价值的信息片段帮助用户快...
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.1.1 微博的发展
1.1.2 社交媒体上热点话题研究的意义
1.1.3 Hashtag的作用以及不足
1.1.4 研究意义
1.2 重要概念介绍
1.2.1 事件
1.2.2 话题
1.2.3 Hashtag
1.2.4 标签云
1.3 研究内容
1.3.1 Hashtag话题相关性分析
1.3.2 微博集合的子话题分析
1.4 论文结构
第二章 国内外相关技术研究现状
2.1 引言
2.2 话题发现与跟踪技术研究现状
2.2.1 话题发现跟踪的研究历史
2.2.2 文本的表示模型
2.2.3 相似度的计算
2.2.4 聚类算法
2.3 微博文本话题分析的相关研究现状
2.3.1 微博内容简短
2.3.2 微博噪音数据多、用词不规范
2.3.3 实时性、时效性强
2.4 关键词抽取的研究现状
2.4.1 有监督的关键词抽取算法
2.4.2 无监督的关键词抽取算法
2.4.3 关键词抽取算法的核心思想
2.5 本章小结
第三章 Hashtag话题相关性分析
3.1 引言
3.2 相关工作
3.3 问题描述
3.4 特征设计
3.4.1 Hashtag文本特征(Jaccard Of Hashtag)
3.4.2 包含Hashtag的微博内容(Weibo Text)
3.4.3 Hashtag的出现次数-时间分布(Time)
3.4.4 Hashtag的共现(Co-Occurrence)
3.5 Hashtag相关性分析模型的构造
3.6 实验构造与结果分析
3.6.1 实验语料
3.6.2 机器学习模型的选择
3.6.3 实验评价方法
3.6.4 实验设置
3.6.5 实验结果及分析
3.7 本章小结
第四章 微博集合的子话题分析
4.1 引言
4.2 微博集合子话题分析系统的构造
4.2.1 微博集合子话题分析系统的算法流程
4.2.2 聚类算法流程
4.2.3 关键词抽取
4.2.4 标签云技术
4.3 实验结果与分析
4.3.1 整体话题信息的展示
4.3.2 子话题信息的展示
4.4 本章小结
第五章 总结及展望
5.1 工作总结
5.2 展望
致谢
参考文献
作者在学期间取得的学术成果
本文编号:2996456
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.1.1 微博的发展
1.1.2 社交媒体上热点话题研究的意义
1.1.3 Hashtag的作用以及不足
1.1.4 研究意义
1.2 重要概念介绍
1.2.1 事件
1.2.2 话题
1.2.3 Hashtag
1.2.4 标签云
1.3 研究内容
1.3.1 Hashtag话题相关性分析
1.3.2 微博集合的子话题分析
1.4 论文结构
第二章 国内外相关技术研究现状
2.1 引言
2.2 话题发现与跟踪技术研究现状
2.2.1 话题发现跟踪的研究历史
2.2.2 文本的表示模型
2.2.3 相似度的计算
2.2.4 聚类算法
2.3 微博文本话题分析的相关研究现状
2.3.1 微博内容简短
2.3.2 微博噪音数据多、用词不规范
2.3.3 实时性、时效性强
2.4 关键词抽取的研究现状
2.4.1 有监督的关键词抽取算法
2.4.2 无监督的关键词抽取算法
2.4.3 关键词抽取算法的核心思想
2.5 本章小结
第三章 Hashtag话题相关性分析
3.1 引言
3.2 相关工作
3.3 问题描述
3.4 特征设计
3.4.1 Hashtag文本特征(Jaccard Of Hashtag)
3.4.2 包含Hashtag的微博内容(Weibo Text)
3.4.3 Hashtag的出现次数-时间分布(Time)
3.4.4 Hashtag的共现(Co-Occurrence)
3.5 Hashtag相关性分析模型的构造
3.6 实验构造与结果分析
3.6.1 实验语料
3.6.2 机器学习模型的选择
3.6.3 实验评价方法
3.6.4 实验设置
3.6.5 实验结果及分析
3.7 本章小结
第四章 微博集合的子话题分析
4.1 引言
4.2 微博集合子话题分析系统的构造
4.2.1 微博集合子话题分析系统的算法流程
4.2.2 聚类算法流程
4.2.3 关键词抽取
4.2.4 标签云技术
4.3 实验结果与分析
4.3.1 整体话题信息的展示
4.3.2 子话题信息的展示
4.4 本章小结
第五章 总结及展望
5.1 工作总结
5.2 展望
致谢
参考文献
作者在学期间取得的学术成果
本文编号:2996456
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2996456.html