微博数据提取及话题检测方法研究
发布时间:2024-02-04 19:38
微博作为近年来急速流行起来的网络应用,正在快速深入每个人的日常生活中。由于其不仅可以通过电脑而且可以通过手机等移动便携设备进行内容发布,所以其具有诸如实时性,碎片性等特点。同时微博博主可以有关注和被关注的关系,微博内容也有评论转发等形式,故也体现出其互动性和灵活性。本文基于微博以上特点做了数据提取和话题检测两方面工作。 传统的网络文本数据提取一般是利用图遍历的思想通过网络爬虫搜集信息,本文在此基础上研究了使用微博开放API接口进行数据获取的方法。首先着重分析了OAuth2.0认证原理,然后研究了获取认证的流程,此认证的获取是利用开放接口的前提条件,目的是让第三方应用可以接入服务方的数据且不泄露个人信息,最后利用新浪微博的开放接口实现数据的提取并将获取的数据以更高效的JSON格式保存,实验证明此方法相比传统方法处理效率更高,在同等数据量前提下文件大小更小。 话题检测在数据挖掘领域已经得到了深入的研究,其可以从分散的多个文本文件中提取出少量的不同主题,从而可以更清晰明了地展现数据的整体概况。在进行话题检测时传统的基于空间向量模型建模方法容易造成语义丢失的问题,于是本文改进现有的特征权重和相...
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景
1.2 研究现状
1.3 研究内容及意义
1.3.1 研究内容
1.3.2 研究意义
1.4 论文组织结构
2 相关背景知识简介
2.1 微博
2.1.1 微博及其特性
2.1.2 微博在生活中的作用
2.2 数据挖掘
2.2.1 数据挖掘的主要任务
2.2.2 数据挖掘的主要步骤
2.3 WEB挖掘
3 微博数据提取方法研究
3.1 常用网络信息采集方法
3.2 利用API提取微博数据方法研究
3.2.1 开放平台简要介绍
3.2.2 OAuth 1.0与OAuth 2.0协议分析
3.2.3 利用开放API获取微博数据
4 微博话题检测方法研究
4.1 常用话题检测算法流程
4.1.1 话题数据的提取及前期处理
4.1.2 模型化方式表示文本
4.1.3 计算文本相似度
4.1.4 选择聚类算法
4.2 微博文本的建模
4.2.1 微博数据的预处理
4.2.2 构建文本模型,特征项及特征权重
4.3 微博话题检测算法
4.3.1 话题相似度计算
4.3.2 话题检测流程
5 实验及结果分析
5.1 获取方式及存储方式比较
5.2 采集数据
5.3 实验评价标准
5.4 相似度参数及时间参数的确定
5.5 不同检测算法比较
5.6 不同相似度算法比较
结论
参考文献
攻读硕士学位期间发表学术论文情况
致谢
本文编号:3895744
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景
1.2 研究现状
1.3 研究内容及意义
1.3.1 研究内容
1.3.2 研究意义
1.4 论文组织结构
2 相关背景知识简介
2.1 微博
2.1.1 微博及其特性
2.1.2 微博在生活中的作用
2.2 数据挖掘
2.2.1 数据挖掘的主要任务
2.2.2 数据挖掘的主要步骤
2.3 WEB挖掘
3 微博数据提取方法研究
3.1 常用网络信息采集方法
3.2 利用API提取微博数据方法研究
3.2.1 开放平台简要介绍
3.2.2 OAuth 1.0与OAuth 2.0协议分析
3.2.3 利用开放API获取微博数据
4 微博话题检测方法研究
4.1 常用话题检测算法流程
4.1.1 话题数据的提取及前期处理
4.1.2 模型化方式表示文本
4.1.3 计算文本相似度
4.1.4 选择聚类算法
4.2 微博文本的建模
4.2.1 微博数据的预处理
4.2.2 构建文本模型,特征项及特征权重
4.3 微博话题检测算法
4.3.1 话题相似度计算
4.3.2 话题检测流程
5 实验及结果分析
5.1 获取方式及存储方式比较
5.2 采集数据
5.3 实验评价标准
5.4 相似度参数及时间参数的确定
5.5 不同检测算法比较
5.6 不同相似度算法比较
结论
参考文献
攻读硕士学位期间发表学术论文情况
致谢
本文编号:3895744
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3895744.html