基于用户行为和关系的微博Spam问题研究
发布时间:2024-01-15 20:51
互联网在自诞生之日至今,一直保持着高速的发展,如今已经成为了人们生活当中决不可或缺的一部分,但互联网上的各种Spam问题,也一直伴随着互联网的成长,始终是各种互联网服务所面对的最重要的问题和挑战之一。微博(Microblogging)作为一种新兴的互联网社交网络服务,不可避免的需要面对各种不同类型的Spam问题,针对这一现状,本文主要做了以下三方面的工作: 首先对目前互联网上的各种Spam问题进行了描述,尤其对微博平台现存的主要Spam问题进行了总结,并且对目前主要的微博Spam检测研究和方法进行了综述; 其次以新浪微博平台为例,针对Spam用户批量关注来获取粉丝这一行为,建立了Spam用户成长模型,使用概率关系模型PRM预测了Spam用户获取粉丝的时间成本; 最后以新浪微博上较为常见的一种Spam行为——批量转发为例,通过用户历史行为一致性聚类的方法进行了Spam检测,达到了82%的准确率,与通过用户属性和行为特征进行的概率关系模型PRM的Spam检测结果进行了比较和分析,并对检测得到的Spam用户群体的一些特征和普通用户进行了对比。
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 研究现状
1.3 主要工作
1.4 组织结构
第二章 互联网Spam问题综述
2.1 互联网上主要的Spam问题
2.1.1 电子邮件系统中的Spam问题
2.1.2 即时通信系统中的Spam问题
2.1.3 搜索引擎中的Spam问题
2.1.4 社交网站中的Spam问题
2.2 微博上主要的Spam问题
2.2.1 微博上主要的Spam信息内容
2.2.2 微博上主要的Spam信息发送方法
2.2.3 微博上主要的Spam信息发送组织
2.3 微博上主要的Spam检测方法
2.3.1 微博内容分析
2.3.2 微博用户分析
2.3.3 微博平台限制
第三章 微博Spam用户成长研究
3.1 概率关系模型PRM
3.1.1 贝叶斯网络
3.1.2 对象关系模型
3.1.3 概率关系模型
3.2 微博Spam用户成长模型
3.3 成长模型的参数训练和结果
3.3.1 训练数据集
3.3.2 实验流程
3.3.3 实验结果
第四章 基于用户属性和行为的Spam用户检测
4.1 Spam用户检测实验设计
4.2 数据集描述
4.2.1 数据获取与存储
4.2.2 数据集预处理
4.3 DBSCAN聚类算法
4.4 实验结果分析
4.5 新浪微博Spam用户特征分析
第五章 总结和下一步工作
5.1 论文工作总结
5.2 进一步的研究方向
参考文献
致谢
作者攻读学位期间发表的学术论文目录
本文编号:3878830
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 研究现状
1.3 主要工作
1.4 组织结构
第二章 互联网Spam问题综述
2.1 互联网上主要的Spam问题
2.1.1 电子邮件系统中的Spam问题
2.1.2 即时通信系统中的Spam问题
2.1.3 搜索引擎中的Spam问题
2.1.4 社交网站中的Spam问题
2.2 微博上主要的Spam问题
2.2.1 微博上主要的Spam信息内容
2.2.2 微博上主要的Spam信息发送方法
2.2.3 微博上主要的Spam信息发送组织
2.3 微博上主要的Spam检测方法
2.3.1 微博内容分析
2.3.2 微博用户分析
2.3.3 微博平台限制
第三章 微博Spam用户成长研究
3.1 概率关系模型PRM
3.1.1 贝叶斯网络
3.1.2 对象关系模型
3.1.3 概率关系模型
3.2 微博Spam用户成长模型
3.3 成长模型的参数训练和结果
3.3.1 训练数据集
3.3.2 实验流程
3.3.3 实验结果
第四章 基于用户属性和行为的Spam用户检测
4.1 Spam用户检测实验设计
4.2 数据集描述
4.2.1 数据获取与存储
4.2.2 数据集预处理
4.3 DBSCAN聚类算法
4.4 实验结果分析
4.5 新浪微博Spam用户特征分析
第五章 总结和下一步工作
5.1 论文工作总结
5.2 进一步的研究方向
参考文献
致谢
作者攻读学位期间发表的学术论文目录
本文编号:3878830
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3878830.html