当前位置:主页 > 文艺论文 > 广告艺术论文 >

微博垃圾用户行为建模和甄别

发布时间:2017-03-26 01:12

  本文关键词:微博垃圾用户行为建模和甄别,,由笔耕文化传播整理发布。


【摘要】:最近两年来,以微博为首的社交媒体快速发展,例如新浪微博已经拥有几亿的注册用户和近亿的活跃用户。随着微博平台的发展,出现了很多垃圾用户。这些垃圾用户或发布广告、或发布谣言、或受雇转发,对微博平台的公开公正的信息传播造成了不良的影响。本文基于实际的新浪微博数据进行了垃圾用户的分析研究,建立了基于微博重复发布行为和LDA主题模型的垃圾用户检测模型SDM。基于此模型,在真实的垃圾微博数据中进行了垃圾用户甄别实验,并利用用户的其他信息进一步增强了算法的效果。主要成果如下: 1.设计实现并行微博爬虫,在大量实际垃圾用户数据(新浪微博举报大厅)的基础上对微博的不同类型垃圾用户进行了行为分析,为提出垃圾用户检测模型提供了基础和依据。 2.基于垃圾用户的行为特点(短时间内重复发布垃圾微博),提出了基于微博重复发布行为的垃圾用户检测模型SDM,从重复发布行为和垃圾微博内容两个方面对垃圾用户进行建模,得到用户重复发送行为的评估函数F(U)。 3.在真实的微博垃圾用户数据集中,利用SDM模型进行了垃圾用户甄别实验。从有效性、参数对算法效果的影响和不同类型微博信息对效果的影响等方面进行了实验和分析。 4.针对利用SDM模型进行垃圾用户甄别时参数难以确定、扩展性不足的缺点,使用基于SVM的垃圾用户甄别方法,将SDM模型计算出的重复行为评估函数作为SVM等通用分类算法的一维特征,结合其他特征进行实验。在真实微博垃圾用户数据中的实验结果证明,使用完整的特征集合,可以提高数据挖掘的效果,且具有更广泛的扩展性。
【关键词】:微博垃圾用户 重复发布 主题模型 机器学习
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【目录】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 前言9-15
  • 1.1 课题研究背景9-11
  • 1.2 国内外研究现状11-13
  • 1.3 研究内容和文章结构13-15
  • 第二章 爬虫和数据获取15-24
  • 2.1 相关技术介绍15-18
  • 2.2 分布式爬虫设计和实现18-22
  • 2.3 数据集22-23
  • 2.4 本章小结23-24
  • 第三章 数据统计分析24-34
  • 3.1 通用特征分析24-28
  • 3.2 特殊特征分析28-30
  • 3.2.1 昵称重复度分析28-29
  • 3.2.2 提示关注数分析29-30
  • 3.3 行为特征分析30-33
  • 3.4 本章小结33-34
  • 第四章 基于微博重复发送行为的垃圾用户甄别算法34-44
  • 4.1 基于垃圾微博重复发送行为的垃圾用户甄别算法34-38
  • 4.1.1 重复检测34
  • 4.1.2 SDM算法流程34-35
  • 4.1.3 SDM模型定义35-36
  • 4.1.4 用户网络信息建模36-37
  • 4.1.5 用户行为和文本信息建模37-38
  • 4.2 基于SDM的实验和结果分析38-43
  • 4.2.1 SDM有效性实验39-40
  • 4.2.2 参数调优40-41
  • 4.2.3 文本信息的作用41-43
  • 4.4 本章小结43-44
  • 第五章 基于SVM的垃圾用户判别方法44-57
  • 5.1 相关技术介绍44-45
  • 5.2 特征设计45-49
  • 5.2.1 通用特征45-46
  • 5.2.2 文本特征46-48
  • 5.2.3 特殊特征和行为特征48
  • 5.2.4 特征集合48-49
  • 5.3 特征选择49-51
  • 5.4 特征处理和训练预测51
  • 5.5 实验结果和分析51-56
  • 5.5.1 多算法对比实验51-53
  • 5.5.2 不同离散数对比实验53-54
  • 5.5.3 不同类型特征影响实验54-56
  • 5.6 本章小结56-57
  • 第六章 总结与展望57-58
  • 6.1 全文工作总结57
  • 6.2 展望未来57-58
  • 参考文献58-61
  • 致谢61-63
  • 攻读学位期间发表的学术论文目录63

【参考文献】

中国期刊全文数据库 前2条

1 翟延冬;王康平;张东娜;黄岚;周春光;;一种基于WordNet的短文本语义相似性算法[J];电子学报;2012年03期

2 赵斌;吉根林;曲维光;顾彦慧;;基于重用检测的微博垃圾用户过滤算法[J];南京大学学报(自然科学版);2013年04期


  本文关键词:微博垃圾用户行为建模和甄别,由笔耕文化传播整理发布。



本文编号:268048

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/268048.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6c36e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com