微博垃圾信息检测
发布时间:2017-12-22 07:23
本文关键词:微博垃圾信息检测 出处:《中国科学技术大学》2015年硕士论文 论文类型:学位论文
【摘要】:微博已经成为人们社会生活中一个重要的信息传播与交流平台。海量的微博数据蕴含着大量有价值的信息,这些信息对于政府和企业决策有着重要的参考意义,例如,可以让商家更好的了解市场状况并优化营销策略,可以让政府部门更好地了解社会舆情。 但是,近年来微博平台上出现了许多的垃圾用户(如僵尸粉)和垃圾微博(例如广告推广信息)。这些垃圾信息的存在不仅影响微博数据挖掘和决策分析的效果,也会影响微博平台的健康发展和用户的使用体验。因此,检测并过滤微博垃圾信息对微博数据分析和挖掘工作具有重要的作用与意义。本文主要研究了微博垃圾信息检测的两类问题——垃圾用户检测和垃圾微博检测。垃圾用户主要包括僵尸粉和营销型用户;垃圾微博是指含有话题的微博中微博内容与话题不相关的微博。本文主要的工作和贡献可总结为以下两点: (1)微博垃圾用户检测 通过对用户特征的详细分析,我们发现僵尸粉与营销用户在特征上有显著的差异,因此我们提出了将垃圾用户分为僵尸粉和营销用户分别检测的思路。针对僵尸粉型垃圾用户,我们提出了通过用户社交关系计算正常/垃圾得分辅助检测微博垃圾用户的方法。针对营销型垃圾用户,我们提出了借助重复信息发现潜在垃圾用户的方法。实际数据集上的实验验证了我们所提方法的有效性。(2)话题背景下的垃圾微博检测 在含有话题的微博中,存在着一些微博的内容与当前话题并不相关的微博。这些垃圾微博不仅影响了普通用户对此话题的浏览时的体验,在后续的话题分析等相关工作中也会影响数据分析的效果。针对话题背景下的垃圾微博检测问题,本文提出了结合用户可信度的垃圾微博检测方法。该方法不仅考虑了微微博本及自身相关特征,还考虑了微博作者的可信度。实际数据集上的实验验证了我们所提方法的有效性。
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【参考文献】
中国期刊全文数据库 前3条
1 曹鹏;李静远;满彤;刘悦;程学旗;;Twitter中近似重复消息的判定方法研究[J];中文信息学报;2011年01期
2 王琳;冯时;徐伟丽;杨卓;王大玲;张一飞;;一种面向微博客文本流的噪音判别与内容相似性双重检测的过滤方法[J];计算机应用与软件;2012年08期
3 陈,
本文编号:1318931
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1318931.html