基于微博内容的恶意用户识别技术研究

发布时间：2020-03-20 08:16

【摘要】：自媒体时代的到来让更多的人加入到了网络当中。人们在社交平台中尽情分享自己的所知所见,同时也通过社交网络了解各种各样的新鲜事。但是社交平台也吸引了大量的垃圾用户,他们在社交平台上发布各种广告等垃圾信息,严重影响了正常用户的平台体验。新浪微博作为目前最受欢迎的中文社交平台之一也深受各种垃圾用户的影响。因此,检测出各种不同的垃圾用户十分必要。本文针对上述问题,基于用户发布的微博内容,提出了利用语义分析、统计分析以及机器学习等技术对不同用户进行检测的方法。该方法能够有效实现对新浪微博中恶意用户的多分类检测。具体成果如下:首先,实现了可识别恶意词汇变体的可扩展恶意词典。本文通过添加微博环境下的停用表,考虑微博恶意词汇变体,改进了基于语义信息的可扩展恶意词典,并利用该词典完成了微博恶意评论的检测。检测结果显示本文在保证恶意评论检测精确率的前提下,得到82.8%的召回率,可以实现召回率的提高。其次,设计并实现了一种利用统计信息对用户进行分类的方法。本文利用恶意词典,计算得到微博用户的恶意分数,并且根据这些分数以及设计的分类方法成功将用户分成3类,分别为普通用户、广告色情用户以及打榜用户,每种用户的召回率和精确率可以达到90%。最后,实现了基于机器学习的恶意用户检测。本文利用最初构建的恶意词典库提取出恶意博文占比以及博文发布时间间隔等特征值,分别用决策树算法、AdaBoost提升算法以及SVM算法对用户进行分类实验。实验研究表明,SVM算法实验效果最优。
【图文】：

过程图,网络爬虫,过程

本节主要内容是爬虫技术的介绍，分为两个部分，首先介绍网络爬虫的相逡逑关知识，接着介绍的是在设计并实现Ｊａｖａ爬虫程序时所使用到的Ｊａｖａ爬虫框逡逑架邋ＷｅｂＣｏｌｌｅｃｔｏｒ［２１］。逡逑２．１．１网络爬虫技术逡逑网络爬虫是一种利用计算机获取万维网上资源的技术。使用的算法有逡逑ｆｉｓｈ－ｓｅａｒｃｈ算法和ｓｈａｒｋ－ｓｅａｒｃｈ算法等［２２］。网络爬虫分为传统的爬虫、主题爬ｉＵ逡逑以及深层网络爬虫［２３］。传统的爬虫首先选定初始种子，从这些初始种子开始进逡逑行爬虫，在获取网络页面过程中，不断获取并更新统一资源定位符（Ｕｎｉｆｏｒｍ逡逑Ｒｅｓｏｕｒｃｅ邋Ｌｏｃａｔｏｒ，邋ＵＲＬ），然后再从这些链接继续爬虫直到达到要求为止。图逡逑２－１描述了传统网络爬虫的工作原理。主题爬虫与传统爬虫的不同之处在于它逡逑选择的网页是确定主题的，而不会将所有网页都采集进来［２４１因此，相比较迎逡逑用爬虫技术，主题爬虫获得的数据资源更加准确，，爬取的效率相对而言也更高。逡逑深层网络爬虫可以获取隐藏在网页中的信息，深层网络爬虫在获取页面时并不逡逑会立即遍历其中的超链接而是会先进行处理并分类，以便获取更多信息。逡逑

结构图,代码组,模块,用户信息

３．１．３爬虫系统的实现逡逑（１）爬虫系统代码组织结构逡逑图３－４为爬虫系统的代码组织结构图，其中数据模型类保存在ｅｄｕ．ｗｙｎ．ｂｅａｎ逡逑数据包，主要的爬虫模块的实现以及数据处理类存储在ｅｄｕ．ｗｙｎ．ＳｉｎａＳｐｉｄｅｒ数逡逑据包，工具类以及数据库操作类保存在ｅｄｕ．ｗｙｎ．ｔｏｄｓ数据包。每个包中的文件逡逑作用如表３－５所示。逡逑表３－５代码结构说明逡逑包名逦类文件逦ｆｍ逦逡逑ｅｄｕ．ｗｙｎ．ｂｅａｎ逦Ｃｏｍｍｅｎｔｊａｖａ逦用户评论数据模型，存储评论相关信息。如，逡逑逦评论发布者ｉｄ，及其首页链接等。逦逡逑Ｕｓｅｒ．ｊａｖａ逦用户数据模型，存储微博用户基本信息。如，逡逑逦用户ｉｄ，用户发布的微博数目等。逦逡逑ＷｅｉｂｏＢｅａｎｊａｖａ逦微博数据模型，存储用户发布的微博信息。逡逑逦包括发布者ｉｄ
【学位授予单位】：北京邮电大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP393.092

【参考文献】