基于微博内容的恶意用户识别技术研究
发布时间:2020-03-20 08:16
【摘要】:自媒体时代的到来让更多的人加入到了网络当中。人们在社交平台中尽情分享自己的所知所见,同时也通过社交网络了解各种各样的新鲜事。但是社交平台也吸引了大量的垃圾用户,他们在社交平台上发布各种广告等垃圾信息,严重影响了正常用户的平台体验。新浪微博作为目前最受欢迎的中文社交平台之一也深受各种垃圾用户的影响。因此,检测出各种不同的垃圾用户十分必要。本文针对上述问题,基于用户发布的微博内容,提出了利用语义分析、统计分析以及机器学习等技术对不同用户进行检测的方法。该方法能够有效实现对新浪微博中恶意用户的多分类检测。具体成果如下:首先,实现了可识别恶意词汇变体的可扩展恶意词典。本文通过添加微博环境下的停用表,考虑微博恶意词汇变体,改进了基于语义信息的可扩展恶意词典,并利用该词典完成了微博恶意评论的检测。检测结果显示本文在保证恶意评论检测精确率的前提下,得到82.8%的召回率,可以实现召回率的提高。其次,设计并实现了一种利用统计信息对用户进行分类的方法。本文利用恶意词典,计算得到微博用户的恶意分数,并且根据这些分数以及设计的分类方法成功将用户分成3类,分别为普通用户、广告色情用户以及打榜用户,每种用户的召回率和精确率可以达到90%。最后,实现了基于机器学习的恶意用户检测。本文利用最初构建的恶意词典库提取出恶意博文占比以及博文发布时间间隔等特征值,分别用决策树算法、AdaBoost提升算法以及SVM算法对用户进行分类实验。实验研究表明,SVM算法实验效果最优。
【图文】:
本节主要内容是爬虫技术的介绍,分为两个部分,首先介绍网络爬虫的相逡逑关知识,接着介绍的是在设计并实现Java爬虫程序时所使用到的Java爬虫框逡逑架邋WebCollector[21]。逡逑2.1.1网络爬虫技术逡逑网络爬虫是一种利用计算机获取万维网上资源的技术。使用的算法有逡逑fish-search算法和shark-search算法等[22]。网络爬虫分为传统的爬虫、主题爬iU逡逑以及深层网络爬虫[23]。传统的爬虫首先选定初始种子,从这些初始种子开始进逡逑行爬虫,在获取网络页面过程中,不断获取并更新统一资源定位符(Uniform逡逑Resource邋Locator,邋URL),然后再从这些链接继续爬虫直到达到要求为止。图逡逑2-1描述了传统网络爬虫的工作原理。主题爬虫与传统爬虫的不同之处在于它逡逑选择的网页是确定主题的,而不会将所有网页都采集进来[241因此,相比较迎逡逑用爬虫技术,主题爬虫获得的数据资源更加准确,,爬取的效率相对而言也更高。逡逑深层网络爬虫可以获取隐藏在网页中的信息,深层网络爬虫在获取页面时并不逡逑会立即遍历其中的超链接而是会先进行处理并分类,以便获取更多信息。逡逑
3.1.3爬虫系统的实现逡逑(1)爬虫系统代码组织结构逡逑图3-4为爬虫系统的代码组织结构图,其中数据模型类保存在edu.wyn.bean逡逑数据包,主要的爬虫模块的实现以及数据处理类存储在edu.wyn.SinaSpider数逡逑据包,工具类以及数据库操作类保存在edu.wyn.tods数据包。每个包中的文件逡逑作用如表3-5所示。逡逑表3-5代码结构说明逡逑包名逦类文件逦fm逦逡逑edu.wyn.bean逦Commentjava逦用户评论数据模型,存储评论相关信息。如,逡逑逦评论发布者id,及其首页链接等。逦逡逑User.java逦用户数据模型,存储微博用户基本信息。如,逡逑逦用户id,用户发布的微博数目等。逦逡逑WeiboBeanjava逦微博数据模型,存储用户发布的微博信息。逡逑逦包括发布者id
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP393.092
本文编号:2591517
【图文】:
本节主要内容是爬虫技术的介绍,分为两个部分,首先介绍网络爬虫的相逡逑关知识,接着介绍的是在设计并实现Java爬虫程序时所使用到的Java爬虫框逡逑架邋WebCollector[21]。逡逑2.1.1网络爬虫技术逡逑网络爬虫是一种利用计算机获取万维网上资源的技术。使用的算法有逡逑fish-search算法和shark-search算法等[22]。网络爬虫分为传统的爬虫、主题爬iU逡逑以及深层网络爬虫[23]。传统的爬虫首先选定初始种子,从这些初始种子开始进逡逑行爬虫,在获取网络页面过程中,不断获取并更新统一资源定位符(Uniform逡逑Resource邋Locator,邋URL),然后再从这些链接继续爬虫直到达到要求为止。图逡逑2-1描述了传统网络爬虫的工作原理。主题爬虫与传统爬虫的不同之处在于它逡逑选择的网页是确定主题的,而不会将所有网页都采集进来[241因此,相比较迎逡逑用爬虫技术,主题爬虫获得的数据资源更加准确,,爬取的效率相对而言也更高。逡逑深层网络爬虫可以获取隐藏在网页中的信息,深层网络爬虫在获取页面时并不逡逑会立即遍历其中的超链接而是会先进行处理并分类,以便获取更多信息。逡逑
3.1.3爬虫系统的实现逡逑(1)爬虫系统代码组织结构逡逑图3-4为爬虫系统的代码组织结构图,其中数据模型类保存在edu.wyn.bean逡逑数据包,主要的爬虫模块的实现以及数据处理类存储在edu.wyn.SinaSpider数逡逑据包,工具类以及数据库操作类保存在edu.wyn.tods数据包。每个包中的文件逡逑作用如表3-5所示。逡逑表3-5代码结构说明逡逑包名逦类文件逦fm逦逡逑edu.wyn.bean逦Commentjava逦用户评论数据模型,存储评论相关信息。如,逡逑逦评论发布者id,及其首页链接等。逦逡逑User.java逦用户数据模型,存储微博用户基本信息。如,逡逑逦用户id,用户发布的微博数目等。逦逡逑WeiboBeanjava逦微博数据模型,存储用户发布的微博信息。逡逑逦包括发布者id
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP393.092
【参考文献】
相关期刊论文 前6条
1 郑木刚;刘木林;沈昱明;;一种基于词典的中文分词改进算法[J];软件导刊;2016年03期
2 康恺;张颖君;连一峰;刘玉岭;;一种社交网络Sybil用户检测方法[J];计算机科学;2016年01期
3 李立耀;孙鲁敬;杨家海;;社交网络研究综述[J];计算机科学;2015年11期
4 张玉清;吕少卿;范丹;;在线社交网络中异常帐号检测方法研究[J];计算机学报;2015年10期
5 珠杰;李天瑞;;藏文停用词选取与自动处理方法研究[J];中文信息学报;2015年02期
6 郭云龙;潘玉斌;张泽宇;李莉;;基于证据理论的多分类器中文微博观点句识别[J];计算机工程;2014年04期
本文编号:2591517
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/2591517.html