微博恶意用户识别方法的研究
本文选题:微博 切入点:恶意用户 出处:《北京交通大学》2017年硕士论文
【摘要】:随着互联网的飞速发展,以Twitter、Facebook为代表的社交网络也得到了迅猛发展,社交网络逐渐成为现代人生活中不可或缺的一部分。在国内,最具代表性的社交网络是微博,它扮演的角色早已超越单纯的社交,已然成为一个信息的集中扩散中心。同时,微博被恶意用户所利用。这些用户以庞大的数量传播着虚假信息、恶意信息,影响人们对事件的看法。因此,对反恶意用户的研究具有重要的现实意义,其中恶意用户识别技术就是一个重要的研究热点。本论文以新浪微博用户为对象,重点研究微博网络中恶意用户识别的问题。论文的研究工作得到了国家自然科学基金项目(No.61271308、61172072、61401015)与北京市教育委员会研究生学科建设项目的支持论文的主要工作包括:论文从恶意用户特征入手,依据微博的功能特性以及用户的使用习惯,分析并发现了对于微博中的"收藏"功能,恶意用户与正常用户的使用习惯有着较大的差别。因此,本文将"收藏数量"及"收藏速度"加入到特征列表,验证其对于恶意用户识别效果的贡献度。论文使用Weka Java API对Weka中的算法进行调用及参数调优,针对用户信息缺失的情况,分别对比了朴素贝叶斯算法、C4.5决策树、随机森林三种算法在处理缺失数据前后的分类效果。分析对比得出的结论是:在数据存在缺失的情况下,C4.5决策树与随机森林算法都有较好的鲁棒性,尤其是随机森林算法效果更佳。论文还对实际的使用情况进行了模拟实现,研究了在需要处理较大规模的数据时如何提高恶意用户识别算法的效率。通过部署Hadoop分布式架构,分别对比了不同节点数对不同大小数据集的处理时间,及恶意用户的识别效果。论文从用户特征的角度分析恶意用户与正常用户的差异,并根据这些特征选取合适的分类算法对恶意用户进行识别,识别准确率接近90%。
[Abstract]:With the rapid development of the Internet, social networks, such as Twitter and Facebook, have also developed rapidly, and social networks have gradually become an integral part of modern life.In China, Weibo is the most representative social network.At the same time, Weibo was used by malicious users.These users spread false information and malicious information in a large number to influence people's views on events.Therefore, the research on anti-malicious users has important practical significance, among which malicious user identification technology is an important research hotspot.This paper focuses on the problem of malicious user identification in Weibo network.The research work of the thesis has been supported by the National Natural Science Foundation Project No. 61271308FU 61172072Pu 61401015) and the main work of this thesis is as follows: the thesis starts with the characteristics of malicious users.According to Weibo's functional characteristics and user's usage habits, the author analyzes and finds out that there are great differences between malicious users and normal users' usage habits for the "collection" function in Weibo.Therefore, this paper adds "collection quantity" and "collection speed" to the feature list to verify its contribution to malicious user identification.In this paper, Weka Java API is used to call and tune the parameters of the algorithm in Weka. Aiming at the lack of user information, the classification effects of the naive Bayesian algorithm C4.5 decision tree and the random forest algorithm before and after processing the missing data are compared respectively.The conclusion of analysis and comparison is that C4.5 decision tree and stochastic forest algorithm have better robustness, especially the effect of stochastic forest algorithm is better.The paper also simulates the actual usage and studies how to improve the efficiency of malicious user identification algorithm when dealing with large scale data.By deploying Hadoop distributed architecture, the processing time of different node points to different size data sets and the effect of malicious user identification are compared.This paper analyzes the differences between malicious users and normal users from the point of view of user characteristics, and selects appropriate classification algorithms according to these features to identify malicious users, and the recognition accuracy is close to 90%.
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP18;TP393.092
【相似文献】
相关期刊论文 前10条
1 梁万荣;;载波技术在台区用户识别中的应用[J];农村电气化;2007年03期
2 志宏;用户识别与信息验证的一种方法[J];通信保密;1983年01期
3 傅山铖;李燕寅;赵振煜;王诗云;;关于空巢老人手机用户识别的方法初探[J];电子世界;2014年01期
4 ;如何解除手机自锁[J];家庭科技;2000年09期
5 ;手机自锁如何解[J];广西质量监督导报;2001年04期
6 文尧;;偷懒也可做慈善[J];成功营销;2011年11期
7 叶娜;赵银亮;边根庆;李健;何箐;;模式无关的社交网络用户识别算法[J];西安交通大学学报;2013年12期
8 ;贝加莱 便于用户识别的RFID技术[J];自动化博览;2010年10期
9 李煊,庄镇泉;Web访问挖掘预处理的用户识别算法[J];计算机工程与应用;2002年07期
10 汤伟;黄培磊;陈璐艺;林祥;;基于行为分析的Web日志用户识别算法[J];软件产业与工程;2013年06期
相关会议论文 前2条
1 童建刚;;计算机用户识别技术[A];第三次全国计算机安全技术交流会论文集[C];1988年
2 孙伟;周灿;徐春虎;房晨婕;张超;李占先;严纯华;;构筑具有用户识别能力的分子计算平台[A];中国化学会第26届学术年会无机与配位化学分会场论文集[C];2008年
相关重要报纸文章 前2条
1 赵慧玲 吴江;VPN放心用[N];中国计算机报;2001年
2 刘春辉;加强“标识的唯一性”研究为下一代网服务[N];人民邮电;2006年
相关博士学位论文 前2条
1 刘士喜;社会网络环境下基于信任关系的影响用户识别方法研究[D];合肥工业大学;2016年
2 李楠;软件产品创新中的领先用户识别研究[D];东北财经大学;2012年
相关硕士学位论文 前9条
1 李自豪;微博恶意用户识别方法的研究[D];北京交通大学;2017年
2 魏聪;互联网访问数据用户识别与兴趣度分析[D];东华大学;2015年
3 沈昌干;运营商数据管理平台中的独立用户识别研究[D];东华大学;2015年
4 赵建勋;微博恶意用户识别[D];北京交通大学;2016年
5 陈媛媛;移动通信系统中校园用户精确识别与细分研究[D];重庆大学;2010年
6 何荣华;智能云电视的用户识别系统设计与实现[D];大连理工大学;2014年
7 李桐;消费类软件产品的领先用户识别研究[D];东北财经大学;2013年
8 李福明;基于海量信令数据的服务业线上活跃用户识别系统的设计与实现[D];北京邮电大学;2015年
9 李丽欣;微博群体网络结构及其核心用户识别[D];哈尔滨工业大学;2014年
,本文编号:1715962
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1715962.html