微博垃圾账号检测研究
本文选题:异质信息网络 + 垃圾账号 ; 参考:《北京邮电大学》2017年硕士论文
【摘要】:近年来,随着诸如推特、新浪微博一类的新型社交网络的蓬勃发展,人们的生活和娱乐方式也发生了巨大的变化。社交网络为用户提供了在第一时间获取或发布多类型的信息如文本、图片、音频和视频的平台,在人们的日常生活中占有越来越重要的地位。然而,在社交网络为用户提供了信息交换平台的同时,垃圾账号的泛滥严重破坏了社交网络的生态平衡和用户体验。经过调研本课题将垃圾账号定义为主要以“僵尸粉”形式存在的、受机器控制的僵尸账号和以发送垃圾广告或其他垃圾信息为目的垃圾营销账号。本课题以新浪微博中的垃圾账号为研究对象,在对微博垃圾账号的行为特点的分析基础上,采用了一系列的垃圾账号检测方法,并最终通过异质信息网络实现了多类型数据结合的垃圾账号检测。本课题完成的工作分为以下几个方面:1.研究新浪微博数据的高效爬取和存储。2.对当前新浪微博平台中的垃圾账号的行为模式进行了分析和总结,并在此基础上进行了统计特征分析,使用从用户信息和博文信息中抽取的统计特征实现垃圾账号的检测。3.根据微博文本的特点如长度短、用词不规律以及特殊符号的使用等,设计了微博文本预处理过程和以词向量为基础的文本表示模型,通过特征选择和分类算法,实现基于文本的垃圾账号检测。4.研究异质信息网络和相关的相似度算法,构建了微博中的异质信息网络,提出了微博用户信息、博文信息和用户社交信息三类信息的合理结合方案以提升垃圾账号检测的效果,实验结果验证了该方法的有效性。
[Abstract]:In recent years, with the rapid development of new social networks such as Twitter and Sina Weibo, the way people live and play has changed dramatically. Social network provides a platform for users to obtain or publish many kinds of information such as text, picture, audio and video in the first time, which plays an increasingly important role in people's daily life. However, while social networks provide users with a platform for information exchange, the proliferation of spam accounts seriously undermines the ecological balance and user experience of social networks. After the investigation, the spam account is defined as the zombie account which exists mainly in the form of "zombie powder" and the spam marketing account for sending spam advertisement or other spam information. This subject takes the spam account in Sina Weibo as the research object, based on the analysis of the behavior characteristics of the Weibo spam account, a series of spam account detection methods are adopted. And finally through heterogeneous information network to achieve multiple types of data combined with spam account detection. The work accomplished in this project is divided into the following aspects: 1. Research Sina Weibo data efficient crawling and storage. 2. This paper analyzes and summarizes the behavior pattern of spam account in the current Sina Weibo platform, and analyzes the statistical characteristics on the basis of which, using the statistical features extracted from user information and blog post information to realize the detection of spam account. 3. According to the characteristics of Weibo texts, such as short length, irregular use of words and the use of special symbols, the preprocessing process of Weibo text and the text representation model based on word vector are designed, and the algorithm of feature selection and classification is adopted. Implementation of text-based spam account detection. 4. This paper studies heterogeneous information network and related similarity algorithms, constructs heterogeneous information network in Weibo, and proposes a reasonable combination of Weibo user information, blog information and user social information to improve the effect of spam account detection. The experimental results show that the method is effective.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 王炳晨;;全球共网,筑起反垃圾墙——Cloudmark Fingerprinting技术全面对抗垃圾信息[J];微电脑世界;2007年08期
2 李志宇;;对付垃圾短信消费者动力不足[J];通信世界;2008年23期
3 孙升芸;田萱;;产品垃圾评论检测研究综述[J];计算机科学;2011年S1期
4 周光斌;用法律、经济和技术手段围歼垃圾信息[J];现代电信科技;2004年07期
5 树子;;把一切垃圾短信拒之门外[J];数字通信;2007年12期
6 江林芯;蒋艳青;;四川成立12321网络不良与垃圾信息举报受理中心[J];通信与信息技术;2010年01期
7 杨风雷;黎建辉;;用户生成内容中的垃圾意见研究综述[J];计算机应用研究;2011年10期
8 程德杰;;互联网时代垃圾信息的预防和遏制[J];互联网天地;2012年05期
9 孙升芸;田萱;何军;;基于评论行为的商品垃圾评论的识别研究[J];计算机工程与设计;2012年11期
10 ;关于开展垃圾短信息整治专项行动工作方案的通知[J];信息安全与通信保密;2008年07期
相关重要报纸文章 前10条
1 本报记者 王刘芳 实习生 王薇薇;手机垃圾信息谁打扫[N];北京日报;2001年
2 本报记者 聂晓飞;群发器成垃圾短信温床 多部门联防或成有效方式[N];通信信息报;2010年
3 ;74.54%的中国手机用户收到过欺诈类短信[N];中国计算机报;2010年
4 赵缶;学学新加坡 立法治理垃圾短信[N];深圳特区报;2012年
5 ;立法打击垃圾信息成为共识[N];网络世界;2005年
6 李韬;保卫手机[N];计算机世界;2006年
7 程蓉 记者 王春;上海:呼吁立法控制垃圾信息[N];科技日报;2006年
8 谷慧;垃圾短信重打不下[N];民营经济报;2006年
9 通讯员 周 莺;上海市人大代表呼吁制定反垃圾信息法[N];人民代表报;2006年
10 刘恒 通讯员 田源;重庆联通大力整治垃圾短信[N];人民邮电;2006年
相关硕士学位论文 前10条
1 陈妍男;微博垃圾账号检测研究[D];北京邮电大学;2017年
2 龙燕;微博账号的价值评估方法研究[D];暨南大学;2017年
3 张梦佳;微信用户转发意愿研究[D];天津大学;2016年
4 余攀;基于话题模型的教育领域微博账号萃取[D];华中师范大学;2017年
5 黄兴凤;在线社会网络下的垃圾信息过滤技术的研究[D];上海师范大学;2015年
6 王凤娇;垃圾短信判定系统的设计与实现[D];电子科技大学;2013年
7 刘杰;基于用户评价的垃圾评论检测[D];东南大学;2015年
8 刘晓燕;基于规则和相关度的微博垃圾评论检测系统及实现[D];东北大学;2014年
9 林秀娇;基于评论关系图的垃圾评论者检测研究[D];福州大学;2014年
10 邱斌;垃圾信息的通用自动化监测分析方法及电信运营商防范研究[D];南京邮电大学;2016年
,本文编号:2065238
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2065238.html