基于社交网络的垃圾用户检测方法分析与实现
本文选题:垃圾检测 切入点:用户分类 出处:《北京交通大学》2017年硕士论文 论文类型:学位论文
【摘要】:随着互联网的快速发展,社交网络成为人们获取信息和交流互动的重要平台。人们期待社交网络成为一个安全、可靠的交流平台,然而,层出不穷的传播垃圾信息的行为对正常用户造成了极大的干扰,甚至威胁着用户的个人信息安全。如何对垃圾用户及其发布的垃圾消息进行识别,已经成为了亟待解决的问题。本文针对垃圾用户的检测问题,提出了基于内容识别和基于特征识别的两种算法,从不同的角度识别出垃圾用户。一方面,搭建了基于字符粒度的卷积神经网络CharCNN用于垃圾信息检测,直接使用汉字作为输入特征,通过实验验证了汉字用于字符级CNN的优越性,准确率达到了 93%。在此基础上,为了通过垃圾信息定位垃圾用户,引入序贯概率比模型,使用CNN模型对用户发送的消息进行分类,通过对分类结果序列建模,实现对用户的实时监控及分类,从而有效识别出垃圾用户。另一方面,以新浪微博为研究对象,基于微博用户的特点,从用户信息,用户行为,社交关系和博文文本内容等四个角度出发,分析了可用的特征集合并完成了特征信息获取算法的设计。通过多种特征选择算法完成特征排序后,结合不同类别的分类器在平衡数据集以及不平衡数据集上的表现,选出了最优特征子集与最佳分类器的搭配,完成了垃圾用户的检测算法。并通过实验证明了算法的有效性,准确率达到了 90%。最后,设计并实现了一个垃圾用户分类检测及标注系统,该系统可以完成样本数据的获取并使用两种分类算法完成分类预测,通过仿真测试证明了两种算法的有效性。
[Abstract]:With the rapid development of the Internet, social networking has become an important platform for people to access information and communicate with each other. The behavior of spreading spam information in endlessly has caused great interference to the normal users and even threatened the personal information security of the users. In this paper, two algorithms based on content recognition and feature recognition are proposed to identify garbage users from different angles. A convolution neural network (CharCNN) based on character granularity is built for spam detection, and Chinese characters are directly used as input features. The superiority of Chinese characters used in character level CNN is verified by experiments, and the accuracy is 933%. In order to locate the garbage users through spam information, the sequential probability ratio model is introduced, and the CNN model is used to classify the messages sent by the users. By modeling the sequence of the classification results, the real-time monitoring and classification of the users are realized. On the other hand, taking Weibo of Sina as the research object, based on the characteristics of the user, from four angles of user information, user behavior, social relations and the content of the blog text, The available feature sets are analyzed and the design of feature information acquisition algorithm is completed. After several feature selection algorithms are used to complete feature sorting, the performance of different classifiers on balanced and unbalanced data sets is combined. The collocation of the optimal feature subset and the best classifier is selected, and the detection algorithm of garbage user is completed. The validity of the algorithm is proved by experiments, and the accuracy reaches 90%. Finally, A garbage user classification detection and tagging system is designed and implemented. The system can obtain the sample data and use two classification algorithms to complete the classification prediction. The simulation results show that the two algorithms are effective.
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092;TP391.1
【相似文献】
相关期刊论文 前10条
1 Bruce Antelman;李雯;;社交网络[J];高校图书馆工作;2008年01期
2 ;基于位置的手机社交网络“贝多”正式发布[J];中国新通信;2008年06期
3 曹增辉;;社交网络更偏向于用户工具[J];信息网络;2009年11期
4 ;美国:印刷企业青睐社交网络营销新方式[J];中国包装工业;2010年Z1期
5 李智惠;柳承烨;;韩国移动社交网络服务的类型分析与促进方案[J];现代传播(中国传媒大学学报);2010年08期
6 贾富;;改变一切的社交网络[J];互联网天地;2011年04期
7 谭拯;;社交网络:连接与发现[J];广东通信技术;2011年07期
8 陈一舟;;社交网络的发展趋势[J];传媒;2011年12期
9 殷乐;;全球社交网络新态势及文化影响[J];新闻与写作;2012年01期
10 许丽;;社交网络:孤独年代的集体狂欢[J];上海信息化;2012年09期
相关会议论文 前10条
1 赵云龙;李艳兵;;社交网络用户的人格预测与关系强度研究[A];第七届(2012)中国管理学年会商务智能分会场论文集(选编)[C];2012年
2 宫广宇;李开军;;对社交网络中信息传播的分析和思考——以人人网为例[A];首届华中地区新闻与传播学科研究生学术论坛获奖论文[C];2010年
3 杨子鹏;乔丽娟;王梦思;杨雪迎;孟子冰;张禹;;社交网络与大学生焦虑缓解[A];心理学与创新能力提升——第十六届全国心理学学术会议论文集[C];2013年
4 毕雪梅;;体育虚拟社区中的体育社交网络解析[A];第九届全国体育科学大会论文摘要汇编(4)[C];2011年
5 杜p,
本文编号:1595580
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1595580.html