当前位置:主页 > 科技论文 > 软件论文 >

基于协同训练的社交网络垃圾用户检测的研究

发布时间:2019-06-17 19:06
【摘要】:近年来,随着web 2.0技术的不断发展与成熟,社交网络作为人类社会的一种交流工具,给人们之间的沟通和交流带来了极大的便利。然而,社交网络中的大量垃圾信息和垃圾用户严重影响了人们之间的交流。这些垃圾信息和垃圾用户不但消耗大量的网络资源,而且有可能使合法用户的权益受到损害。现有的社交网络垃圾信息和垃圾用户检测技术通常以大量的标记数据为基础,采用监督学习的策略。然而,人工标记数据是一件复杂易出错的工作,且需要消耗大量的人力和物力。因此,有必要研究如何使用较少的标记数据来检测垃圾信息和垃圾用户。为了解决上述问题,本文提出一种半监督分类框架来检测社交网络中的垃圾用户。此框架将协同训练与聚类算法相结合,首先通过K中心点聚类算法来识别和标记一些信息量大并且有代表性的样本作为半监督学习的初始种子集,然后利用用户的内容特征和行为特征进行协同训练。协同训练分类框架不断预测用户的标记,将置信度较高且满足一定阈值的用户作为新的训练集,重新训练学习模型。通过不断地迭代最终得到一个优化的分类模型。本文首先介绍了社交网络垃圾的危害及检测社交网络垃圾用户的必要性,接着对社交网络中垃圾作弊检测技术与相关理论进行了概述,然后详细阐述了本文所提出的基于协同训练的半监督分类检测框架的算法与实现,最后在真实的Twitter数据集上进行了实验和分析,结果验证了本文所提出框架的有效性与正确性。实验结果表明本文提出的检测框架在标记样本较少的情况下,依然能训练出正确的模型并且实验效果显著。
[Abstract]:In recent years, with the continuous development and maturity of web 2.0 technology, social network, as a communication tool of human society, has brought great convenience to the communication and communication between people. However, a large number of junk information and junk users in social networks seriously affect the communication between people. These junk information and garbage users not only consume a lot of network resources, but also may damage the rights and interests of legitimate users. The existing social network spam and junk user detection technology is usually based on a large number of marked data and adopts the strategy of supervised learning. However, manual marking of data is a complex and error-prone work, and needs to consume a lot of manpower and material resources. Therefore, it is necessary to study how to use less tagged data to detect spam and junk users. In order to solve the above problems, this paper proposes a semi-supervised classification framework to detect junk users in social networks. This framework combines collaborative training with clustering algorithm. Firstly, some samples with large amount of information and representative samples are identified and marked by K center point clustering algorithm as the initial subset of semi-supervised learning, and then collaborative training is carried out by using the content and behavior characteristics of users. The collaborative training classification framework constantly forecasts the user's mark, takes the user with high confidence and meets a certain threshold as the new training set, and retrains the learning model. Finally, an optimized classification model is obtained by continuous iteration. This paper first introduces the harm of social network garbage and the necessity of detecting social network garbage users, then summarizes the detection technology and related theories of garbage cheating in social network, then expounds in detail the algorithm and implementation of the semi-supervised classification detection framework based on collaborative training, and finally carries on the experiment and analysis on the real Twitter data set. The results verify the effectiveness and correctness of the proposed framework. The experimental results show that the detection framework proposed in this paper can still train the correct model under the condition of small number of marking samples, and the experimental effect is remarkable.
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.09;TP311.13

【相似文献】

相关期刊论文 前10条

1 ;基于位置的手机社交网络“贝多”正式发布[J];中国新通信;2008年06期

2 曹增辉;;社交网络更偏向于用户工具[J];信息网络;2009年11期

3 ;美国:印刷企业青睐社交网络营销新方式[J];中国包装工业;2010年Z1期

4 李智惠;柳承烨;;韩国移动社交网络服务的类型分析与促进方案[J];现代传播(中国传媒大学学报);2010年08期

5 贾富;;改变一切的社交网络[J];互联网天地;2011年04期

6 谭拯;;社交网络:连接与发现[J];广东通信技术;2011年07期

7 陈一舟;;社交网络的发展趋势[J];传媒;2011年12期

8 殷乐;;全球社交网络新态势及文化影响[J];新闻与写作;2012年01期

9 许丽;;社交网络:孤独年代的集体狂欢[J];上海信息化;2012年09期

10 李玲丽;吴新年;;科研社交网络的发展现状及趋势分析[J];图书馆学研究;2013年01期

相关会议论文 前10条

1 赵云龙;李艳兵;;社交网络用户的人格预测与关系强度研究[A];第七届(2012)中国管理学年会商务智能分会场论文集(选编)[C];2012年

2 宫广宇;李开军;;对社交网络中信息传播的分析和思考——以人人网为例[A];首届华中地区新闻与传播学科研究生学术论坛获奖论文[C];2010年

3 杨子鹏;乔丽娟;王梦思;杨雪迎;孟子冰;张禹;;社交网络与大学生焦虑缓解[A];心理学与创新能力提升——第十六届全国心理学学术会议论文集[C];2013年

4 毕雪梅;;体育虚拟社区中的体育社交网络解析[A];第九届全国体育科学大会论文摘要汇编(4)[C];2011年

5 杜p,

本文编号:2501193


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2501193.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7205e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com