在线社交网络用户的特征分析与分类检测
本文关键词:在线社交网络用户的特征分析与分类检测,,由笔耕文化传播整理发布。
【摘要】:近年来,随着互联网技术的不断发展,在线社交网站已逐渐成为人们生活中不可或缺的交往方式之一。不同于现实中的社交网络,信息在在线社交网络中的传播速度更快,覆盖人群更多,交互更频繁。微博是一种已经被广泛应用的信息传播载体,是人们互动交流的重要方式。随着时间的发展,微博平台产生多种不同性质的用户,包括僵尸账户、马甲账户、垃圾账户等,它们出于不同的目的,扰乱着微博秩序。作为衡量微博用户知名度及受欢迎程度的重要指标,粉丝数的真实性越发受到人们的关注。投机者受到经济利益的驱使,制造大量的机器用户,引发信任危机。机器用户作为僵尸用户的进化,它与僵尸用户具有许多相似之处:同样是利用程序产生的账户,一样主要以“买卖粉丝”为存在的目的。不同的是这类进化的僵尸用户更具活性,它们的行为更加接近正常用户,以至于新浪微博不能检测出这类账户,而对其封号。如何快速有效的识别机器用户,已成为维护微博平台正常秩序亟待解决的问题。为了探究这一问题,采用机器学习的方法,以新浪微博为例,对中文微博用户特征进行了深入研究,并且对相关的分类算法进行了详细学习及分析,提出了一种最优分类模型,具体工作如下:1、数据采集。介绍了本研究数据采集的步骤,首先分别基于热门话题及“买粉”获得非机器用户集和机器用户集,又详细介绍了新浪API的调用原理,最后通过本文提出的多方法组合的数据提取方案,得到用户和微博的基本信息,构成了本研究的原始数据集。2、特征分析。首先结合新浪微博的特点,获得13项原始特征。再通过分析用户关系特征、用户行为特征、微博内容特征,对原始特征进行再加工,得到9项有效特征,将其表示成向量,作为分类器的输入。最后用累积分布函数图对这些特征进行特征分析。3、最优分类模型。本文首先运用SVM算法验证了特征组合的有效性,用BP神经网络和决策树两种曾经运用在用户分类中的分类算法进行分类,其结果与SVM比较以期得到更好的分类效果。在结果不令人满意的情况下,创造性的引入随机森林算法,提高了分类效果。然后,为了进一步提高分类效率,采用剔减特征法得到最优特征组合,提出了本研究的最优分类模型SBS-Random Forest。4、实例验证。本文随机选取一个用户,采用多方法组合的数据提取方案获取其粉丝的信息,生成粉丝用户的特征集,用SBS-Random Forest分类模型对这些用户进行分类,再与人工投票结果进行比较,最终发现分类效果在接受范围内,得到了用户的机器用户粉丝的比例,再与其他方法进行比较,证明本研究提出的分类模型有效可行,对机器用户的甄别有积极的促进意义。
【关键词】:社交网络 微博 机器用户 数据挖掘 用户行为分析 机器学习
【学位授予单位】:河北师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.09
【目录】:
- 摘要4-6
- Abstract6-11
- 1 绪论11-20
- 1.1 研究背景11-12
- 1.2 相关研究现状综述12-18
- 1.2.1 复杂网络相关研究现状12-13
- 1.2.2 在线社交网络研究现状13-15
- 1.2.3 微博用户分类检测研究现状15-17
- 1.2.4 微博数据采集研究现状17-18
- 1.3 本文所研究内容18
- 1.4 论文的组织结构18-20
- 2 在线社交网络理论基础20-27
- 2.1 复杂网络20-21
- 2.1.1 复杂网络理论基础20-21
- 2.1.2 复杂网络特征21
- 2.2 社交网络21-24
- 2.2.1 社交网络21-22
- 2.2.2 社交网络节点分析22-23
- 2.2.3 在线社交网络用户分类23-24
- 2.3 微博24-26
- 2.3.1 微博的特征24-25
- 2.3.2 微博用户分析25-26
- 2.4 本章小结26-27
- 3 数据采集27-35
- 3.1 获取用户集27-29
- 3.2 获取用户及微博数据29-34
- 3.2.1 OAUTH用户身份认证29-30
- 3.2.2 微博API调用30-32
- 3.2.3 多方法组合的数据提取方案32-34
- 3.3 本章小结34-35
- 4 数据处理35-47
- 4.1 特征生成35-36
- 4.2 特征提取36-41
- 4.2.1 用户关系特征36-38
- 4.2.2 用户行为特征38-39
- 4.2.3 微博内容特征39-41
- 4.3 基于CDF图的特征分析41-46
- 4.3.1 用户关系特征分析41-42
- 4.3.2 用户行为特征分析42-43
- 4.3.3 微博内容特征分析43-46
- 4.4 本章小结46-47
- 5 最优分类模型47-66
- 5.1 SVM验证特征组合有效性47-51
- 5.1.1 支持向量机分类器设计47-49
- 5.1.2 评估标准及分类结果49-51
- 5.2 用户分类检测的传统算法51-57
- 5.2.1 BP神经网络分类器及分类结果52-54
- 5.2.2 决策树分类器及分类结果54-57
- 5.3 随机森林分类算法57-61
- 5.3.1 随机森林分类原理58
- 5.3.2 随机森林分类器及分类结果58-61
- 5.4 最优分类模型SBS-Random Forest61-65
- 5.4.1 最优特征组合61-63
- 5.4.2 最优分类模型建立及验证63-65
- 5.5 本章小结65-66
- 6 总结与展望66-68
- 参考文献68-73
- 致谢73-74
- 攻读硕士学位期间的研究成果74
【相似文献】
中国期刊全文数据库 前10条
1 ;基于位置的手机社交网络“贝多”正式发布[J];中国新通信;2008年06期
2 曹增辉;;社交网络更偏向于用户工具[J];信息网络;2009年11期
3 ;美国:印刷企业青睐社交网络营销新方式[J];中国包装工业;2010年Z1期
4 李智惠;柳承烨;;韩国移动社交网络服务的类型分析与促进方案[J];现代传播(中国传媒大学学报);2010年08期
5 贾富;;改变一切的社交网络[J];互联网天地;2011年04期
6 谭拯;;社交网络:连接与发现[J];广东通信技术;2011年07期
7 陈一舟;;社交网络的发展趋势[J];传媒;2011年12期
8 殷乐;;全球社交网络新态势及文化影响[J];新闻与写作;2012年01期
9 许丽;;社交网络:孤独年代的集体狂欢[J];上海信息化;2012年09期
10 李玲丽;吴新年;;科研社交网络的发展现状及趋势分析[J];图书馆学研究;2013年01期
中国重要会议论文全文数据库 前10条
1 赵云龙;李艳兵;;社交网络用户的人格预测与关系强度研究[A];第七届(2012)中国管理学年会商务智能分会场论文集(选编)[C];2012年
2 宫广宇;李开军;;对社交网络中信息传播的分析和思考——以人人网为例[A];首届华中地区新闻与传播学科研究生学术论坛获奖论文[C];2010年
3 杨子鹏;乔丽娟;王梦思;杨雪迎;孟子冰;张禹;;社交网络与大学生焦虑缓解[A];心理学与创新能力提升——第十六届全国心理学学术会议论文集[C];2013年
4 毕雪梅;;体育虚拟社区中的体育社交网络解析[A];第九届全国体育科学大会论文摘要汇编(4)[C];2011年
5 杜p
本文编号:389542
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/389542.html