基于XGBoost方法的社交网络异常用户检测技术
发布时间:2021-08-01 05:31
针对传统社交网络异常用户检测算法应用于现实中非平衡数据集时存在召回率低、运行效率低等问题,对社交网络数据集提取用户内容、行为、属性、关系特征,应用梯度增强集成分类器XGBoost算法进行特征选择,建立分类模型,构造非平衡数据集并识别三类垃圾广告发送账号。实验结果表明,该方法与随机森林等传统分类方法相比,对平衡及非平衡数据集进行异常用户检测均实现召回率和F1值的有效提升;同时其选取少量特征同样可达到较高检测水平,证明了该方法的有效性。
【文章来源】:计算机应用研究. 2020,37(03)北大核心CSCD
【文章页数】:4 页
【部分图文】:
实验步骤
社交网络异常用户检测的本质是将数据集中的所有样本划分为正常用户及各类异常用户的多分类任务。本文选择XGBoost(extreme gradient boosting)[15]集成提升方法构建分类模型。分类训练数据集的每一个样本对应社交网络中的每一个用户,由包含内容、行为、属性、关系等在内的n维特征向量xi和对应的p个类别标签yi构成:{xi,yi}i∈[1,m],xi∈Rn,yi∈{class1,class2,…,classp}。基于XGBoost对用户进行分类的方法是通过学习输入的训练样本构造分类模型,挖掘特征取值xi与类别标签yi的关系f(xi)=yi,从而预测新样本的类别。整体检测流程如图1所示。对本文分类任务,XGBoost每一轮训练都是在上一轮的基础上迭代产生的,第t次迭代对生成树构造的目标函数为
经验证,参数max_depth=3,n_estimators=100,n_threthould=none时,XGBoost可获得最优分类效果,如图2、3所示。图3为内循环选择模型参数,外循环验证实验结果。图3 实验步骤
【参考文献】:
期刊论文
[1]面向网络舆情数据的异常行为识别[J]. 郝亚洲,郑庆华,陈艳平,闫彩霞. 计算机研究与发展. 2016(03)
[2]基于RSBoost算法的不平衡数据分类方法[J]. 李克文,杨磊,刘文英,刘璐,刘洪太. 计算机科学. 2015(09)
[3]在线社交网络中异常帐号检测方法研究[J]. 张玉清,吕少卿,范丹. 计算机学报. 2015(10)
硕士论文
[1]基于行为分析的社交网络异常账号的检测[D]. 刘琛.北京交通大学 2017
本文编号:3314914
【文章来源】:计算机应用研究. 2020,37(03)北大核心CSCD
【文章页数】:4 页
【部分图文】:
实验步骤
社交网络异常用户检测的本质是将数据集中的所有样本划分为正常用户及各类异常用户的多分类任务。本文选择XGBoost(extreme gradient boosting)[15]集成提升方法构建分类模型。分类训练数据集的每一个样本对应社交网络中的每一个用户,由包含内容、行为、属性、关系等在内的n维特征向量xi和对应的p个类别标签yi构成:{xi,yi}i∈[1,m],xi∈Rn,yi∈{class1,class2,…,classp}。基于XGBoost对用户进行分类的方法是通过学习输入的训练样本构造分类模型,挖掘特征取值xi与类别标签yi的关系f(xi)=yi,从而预测新样本的类别。整体检测流程如图1所示。对本文分类任务,XGBoost每一轮训练都是在上一轮的基础上迭代产生的,第t次迭代对生成树构造的目标函数为
经验证,参数max_depth=3,n_estimators=100,n_threthould=none时,XGBoost可获得最优分类效果,如图2、3所示。图3为内循环选择模型参数,外循环验证实验结果。图3 实验步骤
【参考文献】:
期刊论文
[1]面向网络舆情数据的异常行为识别[J]. 郝亚洲,郑庆华,陈艳平,闫彩霞. 计算机研究与发展. 2016(03)
[2]基于RSBoost算法的不平衡数据分类方法[J]. 李克文,杨磊,刘文英,刘璐,刘洪太. 计算机科学. 2015(09)
[3]在线社交网络中异常帐号检测方法研究[J]. 张玉清,吕少卿,范丹. 计算机学报. 2015(10)
硕士论文
[1]基于行为分析的社交网络异常账号的检测[D]. 刘琛.北京交通大学 2017
本文编号:3314914
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3314914.html