社交网络异常用户检测技术研究
发布时间:2020-12-05 19:51
近年来,社交网络服务蓬勃发展,但由于自身具有开放性,在人们对其依赖性日益增长的同时,涌现出大量恶意牟利的异常用户,他们发送广告链接、传播虚假信息、甚至发起恶意攻击等,不仅降低社交网络的服务质量,扰乱社交网络秩序,还对正常用户带来严重的安全威胁,为公安工作带来严峻挑战。本文综合分析了国内外学术成果和现有研究方法,针对Twitter、微博等大规模社交网络中的异常用户检测技术进行了深入研究,将社交网络异常检测映射为向量空间中的分类问题,确立了集成分类的研究思路,对特征提取和算法选择两方面提出了改进措施,从而提升异常检测的效果。第一,在特征提取方面,针对当前研究未能有效挖掘用户关注关系的现状,改进了现有的社交网络用户特征提取方法,基于信息论和同质性原理,提出融合特征提取模型,从而综合提取用户自身节点特征与邻居特征。首先应用Word2vec、LDA等自然语言处理模型以及复杂网络计算方法,全面提取用户行为、文本、网络等方面显式和隐式的节点特征,充分挖掘语义信息和网络拓扑结构信息。其次,利用节点邻接矩阵和影响力矩阵共同运算得到邻居特征,并根据Relief算法选择对分类效果贡献最大的K个邻居特征,与节...
【文章来源】:中国人民公安大学北京市
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
SVM最大间隔示意图
然后子节点作为新的父亲节点继续分裂,直至不能分裂为止。生成的决策树中,叶子节点是没有子节点的节点,每个叶子结点包含某一特定类别的数据,即分类结果;每一个非叶子结点表示判断条件,决策树生成后可对新的数据进行分类预测(如图2.2)。图 2.2 决策树模型示意图决策树一般用叶子结点的纯度或复杂度作为评价指标,往往复杂度通过信息熵来确定,纯度用基尼系数来确定,公式为:Entropy = ∑ p log(p ) (公式 2.3)Gain = 1 ∑ p (公式 2.4)节点分裂过程中,用信息增益表示分裂前后根的数据复杂度和分裂节点数据复杂度的变化值,从而判断分裂依据的特征,并计算作为分类标准的特征值。信息增益为:
图 2.3 随机森林分类模型图 Adaboost 算法daboost[54]是一种串行迭代的自适应增强算法,该算法通过改变数据的分布程中通过修改样本的权值来实现分类。根据每次迭代中训练集内每个样本否,并参考上次迭代的分类正确率,来更新每个样本的权值。其核心思想训练集训练不同的分类器(弱分类器),对于前一个弱分类器分错的样本加强,加权后的全体样本再次被用来训练下一个基本分类器,同时在每一新的弱分类器,直到达到预先指定的迭代次数或者预定的最小错误率,每,所有的弱分类器融合作为最终的决策强分类器。章小结章分析了社交网络异常用户检测领域的国内外研究现状,并按照研究对象作归纳为基于社交网络图模型方法和节点特征分析方法,确定了分类检测异常用户的划分类别、研究数据获取途径、常见特征选择方法,并简述了
【参考文献】:
期刊论文
[1]针对行为特征的社交网络异常用户检测方法[J]. 王鹏,宋艳红,李松江,杨华民,邱宁佳. 计算机应用. 2017(S2)
[2]基于社会认同理论的微博群体用户画像[J]. 林燕霞,谢湘生. 情报理论与实践. 2018(03)
[3]基于行为特征分析的社交网络女巫节点检测机制[J]. 吴大鹏,司书山,闫俊杰,王汝言. 电子与信息学报. 2017(09)
[4]同质性和社会影响对混合型社交网络形成的仿真分析[J]. 何军,刘业政. 现代情报. 2017(04)
[5]面向网络舆情数据的异常行为识别[J]. 郝亚洲,郑庆华,陈艳平,闫彩霞. 计算机研究与发展. 2016(03)
[6]基于RSBoost算法的不平衡数据分类方法[J]. 李克文,杨磊,刘文英,刘璐,刘洪太. 计算机科学. 2015(09)
[7]在线社交网络中异常帐号检测方法研究[J]. 张玉清,吕少卿,范丹. 计算机学报. 2015(10)
[8]基于用户行为的微博用户社会影响力分析[J]. 毛佳昕,刘奕群,张敏,马少平. 计算机学报. 2014(04)
博士论文
[1]在线社交网络中异常帐号检测研究[D]. 吕少卿.西安电子科技大学 2016
硕士论文
[1]基于行为分析的社交网络异常账号的检测[D]. 刘琛.北京交通大学 2017
[2]微博垃圾博主的行为分析与检测[D]. 孙子川.西南交通大学 2016
本文编号:2899995
【文章来源】:中国人民公安大学北京市
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
SVM最大间隔示意图
然后子节点作为新的父亲节点继续分裂,直至不能分裂为止。生成的决策树中,叶子节点是没有子节点的节点,每个叶子结点包含某一特定类别的数据,即分类结果;每一个非叶子结点表示判断条件,决策树生成后可对新的数据进行分类预测(如图2.2)。图 2.2 决策树模型示意图决策树一般用叶子结点的纯度或复杂度作为评价指标,往往复杂度通过信息熵来确定,纯度用基尼系数来确定,公式为:Entropy = ∑ p log(p ) (公式 2.3)Gain = 1 ∑ p (公式 2.4)节点分裂过程中,用信息增益表示分裂前后根的数据复杂度和分裂节点数据复杂度的变化值,从而判断分裂依据的特征,并计算作为分类标准的特征值。信息增益为:
图 2.3 随机森林分类模型图 Adaboost 算法daboost[54]是一种串行迭代的自适应增强算法,该算法通过改变数据的分布程中通过修改样本的权值来实现分类。根据每次迭代中训练集内每个样本否,并参考上次迭代的分类正确率,来更新每个样本的权值。其核心思想训练集训练不同的分类器(弱分类器),对于前一个弱分类器分错的样本加强,加权后的全体样本再次被用来训练下一个基本分类器,同时在每一新的弱分类器,直到达到预先指定的迭代次数或者预定的最小错误率,每,所有的弱分类器融合作为最终的决策强分类器。章小结章分析了社交网络异常用户检测领域的国内外研究现状,并按照研究对象作归纳为基于社交网络图模型方法和节点特征分析方法,确定了分类检测异常用户的划分类别、研究数据获取途径、常见特征选择方法,并简述了
【参考文献】:
期刊论文
[1]针对行为特征的社交网络异常用户检测方法[J]. 王鹏,宋艳红,李松江,杨华民,邱宁佳. 计算机应用. 2017(S2)
[2]基于社会认同理论的微博群体用户画像[J]. 林燕霞,谢湘生. 情报理论与实践. 2018(03)
[3]基于行为特征分析的社交网络女巫节点检测机制[J]. 吴大鹏,司书山,闫俊杰,王汝言. 电子与信息学报. 2017(09)
[4]同质性和社会影响对混合型社交网络形成的仿真分析[J]. 何军,刘业政. 现代情报. 2017(04)
[5]面向网络舆情数据的异常行为识别[J]. 郝亚洲,郑庆华,陈艳平,闫彩霞. 计算机研究与发展. 2016(03)
[6]基于RSBoost算法的不平衡数据分类方法[J]. 李克文,杨磊,刘文英,刘璐,刘洪太. 计算机科学. 2015(09)
[7]在线社交网络中异常帐号检测方法研究[J]. 张玉清,吕少卿,范丹. 计算机学报. 2015(10)
[8]基于用户行为的微博用户社会影响力分析[J]. 毛佳昕,刘奕群,张敏,马少平. 计算机学报. 2014(04)
博士论文
[1]在线社交网络中异常帐号检测研究[D]. 吕少卿.西安电子科技大学 2016
硕士论文
[1]基于行为分析的社交网络异常账号的检测[D]. 刘琛.北京交通大学 2017
[2]微博垃圾博主的行为分析与检测[D]. 孙子川.西南交通大学 2016
本文编号:2899995
本文链接:https://www.wllwen.com/falvlunwen/fanzuizhian/2899995.html