基于图计算的用户行为建模关键技术研究
发布时间:2022-01-20 09:22
社交网络、网络通信等平台现在已经成为人们日常生活中不可或缺的一部分。然而一些恶意用户通过不法手段进行的恶意行为给正常用户带来了巨大的不便和潜在的危险。基于图论的用户异常行为建模分析技术已经逐渐成为国内外学术界的研究热点,本文针对静态图和动态图模型的两类异常行为检测问题进行分析建模,提出解决方案并通过实验验证提出算法的有效性和扩展性,具体内容如下:(1)针对静态图模型的异常检测问题,提出了一种基于分类树的、无监督的异常检测算法KD-Forest。该算法提取基于图结构信息的多维特征,使用KD树构造分类树,通过Bagging方法选取特征提高随机性。通过对超过十万个节点的真实社交网络数据集进行实验,验证算法具有较好的扩展性,本方案相较于现有的相关的分类算法在时间效率和空间复杂度上有较高的提升,且在准确率和ROC值上有较好的表现。(2)针对动态图模型的异常检测问题,提出了一种基于LSTM的时间序列异常时间点检测算法。提出了一种基于图距离的相似性特征度量方案,具体包括图结构距离和图编辑距离两大类,使用特征值训练分类模型进行异常检测。通过对超过百万条的网络IP数据流分类进行入侵检测,验证本方案的可行...
【文章来源】:南京邮电大学江苏省
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
高度为5的KD树划分情况
士研究生学位论文 第三章 基于图的无监督 KD-Forest 异常评价依据,这是根据异常点易于划分的特点进行评价,具体的算法流数据集中随机抽样得到样本集 (每个样本集样本数量 n≤N,N 为训练 M 个特征中,随机选取 K 维特征,并从中选取方差最大的特征作为分取一个划分值 p。划分值 p(可以使用三点中值法或均值)作为划分超平面将数据空间划值小于 p 的作为当前节点的左子树,特征值大于 p 的作为当前节点的复步骤 2 和 3 不断选取特征和划分值、构造新的子节点,直至样本完全 或样本完全划分。复步骤 1-4 建立多个 KD 划分树,构成 KD 树森林算测试集在森林中高度的均值与阈值作比较得出异常分类。
使用人工合成数据 Synthetic 生成不同节点数的小世界网络拓扑图,对 LO本文提出的算法作比较,实验结果见表 3.3。LOF 算法的平均分类准确度均低于本文提出的算法,同时由于 LOF 算法是一种基于距离的不需要提前测算法,但是其时间复杂度为O( )同时与选取的k距离参数有很大关系(见0 个节点的小型网络其计算时间就需要近 10 分钟,因此这种基于距离的异大型的网络图模型,因此本文对于节点数目较多的数据集并未使用 LOF 算表 3.3 LOF 算法与本文算法比较Synthetic LOF GBKD-Fore节点数 1000 2000 3000 4000 5000 平均 10000Precision 0.847 0.844 0.841 0.851 0.847 0.846 0.952Accuracy 0.822 0.818 0.816 0.819 0.818 0.819 0.954F1 0.762 0.749 0.741 0.704 0.784 0.748 0.96AUC 0.712 0.704 0.705 0.702 0.696 0.704 0.940
【参考文献】:
期刊论文
[1]人工蜂群优化的BP神经网络在入侵检测中的应用[J]. 沈夏炯,王龙,韩道军. 计算机工程. 2016(02)
[2]基于多尺度时间递归神经网络的人群异常检测[J]. 蔡瑞初,谢伟浩,郝志峰,王丽娟,温雯. 软件学报. 2015(11)
[3]基于决策树与朴素贝叶斯分类的入侵检测模型[J]. 姚潍,王娟,张胜利. 计算机应用. 2015(10)
[4]时间序列异常点及突变点的检测算法[J]. 苏卫星,朱云龙,刘芳,胡琨元. 计算机研究与发展. 2014(04)
[5]基于shell命令和Markov链模型的用户行为异常检测[J]. 田新广,孙春来,段洣毅. 电子与信息学报. 2007(11)
博士论文
[1]社交媒体复杂行为分析与建模[D]. 蒋朦.清华大学 2015
本文编号:3598572
【文章来源】:南京邮电大学江苏省
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
高度为5的KD树划分情况
士研究生学位论文 第三章 基于图的无监督 KD-Forest 异常评价依据,这是根据异常点易于划分的特点进行评价,具体的算法流数据集中随机抽样得到样本集 (每个样本集样本数量 n≤N,N 为训练 M 个特征中,随机选取 K 维特征,并从中选取方差最大的特征作为分取一个划分值 p。划分值 p(可以使用三点中值法或均值)作为划分超平面将数据空间划值小于 p 的作为当前节点的左子树,特征值大于 p 的作为当前节点的复步骤 2 和 3 不断选取特征和划分值、构造新的子节点,直至样本完全 或样本完全划分。复步骤 1-4 建立多个 KD 划分树,构成 KD 树森林算测试集在森林中高度的均值与阈值作比较得出异常分类。
使用人工合成数据 Synthetic 生成不同节点数的小世界网络拓扑图,对 LO本文提出的算法作比较,实验结果见表 3.3。LOF 算法的平均分类准确度均低于本文提出的算法,同时由于 LOF 算法是一种基于距离的不需要提前测算法,但是其时间复杂度为O( )同时与选取的k距离参数有很大关系(见0 个节点的小型网络其计算时间就需要近 10 分钟,因此这种基于距离的异大型的网络图模型,因此本文对于节点数目较多的数据集并未使用 LOF 算表 3.3 LOF 算法与本文算法比较Synthetic LOF GBKD-Fore节点数 1000 2000 3000 4000 5000 平均 10000Precision 0.847 0.844 0.841 0.851 0.847 0.846 0.952Accuracy 0.822 0.818 0.816 0.819 0.818 0.819 0.954F1 0.762 0.749 0.741 0.704 0.784 0.748 0.96AUC 0.712 0.704 0.705 0.702 0.696 0.704 0.940
【参考文献】:
期刊论文
[1]人工蜂群优化的BP神经网络在入侵检测中的应用[J]. 沈夏炯,王龙,韩道军. 计算机工程. 2016(02)
[2]基于多尺度时间递归神经网络的人群异常检测[J]. 蔡瑞初,谢伟浩,郝志峰,王丽娟,温雯. 软件学报. 2015(11)
[3]基于决策树与朴素贝叶斯分类的入侵检测模型[J]. 姚潍,王娟,张胜利. 计算机应用. 2015(10)
[4]时间序列异常点及突变点的检测算法[J]. 苏卫星,朱云龙,刘芳,胡琨元. 计算机研究与发展. 2014(04)
[5]基于shell命令和Markov链模型的用户行为异常检测[J]. 田新广,孙春来,段洣毅. 电子与信息学报. 2007(11)
博士论文
[1]社交媒体复杂行为分析与建模[D]. 蒋朦.清华大学 2015
本文编号:3598572
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3598572.html