基于FP-Growth的网络流量识别技术研究
发布时间:2021-11-04 11:13
基于当前我国的网络环境以及流量识别和分类的基本需求,本文详尽地阐释了关联规则匹配算法的原理以及其中的代表——FP-Growth算法在分类应用中的原理,在此基础上将原始流量进行分层处理,并建立了基于改进的FP-Growth算法的网络流量识别模型,最后在"KDDcup99"数据集上进行仿真分析,从而进一步推算出了最优化模型的参数。从R语言的模拟结果来看,本文提出的FP-Growth分类算法可以实现对常规类型网络流量的分类和识别。
【文章来源】:北京印刷学院学报. 2020,28(S1)
【文章页数】:5 页
【部分图文】:
改进的FP-Growth算法思路
继而在Spark平台上应用改进前后的FP-Growth算法来对上述数据集进行处理,对每组实验都配置同样的支持度。按照数据容量由小到大的顺序来分四次实验处理表1中的数据集,在支持度为3%的时候,随着处理数据的容量从D1增长到D4。FP-Growth算法与改进算法在挖掘这些数据集时所用时间的对比得到的实验结果,如图3所示。从图3中的实验结果不难发现,在算法进行改进以后,其运行效率相较于以前的FP-Growth算法明显有了提高和进步,究其原因,主要是因为对算法进行的改进是基于Spark平台的,而这样改进后的方式只需要对事务数据集扫描一次就可以完成,相较于改进以前的算法,它不需要反复地进行数据集扫描,这样就能够在一定程度上缩短执行的时间,能够明显提高效率。与此同时,Apriori算法不需要对统计支持数组进行二次或多次定位,而是能够直接有效定位到二进制数组并进行求和,这样一来不仅其精准性有所提高,算法的效率也能够得到明显的提高。
与Apriori相比,FP-Growth方法对频繁集特征进行统计的时候不需经历候选集的生成过程,而应用了频繁挖掘增长的方法来计算频繁规则。在FP-Growth计算流程之中,通常仅会遍历一次对象数据集合:首先对数据集合进行总览,获得频繁1-项集;此后在遍历数据集合的行为中,重点使用频繁1-项集的support值来对非频繁项进行排序,此后基于这一排序来构建FP-tree。最后,执FP-Growth算法,该算法首先搜索FP-tree,搜索对应项集的条件模式,继而构筑FP-tree,并且根据挖掘条件FP-tree再不断的迭代FP-Growth算法,迭代运行的时候能够创造全部的频繁项集。FP-Growth算法的示例图,如图1所示。如图1所示,FP-Growth先将对目标数据集合进行一次遍历,从而获得频繁1项集{f:4,c:4,a:3,b:3,m:3,p:3}。在项集的基础之上,使用频繁1-项集的support值来对非频繁项进行排序,此后基于这一排序来构建FP-tree。FP-tree的结构主要包含头表和前缀树,其中,头表等同于1项集,前缀树则是排序之后数据集的树状模型。此后,挑选头表之中的任意一个项,这里以图1之中的P项集进行举例,之后对P在FP-tree模型之中的全部路径进行扫描,得到结果为{f,c,a,m:2}和{c,b:l},故而能够确定P的条件模式为{f,c,a,m:2}/{c,b:1}。将这些条件模式看作是一个独立的数据集合,基于该数据集合则可以继续执行FP-tree的构造及频繁项集的控掘。重复上述流程到不再有条件模式基出现为止,这样便可以挖掘出以P为前缀的全部频繁项集。
【参考文献】:
期刊论文
[1]基于卷积神经网络LeNet-5的车牌字符识别研究[J]. 赵志宏,杨绍普,马增强. 系统仿真学报. 2010(03)
[2]增长式卷积神经网络及其在人脸检测中的应用[J]. 顾佳玲,彭宏京. 系统仿真学报. 2009(08)
[3]结合进化计算的神经认知机[J]. 石大明,刘海涛,舒文豪. 计算机学报. 2001(05)
[4]Neocognitron学习算法分析[J]. 洪家荣,李星原. 软件学报. 1994(04)
本文编号:3475610
【文章来源】:北京印刷学院学报. 2020,28(S1)
【文章页数】:5 页
【部分图文】:
改进的FP-Growth算法思路
继而在Spark平台上应用改进前后的FP-Growth算法来对上述数据集进行处理,对每组实验都配置同样的支持度。按照数据容量由小到大的顺序来分四次实验处理表1中的数据集,在支持度为3%的时候,随着处理数据的容量从D1增长到D4。FP-Growth算法与改进算法在挖掘这些数据集时所用时间的对比得到的实验结果,如图3所示。从图3中的实验结果不难发现,在算法进行改进以后,其运行效率相较于以前的FP-Growth算法明显有了提高和进步,究其原因,主要是因为对算法进行的改进是基于Spark平台的,而这样改进后的方式只需要对事务数据集扫描一次就可以完成,相较于改进以前的算法,它不需要反复地进行数据集扫描,这样就能够在一定程度上缩短执行的时间,能够明显提高效率。与此同时,Apriori算法不需要对统计支持数组进行二次或多次定位,而是能够直接有效定位到二进制数组并进行求和,这样一来不仅其精准性有所提高,算法的效率也能够得到明显的提高。
与Apriori相比,FP-Growth方法对频繁集特征进行统计的时候不需经历候选集的生成过程,而应用了频繁挖掘增长的方法来计算频繁规则。在FP-Growth计算流程之中,通常仅会遍历一次对象数据集合:首先对数据集合进行总览,获得频繁1-项集;此后在遍历数据集合的行为中,重点使用频繁1-项集的support值来对非频繁项进行排序,此后基于这一排序来构建FP-tree。最后,执FP-Growth算法,该算法首先搜索FP-tree,搜索对应项集的条件模式,继而构筑FP-tree,并且根据挖掘条件FP-tree再不断的迭代FP-Growth算法,迭代运行的时候能够创造全部的频繁项集。FP-Growth算法的示例图,如图1所示。如图1所示,FP-Growth先将对目标数据集合进行一次遍历,从而获得频繁1项集{f:4,c:4,a:3,b:3,m:3,p:3}。在项集的基础之上,使用频繁1-项集的support值来对非频繁项进行排序,此后基于这一排序来构建FP-tree。FP-tree的结构主要包含头表和前缀树,其中,头表等同于1项集,前缀树则是排序之后数据集的树状模型。此后,挑选头表之中的任意一个项,这里以图1之中的P项集进行举例,之后对P在FP-tree模型之中的全部路径进行扫描,得到结果为{f,c,a,m:2}和{c,b:l},故而能够确定P的条件模式为{f,c,a,m:2}/{c,b:1}。将这些条件模式看作是一个独立的数据集合,基于该数据集合则可以继续执行FP-tree的构造及频繁项集的控掘。重复上述流程到不再有条件模式基出现为止,这样便可以挖掘出以P为前缀的全部频繁项集。
【参考文献】:
期刊论文
[1]基于卷积神经网络LeNet-5的车牌字符识别研究[J]. 赵志宏,杨绍普,马增强. 系统仿真学报. 2010(03)
[2]增长式卷积神经网络及其在人脸检测中的应用[J]. 顾佳玲,彭宏京. 系统仿真学报. 2009(08)
[3]结合进化计算的神经认知机[J]. 石大明,刘海涛,舒文豪. 计算机学报. 2001(05)
[4]Neocognitron学习算法分析[J]. 洪家荣,李星原. 软件学报. 1994(04)
本文编号:3475610
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3475610.html
最近更新
教材专著