基于聚类的校园网入侵检测与防御研究
发布时间:2021-04-04 04:18
随着信息技术的快速发展,网络环境日趋复杂,传统的网络安全技术已难以保证网络的安全性。为适应当前大规模、复杂、隐蔽的网络攻击行为,研究高效的入侵检测与防御技术,开发安全的检测与防御系统,具有重要的理论和现实意义。随着信息技术与教育教学的深度融合,高校信息化建设日益成熟,师生与学校环境、资源的交互方式得到了优化,同时也对校园网的支撑保障能力提出了更高的要求。本文研究基于聚类算法的校园网入侵检测与防御方法,以实现对无标签的校园网流量进行检测并对校园网中的攻击流量进行防御。首先,搭建校园网流量采集系统和Web应用攻击采集系统,对某高校主要Web站点进行数据采集和分析,对Web应用攻击进行流量采集和攻击模拟。为实现对用户行为的准确识别和分析,基于单个异常用户的划分规则对校园网流量进行特征提取、聚类和簇分析,并通过簇分析初步明确校园网中流量的组成。通过Web应用攻击模拟进一步了解攻击方式和攻击特征,为后续的入侵检测实验奠定基础。其次,提出一种基于遗传算法和聚类算法的校园网入侵检测模型,来有效检测无标签校园网流量中的攻击行为。针对无标签数据集直接应用聚类算法难以衡量检测率的问题,引入含标签的外部攻击...
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
基于KDD99数据集的攻击分类相比于基于经验术语的分类和基于单一属性的分类,基于多属性的分类具有
浙江大学硕士学位论文第2章网络入侵检测与防御相关技术10图2.1给出了一个根据经纬度对地理坐标进行K-means聚类的结果示意图,相似的数据点被分到同一个簇中,每个簇的质心使用十字来表示[48]。质心与质心之间我可以选择便捷的交通工具抵达,而位于每个质心附近的地点就可以采取步行的方法抵达。于是,K-means算法就为我们找到了一种更加高效且经济的出行方式。图2.1对地理坐标进行聚类的结果示意图图2.2给出了K-means算法的执行流程图。K-means算法从k个随机质心开始计算每个点到质心的距离,其中k是用户指定的要创建的簇的数目。每个点会被分配到距离其最近的簇,然后基于新分配的结果重新计算簇的质心。重复以上过程,直到簇的质心不再改变。尽管K-means算法十分有效,但是它容易受到初始簇的质心情况的影响,存在陷入局部最优解的可能。此外,K-means算法的结果并不稳定,也就是说即使输入参数相同聚类结果也可能不同[49]。为了解决这些问题并提升算法本身的效率,研究人员提出了多种改进的K-means算法,并得到了较好的应用。虽然基于K-means的聚类方法已经得到了很好的研究,但是在大数据环境下直接使用这种方法会出现多种问题。一方面使得聚类结果最佳的k值较难确定,另一方面对于聚类问题没有统一的评价指标。聚类的质量好坏取决于数据之间的相似性度量是否合理,但是对于不同类型的变量,相似度的表达方式不同,我们很难定义什么叫“足够相似”。对于连续型变量,常用的相似度计算方法有欧氏
浙江大学硕士学位论文第2章网络入侵检测与防御相关技术11距离、曼哈顿距离、明考斯基距离等;对于离散型变量,常用的相似度计算方法有简单匹配系数、Jaccard系数等;对于混合型变量和向量,在实际的应用中将进行更为复杂的相似度计算[50]。图2.2K-means算法执行流程图2.2遗传算法遗传算法(GeneticAlgorithm,GA)是模拟自然界生物进化过程的计算模型,是基于达尔文的进化和适者生存原则来优化种群的方案[51]。GA是从代表问题潜在解集的一个初始种群开始,该种群由经过基因编码的染色体组成,在每一代中根据问题域中个体的适应度大小选择较优个体进行组合交叉和变异,产生出代表新解集的种群。交叉模拟自然繁殖,变异模拟物种突变。对末代种群中的最优个体进行解码,并将其作为该问题的近似最优解。图2.3给出了遗传算法执行流程图,包括了适应度计算、选择、交叉、变异、更新和收敛条件判断。适应度计算:对种群进行个体适应度计算要依赖适应度函数,适应度函数是一个特定于问题的函数,是选择个体进行繁殖的质量度量方法。选择:适应度越高的个体,被选择进行繁殖的概率越大,选择的过程使得遗传算法在每一次迭代中不断提高种群的适应性。交叉:在上一个步骤被选择的个体相互混杂,交叉意味着从亲本染色体中随机选择基因进行交叉互换,从而产生了新的个体。变异:变异维持着下一代个体的遗传多样性,同时也能防止在某一代出现局
【参考文献】:
期刊论文
[1]基于均值漂移算法的文本聚类数目优化研究[J]. 赵华茗,余丽,周强. 数据分析与知识发现. 2019(09)
[2]一种K-means改进算法的软扩频信号伪码序列盲估计[J]. 张天骐,杨强,宋玉龙,熊梅. 电子与信息学报. 2018(01)
[3]基于sqlmap的被动SQL注入扫描技术研究与实现[J]. 李啸,胡勇. 现代计算机(专业版). 2016(28)
[4]基于特征选择的模糊聚类异常入侵行为检测[J]. 唐成华,刘鹏程,汤申生,谢逸. 计算机研究与发展. 2015(03)
[5]基于改进编辑距离的字符串相似度求解算法[J]. 姜华,韩安琪,王美佳,王峥,吴雲玲. 计算机工程. 2014(01)
[6]基于轮廓系数的聚类有效性分析[J]. 朱连江,马炳先,赵学泉. 计算机应用. 2010(S2)
[7]机器学习在入侵检测中的应用综述[J]. 贺英杰,叶宗民,金吉学. 计算机安全. 2010(03)
[8]基于Apriori & Fp-growth的频繁项集发现算法[J]. 何中胜,庄燕滨. 计算机技术与发展. 2008(07)
[9]网络攻击分类技术综述[J]. 刘欣然. 通信学报. 2004(07)
[10]中小型校园网建设的若干技术问题[J]. 郭联志. 管理信息系统. 2001(S1)
本文编号:3117709
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
基于KDD99数据集的攻击分类相比于基于经验术语的分类和基于单一属性的分类,基于多属性的分类具有
浙江大学硕士学位论文第2章网络入侵检测与防御相关技术10图2.1给出了一个根据经纬度对地理坐标进行K-means聚类的结果示意图,相似的数据点被分到同一个簇中,每个簇的质心使用十字来表示[48]。质心与质心之间我可以选择便捷的交通工具抵达,而位于每个质心附近的地点就可以采取步行的方法抵达。于是,K-means算法就为我们找到了一种更加高效且经济的出行方式。图2.1对地理坐标进行聚类的结果示意图图2.2给出了K-means算法的执行流程图。K-means算法从k个随机质心开始计算每个点到质心的距离,其中k是用户指定的要创建的簇的数目。每个点会被分配到距离其最近的簇,然后基于新分配的结果重新计算簇的质心。重复以上过程,直到簇的质心不再改变。尽管K-means算法十分有效,但是它容易受到初始簇的质心情况的影响,存在陷入局部最优解的可能。此外,K-means算法的结果并不稳定,也就是说即使输入参数相同聚类结果也可能不同[49]。为了解决这些问题并提升算法本身的效率,研究人员提出了多种改进的K-means算法,并得到了较好的应用。虽然基于K-means的聚类方法已经得到了很好的研究,但是在大数据环境下直接使用这种方法会出现多种问题。一方面使得聚类结果最佳的k值较难确定,另一方面对于聚类问题没有统一的评价指标。聚类的质量好坏取决于数据之间的相似性度量是否合理,但是对于不同类型的变量,相似度的表达方式不同,我们很难定义什么叫“足够相似”。对于连续型变量,常用的相似度计算方法有欧氏
浙江大学硕士学位论文第2章网络入侵检测与防御相关技术11距离、曼哈顿距离、明考斯基距离等;对于离散型变量,常用的相似度计算方法有简单匹配系数、Jaccard系数等;对于混合型变量和向量,在实际的应用中将进行更为复杂的相似度计算[50]。图2.2K-means算法执行流程图2.2遗传算法遗传算法(GeneticAlgorithm,GA)是模拟自然界生物进化过程的计算模型,是基于达尔文的进化和适者生存原则来优化种群的方案[51]。GA是从代表问题潜在解集的一个初始种群开始,该种群由经过基因编码的染色体组成,在每一代中根据问题域中个体的适应度大小选择较优个体进行组合交叉和变异,产生出代表新解集的种群。交叉模拟自然繁殖,变异模拟物种突变。对末代种群中的最优个体进行解码,并将其作为该问题的近似最优解。图2.3给出了遗传算法执行流程图,包括了适应度计算、选择、交叉、变异、更新和收敛条件判断。适应度计算:对种群进行个体适应度计算要依赖适应度函数,适应度函数是一个特定于问题的函数,是选择个体进行繁殖的质量度量方法。选择:适应度越高的个体,被选择进行繁殖的概率越大,选择的过程使得遗传算法在每一次迭代中不断提高种群的适应性。交叉:在上一个步骤被选择的个体相互混杂,交叉意味着从亲本染色体中随机选择基因进行交叉互换,从而产生了新的个体。变异:变异维持着下一代个体的遗传多样性,同时也能防止在某一代出现局
【参考文献】:
期刊论文
[1]基于均值漂移算法的文本聚类数目优化研究[J]. 赵华茗,余丽,周强. 数据分析与知识发现. 2019(09)
[2]一种K-means改进算法的软扩频信号伪码序列盲估计[J]. 张天骐,杨强,宋玉龙,熊梅. 电子与信息学报. 2018(01)
[3]基于sqlmap的被动SQL注入扫描技术研究与实现[J]. 李啸,胡勇. 现代计算机(专业版). 2016(28)
[4]基于特征选择的模糊聚类异常入侵行为检测[J]. 唐成华,刘鹏程,汤申生,谢逸. 计算机研究与发展. 2015(03)
[5]基于改进编辑距离的字符串相似度求解算法[J]. 姜华,韩安琪,王美佳,王峥,吴雲玲. 计算机工程. 2014(01)
[6]基于轮廓系数的聚类有效性分析[J]. 朱连江,马炳先,赵学泉. 计算机应用. 2010(S2)
[7]机器学习在入侵检测中的应用综述[J]. 贺英杰,叶宗民,金吉学. 计算机安全. 2010(03)
[8]基于Apriori & Fp-growth的频繁项集发现算法[J]. 何中胜,庄燕滨. 计算机技术与发展. 2008(07)
[9]网络攻击分类技术综述[J]. 刘欣然. 通信学报. 2004(07)
[10]中小型校园网建设的若干技术问题[J]. 郭联志. 管理信息系统. 2001(S1)
本文编号:3117709
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3117709.html