基于数据挖掘的工业互联网入侵检测方法研究
发布时间:2021-11-20 03:53
随着互联网技术与现代工业生产逐步融合,网络在使生产制造更加智能高效的同时,也使工业互联网面临更多的安全威胁。因此,保护网络信息安全,及时发现和处理异常访问数据,对于保障工业互联网安全稳健地运行至关重要。入侵检测系统作为网络安全防御工具,能够快速检测和识别恶意入侵并做出应急响应。在基于数据挖掘的网络入侵检测中,入侵检测系统需要处理的数据以静态数据集或动态数据流的形式存在。面向静态数据集的入侵检测,极易因为数据冗余造成数据挖掘算法效果不佳,并且消耗大量计算和储存资源;面向动态数据流的入侵检测,因为观察样本有限,可能导致建立的数据挖掘模型不能很好地适应数据流的动态变化。基于上述问题,本文做出如下工作:1.论文基于经典决策树算法的基本概念、核心算法和实现过程,分析了在静态数据集和网络数据流环境下,决策树算法在设计原理、实现细节、和主要诉求上的联系与区别。2.针对面向静态数据集的入侵检测中数据冗余影响数据挖掘算法效果的问题,论文提出了一种基于树模型的数据约简方法。该方法作为一种数据预处理手段,结合子群发现技术对数据集进行数据筛选,减小数据集规模、合理划分数据集,从而减少后续数据挖掘算法的计算开销...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
决策树模型在数据集上的应用实例;(a)原始数据集的散点图;(b)决策树模型
第二章入侵检测系统与决策树算法19公式(2-10)阐明了对于取值范围为的任意随机变量,在经过n次独立重复试验后,观察得到的经验均值与真实均值()之间的误差上界,能够在1δ的置信水平下认为不超过ε。公式(2-10)也给出了在已知随机变量的取值范围时,在置信水平1δ的条件下样本量与ε之间的关系,如公式(2-11)所示。图2-2展示了在公式(2-11)中δ,,n三者之间的关系,当参数一定时,随着样本观测数的增大,迅速减小并无限趋近于零;当一定时,参数越大,所需要的样本观测数就越大。22Pr(())nRXEXe(2-10)2ln(1/)2Rn(2-11)公式(2-11)就是在动态数据流环境下建立霍夫丁树所需要的Hoeffding边界条件。此时随机变量指的是信息增益或Gini系数,所以表示信息增益或Gini系数的取值范围。传统决策树与公式(2-11)的结合,就可以使得利用有限样本量去估算样本量无限时可接受的最优分裂属性成为可能。图2-2Hoeffding边界条件中δ,,n三者之间的关系霍夫丁树与面向数据集的传统决策树结构相同,同样由根节点、内部节点、叶子节点和有向边构成,各元素的作用与传统决策树一致,属性测试条件可选用信息增益或Gini系数。以Gini系数为例,霍夫丁树算法的实现过程如下所示:步骤1:如果没有根节点,则创建霍夫丁树的根节点,将每一个新样本输送到根节点。如果存在其他叶子节点,则将每一个新样本输送到相应的叶子节点;步骤2:接收到新样本后,节点处的统计信息将会被更新,包括数据量、每个属性取值下的类标签频率等;
第三章面向静态数据集的数据约简方法研究23(a)(b)(c)图3-1属性变量局部取值与类变量的三种纯度关系。(a)一点可分(Onesplitpoint);(b)多点可分(Multiplesplitpoints);(c)完全不可分(Mixedstate)图3-1展示了从KDDCUP1999数据集中选取的三个特征变量在等宽离散化为十个子区间后,每个子区间(标号为0到9)的纯度情况。为了便于可视化观察,在Weka软件上绘制以上散点图,图中的横纵坐标设置为特征变量本身,所以样本点呈对角线分布。此外,调整增大了点间距,以使更多的点可以被观察到。点根据所属类别{正常,异常}进行着色,其中红色代表正常,蓝色代表异常。从图3-1(a)至3-1(c)可以观察到,在图3-1(a)和3-1(b)中存在颜色非常统一的子区间(在图中用方框圈出),这些子区间只覆盖了特征变量值域上的局部范围,但是子区间内的样本点几乎都属于同一种颜色,这表明子区间的纯度很高,子区间代表的特征取值与类标签具有强相关性。将只包含这种与类标签存在强相关性的特征取值的样本子集称为高纯度子集,这些高纯度子集能够从原数据集中提取出来,是可以被有效划分的。为了进一步量化特征取值与类变量的相关性,引入条件熵这一指标作为对纯度的衡量。信息熵和条件熵的定义在第二章已经进行阐述,熵是用来衡量系统信息或随机变量不确定性的通用指标。假设从数据集中给定有限取值的离散型特征变量,的值域为{1,2,…,,},满足=的样本组成子集,数据集的信息熵为:(,)=∑(,)=12(,)(3-1)(,)表示了类变量在子集中的不纯度。需要注意的是,(,)表示满足=,=的样本在数据集中所占的比例,而并非满足=的样本在子集中所占的比例。下面给出三种纯度关系的数学表达式:(1)一点可分
【参考文献】:
期刊论文
[1]基于多维数据集的异常子群发现技术[J]. 张静恬,伍赛,陈刚,寿黎但,陈珂. 计算机学报. 2019(08)
[2]基于长短时记忆网络的工业控制系统入侵检测[J]. 於帮兵,王华忠,颜秉勇. 信息与控制. 2018(01)
[3]极端频率情形下二项分布比例置信区间的比较[J]. 张学新. 重庆师范大学学报(自然科学版). 2016(03)
[4]基于专家系统和神经网络的网络入侵检测系统[J]. 张人上. 计算机仿真. 2012(09)
[5]基于遗传算法的入侵检测特征选择[J]. 朱红萍,巩青歌,雷战波. 计算机应用研究. 2012(04)
博士论文
[1]基于数据挖掘的网络入侵检测关键技术研究[D]. 郭春.北京邮电大学 2014
本文编号:3506514
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
决策树模型在数据集上的应用实例;(a)原始数据集的散点图;(b)决策树模型
第二章入侵检测系统与决策树算法19公式(2-10)阐明了对于取值范围为的任意随机变量,在经过n次独立重复试验后,观察得到的经验均值与真实均值()之间的误差上界,能够在1δ的置信水平下认为不超过ε。公式(2-10)也给出了在已知随机变量的取值范围时,在置信水平1δ的条件下样本量与ε之间的关系,如公式(2-11)所示。图2-2展示了在公式(2-11)中δ,,n三者之间的关系,当参数一定时,随着样本观测数的增大,迅速减小并无限趋近于零;当一定时,参数越大,所需要的样本观测数就越大。22Pr(())nRXEXe(2-10)2ln(1/)2Rn(2-11)公式(2-11)就是在动态数据流环境下建立霍夫丁树所需要的Hoeffding边界条件。此时随机变量指的是信息增益或Gini系数,所以表示信息增益或Gini系数的取值范围。传统决策树与公式(2-11)的结合,就可以使得利用有限样本量去估算样本量无限时可接受的最优分裂属性成为可能。图2-2Hoeffding边界条件中δ,,n三者之间的关系霍夫丁树与面向数据集的传统决策树结构相同,同样由根节点、内部节点、叶子节点和有向边构成,各元素的作用与传统决策树一致,属性测试条件可选用信息增益或Gini系数。以Gini系数为例,霍夫丁树算法的实现过程如下所示:步骤1:如果没有根节点,则创建霍夫丁树的根节点,将每一个新样本输送到根节点。如果存在其他叶子节点,则将每一个新样本输送到相应的叶子节点;步骤2:接收到新样本后,节点处的统计信息将会被更新,包括数据量、每个属性取值下的类标签频率等;
第三章面向静态数据集的数据约简方法研究23(a)(b)(c)图3-1属性变量局部取值与类变量的三种纯度关系。(a)一点可分(Onesplitpoint);(b)多点可分(Multiplesplitpoints);(c)完全不可分(Mixedstate)图3-1展示了从KDDCUP1999数据集中选取的三个特征变量在等宽离散化为十个子区间后,每个子区间(标号为0到9)的纯度情况。为了便于可视化观察,在Weka软件上绘制以上散点图,图中的横纵坐标设置为特征变量本身,所以样本点呈对角线分布。此外,调整增大了点间距,以使更多的点可以被观察到。点根据所属类别{正常,异常}进行着色,其中红色代表正常,蓝色代表异常。从图3-1(a)至3-1(c)可以观察到,在图3-1(a)和3-1(b)中存在颜色非常统一的子区间(在图中用方框圈出),这些子区间只覆盖了特征变量值域上的局部范围,但是子区间内的样本点几乎都属于同一种颜色,这表明子区间的纯度很高,子区间代表的特征取值与类标签具有强相关性。将只包含这种与类标签存在强相关性的特征取值的样本子集称为高纯度子集,这些高纯度子集能够从原数据集中提取出来,是可以被有效划分的。为了进一步量化特征取值与类变量的相关性,引入条件熵这一指标作为对纯度的衡量。信息熵和条件熵的定义在第二章已经进行阐述,熵是用来衡量系统信息或随机变量不确定性的通用指标。假设从数据集中给定有限取值的离散型特征变量,的值域为{1,2,…,,},满足=的样本组成子集,数据集的信息熵为:(,)=∑(,)=12(,)(3-1)(,)表示了类变量在子集中的不纯度。需要注意的是,(,)表示满足=,=的样本在数据集中所占的比例,而并非满足=的样本在子集中所占的比例。下面给出三种纯度关系的数学表达式:(1)一点可分
【参考文献】:
期刊论文
[1]基于多维数据集的异常子群发现技术[J]. 张静恬,伍赛,陈刚,寿黎但,陈珂. 计算机学报. 2019(08)
[2]基于长短时记忆网络的工业控制系统入侵检测[J]. 於帮兵,王华忠,颜秉勇. 信息与控制. 2018(01)
[3]极端频率情形下二项分布比例置信区间的比较[J]. 张学新. 重庆师范大学学报(自然科学版). 2016(03)
[4]基于专家系统和神经网络的网络入侵检测系统[J]. 张人上. 计算机仿真. 2012(09)
[5]基于遗传算法的入侵检测特征选择[J]. 朱红萍,巩青歌,雷战波. 计算机应用研究. 2012(04)
博士论文
[1]基于数据挖掘的网络入侵检测关键技术研究[D]. 郭春.北京邮电大学 2014
本文编号:3506514
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3506514.html