基于随机博弈与禁忌搜索的网络防御策略选取
发布时间:2021-11-26 19:53
网络防御策略是决定网络安全防护效果的关键因素,现有的网络防御决策研究的是完全理性前提条件以及攻防效益函数参数选择等方面,对实际网络攻防中信息不对称、法律惩戒等因素存在模型偏差,降低了策略的实用性与可靠性.结合实际问题,在有限理性的前置条件基础上构建禁忌随机博弈模型,引入了禁忌搜索方法对随机博弈进行有限理性的分析,并设计具有记忆功能的搜索方法,通过禁忌表数据结构实现记忆功能,并利用数据驱动的记忆结合博弈模型得出最优防御策略.实验结果表明:该方法在攻防收益量化方面提高了精准度,防御效益相对于现有典型的方法提高了准确度,方法空间复杂度优于强化学习等典型方法.
【文章来源】:计算机研究与发展. 2020,57(04)北大核心EICSCD
【文章页数】:11 页
【部分图文】:
攻防过程
本文从时间片的角度考虑网络攻防过程,每个时间片是一个网络安全状态,并将其作为博弈状态集合.某时刻T网络安全状态反映的是当前时刻T网络的脆弱性信息、节点服务信息、节点访问权限等.而攻防双方采取的动作会影响这些信息的改变,进而使得网络安全状态发生转变.依据图1的攻防过程可以将攻防博弈状态用如图2所示的有向图G=(S,E)来表示,其中S表示攻防过程中的博弈状态集合,E表示攻防状态转换关系且用有向边来表示.图2中S={S1,S2,S3}表示博弈过程的3个状态,这3个状态可以转换.在实际的网络环境中,每个状态之间不一定可以转换,导致状态的难以确定,因此本文对于状态的考虑是从时间片去考虑每个状态相对于彼此都是独立的,这是因为时间片不同的关系导致其状态的不同,这样对于状态的考虑就可以对于每个时间片的状态进行最优策略选取,使得防御效益最大化.1.2 攻防收益量化
算法1对于策略优劣的评判是对每一个不同策略的效益值与禁忌表中的最优进行比较,算法1的空间复杂度主要在于对禁忌表、πd以及防御收益DR的存储,|S|为状态数,|D|为每个状态防御者的策略数,禁忌表中存储着策略以及相应的效益值,本文中将禁忌表的长度设定为10可知,算法1的空间复杂度为O(2|S||D|+20),本文对于禁忌搜索方法操作的主要过程有获取初始解、邻域的生成、对禁忌表进行判断以及解除禁忌表,这些操作的时间复杂度依次为n2,C n 2 ,n×l,n×l,这里n为问题规模,l为禁忌表长度,因此可知算法1的时间复杂度为O(n2+n×l).禁忌搜索方法为了避免陷入局部最优解,采用了一种灵活的“记忆”技术即禁忌表来对目前最优的解进行记录和选择,并指导下一步的搜索方向是一种全局逐步寻优方法[14].因此,禁忌搜索不会陷入局部最优.在本文所提禁忌搜索中,最终所得到的策略即是全局搜索的最优均衡策略,因为每次将所得策略往禁忌表中添加时都会将现在策略与禁忌表中的策略进行比较,使得禁忌表中的策略永远是“best so far”状态,然后只需在禁忌表中选取最优的策略即可获取最优均衡策略,并且禁忌搜索方法的引入会使得对博弈求均衡解变得更加便捷.
【参考文献】:
期刊论文
[1]基于非零和博弈的多路径组合攻击防御决策方法[J]. 孙骞,高岭,刘涛,姚军,郑杰,王海. 西北大学学报(自然科学版). 2019(03)
[2]基于随机博弈与改进WoLF-PHC的网络防御决策方法[J]. 杨峻楠,张红旗,张传富. 计算机研究与发展. 2019(05)
[3]基于不完全信息随机博弈与Q-learning的防御决策方法[J]. 张红旗,杨峻楠,张传富. 通信学报. 2018(08)
[4]遗传禁忌搜索算法收敛性和时间复杂度分析[J]. 牟乃夏,徐玉静,李洁,张灵先. 河南理工大学学报(自然科学版). 2018(04)
[5]基于改进复制动态演化博弈模型的最优防御策略选取[J]. 黄健明,张恒巍. 通信学报. 2018(01)
[6]基于多阶段攻防信号博弈的最优主动防御[J]. 张恒巍,李涛. 电子学报. 2017(02)
[7]模块化动态博弈的网络可生存性态势跟踪方法[J]. 伍文,孟相如,马志强,陈铎龙. 西安交通大学学报. 2012(12)
[8]基于非合作动态博弈的网络安全主动防御技术研究[J]. 林旺群,王慧,刘家红,邓镭,李爱平,吴泉源,贾焰. 计算机研究与发展. 2011(02)
[9]基于攻防随机博弈模型的防御策略选取研究[J]. 姜伟,方滨兴,田志宏,张宏莉. 计算机研究与发展. 2010(10)
[10]基于随机博弈模型的网络攻防量化分析方法[J]. 王元卓,林闯,程学旗,方滨兴. 计算机学报. 2010(09)
本文编号:3520819
【文章来源】:计算机研究与发展. 2020,57(04)北大核心EICSCD
【文章页数】:11 页
【部分图文】:
攻防过程
本文从时间片的角度考虑网络攻防过程,每个时间片是一个网络安全状态,并将其作为博弈状态集合.某时刻T网络安全状态反映的是当前时刻T网络的脆弱性信息、节点服务信息、节点访问权限等.而攻防双方采取的动作会影响这些信息的改变,进而使得网络安全状态发生转变.依据图1的攻防过程可以将攻防博弈状态用如图2所示的有向图G=(S,E)来表示,其中S表示攻防过程中的博弈状态集合,E表示攻防状态转换关系且用有向边来表示.图2中S={S1,S2,S3}表示博弈过程的3个状态,这3个状态可以转换.在实际的网络环境中,每个状态之间不一定可以转换,导致状态的难以确定,因此本文对于状态的考虑是从时间片去考虑每个状态相对于彼此都是独立的,这是因为时间片不同的关系导致其状态的不同,这样对于状态的考虑就可以对于每个时间片的状态进行最优策略选取,使得防御效益最大化.1.2 攻防收益量化
算法1对于策略优劣的评判是对每一个不同策略的效益值与禁忌表中的最优进行比较,算法1的空间复杂度主要在于对禁忌表、πd以及防御收益DR的存储,|S|为状态数,|D|为每个状态防御者的策略数,禁忌表中存储着策略以及相应的效益值,本文中将禁忌表的长度设定为10可知,算法1的空间复杂度为O(2|S||D|+20),本文对于禁忌搜索方法操作的主要过程有获取初始解、邻域的生成、对禁忌表进行判断以及解除禁忌表,这些操作的时间复杂度依次为n2,C n 2 ,n×l,n×l,这里n为问题规模,l为禁忌表长度,因此可知算法1的时间复杂度为O(n2+n×l).禁忌搜索方法为了避免陷入局部最优解,采用了一种灵活的“记忆”技术即禁忌表来对目前最优的解进行记录和选择,并指导下一步的搜索方向是一种全局逐步寻优方法[14].因此,禁忌搜索不会陷入局部最优.在本文所提禁忌搜索中,最终所得到的策略即是全局搜索的最优均衡策略,因为每次将所得策略往禁忌表中添加时都会将现在策略与禁忌表中的策略进行比较,使得禁忌表中的策略永远是“best so far”状态,然后只需在禁忌表中选取最优的策略即可获取最优均衡策略,并且禁忌搜索方法的引入会使得对博弈求均衡解变得更加便捷.
【参考文献】:
期刊论文
[1]基于非零和博弈的多路径组合攻击防御决策方法[J]. 孙骞,高岭,刘涛,姚军,郑杰,王海. 西北大学学报(自然科学版). 2019(03)
[2]基于随机博弈与改进WoLF-PHC的网络防御决策方法[J]. 杨峻楠,张红旗,张传富. 计算机研究与发展. 2019(05)
[3]基于不完全信息随机博弈与Q-learning的防御决策方法[J]. 张红旗,杨峻楠,张传富. 通信学报. 2018(08)
[4]遗传禁忌搜索算法收敛性和时间复杂度分析[J]. 牟乃夏,徐玉静,李洁,张灵先. 河南理工大学学报(自然科学版). 2018(04)
[5]基于改进复制动态演化博弈模型的最优防御策略选取[J]. 黄健明,张恒巍. 通信学报. 2018(01)
[6]基于多阶段攻防信号博弈的最优主动防御[J]. 张恒巍,李涛. 电子学报. 2017(02)
[7]模块化动态博弈的网络可生存性态势跟踪方法[J]. 伍文,孟相如,马志强,陈铎龙. 西安交通大学学报. 2012(12)
[8]基于非合作动态博弈的网络安全主动防御技术研究[J]. 林旺群,王慧,刘家红,邓镭,李爱平,吴泉源,贾焰. 计算机研究与发展. 2011(02)
[9]基于攻防随机博弈模型的防御策略选取研究[J]. 姜伟,方滨兴,田志宏,张宏莉. 计算机研究与发展. 2010(10)
[10]基于随机博弈模型的网络攻防量化分析方法[J]. 王元卓,林闯,程学旗,方滨兴. 计算机学报. 2010(09)
本文编号:3520819
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3520819.html