低查询成本的高效黑盒模型攻击算法
发布时间:2021-06-11 10:38
随着深度学习的日益发展,深度神经网络在计算机视觉、文本处理、语音识别等领域都占据着愈发重要的位置。然而近年的研究表明,没有任何特定防御措施的深度神经网络极其容易被攻破。例如在图像分类任务中,在清晰图片上施加人类肉眼难以分辨的细微扰动,就可以使深度神经网络以极高的置信度将图片内容判断为错误的类别,造成极大的危害。现有的深度神经网络攻击主要分为两种:一种是白盒模型攻击,其假定的条件为被攻击的神经网络模型对攻击者是已知的,即模型的输出结果以及模型的结构、参数皆可被攻击者得到,攻击者可以利用模型参数快速生成高成功率的对抗样本;另一种是黑盒模型攻击,其假定攻击者仅可以得到模型的输出结果,而无法得到模型的结构与参数,该攻击环境更贴合实际,因而本文也更关注该方面的研究,黑盒模型攻击相较白盒模型攻击,攻击成功率低且速度较慢,但危害性却远远胜过白盒模型攻击。本文提出的多模型高效查询攻击(Multi-Model Efficient Query Attack)方法针对黑盒模型攻击所需查询次数过多、速度过慢的问题,在攻击查询过程中引入了多种白盒模型作为指导模型,利用白盒模型与黑盒模型的关联性给出求解黑盒攻击问...
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
对抗样本示例
华东师范大学硕士学位论文第一章绪论图1.2:指定目标攻击与非指定目标攻击都有实现的可能,而造成重大影响这一条件则广泛存在于深度学习任务中。对抗样本是由现有深度学习的缺陷所带来的,因而对输入值为连续值的样本而言,在原样本上进行微小的修改,都有可能使得扰动经过深度模型的层层放大,最终造成模型端的巨额梯度更新,成为对抗样本。目前对抗样本已经在白盒攻击领域取得了很好的成效,可以快速生成了高成功率低扰动的对抗样本;而在黑盒攻击领域,随着基于模型短链接的对抗样本生成法[13]、基于模型融合的对抗样本生成法[14]等的出现,让对抗扰动与浅层通用信息的关联性更强,使得迁移攻击这种不需要任何与黑盒交互的攻击方法也能在黑盒模型上取得不错的非指定目标攻击成功率。黑盒攻击领域另一类方法则是通过自然进化策略预估梯度,将黑盒攻击问题转化为白盒攻击问题,待攻击图片可以在万次的查询后拥有极高的攻击成功率,此外通过例如自编码器[15]、随机选择攻击[16]、Bandit估计[17][18]等方法,可以将查询次数下降至千次的量级,提升黑盒攻击的效率。对抗样本攻击领域仍有部分有待改进的问题,在非指定目标攻击领域,梯度4
华东师范大学硕士学位论文第二章相关工作图2.1:Sign函数图实现方式,具体更新方式为xadv=x+signx(F(x),y),(2.7)其中sign函数是如图2.1所示,将大于0的值输出为1,小于0的值输出为1,等于0的值输出为0的函数。由于梯度更新方向仅存在两个方向,并被限制在[1,1]的区间,因而乘以系数必然满足扰动大小的约束条件。2.2.2白盒模型攻击算法所有白盒对抗攻击算法的目标都是找到当前图片使白盒模型的损失函数最大化的优化方向,并依据此梯度方向更新。根据其约束条件的不同可以构建出不同的优化任务,同时又因为更新方式的不同,白盒对抗攻击方法可以分为很多种类。L-BFGS:L-BFGS白盒攻击法由Szegedyetal.[1]于2013年ICLR提出,是对抗样本领域的第一篇论文,针对白盒分类模型带L2约束的优化问题,其将约束转化为目标损失函数的一部分,构建出对抗攻击的优化问题minc∥xxadv∥22+F,t(xadv)(2.8)s.t.xadv∈[0,1]n,其中第一项是对抗图片与原图片的距离损失,第二项为模型判别的损失函数,t为目标类,如果为非指定目标攻击,则t=y,同时(xadv)应变为(xadv)。L-BFGS全称Limited-memoryBroyden-Fletcher-Goldfarb-Shanno,原本用以求解无约束线性规划问题,采用的是拟牛顿法,具有收敛速度快,内存空间低的特点。在此问题中10
本文编号:3224376
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
对抗样本示例
华东师范大学硕士学位论文第一章绪论图1.2:指定目标攻击与非指定目标攻击都有实现的可能,而造成重大影响这一条件则广泛存在于深度学习任务中。对抗样本是由现有深度学习的缺陷所带来的,因而对输入值为连续值的样本而言,在原样本上进行微小的修改,都有可能使得扰动经过深度模型的层层放大,最终造成模型端的巨额梯度更新,成为对抗样本。目前对抗样本已经在白盒攻击领域取得了很好的成效,可以快速生成了高成功率低扰动的对抗样本;而在黑盒攻击领域,随着基于模型短链接的对抗样本生成法[13]、基于模型融合的对抗样本生成法[14]等的出现,让对抗扰动与浅层通用信息的关联性更强,使得迁移攻击这种不需要任何与黑盒交互的攻击方法也能在黑盒模型上取得不错的非指定目标攻击成功率。黑盒攻击领域另一类方法则是通过自然进化策略预估梯度,将黑盒攻击问题转化为白盒攻击问题,待攻击图片可以在万次的查询后拥有极高的攻击成功率,此外通过例如自编码器[15]、随机选择攻击[16]、Bandit估计[17][18]等方法,可以将查询次数下降至千次的量级,提升黑盒攻击的效率。对抗样本攻击领域仍有部分有待改进的问题,在非指定目标攻击领域,梯度4
华东师范大学硕士学位论文第二章相关工作图2.1:Sign函数图实现方式,具体更新方式为xadv=x+signx(F(x),y),(2.7)其中sign函数是如图2.1所示,将大于0的值输出为1,小于0的值输出为1,等于0的值输出为0的函数。由于梯度更新方向仅存在两个方向,并被限制在[1,1]的区间,因而乘以系数必然满足扰动大小的约束条件。2.2.2白盒模型攻击算法所有白盒对抗攻击算法的目标都是找到当前图片使白盒模型的损失函数最大化的优化方向,并依据此梯度方向更新。根据其约束条件的不同可以构建出不同的优化任务,同时又因为更新方式的不同,白盒对抗攻击方法可以分为很多种类。L-BFGS:L-BFGS白盒攻击法由Szegedyetal.[1]于2013年ICLR提出,是对抗样本领域的第一篇论文,针对白盒分类模型带L2约束的优化问题,其将约束转化为目标损失函数的一部分,构建出对抗攻击的优化问题minc∥xxadv∥22+F,t(xadv)(2.8)s.t.xadv∈[0,1]n,其中第一项是对抗图片与原图片的距离损失,第二项为模型判别的损失函数,t为目标类,如果为非指定目标攻击,则t=y,同时(xadv)应变为(xadv)。L-BFGS全称Limited-memoryBroyden-Fletcher-Goldfarb-Shanno,原本用以求解无约束线性规划问题,采用的是拟牛顿法,具有收敛速度快,内存空间低的特点。在此问题中10
本文编号:3224376
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3224376.html