面向自然语言处理系统的对抗攻击与防御研究
发布时间:2022-05-05 20:49
近年来,基于深度学习的文本分析和理解已成为包括问答、机器翻译、信息抽取以及文本分类在内的各种自然语言处理应用背后的核心技术。然而,尽管其备受欢迎且性能出色,但最新研究表明基于深度神经网络的自然语言处理模型容易受到恶意制作的对抗性输入的攻击。考虑到其在诸如情感分析、有害内容检测以及文本反垃圾等许多现实的安全敏感的任务中应用越来越广泛,这种脆弱性引起了人们对自然语言处理模型的安全性的极大担忧和高度关注。为了进一步研究基于深度神经网络的自然语言处理模型的脆弱性,学术界从不同的角度提出了大量的攻击方法来生成对抗文本。然而,大多数现有的攻击都假定可以访问目标模型的结构、参数或训练数据,而这种假设在许多现实的场景中通常不成立。并且,现有关于文本对抗攻击的研究主要集中在英文自然语言处理领域,而中文自然语言处理系统针对对抗文本的脆弱性仍然未知。此外,在对抗攻防博弈中,现有防御机制明显处于劣势,导致将自然语言处理模型完全暴露给了攻击者。为了弥合这一巨大差距以期进一步增强自然语言处理模型的鲁棒性,本文从三个方面研究了针对自然语言处理模型的对抗攻击和防御。与先前的工作相比,本文的优势在于:(1)针对现实应用...
【文章页数】:109 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 研究内容与贡献
1.2.1 本文研究内容
1.2.2 本文主要贡献
1.3 本文组织结构
1.4 本章小结
第2章 文本对抗攻击与防御综述
2.1 文本对抗攻击
2.1.1 基于梯度的攻击
2.1.2 基于置信度的攻击
2.1.3 基于迁移性的攻击
2.1.4 基于模型决策的攻击
2.2 文本对抗防御
2.2.1 对抗训练
2.2.2 拼写纠错
2.3 本章小结
第3章 面向现实应用的英文文本对抗攻击
3.1 引言
3.2 攻击设计
3.2.1 问题定义
3.2.2 威胁模型
3.2.3 TextBugger攻击方法
3.3 攻击评估:情感分析
3.3.1 数据集
3.3.2 目标模型
3.3.3 基线算法
3.3.4 评估指标
3.3.5 实现细节
3.3.6 攻击性能
3.3.7 可用性分析
3.3.8 讨论
3.4 攻击评估:有害内容检测
3.4.1 数据集
3.4.2 目标模型及实现细节
3.4.3 攻击性能
3.4.4 可用性分析
3.4.5 讨论
3.5 深入分析
3.5.1 对抗文本迁移性
3.5.2 用户研究
3.6 潜在防御策略
3.7 讨论
3.8 本章小结
第4章 基于模型决策的中文文本对抗攻击
4.1 引言
4.2 攻击设计
4.2.1 问题定义
4.2.2 威胁模型
4.2.3 CTBugger攻击方法
4.3 攻击评估
4.3.1 实验设置
4.3.2 定性评估
4.3.3 攻击性能评估
4.3.4 攻击收敛性分析
4.4 用户研究
4.5 本章小结
第5章 基于多模态词嵌入和机器翻译的对抗防御
5.1 引言
5.2 问题定义及威胁模型
5.3 TextShield防御框架
5.3.1 TextShield防御概述
5.3.2 对抗性机器翻译
5.3.3 多模态嵌入
5.3.4 多模态融合
5.4 实验设置与实现
5.4.1 数据集
5.4.2 目标模型
5.4.3 攻击方法
5.4.4 基线方法
5.4.5 评估指标
5.5 防御评估
5.5.1 模型性能评估
5.5.2 有效性评估
5.5.3 鲁棒性评估
5.5.4 与在线检测平台对比
5.6 讨论
5.7 本章小结
第6章 总结与展望
6.1 本文总结
6.2 未来展望
参考文献
攻读硕士学位期间主要的研究成果
致谢
【参考文献】:
期刊论文
[1]《2015中国智能语音产业发展白皮书》发布[J]. 武勤. 计算机与网络. 2016(08)
本文编号:3650991
【文章页数】:109 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 研究内容与贡献
1.2.1 本文研究内容
1.2.2 本文主要贡献
1.3 本文组织结构
1.4 本章小结
第2章 文本对抗攻击与防御综述
2.1 文本对抗攻击
2.1.1 基于梯度的攻击
2.1.2 基于置信度的攻击
2.1.3 基于迁移性的攻击
2.1.4 基于模型决策的攻击
2.2 文本对抗防御
2.2.1 对抗训练
2.2.2 拼写纠错
2.3 本章小结
第3章 面向现实应用的英文文本对抗攻击
3.1 引言
3.2 攻击设计
3.2.1 问题定义
3.2.2 威胁模型
3.2.3 TextBugger攻击方法
3.3 攻击评估:情感分析
3.3.1 数据集
3.3.2 目标模型
3.3.3 基线算法
3.3.4 评估指标
3.3.5 实现细节
3.3.6 攻击性能
3.3.7 可用性分析
3.3.8 讨论
3.4 攻击评估:有害内容检测
3.4.1 数据集
3.4.2 目标模型及实现细节
3.4.3 攻击性能
3.4.4 可用性分析
3.4.5 讨论
3.5 深入分析
3.5.1 对抗文本迁移性
3.5.2 用户研究
3.6 潜在防御策略
3.7 讨论
3.8 本章小结
第4章 基于模型决策的中文文本对抗攻击
4.1 引言
4.2 攻击设计
4.2.1 问题定义
4.2.2 威胁模型
4.2.3 CTBugger攻击方法
4.3 攻击评估
4.3.1 实验设置
4.3.2 定性评估
4.3.3 攻击性能评估
4.3.4 攻击收敛性分析
4.4 用户研究
4.5 本章小结
第5章 基于多模态词嵌入和机器翻译的对抗防御
5.1 引言
5.2 问题定义及威胁模型
5.3 TextShield防御框架
5.3.1 TextShield防御概述
5.3.2 对抗性机器翻译
5.3.3 多模态嵌入
5.3.4 多模态融合
5.4 实验设置与实现
5.4.1 数据集
5.4.2 目标模型
5.4.3 攻击方法
5.4.4 基线方法
5.4.5 评估指标
5.5 防御评估
5.5.1 模型性能评估
5.5.2 有效性评估
5.5.3 鲁棒性评估
5.5.4 与在线检测平台对比
5.6 讨论
5.7 本章小结
第6章 总结与展望
6.1 本文总结
6.2 未来展望
参考文献
攻读硕士学位期间主要的研究成果
致谢
【参考文献】:
期刊论文
[1]《2015中国智能语音产业发展白皮书》发布[J]. 武勤. 计算机与网络. 2016(08)
本文编号:3650991
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3650991.html