在线学习聊天机器人回复安全性的研究
发布时间:2021-07-21 03:57
随着人工智能技术的快速发展,越来越多的人工智能技术走出实验室,在市场和实践中落地。典型例子有情感陪护类聊天机器人和个人助手类对话系统,如Tay、小冰、Alex智能音箱和Siri等。人们感叹人工智能产品给生活带来便利的同时,也对人工智能产品的安全性感到担忧。事实证明,这些担忧并不是多余的。人工智能技术在产品化的过程中暴露出很多安全问题。其中,针对聊天机器人的在线学习漏洞的攻击就频频发生:黑客或恶意用户利用聊天系统的在线学习接口漏洞,“教”给机器人极端言论,导致聊天机器人产生不当言论而触犯了当地法律法规,导致聊天机器人产品被迫下架整顿,给公司带来极大损失。此外,由于无法确定模型“学坏”的具体时刻,因此很难精确地回滚到未受污染的版本,只能回滚到相对早期的版本。如果模型退回到早期的版本就丢失了这期间从在线学习接口中学到的有价值的内容,给整顿工作带来了不小的难度。这使得在线学习聊天机器人回复的安全性成了工业界和学术界亟待解决的问题。因此,本文针对在线学习聊天机器人回复的安全性问题进行了研究。本文的主要工作如下:1.提出了一个针对在线学习聊天机器人的安全回复框架。首先,该框架能够结合用户输入句的语...
【文章来源】:东华大学上海市 211工程院校 教育部直属院校
【文章页数】:107 页
【学位级别】:博士
【部分图文】:
在线学习流程图
第一章绪论3复中。可见,该架构下机器人拥有很强的在线学习能力。图1-2.聊天机器人的在线学习场景1.2.2在线学习聊天机器人的回复安全性问题在线学习技术使得聊天机器人能够在与人类的对话中进行学习,这极大丰富了回复的多样性,提升了产品趣味。然而,在实际应用中,黑客或恶意用户会利用在线学习接口“教”聊天机器人产生非安全回复。因此,在线学习技术在改善聊天机器人产品体验的同时也增添了风险。本节首先给出问题描述,然后讨论衡量问题解决效果的评测标准。非安全回复侵犯言论的定义如下:侵犯言论(OffensiveLanguage)是指粗鲁的或令人反感的语言。它可以表现为对某人或某事的贬低,或者被视为对某事物的强烈表达1。与为人熟知的“侵犯言论”这一概括性的定义不同的是,非安全回复(UnsafeResponse)是本文根据聊天机器人领域的回复特点,从词汇、语义和语境三个方面归纳的定义:定义1.如果聊天机器人的回复句中包含以下三种情况的任意一种,即认为1http://wikipedia.moesalih.com/Offensive_language
第一章绪论9年来,深度学习模型发展迅速并在各项任务中取得瞩目的成果。其端到端的训练形式可以自动提取文本特征,这使得研究人员只需专注于模型结构本身。文献[44]使用情感和词嵌入的长短期记忆网络(LongShort-TermMemory,LSTM)模型做仇恨言论检测。文献[45]利用双向循环网络(BidirectionalRecurrentNeuralNetworks,Bi-RNN)和注意力机制来检测网络欺凌,双向循环网络用于整合双向的上下文信息,注意力机制反映了句中不同单词对于分类的贡献。文献[46]提出了多层注意力模型(HierarchicalAttentionNetworks)架构来捕捉社交媒体会话的层次结构。虽然针对聊天机器人回复的言论审查与针对用户生成内容的言论审查之间有很多相似之处,但二者也存在如下区别:1)针对聊天机器人的言论审查不仅需要审查回复句,还需要结合用户输入句的语境来判断。而针对用户生成内容的审查无此特性。2)针对聊天机器人的言论审查存在一个从审查器到聊天模型的管道,而针对用户生成内容的审查没有此管道。换言之,审查系统无权也无法对用户的思想和行为做改变,但可以改变聊天机器人的“思想”和行为。1.4研究路线针对在线学习聊天机器人回复安全性问题面临的挑战和已有工作的不足,本文首先提出一个在线学习聊天机器人的安全回复系统框架,然后研究此框架的三项关键技术,最后设计并实现了一个基于此框架的应用示例。本文的研究思路如图1-4所示。图1-4.在线聊天机器人回复安全性的研究思路在整体框架上,本文将安全回复框架分为以下两个任务:聊天机器人回复的言论审查和受污染的聊天机器人的言论净化。为了应对只检测回复句在
本文编号:3294255
【文章来源】:东华大学上海市 211工程院校 教育部直属院校
【文章页数】:107 页
【学位级别】:博士
【部分图文】:
在线学习流程图
第一章绪论3复中。可见,该架构下机器人拥有很强的在线学习能力。图1-2.聊天机器人的在线学习场景1.2.2在线学习聊天机器人的回复安全性问题在线学习技术使得聊天机器人能够在与人类的对话中进行学习,这极大丰富了回复的多样性,提升了产品趣味。然而,在实际应用中,黑客或恶意用户会利用在线学习接口“教”聊天机器人产生非安全回复。因此,在线学习技术在改善聊天机器人产品体验的同时也增添了风险。本节首先给出问题描述,然后讨论衡量问题解决效果的评测标准。非安全回复侵犯言论的定义如下:侵犯言论(OffensiveLanguage)是指粗鲁的或令人反感的语言。它可以表现为对某人或某事的贬低,或者被视为对某事物的强烈表达1。与为人熟知的“侵犯言论”这一概括性的定义不同的是,非安全回复(UnsafeResponse)是本文根据聊天机器人领域的回复特点,从词汇、语义和语境三个方面归纳的定义:定义1.如果聊天机器人的回复句中包含以下三种情况的任意一种,即认为1http://wikipedia.moesalih.com/Offensive_language
第一章绪论9年来,深度学习模型发展迅速并在各项任务中取得瞩目的成果。其端到端的训练形式可以自动提取文本特征,这使得研究人员只需专注于模型结构本身。文献[44]使用情感和词嵌入的长短期记忆网络(LongShort-TermMemory,LSTM)模型做仇恨言论检测。文献[45]利用双向循环网络(BidirectionalRecurrentNeuralNetworks,Bi-RNN)和注意力机制来检测网络欺凌,双向循环网络用于整合双向的上下文信息,注意力机制反映了句中不同单词对于分类的贡献。文献[46]提出了多层注意力模型(HierarchicalAttentionNetworks)架构来捕捉社交媒体会话的层次结构。虽然针对聊天机器人回复的言论审查与针对用户生成内容的言论审查之间有很多相似之处,但二者也存在如下区别:1)针对聊天机器人的言论审查不仅需要审查回复句,还需要结合用户输入句的语境来判断。而针对用户生成内容的审查无此特性。2)针对聊天机器人的言论审查存在一个从审查器到聊天模型的管道,而针对用户生成内容的审查没有此管道。换言之,审查系统无权也无法对用户的思想和行为做改变,但可以改变聊天机器人的“思想”和行为。1.4研究路线针对在线学习聊天机器人回复安全性问题面临的挑战和已有工作的不足,本文首先提出一个在线学习聊天机器人的安全回复系统框架,然后研究此框架的三项关键技术,最后设计并实现了一个基于此框架的应用示例。本文的研究思路如图1-4所示。图1-4.在线聊天机器人回复安全性的研究思路在整体框架上,本文将安全回复框架分为以下两个任务:聊天机器人回复的言论审查和受污染的聊天机器人的言论净化。为了应对只检测回复句在
本文编号:3294255
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3294255.html