具有隐私保护特性的决策树推断服务系统设计
发布时间:2021-09-05 08:30
在数据智能时代,机器学习技术在各行各业取得了爆发式的应用。训练一个机器学习模型需要海量的数据、服务器资源以及算法科学家的参与,具有一定的门槛,因此出现了机器学习推断服务:服务商将训练好的机器学习模型封装为一个接口,作为一项服务对外提供。任何人都可以提交自己的数据,获得相应的推断结果。机器学习推断服务的普及大大降低了机器学习的门槛,但在当前的机器学习推断服务系统中,客户需要将数据以明文形式直接提交给服务商,牺牲了自己的隐私。同时,机器学习模型属于服务商的私有资产,因此不能把模型直接发送给客户,由客户本地执行运算后获得推断结果。更重要的是,近年来各国出台了不少有关数据安全的法律法规,对于数据安全和隐私保护有了更加严格的规定。而在机器学习推断服务系统中,决策树模型占据半壁江山。因此,如何设计一个高效的具有隐私保护特性的决策树推断服务系统,成为了一个研究重点。本文主要研究内容如下:1.对于决策树推断服务系统中,各个参与方隐私保护的需求进行了详细分析。明确了服务商决策树模型大小无法保护的原因,给出了通过添加哑节点进行预处理,对决策树模型大小进行盲化的解决方案。在公开经盲化的决策树模型大小后,即可...
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
当前机器学习推断服务架构与保护隐私的机器学习推断服务架构
华东师范大学硕士学位论文19可以用以下信息进行描述(为便于描述,假设所有参数均为非负整数):1.决策节点数,并对决策节点利用广度优先搜索依次编号,记第个决策节点为;对于满二叉树来说,叶节点数量为决策节点数量加上1,即+1;2.决策节点的决策阈值向量∈2,其中代表决策节点对应的谓词函数的阈值,为输入数据元素在二进制下所允许的比特长度;3.决策节点对应的输入数据属性索引映射:{1...}→{1...};记客户输入决策树推断服务的数据向量∈2,即对决策节点,该节点比较()和的大小,将返回结果记为=1{()>};4.将决策节点对应的指向左子节点和右子节点的边分别记为,0,,1。并定义边,的系数为,,其中,0==1,,0=;5.对叶节点按照深度优先遍历顺序进行编码,记第个叶节点为,对应决策结果∈2。如果是回归任务,代表输出的推断数值;如果是分类任务,代表的是分类结果的编码;6.每个叶节点对应一条从根节点出发的唯一路径,可用边集唯一确定。例如在图2.2所示的决策树中,1={1,0,2,0,4,0},2={1,0,2,0,4,1},3={1,0,2,1},4={1,1,3,0},5={1,0,3,1}。图2.2一个含有4个决策节点的决策树模型
华东师范大学硕士学位论文24和∈2,分别作为该新决策节点的输入数据索引映射值和决策阈值。随后,为决策节点生成两个子节点,作为叶节点和,对应的决策结果和均与其父节点所对应的原叶节点的决策结果相同。以图3.1为例,原决策树共有2个决策节点,3个叶节点。对其添加哑节点后,原叶节点3变成决策节点3′,其输入数据索引映射(3)′和决策阈值3′均由服务商随机选龋其子节点为叶节点3′和4′,其对应的决策结果3′和4′均与原决策树的叶节点3的决策结果3相同。容易验证,对决策树添加哑节点的盲化过程,不会对任何输入数据的推断结果()有改变。仍以图3.1为例,若输入某个数据进行推断,在原决策树中的遍历结果为叶节点3,输出推断结果3,则在新决策树中,对应遍历至决策节点3′,随后运行该决策节点对应的谓词函数3′=1{(3)′>3′},若3′=0,则遍历至叶节点3′,输出推断结果3′=3;若b3’=1,则遍历至叶节点4′,输出推断结果4′=3。图3.1哑节点添加过程示例3.2.3决策树推断服务涉及的模块初步解构如本文2.3.2节中所述,在决策树推断服务执行过程中,实际执行的是对于决策树遍历的操作:从根节点开始,执行根节点对应的谓词函数1=1{(1)>1},根据每个决策节点上谓词函数的测试结果,若=0则遍历该属性节点的左子节点,反之遍历该属性节点的右子节点。该过程持续直至遍历至某个叶节点,叶节点上对应的决策结果()即为决策推断结果。对于每个输入数据(),一定会对应一个唯一的遍历路径,路径所对应的叶子节点上的输出值()即为推断结果。但若想使决策树推断服务具有隐私保护特性,无法直接迁移这个遍历过程。一方面,文献[54]
【参考文献】:
期刊论文
[1]人工智能安全的密码学思考[J]. 曹珍富. 民主与科学. 2019(06)
[2]侵犯公民个人信息罪法益:个人法益及新型权利之确证——以《个人信息保护法(草案)》为视角之分析[J]. 刘艳红. 中国刑事法杂志. 2019(05)
[3]数据安全法:定位、立场与制度构造[J]. 许可. 经贸法律评论. 2019(03)
[4]《2018年加州消费者隐私法案》中的个人信息保护[J]. 吴沈括,孟洁,薛颖,赵小琳. 信息安全与通信保密. 2018(12)
[5]欧盟《通用数据保护条例》对人工智能发展的影响及启示[J]. 王灏晨. 中国经贸导刊(理论版). 2018(17)
[6]《网络安全法》六大法律制度解析[J]. 王春晖. 南京邮电大学学报(自然科学版). 2017(01)
本文编号:3385010
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
当前机器学习推断服务架构与保护隐私的机器学习推断服务架构
华东师范大学硕士学位论文19可以用以下信息进行描述(为便于描述,假设所有参数均为非负整数):1.决策节点数,并对决策节点利用广度优先搜索依次编号,记第个决策节点为;对于满二叉树来说,叶节点数量为决策节点数量加上1,即+1;2.决策节点的决策阈值向量∈2,其中代表决策节点对应的谓词函数的阈值,为输入数据元素在二进制下所允许的比特长度;3.决策节点对应的输入数据属性索引映射:{1...}→{1...};记客户输入决策树推断服务的数据向量∈2,即对决策节点,该节点比较()和的大小,将返回结果记为=1{()>};4.将决策节点对应的指向左子节点和右子节点的边分别记为,0,,1。并定义边,的系数为,,其中,0==1,,0=;5.对叶节点按照深度优先遍历顺序进行编码,记第个叶节点为,对应决策结果∈2。如果是回归任务,代表输出的推断数值;如果是分类任务,代表的是分类结果的编码;6.每个叶节点对应一条从根节点出发的唯一路径,可用边集唯一确定。例如在图2.2所示的决策树中,1={1,0,2,0,4,0},2={1,0,2,0,4,1},3={1,0,2,1},4={1,1,3,0},5={1,0,3,1}。图2.2一个含有4个决策节点的决策树模型
华东师范大学硕士学位论文24和∈2,分别作为该新决策节点的输入数据索引映射值和决策阈值。随后,为决策节点生成两个子节点,作为叶节点和,对应的决策结果和均与其父节点所对应的原叶节点的决策结果相同。以图3.1为例,原决策树共有2个决策节点,3个叶节点。对其添加哑节点后,原叶节点3变成决策节点3′,其输入数据索引映射(3)′和决策阈值3′均由服务商随机选龋其子节点为叶节点3′和4′,其对应的决策结果3′和4′均与原决策树的叶节点3的决策结果3相同。容易验证,对决策树添加哑节点的盲化过程,不会对任何输入数据的推断结果()有改变。仍以图3.1为例,若输入某个数据进行推断,在原决策树中的遍历结果为叶节点3,输出推断结果3,则在新决策树中,对应遍历至决策节点3′,随后运行该决策节点对应的谓词函数3′=1{(3)′>3′},若3′=0,则遍历至叶节点3′,输出推断结果3′=3;若b3’=1,则遍历至叶节点4′,输出推断结果4′=3。图3.1哑节点添加过程示例3.2.3决策树推断服务涉及的模块初步解构如本文2.3.2节中所述,在决策树推断服务执行过程中,实际执行的是对于决策树遍历的操作:从根节点开始,执行根节点对应的谓词函数1=1{(1)>1},根据每个决策节点上谓词函数的测试结果,若=0则遍历该属性节点的左子节点,反之遍历该属性节点的右子节点。该过程持续直至遍历至某个叶节点,叶节点上对应的决策结果()即为决策推断结果。对于每个输入数据(),一定会对应一个唯一的遍历路径,路径所对应的叶子节点上的输出值()即为推断结果。但若想使决策树推断服务具有隐私保护特性,无法直接迁移这个遍历过程。一方面,文献[54]
【参考文献】:
期刊论文
[1]人工智能安全的密码学思考[J]. 曹珍富. 民主与科学. 2019(06)
[2]侵犯公民个人信息罪法益:个人法益及新型权利之确证——以《个人信息保护法(草案)》为视角之分析[J]. 刘艳红. 中国刑事法杂志. 2019(05)
[3]数据安全法:定位、立场与制度构造[J]. 许可. 经贸法律评论. 2019(03)
[4]《2018年加州消费者隐私法案》中的个人信息保护[J]. 吴沈括,孟洁,薛颖,赵小琳. 信息安全与通信保密. 2018(12)
[5]欧盟《通用数据保护条例》对人工智能发展的影响及启示[J]. 王灏晨. 中国经贸导刊(理论版). 2018(17)
[6]《网络安全法》六大法律制度解析[J]. 王春晖. 南京邮电大学学报(自然科学版). 2017(01)
本文编号:3385010
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3385010.html