差分隐私定量与定性保护研究

发布时间：2020-07-20 18:04

【摘要】：差分隐私(Differential Privacy(DP))已经成为目前最流行的隐私保护技术之一,它对隐私泄露能够提供数学上严格的定量控制。近些年来关于差分隐私大量的研究不断被提出,其主要作用是保护数据或者模型。其中以差分隐私为基础的数据发布式算法,能够将原始数据集转化为具有类似性质的人工数据集,从而保护原始数据。另外,许多研究目的是提高在差分隐私保护下的数据挖掘模型效果。然而实现差分隐私需要引入噪声,这会导致数据的分布损失或模型的精度损失,而这些损失对于对数据或模型有严格要求的工业界来说是不可接受的。为了提高差分隐私保护下模型的精度,以及尝试实现差分隐私在工业系统中的应用,本文分别从定量挖掘与定性分析的角度来研究差分隐私技术。定量挖掘方面,我们研究的是差分隐私用于保护决策树模型,前人采取嵌入一层数据挖掘计算的方式将差分隐私应用在决策树模型上(每次操作生成两层子树),从而保护模型,防止模型的结构被使用者逆推出来。我们采取嵌入两层或两层以上数据挖掘计算的方式实现带有差分隐私保护的决策树模型(每次操作生成三层或三层以上的子树),当子树解空间过大时使用马尔科夫链(Markov Chain Monte Carlo(MCMC))来模拟解空间的分布。定性分析方面,前人均是从定量挖掘的角度来研究差分隐私,即关注于提高模型的效果,本文从另一个新的角度定性分析出发,研究差分隐私数据发布式算法对原始数据集属性关系的影响。定性分析目的是研究数据的排行、模式或重要集合等,天然对噪声有着更好的容纳能力。我们设计了一个差分隐私定性分析框架,使用两个典型的定性分析任务作为样例,让数据购买者能够更加深入地了解原始数据集的属性关系,从而更好地利用购买到的人工数据集,在这整个过程中原始数据的隐私不被泄露。本文的主要工作与贡献如下:·前人将差分隐私以一层深度嵌入到决策树模型中,我们提出了一个新的想法,将差分隐私以不同的深度嵌入到决策树中,以提高模型的预测效果。·我们提出了使用穷举搜索与马尔科夫链的算法,能够时间上有效率地将差分隐私以任意的深度地嵌入到决策树模型中。·实验证明,随着差分隐私嵌入深度的增加,决策树模型的表现效果提高了,深度结合差分隐私与决策树确实能够提高模型预测准确度。·与定量挖掘相比,定性分析天然地对噪声有着更好的容纳能力。我们首次进行了差分隐私定性分析的研究,尝试找到一种方式,将差分隐私应用在工业系统中。·我们提出了以差分隐私为基础的定性分析框架,用于帮助数据购买者实现定性分析任务,并得到结果的置信度。我们使用了两个典型的定性分析任务(两个分类器)作为样例,来演示这个框架的应用。·在公开与私有工业数据集上的实验结果显示,使用定性分析的框架,即使隐私预算ε很小(例如0.05),定性分析任务仍然能够以很高的置信度来完成,差分隐私的定性分析有着更大的潜能去实现差分隐私在工业系统中的应用。差分隐私是十分有效的隐私保护技术,越来越受到人们的重视。本文选取定量挖掘中差分隐私与决策树模型的结合,进行算法上的改进。另外从一个新的角度,定性分析来研究差分隐私在工业系统中应用的可能性。希望本文的工作能够为差分隐私在提高模型效果或工业应用上带来新的思路,为差分隐私技术的发展做出贡献。
【学位授予单位】：上海交通大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP309
【图文】：

架构图,隐私,决策树,差分

作[21, 27]如何对决策树实现差分隐私的，这种实现方式如图3 1(a)所示。Stopping condition checkingInner splittingLeaf node label generationDatabaseCounting querywithOne layer structurequery withCounting querywith'max(no. of calculations in each branch) ' ' '(a) 前人工作Inner splitting with different depthsDatabase?Has inner node to split?YesSubtree queryStructure selectionIf leaf nodelabel generation'max(no. of calculations in each branch)''(b) 当前工作图 3 1 决策树的差分隐私实现架构Fig 3 1 DP implementation skeleton of decision tree在本次研究中，我们在前人工作的基础上，对算法进行了改进。生成决策树的过程中，分裂一个内部节点时有着不同的选择。可以仅仅分裂一个内部节点来实现差分隐私(one-step computation)，也就是前人的工作。同样的，可以考虑在这个内部节点下生成一个三层子树 (树的生成算法每次分裂两层)，更深层次的，还可以生成一个?

模型图,隐私,决策树,差分

分隐私定量与定性保护研究上海交通大学硕士学位论文等。直到，一颗树在根节点下以最大深度直接生成，在一次生成整棵树的过程中实现差分隐私 (所有的内部分裂计算被视为一次计算)，这些新的分裂设想如图3 2所示。这些新的算法被用来和前人的工作[21](one-step computation) 进行比较，隐藏在数据库的接口后面，所有的计算，包括内部分裂和叶子节点的操作，被结合起来视为一次计算，设计的结构如图3 1(b)所示。因为这项工作关注于研究如何以不同的深度结合差分隐私和决策树模型，不同于前人的工作[21, 27]，本次算法设计中并没有做树的剪枝。在接下来的章节中，将介绍这些过程细节上的实现。!(a) 一层嵌入 (前人工作)...... ...... ...... ...... ...............12(b) 两层嵌入...... ...... ...... ...... ...............1(c) 三层嵌入...... ...... ...... ...... ...............1(d) 整棵树嵌入图 3 2 以不同的深度嵌入差分隐私到决策树模型Fig 3 2 Embedding DP in DT with different depths3.2.2 打分函数在决策树生成算法中，打分函数 (Quality Function) 扮演着重要的角色，被用来作为选择划分属性的衡量方法。它一般是基于几种纯度的衡量方法的

工作框架,分类器

通大学硕士学位论文第四章定性而非定量: 实现差分隐私的工p-K(BTK) 和 Be Larger(BL) 分类器。稳定意味着分类器处于一个收敛的状态在后面的章节讨论这个方面的细节。两个分类器都被数据提供者构建，并将数据购买者。对于 BTK 来说，人工数据集中某个属性的一些参数 (例如息增益等) 作为输入，分类器返回的是属性属于原始数据集 top 个重要。另一方面，对于 BL 分类器来说，属性和的相关参数作为输入，分类属性对类标签的影响程度比属性大的概率。例如，在 BTK 中，一个相 (>0.5) 意味着，对于属性，属于原始数据集中 top 属性的概率大于不属性的概率，而不是确定属于 top 个重要属性。这些概率 (置信度) 有助者判断原始数据集属性的重要性程度，从而能够更好地利用购买到的人工4 1显示了本次工作中相关名词的简称。

【参考文献】