基于差分隐私的数据发布技术研究与实现
发布时间:2021-07-07 21:02
近年来,随着互联网技术的快速兴起和大数据应用的迅速发展,数据正在逐渐改变人们的生活和工作方式,其价值也在各行各业得到逐步体现。但是,数据发布在创造价值的同时也会让用户的隐私受到巨大的威胁。因此,用户隐私保护成为数据发布中一个至关重要的安全需求。如果发布的数据得不到合适的处理,那么涉及用户隐私的敏感信息就可能出现泄漏的情况。例如,不可信的实体可能企图窃取用户的身份信息,历史位置和移动轨迹信息,甚至可以通过背景知识和上下文信息来揭露用户的行为习惯等隐私信息,进而威胁到用户的生命与财产安全。因此,为了解决大数据背景下的数据发布中存在的隐私问题,本文进行了以下针对性的研究:(1)针对数据发布中可能出现的隐私泄漏问题,本文提出了一种基于准标识符分类的混淆差分隐私数据发布方案AQ-DP。该方案提出了一种根据敏感属性对准标识符进行分类的方法,并分别使用随机洗牌算法和数据泛化算法对分类的准标识符进行隐私保护处理。该方法的优势在于在不破坏数据的关联性的同时又对用户数据隐私提供保护。AQ-DP引入差分隐私来加强对用户数据的保护,从而数据安全性从理论上能够得到保障。此外,方案引入KL divergence和...
【文章来源】:南京理工大学江苏省 211工程院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
Laplace机制原理图
3 基于准标识符分类的混淆差分隐私数据发布方案 硕士学位论文 符数量为 /2 ,其中 n 为准标识符的数量。从实验结果可以看出,在准标识符数量 n从 3 到 9 依次增大的情况下,三种方案的 KL divergence 都随之增大,这是因为随着准标识符数量的增加,数据集面临的隐私风险也会增大。而为了满足隐私性的要求,需要对数据集进行更大程度的失真处理,这样也就意味着数据可用性也会随之降低。从三种方案的对比来看,我们的方案比 BLENDER 和 CSPLOG 的 KL divergence 更低,也就是说,在数据隐私处理的过程中,我们方案在关键信息的失真程度要比 BLENDER 和CSPLOG 低,从而看出我们的方案具有更高的数据可用性。
硕士学位论文基于差分隐私的数据发布技术研究与实现27图3.5互信息对比图3.4.3运行效率除了数据可用性和隐私性,实际应用环境下的可行性也是评价一个方案好坏的重要因素,因此我们通过实验对三种方案在运行效率上的表现进行了分析。首先,就我们的方案本身的运行情况来说,当隐私参数分别取0.1、0.2、0.5和0.8的时候,图3.6表明方案隐私处理的计算时间依次减少。这是因为当增大时,差分隐私模型的数据隐私性降低,而需要的隐私计算量也随之减少,因此运行时间会随着的减小而减少。而在隐私参数一定的情况下,随着数据集的增大,方案模型的处理时间也明显增加,这是由于数据集的增大带来的包括敏感度在内的一系列差分隐私计算量的增加所导致的,总体来说,其运行时间在可接受的范围内。图3.6不同下的AQ-DP性能-数据量变化曲线同样的,在准标识符为9的情况下,将我们的方案与BLENDER和CSPLOG依次进行对比。如图3.7所示,在分别取0.1、0.2、0.5和0.8的情况下,三种方案的整体变化趋势保持一致,都是随着数据集的增大,其运行时间也变长。但相比于BLENDER
【参考文献】:
期刊论文
[1]一种基于差分隐私和时序的推荐系统模型研究[J]. 范利云,左万利,王英,王鑫. 电子学报. 2017(09)
[2]基于滤波原理的时间序列差分隐私保护强度评估[J]. 熊文君,徐正全,王豪. 通信学报. 2017(05)
[3]基于时间序列ARIMA与BP神经网络的组合预测模型[J]. 翟静,曹俊. 统计与决策. 2016(04)
[4]基于差分隐私的权重社会网络隐私保护[J]. 兰丽辉,鞠时光. 通信学报. 2015(09)
[5]Node.js:一种新的Web应用构建技术[J]. 王金龙,宋斌,丁锐. 现代电子技术. 2015(06)
[6]面向频繁模式挖掘的差分隐私保护研究综述[J]. 丁丽萍,卢国庆. 通信学报. 2014(10)
[7]面向数据发布和分析的差分隐私保护[J]. 张啸剑,孟小峰. 计算机学报. 2014(04)
[8]差分隐私保护下一种精确挖掘top-k频繁模式方法[J]. 张啸剑,王淼,孟小峰. 计算机研究与发展. 2014(01)
[9]差分隐私保护及其应用[J]. 熊平,朱天清,王晓峰. 计算机学报. 2014(01)
[10]大数据安全与隐私保护[J]. 冯登国,张敏,李昊. 计算机学报. 2014(01)
本文编号:3270365
【文章来源】:南京理工大学江苏省 211工程院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
Laplace机制原理图
3 基于准标识符分类的混淆差分隐私数据发布方案 硕士学位论文 符数量为 /2 ,其中 n 为准标识符的数量。从实验结果可以看出,在准标识符数量 n从 3 到 9 依次增大的情况下,三种方案的 KL divergence 都随之增大,这是因为随着准标识符数量的增加,数据集面临的隐私风险也会增大。而为了满足隐私性的要求,需要对数据集进行更大程度的失真处理,这样也就意味着数据可用性也会随之降低。从三种方案的对比来看,我们的方案比 BLENDER 和 CSPLOG 的 KL divergence 更低,也就是说,在数据隐私处理的过程中,我们方案在关键信息的失真程度要比 BLENDER 和CSPLOG 低,从而看出我们的方案具有更高的数据可用性。
硕士学位论文基于差分隐私的数据发布技术研究与实现27图3.5互信息对比图3.4.3运行效率除了数据可用性和隐私性,实际应用环境下的可行性也是评价一个方案好坏的重要因素,因此我们通过实验对三种方案在运行效率上的表现进行了分析。首先,就我们的方案本身的运行情况来说,当隐私参数分别取0.1、0.2、0.5和0.8的时候,图3.6表明方案隐私处理的计算时间依次减少。这是因为当增大时,差分隐私模型的数据隐私性降低,而需要的隐私计算量也随之减少,因此运行时间会随着的减小而减少。而在隐私参数一定的情况下,随着数据集的增大,方案模型的处理时间也明显增加,这是由于数据集的增大带来的包括敏感度在内的一系列差分隐私计算量的增加所导致的,总体来说,其运行时间在可接受的范围内。图3.6不同下的AQ-DP性能-数据量变化曲线同样的,在准标识符为9的情况下,将我们的方案与BLENDER和CSPLOG依次进行对比。如图3.7所示,在分别取0.1、0.2、0.5和0.8的情况下,三种方案的整体变化趋势保持一致,都是随着数据集的增大,其运行时间也变长。但相比于BLENDER
【参考文献】:
期刊论文
[1]一种基于差分隐私和时序的推荐系统模型研究[J]. 范利云,左万利,王英,王鑫. 电子学报. 2017(09)
[2]基于滤波原理的时间序列差分隐私保护强度评估[J]. 熊文君,徐正全,王豪. 通信学报. 2017(05)
[3]基于时间序列ARIMA与BP神经网络的组合预测模型[J]. 翟静,曹俊. 统计与决策. 2016(04)
[4]基于差分隐私的权重社会网络隐私保护[J]. 兰丽辉,鞠时光. 通信学报. 2015(09)
[5]Node.js:一种新的Web应用构建技术[J]. 王金龙,宋斌,丁锐. 现代电子技术. 2015(06)
[6]面向频繁模式挖掘的差分隐私保护研究综述[J]. 丁丽萍,卢国庆. 通信学报. 2014(10)
[7]面向数据发布和分析的差分隐私保护[J]. 张啸剑,孟小峰. 计算机学报. 2014(04)
[8]差分隐私保护下一种精确挖掘top-k频繁模式方法[J]. 张啸剑,王淼,孟小峰. 计算机研究与发展. 2014(01)
[9]差分隐私保护及其应用[J]. 熊平,朱天清,王晓峰. 计算机学报. 2014(01)
[10]大数据安全与隐私保护[J]. 冯登国,张敏,李昊. 计算机学报. 2014(01)
本文编号:3270365
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3270365.html