基于本地差分隐私的高维数据发布算法的研究
发布时间:2022-08-08 21:25
随着互联网的高速发展,计算机技术在人们生活中的应用越来越广泛,已经成为人类生活不可或缺的一部分。在大数据时代背景下,海量的数据中蕴含的是现实世界中各个领域的碎片化的信息,具有不可估量的潜在价值。随着大数据中巨大的潜在价值被挖掘,为人类的生活提供了便利。偏好分析,精准推送让人们的选择变得方便简单。然而,近年来隐私泄露及大数据杀熟事件层出不穷,为基于大数据发展的技术产业敲响了警钟。出于保护用户隐私的目的,业内研究者提出了差分隐私的保护模型。差分隐私使得攻击者无法准确辨别被攻击者的信息具体来自于哪一条记录,是有效的隐私保护模型。根据以上背景,本文使用本地差分隐私保护模型,实现了基于RAPPOR思想的本地差分隐私保护,并且在实现本地差分隐私模型的同时探究数据属性域的大小分布与不同的哈希函数间的选择组合关系。对于不同特点的数据集来说,选择使用冲突最小的哈希函数组合,其中当哈希函数的数量为2,使用mmh3和FNV函数时,对于数值型的数据冲突最小,在添加扰动的过程中减少了随机性扰动的产生,既实现了隐私的保护又保证了数据的可用性。同时由于海量数据的发展不仅体现在用户数量上,也体现于用户数据属性的增多,...
【文章页数】:53 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景
1.2 研究目的及意义
1.3 研究现状以及进展
1.4 研究内容
1.5 论文结构安排
第二章 理论基础
2.1 差分隐私的定义
2.1.1 中心化差分隐私
2.1.2 本地差分隐私
2.2 隐私保护算法
2.2.1 扰动机制
2.2.2 Bloom Filter技术
2.2.3 RAPPOR算法思想
2.2.4 隐私保护的改进
2.3 EM算法
2.4 Lasso回归
2.5 降维算法
2.6 本章小结
第三章 基于本地差分隐私的降维算法
3.1 算法流程
3.2 基于RAPPOR的隐私保护算法
3.3 属性降维算法
3.3.1 EM JD算法
3.3.2 Lasso JD算法
3.3.3 EM+Lasso JD混合算法
3.3.4 基于连接树的降维算法
3.4 本章小结
第四章 实验与结果分析
4.1 计算时间与扰动程度分析
4.2 计算时间与哈希函数个数分析
4.3 精确度与扰动程度分析
4.4 精确度与哈希函数个数分析
4.5 合成数据识别率
4.6 基于分布估计的降维与其他降维方法的对比
4.7 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
【参考文献】:
期刊论文
[1]基于深度学习的无人机数据链信噪比估计算法[J]. 孙宇航,曾国奇,刘春辉,张多纳. 北京航空航天大学学报. 2019(09)
[2]大数据处理和分析中的隐私保护研究综述[J]. 任雪斌,杨新宇,杨树森,张海. 西北大学学报(自然科学版). 2019(01)
[3]几何分布的参数估计及EM算法[J]. 张梦琇,周菊玲. 数学的实践与认识. 2018(20)
[4]治愈数据泄露良药何在[J]. 董毅智. 法人. 2018(10)
[5]差分隐私技术研究进展[J]. 高志强,王宇涛. 通信学报. 2017(S1)
[6]本地化差分隐私研究综述[J]. 叶青青,孟小峰,朱敏杰,霍峥. 软件学报. 2018(07)
[7]基于分类树的动态集值型数据发布的隐私保护[J]. 石秀金,胡艳玲. 计算机科学. 2017(05)
[8]图论的算法与应用简述[J]. 张孟,张惠. 亚太教育. 2016(32)
[9]智能手机:普适感知与应用[J]. 陈龙彪,李石坚,潘纲. 计算机学报. 2015(02)
[10]半监督拉普拉斯特征映射算法[J]. 刘海红,周聪辉. 计算机工程与设计. 2012(02)
本文编号:3672260
【文章页数】:53 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景
1.2 研究目的及意义
1.3 研究现状以及进展
1.4 研究内容
1.5 论文结构安排
第二章 理论基础
2.1 差分隐私的定义
2.1.1 中心化差分隐私
2.1.2 本地差分隐私
2.2 隐私保护算法
2.2.1 扰动机制
2.2.2 Bloom Filter技术
2.2.3 RAPPOR算法思想
2.2.4 隐私保护的改进
2.3 EM算法
2.4 Lasso回归
2.5 降维算法
2.6 本章小结
第三章 基于本地差分隐私的降维算法
3.1 算法流程
3.2 基于RAPPOR的隐私保护算法
3.3 属性降维算法
3.3.1 EM JD算法
3.3.2 Lasso JD算法
3.3.3 EM+Lasso JD混合算法
3.3.4 基于连接树的降维算法
3.4 本章小结
第四章 实验与结果分析
4.1 计算时间与扰动程度分析
4.2 计算时间与哈希函数个数分析
4.3 精确度与扰动程度分析
4.4 精确度与哈希函数个数分析
4.5 合成数据识别率
4.6 基于分布估计的降维与其他降维方法的对比
4.7 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
【参考文献】:
期刊论文
[1]基于深度学习的无人机数据链信噪比估计算法[J]. 孙宇航,曾国奇,刘春辉,张多纳. 北京航空航天大学学报. 2019(09)
[2]大数据处理和分析中的隐私保护研究综述[J]. 任雪斌,杨新宇,杨树森,张海. 西北大学学报(自然科学版). 2019(01)
[3]几何分布的参数估计及EM算法[J]. 张梦琇,周菊玲. 数学的实践与认识. 2018(20)
[4]治愈数据泄露良药何在[J]. 董毅智. 法人. 2018(10)
[5]差分隐私技术研究进展[J]. 高志强,王宇涛. 通信学报. 2017(S1)
[6]本地化差分隐私研究综述[J]. 叶青青,孟小峰,朱敏杰,霍峥. 软件学报. 2018(07)
[7]基于分类树的动态集值型数据发布的隐私保护[J]. 石秀金,胡艳玲. 计算机科学. 2017(05)
[8]图论的算法与应用简述[J]. 张孟,张惠. 亚太教育. 2016(32)
[9]智能手机:普适感知与应用[J]. 陈龙彪,李石坚,潘纲. 计算机学报. 2015(02)
[10]半监督拉普拉斯特征映射算法[J]. 刘海红,周聪辉. 计算机工程与设计. 2012(02)
本文编号:3672260
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3672260.html