大数据环境下基于差分隐私的数据发布及算法评估系统
发布时间:2021-10-14 20:04
随着信息技术的普及和发展,各行各业积累了大量而丰富的数据,这些数据中通常包含了许多个人隐私信息,直接对其进行发布或分析都可能造成隐私的泄露。差分隐私作为一种较新的隐私保护模型,能够防止攻击者拥有任意背景知识下的攻击,有效解决数据发布和分析中的隐私威胁问题。本文设计并实现了大数据环境下基于差分隐私的数据发布及算法评估系统,用于解决大数据背景下数据发布与隐私保护之间的问题,研究内容如下:首先针对大规模数值型数据的处理问题,选用了Spark分布式计算框架快速高效地处理数据,根据数据维度及发布需求的不同,设计了两种数据处理算法预处理原始数据,用于得到发布数据的原始计数值。其次为避免敏感数据信息在发布过程中遭到泄露,本系统采用非交互式保护框架,引入四种基于不同发布策略的差分隐私数据发布算法用于进行数据发布,并将发布结果通过可视化的形式展示出来。最后根据度量差分隐私算法性能的标准,从算法误差和算法性能方面来实现对隐私保护算法的评估。综上所述,本系统能满足大数据环境下大规模数值型数据的数据处理和数据发布的需求,为数据分析师和数据所有者提供一个基于差分隐私的数据发布与算法评估的可视化平台,以帮助其选择...
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:72 页
【学位级别】:硕士
【图文】:
非交互式保护框架
图 2. 6 Spark 的主要功能模块Figure 2.6 Main functional Modules of Sparkark 数据处理方式主要有以下 3 种:RDDAPI、DataFrameAPI、Spark SQL。1)RDDAPI 进行数据统计,主要是利用 Map/Reduce 的概念,一般使用 map ByKey 完成操作。弹性分布式数据集 RDD 的数据类型只有数据,没有定义 Sc 未定义字段名及其数据类型,只能使用位置来指定某个字段,但 RDD 的功能以完成所有 Spark 功能。2)DataFrameAPI,DataFrame 是一个以命名列方式组织的分布式数据集,其结系型数据库中的表结构相似,其前身是 SchemaRDD,从 Spark 1.3.0 开始更名ame,其与普通 RDD 不同,DataFrame 带有结构信息,在被创建时必须定义 S一个字段名及其数据类型,因此可以通过字段名对数据进行统计。另外 DataFr了许多类似 SQL 的统计方法,如 select()、groupby()、count()等。图 2.7 显示了 D RDD 逻辑框架上的区别。
第三章 系统设计3.1 系统总体架构良好的系统架构设计不仅可以使我们设计的软件系统能够满足用户需求,更能为软件系统带来安全性、稳定性、可扩展性的保障,可以在发生用户需求变更、提高软件可测试性与可维护性、降低维护成本、提高开发效率等情况时,起到十分重要的作用[45]。因此,系统架构设计作为系统开发过程中不可缺少的一个重要组成部分,本文在下面给出本系统的系统架构设计方案。本文提出的大数据环境下基于差分隐私的数据发布和算法评估系统,既需要满足海量数据的存储和高效计算处理需求,同时还需要结合差分隐私算法来实现隐私数据的发布和算法评估功能。系统的总体架构图如图 3.1 所示:
【参考文献】:
期刊论文
[1]大数据处理和分析中的隐私保护研究综述[J]. 任雪斌,杨新宇,杨树森,张海. 西北大学学报(自然科学版). 2019(01)
[2]浅析大数据环境下的隐私保护问题[J]. 杨珍,钟诚,杜晓静. 电子世界. 2014(18)
[3]面向数据发布和分析的差分隐私保护[J]. 张啸剑,孟小峰. 计算机学报. 2014(04)
硕士论文
[1]基于Hadoop和Django的电商用户画像系统[D]. 赖伟.首都经济贸易大学 2018
[2]差分隐私数据发布在精准扶贫大数据平台的应用研究[D]. 张波.陕西师范大学 2018
[3]基于差分隐私保护的医疗数据分析系统的设计与实现[D]. 任倬辉.北京邮电大学 2018
[4]大数据安全与隐私保护关键技术研究[D]. 颜飞.辽宁工业大学 2018
[5]基于Hadoop和Django的大数据可视化分析Web系统[D]. 吴义.东华大学 2016
本文编号:3436755
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:72 页
【学位级别】:硕士
【图文】:
非交互式保护框架
图 2. 6 Spark 的主要功能模块Figure 2.6 Main functional Modules of Sparkark 数据处理方式主要有以下 3 种:RDDAPI、DataFrameAPI、Spark SQL。1)RDDAPI 进行数据统计,主要是利用 Map/Reduce 的概念,一般使用 map ByKey 完成操作。弹性分布式数据集 RDD 的数据类型只有数据,没有定义 Sc 未定义字段名及其数据类型,只能使用位置来指定某个字段,但 RDD 的功能以完成所有 Spark 功能。2)DataFrameAPI,DataFrame 是一个以命名列方式组织的分布式数据集,其结系型数据库中的表结构相似,其前身是 SchemaRDD,从 Spark 1.3.0 开始更名ame,其与普通 RDD 不同,DataFrame 带有结构信息,在被创建时必须定义 S一个字段名及其数据类型,因此可以通过字段名对数据进行统计。另外 DataFr了许多类似 SQL 的统计方法,如 select()、groupby()、count()等。图 2.7 显示了 D RDD 逻辑框架上的区别。
第三章 系统设计3.1 系统总体架构良好的系统架构设计不仅可以使我们设计的软件系统能够满足用户需求,更能为软件系统带来安全性、稳定性、可扩展性的保障,可以在发生用户需求变更、提高软件可测试性与可维护性、降低维护成本、提高开发效率等情况时,起到十分重要的作用[45]。因此,系统架构设计作为系统开发过程中不可缺少的一个重要组成部分,本文在下面给出本系统的系统架构设计方案。本文提出的大数据环境下基于差分隐私的数据发布和算法评估系统,既需要满足海量数据的存储和高效计算处理需求,同时还需要结合差分隐私算法来实现隐私数据的发布和算法评估功能。系统的总体架构图如图 3.1 所示:
【参考文献】:
期刊论文
[1]大数据处理和分析中的隐私保护研究综述[J]. 任雪斌,杨新宇,杨树森,张海. 西北大学学报(自然科学版). 2019(01)
[2]浅析大数据环境下的隐私保护问题[J]. 杨珍,钟诚,杜晓静. 电子世界. 2014(18)
[3]面向数据发布和分析的差分隐私保护[J]. 张啸剑,孟小峰. 计算机学报. 2014(04)
硕士论文
[1]基于Hadoop和Django的电商用户画像系统[D]. 赖伟.首都经济贸易大学 2018
[2]差分隐私数据发布在精准扶贫大数据平台的应用研究[D]. 张波.陕西师范大学 2018
[3]基于差分隐私保护的医疗数据分析系统的设计与实现[D]. 任倬辉.北京邮电大学 2018
[4]大数据安全与隐私保护关键技术研究[D]. 颜飞.辽宁工业大学 2018
[5]基于Hadoop和Django的大数据可视化分析Web系统[D]. 吴义.东华大学 2016
本文编号:3436755
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3436755.html