支持隐私计算的非结构化大数据查询处理
发布时间:2021-01-25 18:27
如今信息广泛流通,大数据已成为不可或缺的时代产物,借助大数据技术展现出的优势愈发显著。这也促使人们需要不断探索更高效的新技术对大数据进行处理,包括数据的存储、查询和分析等。其中,大数据查询处理在信息整合筛选等过程占有重要地位。然而,当人们从大数据技术中受益时,保护个人隐私也变得越来越困难,非法泄露个人信息或利用数据挖掘分析潜在的敏感数据等现象频发,导致个人隐私岌岌可危,因此隐私保护亟待得到更多的关注。经研究发现,在大数据查询领域中对相似性连接查询的研究大多面向查询时间优化,而其作为数据处理中的基本操作之一,在提升查询效率的同时也应关注个人隐私的保护,因为两个或多个文件之间的连接更容易识别出个体身份造成信息泄露。相似连接需耗费大量资源和时间,在满足高效性的前提下平衡数据机密性和可用性也是一项挑战。综合以上考虑因素,一种基于MapReduce的隐私保护相似性连接查询(以下简称PSJoin)设法给出了一个解决方案。具体而言,PSJoin确保了在相似性连接查询过程中和结果发布后的数据隐私性,该工作重点研究隐私泄露问题,定义了隐私相似连接查询,并搭建整体框架,提出一种隐私全局排序策略来处理前缀过...
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
DPGO性能测试
华 中 科 技 大 学 硕 士 学 位 论 文围从 0.25 到 1,RE 与 的条形图见图 4.2,RE 普遍较低,说明相似对的输出受到扰动的影响较小,相似对的统计数有很高的准确性,呈现这种形势主要是因为 DPGO对相似对的数量几乎没有影响,参见图 4.1,而本文提出的差分隐私相似度函数是在相似值上实施的扰动,因此,像相似记录号、相似对数目等的查询操作仍然可以得到准确答复。额外的,如果有对这方面的隐私保护需求,本课题也可以为该查询提供差分隐私保护策略,即是在输出结果数目上进行扰动,不过需要修正隐私保护全局敏感度,还可以采用 3.1 章节中提到主要针对非数值型输出的指数机制,由于实际结果显示的效果类似以及篇幅所限,本文忽略了详细的描述。
(c) CITESEERX 数据集 (d) DBLP+数据集图 4.3 PSJoin 的性能测试4.3 扩展性分析为了评估所提出方法的查询效率及可扩展性,本节测量了 PSJoin 在不同数据集上不同阶段的运行时间。设置了四个典型相似性阈值 ,范围从 0.4 到 1。根据前面的研究发现,2 对 PSJoin 算法的运行时间影响不大,差分隐私相似度函数和 BSJoin的相似度函数的时间复杂度都是平方量级的,因此本实验可以忽略其值的变化对查询时间的影响,将其设定为 = 1.0。但是,实验发现 DPGO 与执行时间是密切相关的,因为它将直接控制前缀过滤的效果,候选集的大小影响着需要进行相似度计算的次数,进而对查询时间造成影响。因此,本实验设定了1 等于 0.5 或 0.75,在相同的因素下比较了四个不同数据集的查询时间。图 4.4 和图 4.5 显示了四个数据集上 PSJoin 的运行时间,图 4.4 中 设置为 0.5,图 4.5 中 设置为 0.75。为了进一步明确隐私相似连接查询不同阶段的运行时间,本
【参考文献】:
期刊论文
[1]大数据相似性连接查询技术研究进展[J]. 马友忠,张智辉,林春杰. 计算机应用. 2018(04)
[2]大数据安全与隐私保护研究进展[J]. 曹珍富,董晓蕾,周俊,沈佳辰,宁建廷,巩俊卿. 计算机研究与发展. 2016(10)
本文编号:2999679
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
DPGO性能测试
华 中 科 技 大 学 硕 士 学 位 论 文围从 0.25 到 1,RE 与 的条形图见图 4.2,RE 普遍较低,说明相似对的输出受到扰动的影响较小,相似对的统计数有很高的准确性,呈现这种形势主要是因为 DPGO对相似对的数量几乎没有影响,参见图 4.1,而本文提出的差分隐私相似度函数是在相似值上实施的扰动,因此,像相似记录号、相似对数目等的查询操作仍然可以得到准确答复。额外的,如果有对这方面的隐私保护需求,本课题也可以为该查询提供差分隐私保护策略,即是在输出结果数目上进行扰动,不过需要修正隐私保护全局敏感度,还可以采用 3.1 章节中提到主要针对非数值型输出的指数机制,由于实际结果显示的效果类似以及篇幅所限,本文忽略了详细的描述。
(c) CITESEERX 数据集 (d) DBLP+数据集图 4.3 PSJoin 的性能测试4.3 扩展性分析为了评估所提出方法的查询效率及可扩展性,本节测量了 PSJoin 在不同数据集上不同阶段的运行时间。设置了四个典型相似性阈值 ,范围从 0.4 到 1。根据前面的研究发现,2 对 PSJoin 算法的运行时间影响不大,差分隐私相似度函数和 BSJoin的相似度函数的时间复杂度都是平方量级的,因此本实验可以忽略其值的变化对查询时间的影响,将其设定为 = 1.0。但是,实验发现 DPGO 与执行时间是密切相关的,因为它将直接控制前缀过滤的效果,候选集的大小影响着需要进行相似度计算的次数,进而对查询时间造成影响。因此,本实验设定了1 等于 0.5 或 0.75,在相同的因素下比较了四个不同数据集的查询时间。图 4.4 和图 4.5 显示了四个数据集上 PSJoin 的运行时间,图 4.4 中 设置为 0.5,图 4.5 中 设置为 0.75。为了进一步明确隐私相似连接查询不同阶段的运行时间,本
【参考文献】:
期刊论文
[1]大数据相似性连接查询技术研究进展[J]. 马友忠,张智辉,林春杰. 计算机应用. 2018(04)
[2]大数据安全与隐私保护研究进展[J]. 曹珍富,董晓蕾,周俊,沈佳辰,宁建廷,巩俊卿. 计算机研究与发展. 2016(10)
本文编号:2999679
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2999679.html