基于敏感度分级的k-匿名技术研究与实现
发布时间:2021-10-29 06:28
近年来,随着信息网络科学技术的飞速发展,人们的生产生活中产生了海量的数据,为了满足数据共享、决策支持、科学研究等需求,需要对数据进行发布。然而,若数据不经处理或简单处理后直接发布,可能会导致其中包含的隐私信息泄露。因此,如何避免数据发布导致的隐私泄露问题,是目前学术界和工业界的研究热点。匿名化技术是其中的研究重点,它能够兼顾数据的可用性和安全性,因此得到学术界的广泛关注和研究,也是本文的研究重点。针对现有的基于聚类的(k,l)-匿名算法中存在偏斜性攻击和敏感性攻击的问题,将其与基于敏感度分级的(l,c)-多样性模型相结合,提出一种基于敏感度分级的(k,li,c)-匿名算法,该算法能够抵御多种攻击方式,增强了对高敏感度敏感属性的保护力度。然而,(k,li,c)算法中采用统一的敏感属性频率约束参数,未能充分利用敏感度分级的作用,导致信息损失较大。针对这一问题,本文将敏感属性频率约束参数与敏感等级相关联,在(k,/i,C)算法的基础上提出了一种改进的基于敏感度分级的(k,li,ci)-匿名算法,有效降低了匿名化过程中的信息损失。本论文使用UCI数据库中的Adult数据集进行仿真试验,结果表明...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图3-2极小等价类数据占比??26??
?七他?\?\\夂,??图3-3极小等价类信息损失占比??仿真结果如图3-2和图3-3所示,结果显示极小等价类中的数据占总数据个??数的29%,然而信息损失占总信息损失的39%,极小等价类产生了更多的信息损??失。另一方面,该模型引入了统一的频率约束参数(:,并未充分利用敏感度的特??点,造成了不必要的信息损失。??3.4基于敏感度分级的//,?c)-匿名算法??针对现有的基于聚类的a,/)-匿名算法中存在偏斜性攻击和高敏感度属性??聚集的问题,将其与基于敏感度分级的(/,c)-多样性模型相结合,提出基于敏??感度分级的a,?//,c)-匿名算法,其中"代表多样性参数/是随着敏感值的敏??感程度不同变化的。??基于敏感度分级的a
图3-4?a,?//,c)?_匿名算法流程图??输入:原始数据集T,匿名参数t敏感属性值的敏感度(心,幻......)、多样??性参数(//,6......)以及最高频率约束参数c
本文编号:3464143
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图3-2极小等价类数据占比??26??
?七他?\?\\夂,??图3-3极小等价类信息损失占比??仿真结果如图3-2和图3-3所示,结果显示极小等价类中的数据占总数据个??数的29%,然而信息损失占总信息损失的39%,极小等价类产生了更多的信息损??失。另一方面,该模型引入了统一的频率约束参数(:,并未充分利用敏感度的特??点,造成了不必要的信息损失。??3.4基于敏感度分级的//,?c)-匿名算法??针对现有的基于聚类的a,/)-匿名算法中存在偏斜性攻击和高敏感度属性??聚集的问题,将其与基于敏感度分级的(/,c)-多样性模型相结合,提出基于敏??感度分级的a,?//,c)-匿名算法,其中"代表多样性参数/是随着敏感值的敏??感程度不同变化的。??基于敏感度分级的a
图3-4?a,?//,c)?_匿名算法流程图??输入:原始数据集T,匿名参数t敏感属性值的敏感度(心,幻......)、多样??性参数(//,6......)以及最高频率约束参数c
本文编号:3464143
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3464143.html