事务型数据发布的隐私保护关键技术研究
发布时间:2021-04-06 18:26
每时每刻通过各类APP产生的大量数据,造就了大数据时代的超速发展。要想发现数据背后隐藏的价值,就需要在数据发布之后通过数据挖掘来发现。但与此同时也增加了个人隐私泄露的风险。因此,在数据发布之前进行个体的隐私保护就显得十分有必要。而事务型数据作为这些数据中一类,由于具有稀疏多维的特点,在进行隐私保护时具有一定的难度。因此,本文通过对已有针对事务型数据发布的隐私保护关键技术进行研究,从匿名模型和差分隐私模型两种隐私保护技术上展开探究,并解决差分隐私算法中存在的查询不一致问题。经过隐私保护技术发布的事务型数据,不仅要保证数据的可用性,还要保证数据个体的隐私安全性。本文的主要工作为:(1)在现有基于匿名模型的事务型数据发布隐私保护研究基础上,为明确界定事务数据表中的敏感项目与非敏感项目,提出针对事务型数据隐私保护算法(c,k)-匿名。先利用泛化规则将事务记录的每个项目泛化,生成项目记录泛化表,构造计数树,然后根据隐私需求,设定阈值c的值,利用计数树明确区分出敏感项目与非敏感项目,使非敏感项目满足k-匿名,保证一个等价类中具有相同非敏感项目的记录个数不少于k个,以达到保护数据个体敏感项目的作用。...
【文章来源】:西北师范大学甘肃省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
数据收集和发布过程
西北师范大学硕士学位论文82.1.2匿名技术目前针对准标识符进行操作的匿名技术包括泛化、抑制、置换和扰动等[67],其中较为常见的是泛化技术和抑制技术。通过利用这些已有的技术,破环每个数据个体与其所对应敏感属性之间的链接关系,实现对数据个体的隐私保护。下面对部分技术进行介绍:(1)泛化(Generalization):泛化主要是针对数据集中的属性值进行操作,将属性值信息模糊化,用范围更大的值代替准确值,用泛化树表示,实现用数据的部分精确度换取数据个体隐私信息的保护。而进行泛化的属性主要分为两种:数值型和离散型。如图2-1所示,是对数值型属性进行泛化的操作,将20岁到40岁的所有年龄都描述为[20-40),40岁到60岁的所有年龄都描述为[40-60],若用户的隐私需求较高,直接用[20-60]这个区间值来描述表2-1中的所有数据个体。图2-1数值型数据泛化树如图2-2所示,红酒、白酒都为离散型数据,可泛化为酒。图2-2离散型数据泛化树(2)抑制(Suppression):抑制是指对数据集中具体的属性值进行删除或者用其他特定的符号代替数据的处理方式。抑制的方法主要有两种:局部抑制和全局抑制。所谓局部抑制是删除属性在整个数据集中的分布情况,有选择的删除部分属性值以此满足属性值在局部分布情况下相似的隐私要求,对属性值局部抑制的处理会带来大量的伪关联规则,虽然这样的处理速度会较慢,但信息损失相对较校如表2-2所示,Zipcode属性是局部抑制。而全局抑制是指对属性中指定的某属性
西北师范大学硕士学位论文82.1.2匿名技术目前针对准标识符进行操作的匿名技术包括泛化、抑制、置换和扰动等[67],其中较为常见的是泛化技术和抑制技术。通过利用这些已有的技术,破环每个数据个体与其所对应敏感属性之间的链接关系,实现对数据个体的隐私保护。下面对部分技术进行介绍:(1)泛化(Generalization):泛化主要是针对数据集中的属性值进行操作,将属性值信息模糊化,用范围更大的值代替准确值,用泛化树表示,实现用数据的部分精确度换取数据个体隐私信息的保护。而进行泛化的属性主要分为两种:数值型和离散型。如图2-1所示,是对数值型属性进行泛化的操作,将20岁到40岁的所有年龄都描述为[20-40),40岁到60岁的所有年龄都描述为[40-60],若用户的隐私需求较高,直接用[20-60]这个区间值来描述表2-1中的所有数据个体。图2-1数值型数据泛化树如图2-2所示,红酒、白酒都为离散型数据,可泛化为酒。图2-2离散型数据泛化树(2)抑制(Suppression):抑制是指对数据集中具体的属性值进行删除或者用其他特定的符号代替数据的处理方式。抑制的方法主要有两种:局部抑制和全局抑制。所谓局部抑制是删除属性在整个数据集中的分布情况,有选择的删除部分属性值以此满足属性值在局部分布情况下相似的隐私要求,对属性值局部抑制的处理会带来大量的伪关联规则,虽然这样的处理速度会较慢,但信息损失相对较校如表2-2所示,Zipcode属性是局部抑制。而全局抑制是指对属性中指定的某属性
【参考文献】:
期刊论文
[1]差分隐私的查询一致性约束研究[J]. 贾俊杰,陈慧,马慧芳,牟玉祥. 计算机工程与科学. 2020(01)
[2]面向时空特性的社会网络敏感关系隐私保护[J]. 夏秀峰,李曼迪,刘向宇,宗传玉,李佳佳,朱睿. 计算机工程与设计. 2019(06)
[3]抵制轨迹相似性攻击的轨迹(k,e)-匿名算法[J]. 贾俊杰,黄贺. 计算机工程与科学. 2019(05)
[4]差分隐私的数据流关键模式挖掘方法[J]. 王金艳,刘陈,傅星珵,罗旭东,李先贤. 软件学报. 2019(03)
[5]点差分隐私下图数据的度直方图发布方法[J]. 张宇轩,魏江宏,李霁,刘文芬,胡学先. 计算机研究与发展. 2019(03)
[6]基于差分隐私的匿名组LBS轨迹隐私保护模型[J]. 袁健,王迪,高喜龙,王睿宁,林思劼. 小型微型计算机系统. 2019(02)
[7](p,k)匿名数据集的增量更新算法[J]. 贾俊杰,闫国蕾,邢里程,陈菲. 计算机工程与科学. 2018(07)
[8]基于多敏感属性分级的(αij,k,m)-匿名隐私保护方法[J]. 王秋月,葛丽娜,耿博,王利娟. 计算机应用. 2018(01)
[9]一种满足差分隐私的轨迹数据发布方法[J]. 霍峥,孟小峰. 计算机学报. 2018(02)
[10]抵制敏感属性相似性攻击的(p,k,d)-匿名模型[J]. 贾俊杰,陈露婷. 计算机工程. 2018(03)
博士论文
[1]基于聚类的匿名化隐私保护技术研究[D]. 王平水.南京航空航天大学 2013
硕士论文
[1]关系事务型数据发布中的隐私保护方法研究[D]. 周思明.广西师范大学 2018
[2]事务型数据流发布的隐私保护方法研究[D]. 邓超记.广西师范大学 2017
[3]基于分类树的集值型数据发布隐私保护研究[D]. 胡艳玲.东华大学 2017
[4]基于差分隐私保护的集值型数据发布技术研究[D]. 黄奚芳.江西理工大学 2015
[5]动态集值属性数据重发布的隐私保护研究[D]. 武毅.北京工业大学 2013
[6]高效的集值属性数据隐私保护发布技术研究[D]. 毛云青.浙江大学 2011
本文编号:3121908
【文章来源】:西北师范大学甘肃省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
数据收集和发布过程
西北师范大学硕士学位论文82.1.2匿名技术目前针对准标识符进行操作的匿名技术包括泛化、抑制、置换和扰动等[67],其中较为常见的是泛化技术和抑制技术。通过利用这些已有的技术,破环每个数据个体与其所对应敏感属性之间的链接关系,实现对数据个体的隐私保护。下面对部分技术进行介绍:(1)泛化(Generalization):泛化主要是针对数据集中的属性值进行操作,将属性值信息模糊化,用范围更大的值代替准确值,用泛化树表示,实现用数据的部分精确度换取数据个体隐私信息的保护。而进行泛化的属性主要分为两种:数值型和离散型。如图2-1所示,是对数值型属性进行泛化的操作,将20岁到40岁的所有年龄都描述为[20-40),40岁到60岁的所有年龄都描述为[40-60],若用户的隐私需求较高,直接用[20-60]这个区间值来描述表2-1中的所有数据个体。图2-1数值型数据泛化树如图2-2所示,红酒、白酒都为离散型数据,可泛化为酒。图2-2离散型数据泛化树(2)抑制(Suppression):抑制是指对数据集中具体的属性值进行删除或者用其他特定的符号代替数据的处理方式。抑制的方法主要有两种:局部抑制和全局抑制。所谓局部抑制是删除属性在整个数据集中的分布情况,有选择的删除部分属性值以此满足属性值在局部分布情况下相似的隐私要求,对属性值局部抑制的处理会带来大量的伪关联规则,虽然这样的处理速度会较慢,但信息损失相对较校如表2-2所示,Zipcode属性是局部抑制。而全局抑制是指对属性中指定的某属性
西北师范大学硕士学位论文82.1.2匿名技术目前针对准标识符进行操作的匿名技术包括泛化、抑制、置换和扰动等[67],其中较为常见的是泛化技术和抑制技术。通过利用这些已有的技术,破环每个数据个体与其所对应敏感属性之间的链接关系,实现对数据个体的隐私保护。下面对部分技术进行介绍:(1)泛化(Generalization):泛化主要是针对数据集中的属性值进行操作,将属性值信息模糊化,用范围更大的值代替准确值,用泛化树表示,实现用数据的部分精确度换取数据个体隐私信息的保护。而进行泛化的属性主要分为两种:数值型和离散型。如图2-1所示,是对数值型属性进行泛化的操作,将20岁到40岁的所有年龄都描述为[20-40),40岁到60岁的所有年龄都描述为[40-60],若用户的隐私需求较高,直接用[20-60]这个区间值来描述表2-1中的所有数据个体。图2-1数值型数据泛化树如图2-2所示,红酒、白酒都为离散型数据,可泛化为酒。图2-2离散型数据泛化树(2)抑制(Suppression):抑制是指对数据集中具体的属性值进行删除或者用其他特定的符号代替数据的处理方式。抑制的方法主要有两种:局部抑制和全局抑制。所谓局部抑制是删除属性在整个数据集中的分布情况,有选择的删除部分属性值以此满足属性值在局部分布情况下相似的隐私要求,对属性值局部抑制的处理会带来大量的伪关联规则,虽然这样的处理速度会较慢,但信息损失相对较校如表2-2所示,Zipcode属性是局部抑制。而全局抑制是指对属性中指定的某属性
【参考文献】:
期刊论文
[1]差分隐私的查询一致性约束研究[J]. 贾俊杰,陈慧,马慧芳,牟玉祥. 计算机工程与科学. 2020(01)
[2]面向时空特性的社会网络敏感关系隐私保护[J]. 夏秀峰,李曼迪,刘向宇,宗传玉,李佳佳,朱睿. 计算机工程与设计. 2019(06)
[3]抵制轨迹相似性攻击的轨迹(k,e)-匿名算法[J]. 贾俊杰,黄贺. 计算机工程与科学. 2019(05)
[4]差分隐私的数据流关键模式挖掘方法[J]. 王金艳,刘陈,傅星珵,罗旭东,李先贤. 软件学报. 2019(03)
[5]点差分隐私下图数据的度直方图发布方法[J]. 张宇轩,魏江宏,李霁,刘文芬,胡学先. 计算机研究与发展. 2019(03)
[6]基于差分隐私的匿名组LBS轨迹隐私保护模型[J]. 袁健,王迪,高喜龙,王睿宁,林思劼. 小型微型计算机系统. 2019(02)
[7](p,k)匿名数据集的增量更新算法[J]. 贾俊杰,闫国蕾,邢里程,陈菲. 计算机工程与科学. 2018(07)
[8]基于多敏感属性分级的(αij,k,m)-匿名隐私保护方法[J]. 王秋月,葛丽娜,耿博,王利娟. 计算机应用. 2018(01)
[9]一种满足差分隐私的轨迹数据发布方法[J]. 霍峥,孟小峰. 计算机学报. 2018(02)
[10]抵制敏感属性相似性攻击的(p,k,d)-匿名模型[J]. 贾俊杰,陈露婷. 计算机工程. 2018(03)
博士论文
[1]基于聚类的匿名化隐私保护技术研究[D]. 王平水.南京航空航天大学 2013
硕士论文
[1]关系事务型数据发布中的隐私保护方法研究[D]. 周思明.广西师范大学 2018
[2]事务型数据流发布的隐私保护方法研究[D]. 邓超记.广西师范大学 2017
[3]基于分类树的集值型数据发布隐私保护研究[D]. 胡艳玲.东华大学 2017
[4]基于差分隐私保护的集值型数据发布技术研究[D]. 黄奚芳.江西理工大学 2015
[5]动态集值属性数据重发布的隐私保护研究[D]. 武毅.北京工业大学 2013
[6]高效的集值属性数据隐私保护发布技术研究[D]. 毛云青.浙江大学 2011
本文编号:3121908
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3121908.html