当前位置:主页 > 科技论文 > 软件论文 >

基于差分隐私与网格聚类的位置数据发布算法

发布时间:2021-10-26 03:35
  伴随着智能终端的不断革新,基于位置数据的应用通过分析收集到的位置数据可以提高服务质量,但这些数据中往往涉及到敏感的个人信息。因此,位置数据在发布给第三方机构之前需要进行隐私保护。差分隐私技术不依赖于攻击者所具有的相关背景知识,能够为敏感数据提供严格的隐私保证,更适宜应用在数据的发布与查询过程中。目前应用差分隐私的位置数据发布算法尽管满足了隐私保护要求,但由于过多的噪声累加导致数据的可用性不高。为了解决此问题,本文提出两种改进方案。针对数据量小且数据分布较均匀的数据集,本文提出了基于阈值的位置数据发布算法。该算法在每层网格划分结束后,随机选取一个网格单元并查找其相邻网格单元,计算当前聚簇与每个相邻网格单元之间的计数值方差。对方差小于指定阈值的网格单元进行聚类,并向每个聚簇内添加噪声,然后将结果平均分配给聚簇内的每个网格单元,借此减少了由噪声累加产生的噪声误差问题。同时,根据噪声误差与均匀假设误差之间的关系给定了阈值的选取范围。针对数据量大且均匀性较差的数据集,本文提出了基于平方和误差的位置数据发布算法。该算法在每层网格划分结束后,先向每个网格单元中添加噪声并保留噪声结果。然后,再根据每个... 

【文章来源】:大连海事大学辽宁省 211工程院校

【文章页数】:61 页

【学位级别】:硕士

【部分图文】:

基于差分隐私与网格聚类的位置数据发布算法


图1.?1差分隐私技术对数据的处理过程??Fi.?1.1?Differentialrivactechnolofor?datarocessin

过程图,构建过程,二维空间,数据


据发布??基于数据依赖的树结构划分方法采用的代表性数据结构是KD-树,该结构内每个节??点都是一个基于A维点的二叉树结构。数据划分时,在维位置数据的集合中选择具有??最大方差的维度t然后选择各区域内数据计数的中值数m作为划分标准对集合进行划??分。得到两个子集合后再创建一个节点用于存储该区域内位置数据点的计数值,并对子??集合递归的进行划分操作,直到所有子集合都不能再划分为止。??圓/ft??0?2?4?6?8?10?V^7??(a)原始数据分布?(b)选择中位数进行构建??图2.3?KD-树构建过程图??Fig.?2.3?Construction?process?diagram?of?KD-tree??图2.3表示针对某二维空间(A-2)中的位置数据构建KD-树的过程。对于6个二维??位置数据点:(2,?3)、(5,?4)、(9,?6)、(4,?7)、(8,?1)及(7,?2),分别计算所有数据点在??x维和^维上的方差,分别得到39和28.63。由于x维方差更大,按照x维进行划分并??选出所有数据点在x维上的中位数7,将数据点(7,?2)作为根节点。其次,按x=7可将??其余的数据分成左子树和右子树,左子树中包含数据点(2,?3)、(5,?4)和(4,?7),右子树??则是(9,?6)和(8,?1)。然后分别对左右子树进行递归操作,直到叶子节点。??采用KD-树进行划分的经典差分隐私算法为KD-StandardPl。该算法中将隐私预算e??分为两部分和用于确定划分的中位数,用于为各层节点添加??噪声。由于叶子节点是查询函数能访问到的最小单位,釆用各层节点平均分配隐私预算??-12-??

隐私,数据集,噪声,差分


?大连海事大学硕士学位论文???47.S-??42.5?-??40.0?-??35?0??32?5?-??-125?-120?-115?-110?-105??(c)?Tiger数据集??图4.1数据集可视化??Fig.?4.1?Visualization?of?datasets??4.?1.3评估度量??采用差分隐私技术进行位置数据的发布,最终的发布结果是一组经过噪声扰动后的??数据。由于噪声具有随机性,极有可能造成扰动过度,从而降低数据的可用性,使数据??失去原本的研究意义。为了在隐私性与保护性之间进行合理的权衡,需要为各个满足差??分隐私的算法确定一个通用的准则以便进行有效性评估。??基于划分的位置数据隐私保护算法,通常都是利用查询结果的相对误差对数据结果??的准确性进行衡量。对于一个查询使用CW(0代表查询结果的真实计数值,并使用??AW(0代表采用某种方法建立索引结构来回答查询的噪声计数值,得出如下的相对误差??公式:??RelErrJ^〇t2rM?an??m&x{〇ri(Q\p]??其中,参数P的值为p=0.00ix网,iV代表数据集中的数据点个数。此外,分母取两??者的最大值是避免真实的计数查询结果为0的情况。??在本文的实验过程中采用了三种查询大小0,込和込来模拟真实的使用情况,其??中查询大小是通过原始数据来进行表示。由于1度约等于70英里,所以实验结果图中??的(1,1),?(2,2)和(3,?3)分别表示?70X70?英里、140X?140?英里和?210X210??英里的査询。对于三种查询大小,均随机生成600个查询区域,每次査询结束计算相对??误差,取600次的


本文编号:3458747

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3458747.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5760f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com