基于本地化差分隐私的复杂数据频繁项集挖掘研究

发布时间:2021-06-29 08:32
  频繁项集挖掘是一项基本的数据挖掘任务,并且在关联规则算法中也发挥着重要的作用。然而在挖掘过程很有可能将用户的个人信息泄露,从而给用户造成了一定的损失。近几年,将差分隐私保护模型应用到频繁项集挖掘是一种较为常见且可靠的保护方式,其中大多数论文是针对中心化差分隐私提出的而较少的论文将本地化差分隐私应用到频繁项集挖掘。本地化差分隐私的优势在于用户在客户端先将原始数据进行扰动,再将扰动后的数据发送给第三方服务器,这样就可以防止第三方服务器将用户数据泄露的问题,进而提高用户数据的保护程度。目前而言,还没有一个完整的框架能够将本地化差分隐私应用于频繁项集挖掘任务中,并且存在挖掘过程通信代价较高以及挖掘结果的精确度较低的问题。为了解决以上问题,本文提出了相对应的解决方案:(1)提出了一个完整的将本地化差分隐私应用于频繁项集挖掘的方法,并且适用于用户数据类型较为复杂的情况。该框架用户首先将原始数据利用位图编码将其映射为0和1的二进制串,针对用户多属性的情况提出了阈值随机扰动(Threshold Random Response,TRR)算法实现了对不同的属性选择最佳的扰动方式使得数据的可用性最好。用户首... 

【文章来源】:内蒙古大学内蒙古自治区 211工程院校

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

基于本地化差分隐私的复杂数据频繁项集挖掘研究


正态分布下隐私预算对F1-Measure的影响

泊松分布,隐私,指数,算法


基于本地化差分隐私的复杂数据频繁项集挖掘研究26(a)四种算法在指数分布下挖掘频繁2项集(b)四种算法在指数分布下挖掘频繁3项集图3.3指数分布下隐私预算对F1-Measure的影响Fig.3.3EffectofprivacybudgetonF1-Measureunderexponentialdistribution图3.4给出了本文提出的TRR算法与MRR、RR和RAPPOR算法在泊松分布下分别挖掘频繁2项集和频繁3项集。图3.4(a)展示了四种算法在泊松分布下挖掘频繁2项集以及图3.4(b)展示了四种算法在泊松分布下挖掘频繁3项集。从图3.4中可以看出,TRR算法的F1-Measure值在整体上高于其他三种算法,这表明TRR算法比MRR、RR和RAPPOR算法具有更高的数据挖掘精度。但是如果细心的观察会发现,图3.4(a)中隐私预算为1.5的时候RAPPOR算法稍微高于TRR算法,这种情况主要是由于随机扰动造成的,尽管能够保证整体上TRR优于RAPPOR算法,但是个别的情况还是会出现。(a)四种算法在泊松分布下挖掘频繁2项集(b)四种算法在泊松分布下挖掘频繁3项集图3.4泊松分布下隐私预算对F1-Measure的影响Fig.3.4EffectofprivacybudgetonF1-MeasureunderPoissondistribution

泊松分布,隐私,泊松分布,算法


基于本地化差分隐私的复杂数据频繁项集挖掘研究26(a)四种算法在指数分布下挖掘频繁2项集(b)四种算法在指数分布下挖掘频繁3项集图3.3指数分布下隐私预算对F1-Measure的影响Fig.3.3EffectofprivacybudgetonF1-Measureunderexponentialdistribution图3.4给出了本文提出的TRR算法与MRR、RR和RAPPOR算法在泊松分布下分别挖掘频繁2项集和频繁3项集。图3.4(a)展示了四种算法在泊松分布下挖掘频繁2项集以及图3.4(b)展示了四种算法在泊松分布下挖掘频繁3项集。从图3.4中可以看出,TRR算法的F1-Measure值在整体上高于其他三种算法,这表明TRR算法比MRR、RR和RAPPOR算法具有更高的数据挖掘精度。但是如果细心的观察会发现,图3.4(a)中隐私预算为1.5的时候RAPPOR算法稍微高于TRR算法,这种情况主要是由于随机扰动造成的,尽管能够保证整体上TRR优于RAPPOR算法,但是个别的情况还是会出现。(a)四种算法在泊松分布下挖掘频繁2项集(b)四种算法在泊松分布下挖掘频繁3项集图3.4泊松分布下隐私预算对F1-Measure的影响Fig.3.4EffectofprivacybudgetonF1-MeasureunderPoissondistribution

【参考文献】:
期刊论文
[1]面向隐私保护的频繁项集挖掘算法[J]. 蒋辰,杨庚,白云璐,马君梅.  信息网络安全. 2019(04)
[2]本地化差分隐私研究综述[J]. 叶青青,孟小峰,朱敏杰,霍峥.  软件学报. 2018(07)
[3]挖掘关联规则中Apriori算法的一种改进[J]. 刘兴涛,石冰,解英文.  山东大学学报(理学版). 2008(11)

硕士论文
[1]基于本地差分隐私下频繁模式挖掘关键技术研究[D]. 付楠.河南财经政法大学 2019
[2]基于差分隐私的频繁项集挖掘算法的研究与实现[D]. 熊馨雨.深圳大学 2018
[3]基于事务截断的差分隐私频繁项集挖掘方法研究[D]. 黄雨.重庆邮电大学 2018



本文编号:3256112

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3256112.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2cd46***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com