当前位置:主页 > 科技论文 > 软件论文 >

基于混合差分隐私的流数据频数统计算法研究

发布时间:2021-10-30 06:14
  频数统计是数据挖掘中非常经典和常用的方法之一,它通过计算数据项在数据集合中出现的次数,可以选出频繁出现的数据项。随着大数据挖掘技术的兴起,拥有海量数据的公司可以收集和分析用户数据,这些数据包含的信息是非常有价值的。社交网站上有上亿的用户主页,每天有上十亿访问量,想实时知道最常访问的主页并且获取排名,需要收集用户浏览网页数据。然而,收集用户数据和发布频数统计数据通常会导致隐私泄露问题。本文为了解决收集数据和发布数据中存在的隐私泄露问题,提出了基于差分隐私的流数据实时频数统计发布算法,主要研究成果如下:针对频数统计中收集数据可能存在的隐私泄露问题,本论文开展了对差分隐私保护机制的深入研究。本文提出两种用户角色,一种用户集合提供原始数据,本文利用差分隐私保护技术将这部分数据构造一个候选列表;另一种用户集合提供扰动后数据,本文根据候选列表和本地差分隐私保护技术,对这部分用户的数据集合进行频数统计发布,针对直接本地编码方法中数据可用性低的问题,本论文提出一种改进的本地编码方法,可以有效地提高数据可用性,提高了算法的准确度。针对基于差分隐私的频数统计方法无法进行连续发布的问题,本论文进而提出了针对... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:54 页

【学位级别】:硕士

【部分图文】:

基于混合差分隐私的流数据频数统计算法研究


主要研究内容框架图

频数,隐私保护,差分


哈尔滨工业大学工学硕士学位论文第 3 章 基于混合差分隐私的流数据频数统计算法.1 引言第 2 章主要介绍了差分隐私保护和本地化差分隐私保护模型的定义、性质现机制和方案。本章首先介绍本论文的总体框架,介绍整体算法执行的流程后针对流程的每一步,设计出相应的算法,最后将这些算法应用在框架中,出基于差分隐私的流数据频数统计发布算法。.2 问题需求分析

频数,差分,用户名


图 3-1 频数统计发布数据拥有者提供数据给可信第三方,第三方对收集的数据进行频数统计,统计结果。如图 3-1 所示。但是,攻击者可以根据频数统计结果,结合其他识,推断出用户的隐私信息。比如,2006 年,美国 Netflix 公司举办了一个赛,将原始数据集中的用户名做了随机化处理后,发布数据集给数据分析者。但是,对用户名进行扰动的方法是不能够保证隐私的。2007 年,一些来萨斯大学奥斯汀分校的两位研究员表示通过关联 Netflix 公开的数据和 IMD上公开的记录能够识别匿名后用户的身份。所以,针对以上问题,可以选择隐私的方法对频数统计结果进行扰动,能保证用户数据的安全性,同时有一精度损失。


本文编号:3466213

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3466213.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户149cc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com