面向数据发布的数据匿名技术研究

发布时间:2018-06-23 11:05

  本文选题:数据匿名 + 数据隐私 ; 参考:《东南大学》2016年博士论文


【摘要】:数据匿名是一种基于模糊和隐藏的隐私保护技术。现有的数据匿名技术主要通过泛化、抑制等方式实现数据的匿名化,降低攻击者获取用户身份和敏感信息的概率,保护用户隐私,同时保证数据的真实性和可用性。目前,数据匿名主要用于解决数据发布、位置服务、社交网络和数据查询等应用中的隐私保护问题。其中,面向数据发布的数据匿名技术是现阶段实现数据安全共享的关键技术。然而,该技术在实际应用中仍然存在诸多不足。因此,论文研究面向数据发布的数据匿名技术,重点针对该技术在实际应用中的若干问题展开研究。当前面向数据发布的数据匿名技术在匿名高维度、高缺失和复杂关系数据等三个方面存在以下问题:首先,现有的数据匿名算法在处理高维数据时会遭遇"维度灾难",并丢失大部分信息,导致数据可用性趋近于零。其次,在处理缺失数据时,现有的匿名算法会出现缺失数据污染其他数据的现象,导致缺失数据比例增加,数据可用性大大降低。最后,现有的数据匿名技术在处理包含多条用户记录的复杂关系数据时,会出现模型适用性问题,导致匿名性降低或者严重的数据缺损。因此,需要设计新的数据匿名算法和模型,以应对以上挑战。为了解决上述问题,论文分别针对高维度、高缺失和复杂关系数据提出了相应的匿名发布技术:首先,针对高维数据,提出基于自然等价类的数据匿名算法和基于半划分的数据匿名算法,分别从利用自然等价类和兼容离群数据两方面优化匿名划分策略,降低数据缺损,提高数据可用性。其次,针对高缺失数据,提出基于聚类的缺失数据匿名算法和按列隔离的缺失数据匿名算法,通过按行和按列隔离策略,降低缺失数据污染,提高数据可用性。最后,针对复杂关系数据,提出(k,l)-多样化模型,通过同时约束关系和事务数据,保护用户隐私,并给出满足该模型的APA、PAA和1M-Generalization算法,通过结合关系和事务数据匿名技术,降低数据缺损,提高数据可用性。在上述理论研究的基础上,论文设计并开发了一套数据匿名发布和评估原型系统PPDPES,集成了高维度、高缺失和复杂关系数据匿名发布和评估功能,并给出了应用示例。与现有的研究工作相比,论文所提出的数据匿名技术更合理、适用范围更广、可用性更高,这对面向隐私保护的数据匿名发布具有重要意义。
[Abstract]:Data anonymity is a kind of privacy protection technology based on fuzzy and hidden. The existing technology of data anonymity mainly realizes the anonymity of data by means of generalization, suppression, etc., which reduces the probability of attackers to obtain user identity and sensitive information, protects user privacy, and ensures the authenticity and availability of data at the same time. At present, data anonymity is mainly used to solve privacy protection problems in applications such as data publishing, location services, social networks and data query. Among them, the technology of data anonymity for data publishing is the key technology to realize data security sharing. However, there are still many shortcomings in the practical application of this technology. Therefore, this paper studies the technology of data anonymity for data publishing, focusing on some problems in the practical application of this technology. The current data anonymity technology for data publishing has the following problems in three aspects: anonymous high dimension, high missing and complex relational data: first of all, The existing anonymous data algorithms will encounter a "dimensionality disaster" when dealing with high-dimensional data, and lose most of the information, resulting in data availability approaching zero. Secondly, when dealing with missing data, the existing anonymous algorithms will pollute other data by missing data, resulting in an increase in the proportion of missing data and greatly reduced data availability. Finally, the existing technology of data anonymity can deal with complex relational data containing multiple user records, which will lead to the problem of model applicability, which leads to the decrease of anonymity or serious data defect. Therefore, new data anonymity algorithms and models need to be designed to meet the above challenges. In order to solve the above problems, this paper proposes corresponding anonymous publishing techniques for high dimensional, high missing and complex relational data: firstly, for high dimensional data, This paper proposes a data anonymity algorithm based on natural equivalence class and a data anonymity algorithm based on semi-partitioning, which optimizes anonymous partitioning strategy by using natural equivalence class and compatible outlier data, which can reduce data defect and improve data availability. Secondly, for high missing data, clustering based missing data anonymous algorithm and column isolated missing data anonymous algorithm are proposed to reduce missing data pollution and improve data availability by row and column isolation strategy. Finally, aiming at the complex relational data, a (KKL) -diversification model is proposed, which protects the privacy of users by simultaneously constraining the relationship and transaction data, and gives the APAMA-PAA and 1M-Generalization algorithms to satisfy the model. By combining the relation and transaction data anonymity technology, this paper presents the algorithm of APAPAA and 1M-Generalization. Reduce data defect and improve data availability. Based on the above theoretical research, this paper designs and develops a prototype system of data anonymous publication and evaluation, PPDPES, which integrates the functions of anonymous publication and evaluation of high dimensional, high missing and complex relational data, and gives an application example. Compared with the existing research work, the technology of data anonymity proposed in this paper is more reasonable, the scope of application is wider, and the availability is higher, which is of great significance for the privacy protection oriented data anonymous publishing.
【学位授予单位】:东南大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP309

【相似文献】

相关期刊论文 前10条

1 张星;郝伟;;不完备或缺失数据及其填补方法研究[J];福建电脑;2007年04期

2 邢婧;;缺失数据情形下谐波参数估计的研究现状[J];信息通信;2014年03期

3 沈奇;王池社;;生物缺失数据处理的贝叶斯模型研究[J];微电子学与计算机;2011年07期

4 刘星毅;曾春华;江南雨;陈振华;韦小玲;;缺失数据的处理和挑战[J];钦州学院学报;2008年06期

5 孙亚;;ITS采集交通信息缺失数据修复策略及模型研究[J];黑龙江科技信息;2013年15期

6 肖静;骆如九;宋雯;汤在祥;徐辰武;;带有缺失数据的一种动态聚类方法[J];中国农业科学;2012年21期

7 周秀梅;李作春;覃泽;;有序填充微阵列缺失数据[J];计算机工程与应用;2009年22期

8 张广兴;石治国;余宗敏;;基于B-样条自由节点的外测缺失数据重构方法[J];测控技术;2013年09期

9 郝胜轩;宋宏;周晓锋;;基于近邻噪声处理的KNN缺失数据填补算法[J];计算机仿真;2014年07期

10 冯志兰,刘桂芬,刘力生,郝建生;缺失数据的多重估算[J];中国卫生统计;2005年05期

相关会议论文 前8条

1 耿直;葛丹丹;;纵向研究非随机缺失数据分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年

2 管河山;姜青山;Steven X.Wei;;一种处理缺失数据的新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

3 陈楠;刘红云;;基于增长模型的缺失数据处理方法之比较[A];心理学与创新能力提升——第十六届全国心理学学术会议论文集[C];2013年

4 肖进;贺昌政;;面向缺失数据的客户价值区分集成模型研究[A];中国企业运筹学[2010(1)][C];2010年

5 曾莉;张淑梅;辛涛;;IRT模型中缺失数据处理方法比较[A];第十一届全国心理学学术会议论文摘要集[C];2007年

6 孙玲;刘浩;袁长亮;;北京市城市快速路微波检测缺失数据分析[A];2008第四届中国智能交通年会论文集[C];2008年

7 张香云;;基于EM算法缺失数据下混合模型的参数估计[A];第十三届中国管理科学学术年会论文集[C];2011年

8 李晓煦;侯杰泰;;结构方程中缺失数据的处理:FIML,EM与MI[A];全国教育与心理统计测量学术年会论文摘要集[C];2006年

相关博士学位论文 前10条

1 马友;基于QoS缺失数据预测的个性化Web服务推荐方法研究[D];北京邮电大学;2015年

2 彭清艳;广义函数型回归模型及缺失数据模型[D];云南大学;2016年

3 龚奇源;面向数据发布的数据匿名技术研究[D];东南大学;2016年

4 骆汝九;多指标综合评价的非参数方法和缺失数据的聚类方法研究[D];扬州大学;2011年

5 祝丽萍;几种缺失数据和高维数据模型的统计分析[D];山东大学;2012年

6 贾博婷;缺失数据下一类整值时间序列的统计推断[D];吉林大学;2014年

7 刘旭;在完全和缺失数据下基于非光滑估计方程的统计推断与变量选择问题[D];云南大学;2010年

8 赵鹏飞;混沌数据恢复与非线性系统的模型参考控制[D];吉林大学;2010年

9 陆福忠;数据缺失下的分布函数估计问题[D];复旦大学;2007年

10 赵慧秀;可交换的两值数据的统计分析[D];东北师范大学;2009年

相关硕士学位论文 前10条

1 杨利华;缺失数据的处理方法研究及应用[D];景德镇陶瓷学院;2011年

2 袁中萸;多元线性回归模型中缺失数据填补方法的效果比较[D];中南大学;2008年

3 褚培肖;缺失数据下的有限混合计数数据模型的统计推断研究[D];昆明理工大学;2015年

4 申宁宁;纵向研究缺失数据多重填补及混合效应模型分析[D];山西医科大学;2015年

5 李少琼;纵向研究二分类缺失数据处理及加权估计方程的应用[D];山西医科大学;2015年

6 高宇钊;比值缺失数据的多重估算与心脏康复二级预防干预效果评价及应用[D];山西医科大学;2015年

7 李顺静;基于EM算法的缺失数据的统计分析及应用[D];重庆工商大学;2015年

8 汪静波;Logistic回归模型中缺失数据的处理[D];南京大学;2015年

9 朱建斐;数据集缺失数据恢复算法研究[D];西安电子科技大学;2015年

10 母建熊;基于饱和模型的带有缺失的可交换两值数据分析[D];东南大学;2015年



本文编号:2056911

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2056911.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户65c56***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com