当前位置:主页 > 科技论文 > 软件论文 >

基于匿名化的隐私保护数据挖掘技术的研究

发布时间:2019-03-09 09:32
【摘要】:近年来,信息技术和数据科学发展迅猛,并逐渐被应用于各个行业。数据挖掘可以发现潜在的数据信息和数据间的微妙关系并将其用于决策制定,然而,敏感和隐私信息也同样会被挖掘,这将会给数据提供者造成安全风险。匿名化技术是一项通过将同一等价类中的用户准标志信息变的不可区分,从而保护用户身份或敏感信息不被识别的隐私保护技术。目前的相关算法多是针对关系型等结构型数据集而设计,无法直接用于事务数据集的匿名化。少数针对事务数据的匿名化算法面临着数据高维度,稀疏型数据敏感等问题,从而导致算法时间复杂度高,信息损失大。此外,现实数据中敏感信息往往因人而异,攻击者的背景知识也往往存在局限性。因此,本文的主要研究为:针对事务数据集的匿名化隐私保护问题,本文提出了一个K-匿名隐私保护数据挖掘算法PTA,针对性的解决了事务数据集匿名化时间复杂度高和信息损失大的问题。本文将最小化信息损失的问题转换为求解TSP问题中的最短环路问题,并通过一个类似Prim算法的思想求解最短环路,再通过设计的映射、投票和筛选操作对信息损失进行优化,从而实现了事务数据集的K-匿名隐私保护。此外,本文采用分而治之的思想,以用来降低算法的时间复杂度。实验表明,该算法在时间复杂度和信息损失量方面均优于现有算法。针对个性化的匿名化隐私保护问题,本文首次提出了个性化层次事务数据集的隐私保护问题。同时,考虑到传统的L-多样性隐私保护技术存在的缺陷,本文提出了一个(L,P)-多样性的隐私保护概念,并在此基础上提出了一个贪婪的Lnn-means算法。该算法首先通过层次泛化和矩阵化方法将原始数据转换为类似关系数据集的形式,并采用聚类技术将相似度较高的事务记录进行聚类。最后,通过优先对信息损失量小且满足(L,P)-多样性的事务记录进行等价类生成,从而实现了(L,P)-多样性隐私保护。事实上,Lnn-means算法不仅弥补了传统L-多样性隐私保护技术的缺陷,还在一定程度上避免了L-多样性隐私保护可能面临的语义攻击问题,隐私保护能力更强,安全性更高。总体来说,本文针对性的解决了事务数据集和个性化事务数据的匿名化隐私保护问题。大量的实验证明,本文所提出的框架与算法在实现匿名化需求上是可行且有效的。
[Abstract]:In recent years, the rapid development of information technology and data science, and gradually applied to various industries. Data mining can discover potential data information and the subtle relationship between data and use it in decision-making, however, sensitive and privacy information will also be mined, which will cause security risks to data providers. Anonymization is a privacy protection technology which can protect users' identity or sensitive information from identification by changing the user quasi-flag information in the same equivalent class into indistinguishable information. At present, most of the related algorithms are designed for relational and other structured datasets, and can not be directly used for anonymization of transaction datasets. A few anonymous algorithms for transaction data are faced with problems such as high dimension and sparse data sensitivity, which lead to high time complexity and large loss of information. In addition, sensitive information in real data often varies from person to person, and attacker's background knowledge often has limitations. Therefore, the main research of this paper is as follows: for the problem of anonymized privacy protection of transaction data sets, this paper proposes a K-anonymous privacy protection data mining algorithm, PTA,. It solves the problems of high time complexity and information loss in transaction data set concealment. In this paper, the problem of minimizing information loss is transformed into solving the shortest loop problem in the TSP problem, and the shortest loop problem is solved by an idea similar to the Prim algorithm, and then the information loss is optimized by mapping, voting and filtering operations designed. Thus, the K-anonymity privacy protection of transaction data set is realized. In addition, the idea of divide-and-conquer is used to reduce the time complexity of the algorithm. Experimental results show that the proposed algorithm is superior to the existing algorithms in terms of time complexity and information loss. In this paper, the privacy protection of personalized hierarchical transaction data set is proposed for the first time in order to solve the privacy protection problem of personalization anonymity. At the same time, considering the shortcomings of the traditional L-diversity privacy protection technology, this paper proposes a concept of (L, P)-diversity privacy protection, and then proposes a greedy Lnn-means algorithm based on the concept of (L, P)-diversity privacy protection. Firstly, the original data is transformed into similar relational data set by hierarchical generalization and matrix method, and the transaction records with high similarity are clustered by clustering technology. Finally, the (L, P)-privacy protection of (L, P)-diversity is realized by generating equivalent classes of transaction records satisfying (L, P)-diversity, which are small amount of information loss and satisfying (L, P)-diversity. In fact, the Lnn-means algorithm not only makes up for the shortcomings of the traditional L-diversity privacy protection technology, but also avoids the semantic attack problem that the L-diversity privacy protection may face to a certain extent, and the privacy protection ability is stronger and the security is higher. In general, this paper solves the privacy protection problem of transaction data set and personalized transaction data. A large number of experiments show that the proposed framework and algorithm are feasible and effective in realizing anonymization requirements.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP309;TP311.13

【相似文献】

相关期刊论文 前10条

1 ;守住你的秘密——隐私保护神[J];计算机与网络;2002年05期

2 李学聚;;新时期读者隐私保护探析[J];科技情报开发与经济;2006年13期

3 管重;;谁偷窥了你的隐私[J];数字通信;2007年15期

4 孔为民;;大学图书馆与隐私保护[J];科技情报开发与经济;2007年26期

5 尹凯华;熊璋;吴晶;;个性化服务中隐私保护技术综述[J];计算机应用研究;2008年07期

6 高枫;张峰;周伟;;网络环境中的隐私保护标准化研究[J];电信科学;2013年04期

7 高密;薛宝赏;;我的电脑信息 隐私保护很强大[J];网友世界;2010年11期

8 ;为自己的电子商务设计隐私保护[J];个人电脑;2000年07期

9 ;隐私保护的10个准则[J];个人电脑;2000年07期

10 岑婷婷;韩建民;王基一;李细雨;;隐私保护中K-匿名模型的综述[J];计算机工程与应用;2008年04期

相关会议论文 前10条

1 郑思琳;陈红;叶运莉;;实习护士病人隐私保护意识和行为调查分析[A];中华护理学会第8届全国造口、伤口、失禁护理学术交流会议、全国外科护理学术交流会议、全国神经内、外科护理学术交流会议论文汇编[C];2011年

2 孙通源;;基于局部聚类和杂度增益的数据信息隐私保护方法探讨[A];中国水利学会2013学术年会论文集——S4水利信息化建设与管理[C];2013年

3 张亚维;朱智武;叶晓俊;;数据空间隐私保护平台的设计[A];第二十五届中国数据库学术会议论文集(一)[C];2008年

4 公伟;隗玉凯;王庆升;胡鑫磊;李换双;;美国隐私保护标准及隐私保护控制思路研究[A];2013年度标准化学术研究论文集[C];2013年

5 张鹏;于波;童云海;唐世渭;;基于随机响应的隐私保护关联规则挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

6 桂琼;程小辉;;一种隐私保护的分布式关联规则挖掘方法[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年

7 俞笛;徐向阳;解庆春;刘寅;;基于保序加密的隐私保护挖掘算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年

8 李贝贝;乐嘉锦;;分布式环境下的隐私保护关联规则挖掘[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

9 徐振龙;郭崇慧;;隐私保护数据挖掘研究的简要综述[A];第七届(2012)中国管理学年会商务智能分会场论文集(选编)[C];2012年

10 潘晓;郝兴;孟小峰;;基于位置服务中的连续查询隐私保护研究[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

相关重要报纸文章 前10条

1 记者 李舒瑜;更关注隐私保护和人格尊重[N];深圳特区报;2011年

2 荷兰鹿特丹医学中心博士 吴舟桥;荷兰人的隐私[N];东方早报;2012年

3 本报记者 周静;私密社交应用风潮来袭 聚焦小众隐私保护是关键[N];通信信息报;2013年

4 独立分析师 陈志刚;隐私管理应归个人[N];通信产业报;2013年

5 本报记者 朱宁宁;商业利益与隐私保护需立法平衡[N];法制日报;2014年

6 袁元;手机隐私保护萌发商机[N];证券日报;2014年

7 王尔山;跟隐私说再见[N];21世纪经济报道;2008年

8 记者 武晓黎;360安全浏览器推“隐私浏览”模式[N];中国消费者报;2008年

9 早报记者 是冬冬;“美国隐私保护法律已过时”[N];东方早报;2012年

10 张晓明;隐私的两难[N];电脑报;2013年

相关博士学位论文 前10条

1 孟祥旭;基于位置的移动信息服务技术与应用研究[D];国防科学技术大学;2013年

2 兰丽辉;基于向量模型的加权社会网络发布隐私保护方法研究[D];江苏大学;2015年

3 柯昌博;云服务组合隐私分析与保护方法研究[D];南京航空航天大学;2014年

4 李敏;基于位置服务的隐私保护研究[D];电子科技大学;2014年

5 陈东;信息物理融合系统安全与隐私保护关键技术研究[D];东北大学;2014年

6 张柯丽;信誉系统安全和隐私保护机制的研究[D];北京邮电大学;2015年

7 Kamenyi Domenic Mutiria;[D];电子科技大学;2014年

8 孙崇敬;面向属性与关系的隐私保护数据挖掘理论研究[D];电子科技大学;2014年

9 刘向宇;面向社会网络的隐私保护关键技术研究[D];东北大学;2014年

10 高胜;移动感知计算中位置和轨迹隐私保护研究[D];西安电子科技大学;2014年

相关硕士学位论文 前10条

1 刘乾坤;基于匿名化的隐私保护数据挖掘技术的研究[D];哈尔滨工业大学;2017年

2 邹朝斌;SNS用户隐私感知与自我表露行为的关系研究[D];西南大学;2015年

3 李汶龙;大数据时代的隐私保护与被遗忘权[D];中国政法大学;2015年

4 孙琪;基于位置服务的连续查询隐私保护研究[D];湖南工业大学;2015年

5 尹惠;无线传感器网络数据融合隐私保护技术研究[D];西南交通大学;2015年

6 王鹏飞;位置服务中的隐私保护技术研究[D];南京理工大学;2015年

7 顾铖;基于关联规则的隐私保护算法研究[D];南京理工大学;2015年

8 崔尧;基于匿名方案的位置隐私保护技术研究[D];西安工业大学;2015年

9 毕开圆;社会网络中用户身份隐私保护模型的研究[D];大连海事大学;2015年

10 黄奚芳;基于差分隐私保护的集值型数据发布技术研究[D];江西理工大学;2015年



本文编号:2437326

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2437326.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户183ad***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com