数据共享中隐私保护方法研究
本文选题:数据共享 + 隐私保护 ; 参考:《哈尔滨工程大学》2014年博士论文
【摘要】:随着计算机技术的快速增长,以数字形式提供的关于个体信息的数量激增。信息的方便获取对多数人来说,生活变得更加便捷了。例如,社会网络使得我们随时与朋友取得联系,搜索引擎使我们动几下鼠标就可以获取信息财富。然而,大多数有价值的数据都是私有的,人们在享受信息带来的便利的同时也承受着数字信息带给个体的相当大的风险——隐私泄露。各种数据使用的渴望和保护数据的安全和隐私之间存在着一个长期的紧张关系,这就引发了数据共享过程中的隐私保护研究。其主要目标是设计相关的应用模型或者工具,使共享数据在敌对环境下仍然能够有效保护个体的隐私信息,并且数据的效用没有太大损失,从而达到隐私保护与数据可用性之间的平衡。最大化数据的收集与使用,同时阻止敏感和机密信息的泄露是统计科学和计算机科学长期以来的研究主题。本文围绕数据共享中的隐私保护问题进行研究,开发解决该问题的算法,主要在以下几个方面开展研究工作:首先,针对k-匿名模型在一定程度上有效地阻止了链接攻击,但是不能阻止同质攻击和背景知识攻击的缺陷。另外,由于大多数隐私保护数据发布模型采用概化和抑制技术,导致过多的信息损失。因此,本文提出一种增强-p型敏感k-匿名的算法。具体过程为:首先,用近邻法对数据进行划分,生成簇。其次,发布满足p-敏感k-匿名要求的每个簇。文中对算法的正确性和复杂性进行了详细分析,用信息损失和执行时间来检验算法的效果,并对实验结果进行了分析。初步的仿真实验结果表明:基于最近邻搜索的p-敏感k-匿名的增强型隐私保护算法不仅能产生更小的信息损失和合理的时间代价,同时匿名化数据也具有良好的实用性。其次,传统l-多样性匿名实现方法或者效率较低,或者信息损失较大,针对这种不足,提出一种改进的基于聚类的l-多样性算法。该算法首先计算准标识符集合中各属性的方差,其次根据方差确定不同属性在数据相似性计算中的权重,再次根据数据之间的相似性进行约束聚类,最后对同一簇数据进行数据概化,满足l-多样性要求,并从理论上对算法的正确性和复杂性进行了分析。仿真实验结果表明:改进的基于聚类的l-多样性算法可以在实现隐私保护的同时具有更小的数据信息损失和较快的运行效率。再次,针对大规模数据集上的模式分类任务,提出一种基于核密度估计的模式分类隐私保护算法(CPPPW)。该算法首先利用Parzen窗算法对原始大规模训练集服从的概率密度进行估计,然后根据估计的概率密度函数构造la个替换训练样本,其中l为原始样本的数目,a通过10折交叉验证方式确定。充足的训练样本使得核密度估计算法可以较准确的估计密度函数,保障了替换数据集的质量。对CPPPW算法与ASN算法隐私保护性能进行理论分析,分析表明CPPPW算法具有更强的隐私保护力度。最后通过两组不同的仿真实验表明:三种经典的分类算法在替换数据集上取得了相当的分类精度;同时在替换数据集上进行分类学习,有效的避免了原始数据上的隐私泄露;与ASN算法相比,CPPPW算法不仅具有隐私保护性能,而且分类准确率和召回率均较高,具有更好的模式分类精度。最后,模式分类过程涉及到对原始训练样本的学习,容易导致用户隐私的泄露。为了避免模式分类过程中的隐私泄露,同时又不影响模式分类算法的性能,提出一种基于主成分分析(PCA)的稀疏数据模式分类隐私保护算法(CPPPCA)。该算法利用PCA提取原始训练数据的主成分,并将原始训练样本集合转化为主成分的新样本集合,然后利用新样本集合进行分类学习。对CPPPCA算法与ASN算法隐私保护性能进行理论分析,分析表明CPPPCA算法具有更强的隐私保护力度。最后通过两组不同的仿真实验表明:由于PCA在一定程度上可实现去噪,从而使三种经典的分类算法在替换数据集上取得了更好的分类精度;同时在替换数据集上进行分类学习,有效地避免了原始数据上的隐私泄露;与ASN算法和WT算法相比,CPPPCA算法不仅具有隐私保护性能,而且分类的准确率和召回率均较高,具有更好的模式分类精度。
[Abstract]:With the rapid growth of computer technology, the number of individual information is increasing in digital form. The convenience of access to most people is more convenient for most people. For example, social networks make us contact with friends at any time, and search engines make us get information wealth by moving a few mice. However, most of us are able to get information. The number of valuable data is private, and people enjoy the convenience of information, while they also bear a considerable risk of digital information to individuals - Privacy leaks. There is a long tension between the desire to use data and the security and privacy of data protection, which leads to the process of data sharing. The main objective of this study is to design related application models or tools to enable the shared data to effectively protect the privacy information of the individual in the hostile environment, and the utility of data has not been lost too much, thus achieving a balance between privacy protection and data availability, and the collection and use of maximum data. Preventing the disclosure of sensitive and confidential information is a long-term research topic in Statistical Science and computer science. This paper studies the privacy protection problem in data sharing, and develops algorithms to solve the problem. First, the k- anonymous model is effectively prevented by the needles to some extent. Link attacks, but can not prevent homogeneity attacks and background knowledge attacks. In addition, because most privacy protection data release models use generalization and suppression techniques, resulting in excessive information loss. Therefore, this paper proposes an algorithm to enhance the -p sensitive k- anonymity. Secondly, each cluster is published to meet the p- sensitive k- anonymity requirements. The correctness and complexity of the algorithm are analyzed in detail, the effect of the algorithm is tested with the information loss and execution time, and the experimental results are analyzed. The preliminary simulation results show that the p- sensitive k- anonymous enhancement based on the nearest neighbor search is enhanced. The privacy protection algorithm not only produces smaller information loss and reasonable time cost, but also has good practicability. Secondly, the traditional l- diversity anonymity implementation method is low, or the information loss is relatively low. In view of this shortage, an improved clustering based l- diversity algorithm is proposed. Firstly, the variance of each attribute in the set of quasi identifier is calculated, then the weight of different attributes in the data similarity calculation is determined according to the variance, and the similarity between the data is clustered again according to the similarity between the data. Finally, the data of the same cluster is generalized to meet the requirements of l- diversity, and the correctness and complexity of the algorithm are theoretically advanced. The simulation results show that the improved clustering based l- diversity algorithm can have smaller data information loss and faster running efficiency while realizing privacy protection. Thirdly, a pattern classification privacy protection algorithm based on kernel density estimation is proposed for model classification tasks on large datasets (CPP PW). Firstly, the algorithm uses the Parzen window algorithm to estimate the probability density of the original large-scale training set, and then constructs La replacement training samples according to the estimated probability density function, of which l is the number of original samples, and a is determined by 90% off cross validation. Sufficient training samples make the kernel density estimation algorithm more accurate. The estimation density function ensures the quality of the replacement data set. The theoretical analysis of the privacy protection performance of the CPPPW algorithm and the ASN algorithm shows that the CPPPW algorithm has a stronger privacy protection. Finally, two different simulation experiments show that three classical classification algorithms have obtained a considerable classification on the replacement data set. Precision; at the same time, the classification learning on the replacement dataset effectively avoids the privacy disclosure on the original data. Compared with the ASN algorithm, the CPPPW algorithm not only has the privacy protection performance, but also has a higher classification accuracy and recall rate, and has a better pattern classification accuracy. Learning is easy to lead to the disclosure of privacy. In order to avoid privacy disclosure in the process of pattern classification without affecting the performance of pattern classification algorithms, a sparse data pattern classification privacy protection algorithm based on principal component analysis (PCA) is proposed. The algorithm uses PCA to extract the principal component of the original training data and the original training. The new sample set is trained by the sample set, and then the new sample set is used for classification learning. The privacy protection performance of the CPPPCA algorithm and the ASN algorithm is theoretically analyzed. The analysis shows that the CPPPCA algorithm has a stronger privacy protection. Finally, the two different simulation experiments show that PCA is practical to a certain extent. In order to denoise, the three classical classification algorithms have obtained better classification accuracy on the replacement data set; at the same time, the classification learning on the replacement data sets can effectively avoid the privacy disclosure on the original data. Compared with the ASN algorithm and the WT algorithm, the CPPPCA algorithm not only has the privacy protection performance, but also the classification accuracy and recall. The rate is higher, and it has better precision of pattern classification.
【学位授予单位】:哈尔滨工程大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:TP309
【相似文献】
相关期刊论文 前10条
1 ;守住你的秘密——隐私保护神[J];计算机与网络;2002年05期
2 李学聚;;新时期读者隐私保护探析[J];科技情报开发与经济;2006年13期
3 管重;;谁偷窥了你的隐私[J];数字通信;2007年15期
4 孔为民;;大学图书馆与隐私保护[J];科技情报开发与经济;2007年26期
5 尹凯华;熊璋;吴晶;;个性化服务中隐私保护技术综述[J];计算机应用研究;2008年07期
6 高枫;张峰;周伟;;网络环境中的隐私保护标准化研究[J];电信科学;2013年04期
7 高密;薛宝赏;;我的电脑信息 隐私保护很强大[J];网友世界;2010年11期
8 ;为自己的电子商务设计隐私保护[J];个人电脑;2000年07期
9 ;隐私保护的10个准则[J];个人电脑;2000年07期
10 岑婷婷;韩建民;王基一;李细雨;;隐私保护中K-匿名模型的综述[J];计算机工程与应用;2008年04期
相关会议论文 前10条
1 郑思琳;陈红;叶运莉;;实习护士病人隐私保护意识和行为调查分析[A];中华护理学会第8届全国造口、伤口、失禁护理学术交流会议、全国外科护理学术交流会议、全国神经内、外科护理学术交流会议论文汇编[C];2011年
2 孙通源;;基于局部聚类和杂度增益的数据信息隐私保护方法探讨[A];中国水利学会2013学术年会论文集——S4水利信息化建设与管理[C];2013年
3 张亚维;朱智武;叶晓俊;;数据空间隐私保护平台的设计[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
4 公伟;隗玉凯;王庆升;胡鑫磊;李换双;;美国隐私保护标准及隐私保护控制思路研究[A];2013年度标准化学术研究论文集[C];2013年
5 张鹏;于波;童云海;唐世渭;;基于随机响应的隐私保护关联规则挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 桂琼;程小辉;;一种隐私保护的分布式关联规则挖掘方法[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
7 俞笛;徐向阳;解庆春;刘寅;;基于保序加密的隐私保护挖掘算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
8 李贝贝;乐嘉锦;;分布式环境下的隐私保护关联规则挖掘[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 徐振龙;郭崇慧;;隐私保护数据挖掘研究的简要综述[A];第七届(2012)中国管理学年会商务智能分会场论文集(选编)[C];2012年
10 潘晓;郝兴;孟小峰;;基于位置服务中的连续查询隐私保护研究[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
相关重要报纸文章 前10条
1 记者 李舒瑜;更关注隐私保护和人格尊重[N];深圳特区报;2011年
2 荷兰鹿特丹医学中心博士 吴舟桥;荷兰人的隐私[N];东方早报;2012年
3 本报记者 周静;私密社交应用风潮来袭 聚焦小众隐私保护是关键[N];通信信息报;2013年
4 独立分析师 陈志刚;隐私管理应归个人[N];通信产业报;2013年
5 本报记者 朱宁宁;商业利益与隐私保护需立法平衡[N];法制日报;2014年
6 袁元;手机隐私保护萌发商机[N];证券日报;2014年
7 王尔山;跟隐私说再见[N];21世纪经济报道;2008年
8 记者 武晓黎;360安全浏览器推“隐私浏览”模式[N];中国消费者报;2008年
9 早报记者 是冬冬;“美国隐私保护法律已过时”[N];东方早报;2012年
10 张晓明;隐私的两难[N];电脑报;2013年
相关博士学位论文 前10条
1 原永滨;数据共享中隐私保护方法研究[D];哈尔滨工程大学;2014年
2 孟祥旭;基于位置的移动信息服务技术与应用研究[D];国防科学技术大学;2013年
3 兰丽辉;基于向量模型的加权社会网络发布隐私保护方法研究[D];江苏大学;2015年
4 柯昌博;云服务组合隐私分析与保护方法研究[D];南京航空航天大学;2014年
5 李敏;基于位置服务的隐私保护研究[D];电子科技大学;2014年
6 陈东;信息物理融合系统安全与隐私保护关键技术研究[D];东北大学;2014年
7 张柯丽;信誉系统安全和隐私保护机制的研究[D];北京邮电大学;2015年
8 Kamenyi Domenic Mutiria;[D];电子科技大学;2014年
9 孙崇敬;面向属性与关系的隐私保护数据挖掘理论研究[D];电子科技大学;2014年
10 刘向宇;面向社会网络的隐私保护关键技术研究[D];东北大学;2014年
相关硕士学位论文 前10条
1 邹朝斌;SNS用户隐私感知与自我表露行为的关系研究[D];西南大学;2015年
2 李汶龙;大数据时代的隐私保护与被遗忘权[D];中国政法大学;2015年
3 孙琪;基于位置服务的连续查询隐私保护研究[D];湖南工业大学;2015年
4 尹惠;无线传感器网络数据融合隐私保护技术研究[D];西南交通大学;2015年
5 王鹏飞;位置服务中的隐私保护技术研究[D];南京理工大学;2015年
6 顾铖;基于关联规则的隐私保护算法研究[D];南京理工大学;2015年
7 崔尧;基于匿名方案的位置隐私保护技术研究[D];西安工业大学;2015年
8 毕开圆;社会网络中用户身份隐私保护模型的研究[D];大连海事大学;2015年
9 黄奚芳;基于差分隐私保护的集值型数据发布技术研究[D];江西理工大学;2015年
10 高超;具有隐私保护意识的大样本双盲随机对照试验数据管理系统的设计与实现[D];山东大学;2015年
,本文编号:2015166
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2015166.html