当前位置:主页 > 科技论文 > 软件论文 >

一种基于隐私保护下的多方记录链接方法

发布时间:2018-03-24 14:44

  本文选题:记录链接 切入点:隐私保护 出处:《软件学报》2017年09期


【摘要】:多方隐私保护下的记录链接(privacy-preserving record linkage,简称PPRL)是在隐私保护下,从多个数据源中找出代表现实世界中同一实体的过程.该过程除了最终匹配结果被数据源之间共享外,其他信息均未被泄露.随着数据量的日益增大和现实世界数据质量问题的存在(如拼写错误、顺序颠倒等),多方PPRL方法的可扩展性和容错性面临挑战.目前,已有的大部分多方PPRL方法都是精确匹配方法,不具有容错性.还有少部分多方PPRL近似方法具有容错性,但在处理存在质量问题的数据时,由于容错性差和时间代价过大,并不能有效地找出数据源间的共同实体.因此,提出一种结合布隆过滤、安全合计、动态阈值、检查机制和改进的Dice相似度函数的多方PPRL近似方法.首先,利用布隆过滤将各数据源中的每条记录信息转换成由0和1组成的位数组.然后,计算每个对应位置bit 1所占的比率,并利用动态阈值和检查机制来判定匹配成功的位置.最后,通过改进的Dice相似度函数计算出记录间的相似度,进而判断记录间是否匹配成功.实验结果表明:所提出的方法具有较好的可扩展性,并且在保证查准率的同时,比已有的多方近似PPRL方法具有更高的容错性.
[Abstract]:Privacy-preserving record link (PPRL) under multi-party privacy protection is a process in which the same entity in the real world is found from multiple data sources under privacy protection. Other information has not been leaked. With the increasing volume of data and the existence of real-world data quality problems (such as spelling errors, reverse order, etc.), the extensibility and fault-tolerance of multi-party PPRL methods are facing challenges. Most of the existing multiparty PPRL methods are accurate matching methods, but they are not fault-tolerant. There are also a few multiparty PPRL approximation methods that are fault-tolerant, but when dealing with data with quality problems, the fault tolerance is poor and the time cost is too high. Therefore, a multi-party PPRL approximation method combining Bron filtering, security total, dynamic threshold, checking mechanism and improved Dice similarity function is proposed. Each record information in each data source is converted into a bit array of 0 and 1 using the Bloom filter. Then, the ratio of bit 1 to each corresponding location is calculated. The dynamic threshold and checking mechanism are used to determine the matching position. Finally, the similarity between the records is calculated by the improved Dice similarity function. The experimental results show that the proposed method is more extensible and has higher fault tolerance than the existing multi-party approximate PPRL method.
【作者单位】: 东北大学计算机科学与工程学院;
【基金】:国家自然科学基金(61472070,61672142) 国家重点基础研究发展计划(973)(2012CB316201)~~
【分类号】:TP309

【相似文献】

相关期刊论文 前10条

1 ;守住你的秘密——隐私保护神[J];计算机与网络;2002年05期

2 高密;薛宝赏;;我的电脑信息 隐私保护很强大[J];网友世界;2010年11期

3 ;隐私保护的10个准则[J];个人电脑;2000年07期

4 刘振;;浅谈办公室电脑隐私保护[J];办公自动化;2008年20期

5 孙超仁;;给你看隐私中的隐私 隐私保护软件的开发故事[J];电脑爱好者;2009年14期

6 刘永红;申艳光;;隐私保护粒计算模型的研究[J];河北农业大学学报;2010年05期

7 丹娜·博伊德;;为什么隐私保护没有消失[J];科技创业;2010年11期

8 张志祥;金华;朱玉全;陈耿;;基于有损连接的个性化隐私保护[J];计算机工程与设计;2011年09期

9 飘零雪;;防狗仔,拒绝流出隐私[J];电脑迷;2011年22期

10 刘小波;;一种敏感信息共享隐私保护框架[J];图书情报工作;2011年13期

相关会议论文 前10条

1 孙通源;;基于局部聚类和杂度增益的数据信息隐私保护方法探讨[A];中国水利学会2013学术年会论文集——S4水利信息化建设与管理[C];2013年

2 张亚维;朱智武;叶晓俊;;数据空间隐私保护平台的设计[A];第二十五届中国数据库学术会议论文集(一)[C];2008年

3 张鹏;于波;童云海;唐世渭;;基于随机响应的隐私保护关联规则挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

4 桂琼;程小辉;;一种隐私保护的分布式关联规则挖掘方法[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年

5 俞笛;徐向阳;解庆春;刘寅;;基于保序加密的隐私保护挖掘算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年

6 李贝贝;乐嘉锦;;分布式环境下的隐私保护关联规则挖掘[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

7 徐振龙;郭崇慧;;隐私保护数据挖掘研究的简要综述[A];第七届(2012)中国管理学年会商务智能分会场论文集(选编)[C];2012年

8 潘晓;郝兴;孟小峰;;基于位置服务中的连续查询隐私保护研究[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

9 汪涛;杨义先;;RFID的认证与隐私保护[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年

10 余永红;;集成访问控制和隐私保护机制的安全数据库研究[A];第二十五届中国数据库学术会议论文集(一)[C];2008年

相关重要报纸文章 前10条

1 独立分析师 陈志刚;隐私管理应归个人[N];通信产业报;2013年

2 记者 武晓黎;360安全浏览器推“隐私浏览”模式[N];中国消费者报;2008年

3 张晓明;隐私的两难[N];电脑报;2013年

4 本报实习生 张月朦 本报记者 董晨;大数据时代,谁来保护我们的隐私[N];新华日报;2013年

5 本报记者 邹大斌;隐私保护,老问题再添新忧[N];计算机世界;2013年

6 记者 马意,

本文编号:1658749


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1658749.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户84d05***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com