基于差分隐私的频繁序列模式挖掘算法
本文选题:频繁序列挖掘 + 差分隐私 ; 参考:《计算机应用》2017年02期
【摘要】:针对当数据集含有敏感信息时,直接发布频繁序列模式本身及其支持度计数都有可能泄露用户隐私信息的问题,提出一种满足差分隐私(DP)的频繁序列模式挖掘(DP-FSM)算法。该算法利用向下封闭性质生成候选序列模式集,基于智能截断方法从候选模式中挑选出频繁的序列模式,最后采用几何机制对所选出模式的真实支持度添加噪声进行扰动。另外,为了提高挖掘结果的可用性,设计了一个阈值修正的策略来减小挖掘过程中的截断误差和传播误差。理论分析证明了该算法满足ε-差分隐私。实验结果表明了该算法在拒真率(FNR)和相对支持度误差(RSE)两个指标上明显低于对比算法PFS2,有效地提高了挖掘结果的准确度。
[Abstract]:In order to solve the problem that when data sets contain sensitive information, it is possible to disclose user privacy information by directly publishing frequent sequence patterns and their support counts, a DP-FSM-based algorithm for frequent sequence pattern mining satisfying differential privacy DP) is proposed. The algorithm uses the property of downward closure to generate candidate sequence pattern sets, selects frequent sequential patterns from candidate patterns based on intelligent truncation method, and finally uses geometric mechanism to add noise to the true support of the selected patterns. In addition, in order to improve the usability of mining results, a threshold correction strategy is designed to reduce the truncation error and propagation error in the mining process. Theoretical analysis shows that the algorithm satisfies 蔚-difference privacy. The experimental results show that the proposed algorithm is obviously lower than the contrast algorithm PFS2 in two indexes of rejection rate (FNR) and relative support error (RSE), and the accuracy of mining results is improved effectively.
【作者单位】: 东北大学计算机科学与工程学院;
【基金】:国家自然科学基金资助项目(61033007,61622202,61572119) 国家973计划项目(2012CB316201) 教育部中央高校基本科研业务费资助项目(N150402005)~~
【分类号】:TP311.13;TP309
【相似文献】
相关期刊论文 前10条
1 张长海;胡孔法;陈凌;;序列模式挖掘算法综述[J];扬州大学学报(自然科学版);2007年01期
2 肖哲;任胜兵;;序列模式挖掘研究进展[J];科技信息(科学教研);2007年36期
3 陈卓;杨炳儒;宋威;宋泽锋;;序列模式挖掘综述[J];计算机应用研究;2008年07期
4 王虎;丁世飞;;序列模式挖掘研究与发展[J];计算机科学;2009年12期
5 陈晓;;一种模糊序列模式挖掘的有效方法[J];现代计算机(专业版);2010年13期
6 李乃乾;姚新会;田东平;;多时间粒度序列模式挖掘[J];小型微型计算机系统;2011年01期
7 吴孔玲;缪裕青;苏杰;张晓华;;序列模式挖掘研究[J];计算机系统应用;2012年06期
8 聂成林,王浩,胡学钢;基于概念格的序列模式挖掘[J];计算机工程;2003年20期
9 龚惠群,黄超,彭江平;具有双时间维约束的股票序列模式挖掘[J];计算机工程;2003年20期
10 许兆新,郝燕玲;约束在序列模式挖掘中的应用研究[J];计算机工程与应用;2004年05期
相关会议论文 前10条
1 吕静;陈未如;刘俊;Osei Adjei;;并发分支模式挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
2 端义锋;胡谷雨;丁力;;序列模式挖掘在网络告警分析中的应用[A];2004年全国通信软件学术会议论文集[C];2004年
3 朱辉生;李存华;;序列模式挖掘的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 程银波;司菁菁;;带有间隔约束的序列模式挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
5 李润恒;贾焰;金鑫;;一种面向网络安全的序列模式挖掘方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 李晟;姜青山;郭顺;王备战;;一种优化的蛋白质序列模式挖掘方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
7 姚伟力;王锡禄;宋俊德;;基于序列模式挖掘的告警相关性分析算法[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
8 任家东;解玉洁;何海涛;张爱国;;基于改进前缀树PStree的最大序列模式挖掘[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
9 牛兴雯;杨冬青;唐世渭;王腾蛟;;OSAF-tree——可迭代的移动序列模式挖掘及增量更新方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 张锐;熊峗;陈越;朱扬勇;;MS-BioSM:一个基于多支持度生物序列模式挖掘算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
相关博士学位论文 前8条
1 张劲松;基于约束的序列模式挖掘及其应用研究[D];上海交通大学;2015年
2 金阳;基于概念格模型的序列模式挖掘算法研究[D];吉林大学;2007年
3 谢飞;带有通配符的序列模式挖掘研究[D];合肥工业大学;2011年
4 熊峗;生物序列模式挖掘与聚类研究[D];复旦大学;2007年
5 杨钤雯;序列模式挖掘方法及Web使用挖掘研究[D];天津大学;2010年
6 陆介平;描述性规则挖掘若干关键技术研究[D];东南大学;2006年
7 叶红云;面向金融营销问题的个性化推荐方法研究[D];合肥工业大学;2011年
8 徐前方;基于数据挖掘的网络故障告警相关性研究[D];北京邮电大学;2007年
相关硕士学位论文 前10条
1 张长海;分布式序列模式挖掘算法研究[D];扬州大学;2008年
2 陈晓;基于模糊集的序列模式挖掘研究[D];天津大学;2007年
3 俞单庆;序列模式挖掘及其在入侵检测中的应用研究[D];南京师范大学;2008年
4 杨名时;加权负序列模式挖掘算法研究[D];齐鲁工业大学;2015年
5 周慧霞;回归方法估算最长频繁模式长度研究[D];河北工业大学;2015年
6 冯建;基于命题逻辑的频繁序列模式挖掘算法的研究[D];浙江工业大学;2014年
7 廖清科;面向时间序列相似性的序列模式挖掘及应用[D];重庆交通大学;2015年
8 周坤;一般周期间隙约束的序列模式挖掘[D];河北工业大学;2015年
9 向剑平;Web日志中序列模式挖掘算法的研究[D];重庆大学;2015年
10 董鑫;时序数据序列模式挖掘[D];南京航空航天大学;2015年
,本文编号:1958925
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1958925.html