基于差分隐私的随机森林算法研究
发布时间:2021-04-08 07:56
近年来互联网和通信技术的发展极大地促进了大数据和数据挖掘技术的成熟。随机森林作为数据挖掘中常用的分类算法,被广泛应用到各个领域,支撑各研究机构、商业组织、医疗机构等进行数据的挖掘与分析。然而,在挖掘与分析过程中,不正确使用数据经常导致隐私泄露问题,为此很多机构和个人不愿意提供更多的信息,不仅限制了数据共享的进展,还严重阻碍了数据挖掘技术的发展。围绕分类算法设计相应的隐私保护策略并为待分类数据提供隐私保护,已成为当前数据挖掘技术迫切需要解决的问题。相较于传统隐私保护技术,差分隐私技术对于隐私保护的定义更加严格。它给出了一种极其严格的攻击模式,在该模式下攻击者能掌握最大的背景知识,差分隐私保护机制通过向原始数据集或其统计信息中添加噪音来提供隐私保护。本文提出了基于差分隐私的随机森林算法,用于保护数据分类过程中涉及的用户敏感信息,论文研究工作可归纳为以下几点:(1)差分隐私通过增加扰动噪声来提供隐私保护,这将导致随机森林算法分类准确率下降。为了减弱差分隐私保护对随机森林分类精度的影响,提出了一种混合决策树算法。对于随机森林中单个决策树的构建,综合ID3算法中的信息增益与C4.5算法中的信息增...
【文章来源】:南京理工大学江苏省 211工程院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
Laplace概率密度函数在很多的实际应用中,数据查询结果往往是方案或者选择项,而不是具体的数值,此时Laplace机制不再适用,因此McSherry等提出了基于随机响应的指数机制[82]
3随机森林中决策树算法改进硕士学位论文32(a)混合决策树与ID3、C4.5、CART分类结果对比图(b)混合决策树分类准确率随1变化示意图图3.1Adult数据集上1取值对决策树算法的影响图3.1(a)中,ID3、C4.5、CART算法的分类准确率不随1的变化改变;当1=0时,此时混合决策树就是C4.5算法,所以此时混合决策树与C4.5分类准确率相同;当1=1时,此时混合决策树就是ID3,所以此时混合决策树和ID3具有一样的分类准确率;当10.10.9N时,混合决策树分类准确率高于另外3类算法。从图3.1(b)能够看出,在
硕士学位论文基于差分隐私的随机森林算法研究47量,隐私保护预算越小,则算法的隐私性越强,但算法的分类准确率也会相应的下降。本实验主要通过在0-1之间调整隐私保护预算的值,来观察不同程度的隐私保护算法的分类准确率,在数据集Adult和Mushroom上的实验结果分别如图4.3和图4.4所示。图4.3Adult数据集上隐私保护预算对分类准确度的影响图4.4Mushroom数据集上隐私保护预算对分类准确度的影响
【参考文献】:
期刊论文
[1]不完全数据集的差分隐私保护决策树研究[J]. 沈思倩,毛宇光,江冠儒. 计算机科学. 2017(06)
[2]基于线性回归和属性集成的分类算法[J]. 强保华,唐波,王玉峰,邹显春,柳正利,孙忠旭,谢武. 计算机科学. 2017(06)
[3]DiffPRFs:一种面向随机森林的差分隐私保护算法[J]. 穆海蓉,丁丽萍,宋宇宁,卢国庆. 通信学报. 2016(09)
[4]面向大数据分析的决策树算法[J]. 张棪,曹健. 计算机科学. 2016(S1)
[5]主成分分析方法综述[J]. 赵蔷. 软件工程. 2016(06)
[6]MapReduce框架下支持差分隐私保护的k-means聚类方法[J]. 李洪成,吴晓平,陈燕. 通信学报. 2016(02)
[7]2015年度国际网络安全重大事故 攻击、漏洞无处不在,数据安全 危在旦夕[J]. 柒月. 信息安全与通信保密. 2016(02)
[8]决策树C4.5算法的优化与应用[J]. 苗煜飞,张霄宏. 计算机工程与应用. 2015(13)
[9]面向频繁模式挖掘的差分隐私保护研究综述[J]. 丁丽萍,卢国庆. 通信学报. 2014(10)
[10]差分隐私保护及其应用[J]. 熊平,朱天清,王晓峰. 计算机学报. 2014(01)
博士论文
[1]面向属性与关系的隐私保护数据挖掘理论研究[D]. 孙崇敬.电子科技大学 2014
[2]数据流集成分类器算法研究[D]. 杨显飞.哈尔滨工程大学 2011
硕士论文
[1]朴素贝叶斯分类器的研究与改进[D]. 周艳.厦门大学 2017
[2]基于层次结构的社会网络差分隐私图发布研究[D]. 王旭然.南京邮电大学 2016
[3]医疗保险欺诈检测的研究与应用[D]. 郭涛.电子科技大学 2016
[4]基于差分隐私的特征选择研究[D]. 杨军.南京邮电大学 2015
[5]基于GBDT的社区问题标签推荐技术研究[D]. 孙万龙.哈尔滨工业大学 2015
[6]基于Hadoop的数据挖掘算法并行化研究[D]. 赵伟.西南交通大学 2015
[7]负调查的相关方法及应用研究[D]. 鲁义辉.中国科学技术大学 2015
[8]网络安全态势分析与预测方法研究[D]. 王一村.北京交通大学 2015
[9]基于聚类的数据匿名发布技术研究[D]. 刘盼盼.西安电子科技大学 2013
[10]基于数据集动态更新的隐私保护算法[D]. 李涛.哈尔滨工程大学 2013
本文编号:3125173
【文章来源】:南京理工大学江苏省 211工程院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
Laplace概率密度函数在很多的实际应用中,数据查询结果往往是方案或者选择项,而不是具体的数值,此时Laplace机制不再适用,因此McSherry等提出了基于随机响应的指数机制[82]
3随机森林中决策树算法改进硕士学位论文32(a)混合决策树与ID3、C4.5、CART分类结果对比图(b)混合决策树分类准确率随1变化示意图图3.1Adult数据集上1取值对决策树算法的影响图3.1(a)中,ID3、C4.5、CART算法的分类准确率不随1的变化改变;当1=0时,此时混合决策树就是C4.5算法,所以此时混合决策树与C4.5分类准确率相同;当1=1时,此时混合决策树就是ID3,所以此时混合决策树和ID3具有一样的分类准确率;当10.10.9N时,混合决策树分类准确率高于另外3类算法。从图3.1(b)能够看出,在
硕士学位论文基于差分隐私的随机森林算法研究47量,隐私保护预算越小,则算法的隐私性越强,但算法的分类准确率也会相应的下降。本实验主要通过在0-1之间调整隐私保护预算的值,来观察不同程度的隐私保护算法的分类准确率,在数据集Adult和Mushroom上的实验结果分别如图4.3和图4.4所示。图4.3Adult数据集上隐私保护预算对分类准确度的影响图4.4Mushroom数据集上隐私保护预算对分类准确度的影响
【参考文献】:
期刊论文
[1]不完全数据集的差分隐私保护决策树研究[J]. 沈思倩,毛宇光,江冠儒. 计算机科学. 2017(06)
[2]基于线性回归和属性集成的分类算法[J]. 强保华,唐波,王玉峰,邹显春,柳正利,孙忠旭,谢武. 计算机科学. 2017(06)
[3]DiffPRFs:一种面向随机森林的差分隐私保护算法[J]. 穆海蓉,丁丽萍,宋宇宁,卢国庆. 通信学报. 2016(09)
[4]面向大数据分析的决策树算法[J]. 张棪,曹健. 计算机科学. 2016(S1)
[5]主成分分析方法综述[J]. 赵蔷. 软件工程. 2016(06)
[6]MapReduce框架下支持差分隐私保护的k-means聚类方法[J]. 李洪成,吴晓平,陈燕. 通信学报. 2016(02)
[7]2015年度国际网络安全重大事故 攻击、漏洞无处不在,数据安全 危在旦夕[J]. 柒月. 信息安全与通信保密. 2016(02)
[8]决策树C4.5算法的优化与应用[J]. 苗煜飞,张霄宏. 计算机工程与应用. 2015(13)
[9]面向频繁模式挖掘的差分隐私保护研究综述[J]. 丁丽萍,卢国庆. 通信学报. 2014(10)
[10]差分隐私保护及其应用[J]. 熊平,朱天清,王晓峰. 计算机学报. 2014(01)
博士论文
[1]面向属性与关系的隐私保护数据挖掘理论研究[D]. 孙崇敬.电子科技大学 2014
[2]数据流集成分类器算法研究[D]. 杨显飞.哈尔滨工程大学 2011
硕士论文
[1]朴素贝叶斯分类器的研究与改进[D]. 周艳.厦门大学 2017
[2]基于层次结构的社会网络差分隐私图发布研究[D]. 王旭然.南京邮电大学 2016
[3]医疗保险欺诈检测的研究与应用[D]. 郭涛.电子科技大学 2016
[4]基于差分隐私的特征选择研究[D]. 杨军.南京邮电大学 2015
[5]基于GBDT的社区问题标签推荐技术研究[D]. 孙万龙.哈尔滨工业大学 2015
[6]基于Hadoop的数据挖掘算法并行化研究[D]. 赵伟.西南交通大学 2015
[7]负调查的相关方法及应用研究[D]. 鲁义辉.中国科学技术大学 2015
[8]网络安全态势分析与预测方法研究[D]. 王一村.北京交通大学 2015
[9]基于聚类的数据匿名发布技术研究[D]. 刘盼盼.西安电子科技大学 2013
[10]基于数据集动态更新的隐私保护算法[D]. 李涛.哈尔滨工程大学 2013
本文编号:3125173
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3125173.html