基于同态加密的密文近似分类算法研究
发布时间:2021-02-01 14:51
作为一种通过共享软硬件资源为用户提供按需服务的新型计算方式,云计算具有经济性、便捷性等优势,得到了越来越多用户的认可。然而,为防止用户数据直接暴露给云服务提供商,用户往往会将数据以密文的形式上传至云端服务器,由此就导致了传统方法无法对密态数据进行分类、检索等更进一步的操作的问题。从而,如何在保护数据隐私性的同时,实现密文的高效计算,就成为了当前隐私保护密文计算领域亟待解决的关键问题。决策树分类算法作为分类算法中的常用算法,其在对明文数据分类时具有精度高、可扩展性强以及可解释性强等优势,然而在对密态数据分类时,决策树分类算法存在着诸如抗数据扰动能力较差、云端服务器训练模型无法完全适应现实密态数据特性以及分类精度下降明显等问题。针对以上问题,本文提出了一种基于同态加密算法的隐私保护梯度提升决策树近似分类算法,以期实现云服务器对用户密态数据更高精度、更强鲁棒性的近似分类。本文的主要工作包括:(1)针对同态加密无法直接对密文数据进行决策树分类的问题,基于同态加密算法的密文结构是多项式的事实,通过引入等价替代的思想,本文给出了将决策树模型转化为多项式的方法,并对其正确性给出严格的数学证明。同时,...
【文章来源】:杭州电子科技大学浙江省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
基于密文的计算服务
杭州电子科技大学硕士学位论文192.3隐私保护机器学习2.3.1一般框架图2.1隐私保护机器学习的一般框架图2.1展示的目前隐私保护机器学习的一般框架。首先,阶段一将来自不同源头的数据收集至一个统一的数据仓库,其中的数据以密文形式存储。阶段二是对数据仓库中的加密数据运行隐私保护机器学习算法,最终挖掘出一些有价值的知识、规则和信息。此为隐私保护机器学习的一般过程。2.3.2决策树分类算法除诸如KNN等惰性学习算法没有显式训练过程以外,通常机器学习算法可分为训练过程和预测过程,其中预测过程是基于已有的训练数据来实现的。。形式化来讲,给定个样本,其中分别表示第个样本实例及其对应的类别。中的每一个分量表示样本在第个属性上的取值。首先定义损失函数以衡量真实值与估计值之间的差距,然后通过不断优化整个样本数据集上的损失函数来逼近真实值,最终得到模型。预测过程是使用已训练好的模型,预测未知类别的样本的真实值,模型最终输出。只要模型的泛化性能足够好(通俗来讲,是指模型“举一反三”的能力),有理由相信预测值十分接近于真实值。事实上,模型无需完美拟合训练集。采样自真实世界的样本带有误差,如统计误差、测量误差、观测误差等等,这些误差不应该被模型“学习”到。从而,机器学习上的密文计算(无论是密文训练还是密文预测),无需精确计算,近似的密文计算同样是合乎实际的,有意义的。
杭州电子科技大学硕士学位论文24点中选择一个,而不能同时选择两个,于是。对更一般的决策树结构,其转换过程是一个递归过程,即样本,其只能从当前内部节点的左、右子树中选择一个继续进行决策树分类过程,从而其更一般的结构是:。图3.1从决策树到多项式的递归过程下面来考察一个更具体的例子。例1如图3.1所示的决策树,该树有2个属性,2个类别,树深度为2。依据定理1,其对应的多项式是:于是,对于一个未知类别的样本,多项式计算过程如下:用自然语言表述的分类过程如下:首先,样本被分配到树的根节点,由于,从而样本被指派至左子树(即沿着“Yes”分支),接着,由于,从而样本被指派至右分支(即沿着“No”分支),此时样本已到达叶节点,最终输出,算法终止。
【参考文献】:
期刊论文
[1]基于cuFHE的同态比较运算器[J]. 刘文超,潘峰,杨晓元,周潭平,涂广升. 计算机工程. 2019(09)
[2]密码技术在5G安全中的应用[J]. 郑东,张应辉. 信息安全与通信保密. 2019(01)
[3]支持浮点运算的高效并行全同态加密算法[J]. 史经启,杨庚,孙彦珺,白双杰,闵兆娥. 计算机科学. 2018(05)
[4]基于抽象解密结构的全同态加密构造方法分析[J]. 宋新霞,陈智罡. 电子与信息学报. 2018(07)
[5]一种高效的同态加密方案及其应用[J]. 杨浩淼,金保隆,陈诚,吴新沿. 密码学报. 2017(06)
[6]全同态加密研究[J]. 李增鹏,马春光,周红生. 密码学报. 2017(06)
[7]基于同态加密的多关键词检索方案[J]. 向广利,李安康,林香,熊彬. 计算机工程与应用. 2018(02)
[8]同态加密的分布式K均值聚类算法研究[J]. 姚禹丞,宋玲,鄂驰. 计算机技术与发展. 2017(02)
[9]基于全同态加密的决策树构造方法[J]. 周李威,王丽珍,张成君,朱玉全. 信息技术. 2016(10)
[10]一个LWE上的短公钥多位全同态加密方案[J]. 陈智罡,宋新霞,赵秀凤. 计算机研究与发展. 2016(10)
博士论文
[1]基于格的全同态加密研究与设计[D]. 陈智罡.南京航空航天大学 2015
硕士论文
[1]基于同态加密的云存储系统设计与实现[D]. 宋丹劼.北京邮电大学 2013
本文编号:3012947
【文章来源】:杭州电子科技大学浙江省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
基于密文的计算服务
杭州电子科技大学硕士学位论文192.3隐私保护机器学习2.3.1一般框架图2.1隐私保护机器学习的一般框架图2.1展示的目前隐私保护机器学习的一般框架。首先,阶段一将来自不同源头的数据收集至一个统一的数据仓库,其中的数据以密文形式存储。阶段二是对数据仓库中的加密数据运行隐私保护机器学习算法,最终挖掘出一些有价值的知识、规则和信息。此为隐私保护机器学习的一般过程。2.3.2决策树分类算法除诸如KNN等惰性学习算法没有显式训练过程以外,通常机器学习算法可分为训练过程和预测过程,其中预测过程是基于已有的训练数据来实现的。。形式化来讲,给定个样本,其中分别表示第个样本实例及其对应的类别。中的每一个分量表示样本在第个属性上的取值。首先定义损失函数以衡量真实值与估计值之间的差距,然后通过不断优化整个样本数据集上的损失函数来逼近真实值,最终得到模型。预测过程是使用已训练好的模型,预测未知类别的样本的真实值,模型最终输出。只要模型的泛化性能足够好(通俗来讲,是指模型“举一反三”的能力),有理由相信预测值十分接近于真实值。事实上,模型无需完美拟合训练集。采样自真实世界的样本带有误差,如统计误差、测量误差、观测误差等等,这些误差不应该被模型“学习”到。从而,机器学习上的密文计算(无论是密文训练还是密文预测),无需精确计算,近似的密文计算同样是合乎实际的,有意义的。
杭州电子科技大学硕士学位论文24点中选择一个,而不能同时选择两个,于是。对更一般的决策树结构,其转换过程是一个递归过程,即样本,其只能从当前内部节点的左、右子树中选择一个继续进行决策树分类过程,从而其更一般的结构是:。图3.1从决策树到多项式的递归过程下面来考察一个更具体的例子。例1如图3.1所示的决策树,该树有2个属性,2个类别,树深度为2。依据定理1,其对应的多项式是:于是,对于一个未知类别的样本,多项式计算过程如下:用自然语言表述的分类过程如下:首先,样本被分配到树的根节点,由于,从而样本被指派至左子树(即沿着“Yes”分支),接着,由于,从而样本被指派至右分支(即沿着“No”分支),此时样本已到达叶节点,最终输出,算法终止。
【参考文献】:
期刊论文
[1]基于cuFHE的同态比较运算器[J]. 刘文超,潘峰,杨晓元,周潭平,涂广升. 计算机工程. 2019(09)
[2]密码技术在5G安全中的应用[J]. 郑东,张应辉. 信息安全与通信保密. 2019(01)
[3]支持浮点运算的高效并行全同态加密算法[J]. 史经启,杨庚,孙彦珺,白双杰,闵兆娥. 计算机科学. 2018(05)
[4]基于抽象解密结构的全同态加密构造方法分析[J]. 宋新霞,陈智罡. 电子与信息学报. 2018(07)
[5]一种高效的同态加密方案及其应用[J]. 杨浩淼,金保隆,陈诚,吴新沿. 密码学报. 2017(06)
[6]全同态加密研究[J]. 李增鹏,马春光,周红生. 密码学报. 2017(06)
[7]基于同态加密的多关键词检索方案[J]. 向广利,李安康,林香,熊彬. 计算机工程与应用. 2018(02)
[8]同态加密的分布式K均值聚类算法研究[J]. 姚禹丞,宋玲,鄂驰. 计算机技术与发展. 2017(02)
[9]基于全同态加密的决策树构造方法[J]. 周李威,王丽珍,张成君,朱玉全. 信息技术. 2016(10)
[10]一个LWE上的短公钥多位全同态加密方案[J]. 陈智罡,宋新霞,赵秀凤. 计算机研究与发展. 2016(10)
博士论文
[1]基于格的全同态加密研究与设计[D]. 陈智罡.南京航空航天大学 2015
硕士论文
[1]基于同态加密的云存储系统设计与实现[D]. 宋丹劼.北京邮电大学 2013
本文编号:3012947
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3012947.html