当前位置:主页 > 科技论文 > 软件论文 >

基于负数据库的隐私保护k-means聚类算法研究

发布时间:2022-09-30 21:14
  在大数据时代,用户的隐私保护是一个关键问题。作为数据挖掘的经典算法,原始k-means算法常用于对明文数据进行聚类分析,没有考虑到隐私保护的问题。已有工作研究支持隐私保护的k-means算法,但是一般有计算成本高(例如加密算法),精度损失大(例如数据扰动方法),通讯成本高(例如安全多方计算)等缺点。负数据库作为一种新型的数据表示方法,存储的是原始数据库补集中的信息,其难以逆转的特性可以用于保护原始数据的隐私。负数据库支持距离度量,可以被应用到k-means聚类分析中保护隐私。负数据库上现有的隐私保护k-means算法只能支持基于海明距离的相似度计算,但是现实中很多数据的相似度计算都是基于欧式距离的,这大大限制了该方法的适用范围。并且该方法将实数转化为二进制编码,编码的长度取决于数据库中不同实数值的数目,这使得该方法仅适用于结构简单、属性值少的数据,实用性较差。针对上述情况,本文利用欧氏距离二进制数编码方式中编码位数只与属性值大小相关的特点,提出了面向负数据库的欧氏距离计算公式。在此基础之上,提出了一种新的基于负数据库的隐私保护k-means聚类算法,并改进了负数据库的生成算法以进一步提... 

【文章页数】:59 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
符号和名词解释
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 支持隐私保护的k-means聚类分析
        1.2.2 负数据库概述及应用
        1.2.3 负数据库生成算法
    1.3 本文主要内容和结构
第2章 基于K-NDB的隐私保护k-means算法
    2.1 相关工作
        2.1.1 k-means聚类算法
        2.1.2 K-hidden负数据库生成算法
    2.2 面向负数据库的欧氏距离估算方法
        2.2.1 理论推导
        2.2.2 实验验证
    2.3 隐私保护的k-means聚类算法
        2.3.1 算法设计
        2.3.2 实验验证
    2.4 本章小结
第3章 基于QK-NDB的隐私保护k-means算法
    3.1 QK-hidden负数据库生成算法
    3.2 细粒度的隐私保护k-means算法
    3.3 实验
        3.3.1 误差实验
        3.3.2 对比实验
    3.4 小结
第4章 总结和展望
    4.1 总结
    4.2 展望
致谢
参考文献
攻读硕士学位期间主要的工作


【参考文献】:
期刊论文
[1]大数据时代的个人隐私保护[J]. 刘雅辉,张铁赢,靳小龙,程学旗.  计算机研究与发展. 2015(01)
[2]MD5加密算法的研究及应用[J]. 魏晓玲.  信息技术. 2010(07)

博士论文
[1]信息负表示的若干应用方案研究[D]. 赵冬冬.中国科学技术大学 2016
[2]负数据库生成算法及应用研究[D]. 刘然.中国科学技术大学 2013

硕士论文
[1]隐私保护聚类挖掘方法的研究[D]. 徐一凤.哈尔滨工程大学 2010



本文编号:3684285

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3684285.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户18c52***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com