面向最优效用的机器学习隐私模型
[Abstract]:Because of the development of various technologies, privacy issues have become a high demand, because more and more personal data are shared through different organizations, devices, and the Internet of things, which brings risks to the privacy and use of personal data. Especially when confidentiality is realized, the utility of data set is decreasing. Therefore, the new problem is to keep the privacy of a larger data set while preserving multi-utility. In this study, a new privacy model is established. The model uses Flash sorting algorithm and K _ anonymity combined with C4.5 classification technology to protect privacy data while preserving the optimal utility of data sets. The first step of this method is to use powerful data privacy grant technology on statistical data sets with 30162 records and attributes, and select the best K-anonymous data set using flash sorting algorithm. Set the privacy level to 2, and then make the dataset as useful as possible through the C 4.5 classification process. Further, by reducing the size of the statistical data set by half (15081 records), then using the same method to test. Then reduce the number of attributes, using the same algorithm for testing. The results of this study reveal some important results. Compared with other studies, the method in this paper is able to maintain the accuracy of the data. The results show that the data set is 90.77% useful, and when the size of the data set is reduced to half, The loss of data utility is only 0.5. When the attribute of data set is reduced, the loss of utility is only 2.28. When the size of the data set is large, the loss is 1.24 when compared with the original non-anonymous data set. Although it provides a high precision result, it can not obtain the maximum expectation on a larger data set. The results show that our method can provide the lowest utility value and attribute reduction number when reducing the number of data sets. The study predicts that changing privacy methods and using different types of classifiers will produce better results in the future, especially when dealing with larger data sets.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP309;TP181
【相似文献】
相关期刊论文 前10条
1 郭庆,陈纯;基于整合效用的多议题协商优化[J];软件学报;2004年05期
2 何振峰,熊范纶;基于限制的分类效用及其应用[J];小型微型计算机系统;2004年12期
3 夏娜;蒋建国;于春华;吴琼;;一种基于利益均衡的联盟形成策略[J];控制与决策;2005年12期
4 尹翔;蒋建国;夏娜;苏兆品;张国富;;基于模糊评判的Agent联盟效用分配[J];计算机工程与应用;2006年30期
5 徐选华;陈晓红;王红伟;;一种面向效用值偏好信息的大群体决策方法[J];控制与决策;2009年03期
6 余光柱;李克清;易先军;邵世煌;;一种基于划分的高效用长项集挖掘算法[J];计算机工程与应用;2007年29期
7 邓寒冰;张霞;刘积仁;;效用驱动的多agent合作机制[J];通信学报;2013年07期
8 孔健;;试论图书馆效益的计量方法[J];图书馆学研究;1990年03期
9 闫爱梅;程晓荣;王玉辉;;基于学习的多Agent多议题协商优化研究[J];计算机工程与应用;2008年02期
10 刘勘;郭洋;潘演;;基于多维效用合并的信息系统评价研究[J];情报理论与实践;2012年03期
相关会议论文 前10条
1 王克强;刘红梅;;土地对农民的效用研究——兼论土地资产特性的演化规律[A];不动产开发与投资和不动产金融——2005年海峡两岸土地学术研讨会论文集[C];2005年
2 吴鹏;;习惯、偏好与效用[A];中国制度经济学年会论文集[C];2003年
3 王珏;;归纳机器学习[A];2001年中国智能自动化会议论文集(上册)[C];2001年
4 王昊;李银波;纪志梁;;利用机器学习方法预测严重药物不良反应-呼吸困难[A];中国化学会第28届学术年会第13分会场摘要集[C];2012年
5 吴沧浦;;智能系统与机器学习的新领域[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
6 周晴杰;徐立鸿;吴启迪;;机器学习串级结构的初步探讨[A];1998年中国控制会议论文集[C];1998年
7 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
8 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
9 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 黄金铁;李景银;周建常;;对高炉炉况评价模型参数的机器学习——一个三类线性模式分类器的实现[A];1995中国控制与决策学术年会论文集[C];1995年
相关重要报纸文章 前10条
1 何志高;效用虽主观 测定有方法[N];医药经济报;2001年
2 记者 刘小微;环境风险管理“利器”效用值得期待[N];金融时报;2013年
3 美国加州州立大学(长堤)商学院教授 美国华裔教授学者学会(南加州)秘书长 孙涤;财富与满足成正比吗?[N];上海证券报;2012年
4 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
5 IBM大数据专家 James Kobielus 范范 编译;机器学习已成为大数据基石[N];网络世界;2014年
6 本报记者 房琳琳;合久必分:分布式“机器学习”应运而生[N];科技日报;2014年
7 雨辰;机器学习类图书为什么火爆[N];中华读书报;2014年
8 王素琴邋刘晓林 通讯员 王新华;宇如聪强调用好16个新数据集产品[N];中国气象报;2008年
9 记者 刘浪 通讯员 廖雅琴;中国首套数字化“可视人”数据集在渝通过成果鉴定[N];重庆日报;2003年
10 通讯员廖雅琴记者冯竞;“国人数字化可视人体数据集”完成[N];科技日报;2003年
相关博士学位论文 前10条
1 伍红艳;健康效用值测量研究[D];沈阳药科大学;2012年
2 董春茹;机器学习中的权重学习与差分演化[D];华南理工大学;2015年
3 姚明臣;机器学习和神经网络学习中的若干问题研究[D];大连理工大学;2016年
4 Maxim Pecionchin;[D];对外经济贸易大学;2016年
5 杜宇;基于深度机器学习的体态与手势感知计算关键技术研究[D];浙江大学;2017年
6 钟锦红;群智学习若干问题研究[D];中国科学技术大学;2017年
7 赵东;基于群智能优化的机器学习方法研究及应用[D];吉林大学;2017年
8 鲁路;基于机器学习优化分子对接筛选肾衰营养胶囊有效成分[D];南方医科大学;2017年
9 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年
10 胡巍;面向格结构的机器学习[D];上海交通大学;2009年
相关硕士学位论文 前10条
1 徐喜卿;乳腺癌患者不同健康效用值测量方式的比较研究[D];山东大学;2015年
2 江咏絮;g-期望下的效用优化[D];上海交通大学;2015年
3 王蕊;基于效用矩阵和索引的top-k高效用项目集挖掘研究[D];东北大学;2013年
4 杨o,
本文编号:2271066
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2271066.html