云环境下模糊可搜索加密的设计和实现
发布时间:2020-11-03 21:26
随着云计算普及发展,越来越多公司和个人将数据存放到云服务器,降低了大量的时间成本和人力成本。由于这些数据可能涉及用户的隐私信息,因此在数据上传到云服务器前,需要应用加密技术对数据进行加密,从而保护用户隐私。但此时用户将会遇到如何在密文状态下进行数据查找的难题,因为适用于明文状态下的处理策略往往无法直接应用于密文状态下的数据。可搜索加密是一种支持用户在密文状态下进行关键词查找的密码学原语,它可以满足我们在保护数据隐私的前提下查找数据的需求。在信息检索系统中,用户在输入数据的时候经常会出现轻微的错别字和格式不一致,为此本文聚焦于模糊搜索功能,提高系统实用性。首先,本文针对不同的应用场景类型,分别提出了基于Paillier加密算法的非对称模糊可搜索加密方案(PFSE)和基于Secure KNN加密算法的对称模糊可搜索加密方案(SFSE),满足用户在不同应用场景的需求。目前大部分的可搜索加密方案只支持对英文字母或者ASCII码表里的字符进行模糊搜索,我们通过对关键词进行预处理,从而使得本文的两个方案能够支持汉字模糊搜索和英文乱序搜索,模糊搜索功能更加完善。此外,本文的两个方案利用TF-IDF对搜索的结果进行筛选,每次只返回若干个与查询关键词最相关的数据,降低了传输开销,同时保证了用户良好的搜索体验。其次,在搜索阶段PFSE方案相较于实验对比方案,当关键词长度为6时,时间开销降低了25%,虽然在初始化阶段PFSE方案空间开销和时间开销有所增大。但搜索阶段才是耗时最多,同时搜索功能也是最主要的功能,因此PFSE方案相较于对比方案更加高效。此外,实验对比方案在搜索阶段会泄漏部分密钥,而PFSE方案通过对系统结构进行改进优化后,在各个阶段都不会泄漏任何密钥信息,因此PFSE方案更加安全。在SFSE方案中通过构建基于倒排索引的索引,使得SFSE方案相较于实验对比方案效率更加高效,同时搜索准确率更高。最后,利用关键词提取算法、自动文本摘要生成算法、词干提取算法和词形还原算法对本文的方案进行优化。此外,还实现了密文状态下数值区间模糊搜索功能。
【学位单位】:华南理工大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP309.7
【部分图文】:
开的公钥pk对明文消息进行加密,得到密文数据,然后将密文数据发送给甲方;甲方在??接收到乙方发送过来的密文数据后,使用它自己的私钥sk对密文消息进行解密,从而获??取乙方发送给它的明文消息(具体过程如图2-2所示)。??非对称加密算法的特点是:加解密算法比较复杂,因此非对称加密算法的加解密速??度没有对称加密算法的加解密速度快;但是,在对称加密算法中,加密操作和解密操作??使用的是同一个密钥,因此数据发送方必须把加密密钥发送给数据接收方,这样数据接??收方才能对密文数据进行解密,所以要保证非对称加密算法的安全性就必须要确保密钥??15??
发送方?接收方??图2-1对称加密算法流程图??在对称加密算法中加密和解密使用的是同一个秘钥,然而在非对称加密算法中一般??使用公钥(public?key,简称pk)进行加密和使用私钥(private?key,简称sk)进行??解密。并且公钥与私钥是一对的,假如用公钥pk对明文消息进行加密,那么只有使用相??应的私钥才能对密文进行解密;如果用私钥sk对明文消息进行加密,那么只有使用相应??的公钥才能对密文数据进行解密。因为加密操作和解密加密使用的是一对密钥中的两个??不同密钥,所以这种加密算法称为非对称加密算法。具体的非对称加密算法一般是以某??个困难问题为基础来构建的。??当通信双方使用非对称加密算法来加密明文消息时,其一般过程是:首先甲方生成??一对公私钥,并将公钥pk向其它任意方公开;当乙方想要和甲方通信时,它使用甲方公??开的公钥pk对明文消息进行加密
首先将关键词中的每个字符转换成ASCII码,然后将16进制的ASCII码转换成10进制的整??数,最后将这些整数累加得到一个大整数。我们将关键词转换成大整数的算法取名为WTI,??具体流程如图3-2所示。??关键词 ̄?I?w?I?Q?I?r?I?d???;??????ASCII?SB?0X77?OX6F?0X72?0X64????v?\l-?4;??十进制整数?119?111?114?l〇〇??累?to?0?????0????士??十翻徽?444??Paillier?加密??密文??^?-??图3-2?WTI流程图??3.2.2汉字预处理算法??汉字作为世界上使用人口最多的文字,支持汉字模糊可搜索加密是十分有必要且有??意义的。一个汉字通常可以由若干个拼音字母或者若干笔画组成,因此一个汉字存在同??音字和形近字。本文中的汉字模糊搜索,主要是指输入一个汉字,我们可以找到其同音??字和形近字。对于同音字,汉字由若干个拼音字母组成与英文单词相似,只要增加一位??用来保存声调,就可以使用WTI算法实现同音字模糊搜索。而对于形近字,我们通过对??20??
【参考文献】
本文编号:2869123
【学位单位】:华南理工大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP309.7
【部分图文】:
开的公钥pk对明文消息进行加密,得到密文数据,然后将密文数据发送给甲方;甲方在??接收到乙方发送过来的密文数据后,使用它自己的私钥sk对密文消息进行解密,从而获??取乙方发送给它的明文消息(具体过程如图2-2所示)。??非对称加密算法的特点是:加解密算法比较复杂,因此非对称加密算法的加解密速??度没有对称加密算法的加解密速度快;但是,在对称加密算法中,加密操作和解密操作??使用的是同一个密钥,因此数据发送方必须把加密密钥发送给数据接收方,这样数据接??收方才能对密文数据进行解密,所以要保证非对称加密算法的安全性就必须要确保密钥??15??
发送方?接收方??图2-1对称加密算法流程图??在对称加密算法中加密和解密使用的是同一个秘钥,然而在非对称加密算法中一般??使用公钥(public?key,简称pk)进行加密和使用私钥(private?key,简称sk)进行??解密。并且公钥与私钥是一对的,假如用公钥pk对明文消息进行加密,那么只有使用相??应的私钥才能对密文进行解密;如果用私钥sk对明文消息进行加密,那么只有使用相应??的公钥才能对密文数据进行解密。因为加密操作和解密加密使用的是一对密钥中的两个??不同密钥,所以这种加密算法称为非对称加密算法。具体的非对称加密算法一般是以某??个困难问题为基础来构建的。??当通信双方使用非对称加密算法来加密明文消息时,其一般过程是:首先甲方生成??一对公私钥,并将公钥pk向其它任意方公开;当乙方想要和甲方通信时,它使用甲方公??开的公钥pk对明文消息进行加密
首先将关键词中的每个字符转换成ASCII码,然后将16进制的ASCII码转换成10进制的整??数,最后将这些整数累加得到一个大整数。我们将关键词转换成大整数的算法取名为WTI,??具体流程如图3-2所示。??关键词 ̄?I?w?I?Q?I?r?I?d???;??????ASCII?SB?0X77?OX6F?0X72?0X64????v?\l-?4;??十进制整数?119?111?114?l〇〇??累?to?0?????0????士??十翻徽?444??Paillier?加密??密文??^?-??图3-2?WTI流程图??3.2.2汉字预处理算法??汉字作为世界上使用人口最多的文字,支持汉字模糊可搜索加密是十分有必要且有??意义的。一个汉字通常可以由若干个拼音字母或者若干笔画组成,因此一个汉字存在同??音字和形近字。本文中的汉字模糊搜索,主要是指输入一个汉字,我们可以找到其同音??字和形近字。对于同音字,汉字由若干个拼音字母组成与英文单词相似,只要增加一位??用来保存声调,就可以使用WTI算法实现同音字模糊搜索。而对于形近字,我们通过对??20??
【参考文献】
相关期刊论文 前2条
1 秦志光;包文意;赵洋;熊虎;;云存储中一种模糊关键字搜索加密方案[J];信息网络安全;2015年06期
2 李乔;郑啸;;云计算研究现状综述[J];计算机科学;2011年04期
本文编号:2869123
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2869123.html