分布式搜索引擎索引安全及缓存策略研究
发布时间:2020-10-29 18:23
本课题所依托的国家863项目“分布式密文全文检索系统关键技术研究”的主要应用场景是具有较高文档保密需求的政府机关和大中型企业。这些机构的文档保有规模和用户数量十分巨大,需要使用分布式搜索引擎才能满足日常搜索需要,而且他们对文档的安全性和访问控制均有较高要求,希望在满足日常搜索需求的同时可以兼顾索引安全和访问控制,尽量减少不必要的信息外泄。 作者所在课题组研究索引安全和分布式检索已有时日,先后研发出集中式密文全文检索系统和分布式密文全文检索系统,并且在湖北省电子政务领域有成功的应用案例。但是先期系统仍然存在索引安全性不高,无独立缓存机制等不足之处,本课题在已有成果的基础上,针对上述问题进行了优化和改进。 对索引安全策略的加密对象和加密方式进行了结构性调整,采用基于索引词倒排表物理分块加密的安全索引结构,直接面向底层索引文件进行操作,全部分块保持相同长度,避免了恶意用户利用分块大小不同进行统计攻击的可能性,获得了更高的安全性和索引处理效率。 新增了适用于原有系统的分布式缓存机制,为检索服务器和索引服务器分别设置缓存。检索服务器缓存查询结果集,并且融入了对访问控制信息的支持;索引服务器缓存索引词倒排表,分为静态和动态两部分,前者存放日常查询中的高频索引词倒排表,负责处理大多数长期稳定的通用查询请求;后者存放系统新近查询用到的索引词倒排表,满足短期突发性热点词汇的查询需求。
【学位单位】:华中科技大学
【学位级别】:硕士
【学位年份】:2011
【中图分类】:TP391.3;TP333
【部分图文】:
如图 2.1 所示。安全…计算机…新闻新鲜…<2,10><5,3,12><15,7>…<1,3><5,2><7,2><10,4><30,22>…<9,6><12,14><17,5>………………图 2.1 倒排表模型示意图2.1.2 PAT 数组PAT 数组是 Gonnet 在 1987 年提出的[23],由 PAT 树发展而来,只要将 PAT 树的叶子节点按照一定规则串行化就可以得到 PAT 数组,如图 2.2 所示。与倒排表模型将文本看成单个索引词的集合不同,PAT 数组将文本看成一系列字符串的集合,检索时直接将用户输入的检索条件作为一个完整的字符串,与 PAT 数组中的字符串进行匹配。图 2.2 PAT 数组模型示意图
…新闻新鲜…<7,2><10,4><30,22>…<9,6><12,14><17,5>…………图 2.1 倒排表模型示意图.1.2 PAT 数组PAT 数组是 Gonnet 在 1987 年提出的[23],由 PAT 树发展而来,只要将 PAT 树子节点按照一定规则串行化就可以得到 PAT 数组,如图 2.2 所示。与倒排表模文本看成单个索引词的集合不同,PAT 数组将文本看成一系列字符串的集合,时直接将用户输入的检索条件作为一个完整的字符串,与 PAT 数组中的字符串匹配。
华 中 科 技 大 学 硕 士 学 位 论 文 索引分布策略Stanfill 在 1989 年和 1990 年先后两次描述了怎样将索引信息分布到多个紧行处理器上,其底层的索引结构设计非常简单[26, 27],Couvreur 比较了将几引结构(倒排表、签名文件等)应用于并行文本检索环境时的优劣[28]。分布式环境下的索引分布策略主要分为两个大类:按词条划分(titioning)和按文档划分(Document Partitioning),其本质区别为单个索引项件是存放在一台还是多台索引服务器上[29],如图 2.4 所示。
【参考文献】
本文编号:2861283
【学位单位】:华中科技大学
【学位级别】:硕士
【学位年份】:2011
【中图分类】:TP391.3;TP333
【部分图文】:
如图 2.1 所示。安全…计算机…新闻新鲜…<2,10><5,3,12><15,7>…<1,3><5,2><7,2><10,4><30,22>…<9,6><12,14><17,5>………………图 2.1 倒排表模型示意图2.1.2 PAT 数组PAT 数组是 Gonnet 在 1987 年提出的[23],由 PAT 树发展而来,只要将 PAT 树的叶子节点按照一定规则串行化就可以得到 PAT 数组,如图 2.2 所示。与倒排表模型将文本看成单个索引词的集合不同,PAT 数组将文本看成一系列字符串的集合,检索时直接将用户输入的检索条件作为一个完整的字符串,与 PAT 数组中的字符串进行匹配。图 2.2 PAT 数组模型示意图
…新闻新鲜…<7,2><10,4><30,22>…<9,6><12,14><17,5>…………图 2.1 倒排表模型示意图.1.2 PAT 数组PAT 数组是 Gonnet 在 1987 年提出的[23],由 PAT 树发展而来,只要将 PAT 树子节点按照一定规则串行化就可以得到 PAT 数组,如图 2.2 所示。与倒排表模文本看成单个索引词的集合不同,PAT 数组将文本看成一系列字符串的集合,时直接将用户输入的检索条件作为一个完整的字符串,与 PAT 数组中的字符串匹配。
华 中 科 技 大 学 硕 士 学 位 论 文 索引分布策略Stanfill 在 1989 年和 1990 年先后两次描述了怎样将索引信息分布到多个紧行处理器上,其底层的索引结构设计非常简单[26, 27],Couvreur 比较了将几引结构(倒排表、签名文件等)应用于并行文本检索环境时的优劣[28]。分布式环境下的索引分布策略主要分为两个大类:按词条划分(titioning)和按文档划分(Document Partitioning),其本质区别为单个索引项件是存放在一台还是多台索引服务器上[29],如图 2.4 所示。
【参考文献】
相关期刊论文 前4条
1 李新;密文数据库系统的设计[J];计算机工程与应用;2005年32期
2 闵高照,邵志清;中文搜索引擎FlyingSender的缓存优化策略[J];计算机工程;2005年16期
3 颜维龙,盖杰,武港山,袁春风;面向网络的全文检索中索引文件的组织[J];计算机应用研究;2002年11期
4 许涛,吴淑燕;Google搜索引擎及其技术简介[J];现代图书情报技术;2003年04期
本文编号:2861283
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2861283.html