当前位置:主页 > 科技论文 > 计算机论文 >

基于关联特征的多维元数据组织方法研究

发布时间:2019-09-16 13:28
【摘要】:随着云计算、云存储时代的到来,信息存储系统中数据规模正在不断扩大,信息的存储、检索、分析和处理也变得越来越困难。在海量存储系统中想要高效的查找和管理文件,必须依赖文件元数据完成一些复杂查询。文件系统的多维元数据信息,如文件大小、文件类型、访问时间和修改时间等,是存储系统中非常重要的信息。通过分析并利用多维元数据之间存在的关联特征,能够更好的对其进行管理,并支持高效复杂的元数据查询。 在海量存储系统中,关联特征是指文件数据在属性空间中的聚集效果,在一定程度上反映了文件数据之间的相关性。目前在大多数元数据管理系统中基于关联性特征的分析主要集中在单一的时间或空间维度上,缺少针对多维度属性特征的分析和研究,并且对单一维度的关联特征分析造成各维度之间结合不够紧密,使得这些系统无法有效的支持复杂元数据查询。因此采用简单、快速的方法同时对元数据的多维属性进行分析、感知和识别,,并利用多维度之间的关联特征进行元数据的管理,将直接影响元数据的访问效率。 利用元数据之间多维度的关联特征,实现了一个基于关联特征组织元数据的查询系统。该系统以局部灵敏哈希算法为基础,高效组织并建立元数据索引,通过一定方法将具有关联特征的元数据信息聚集至同一分组中,在查询到来时能够在极短时间内定位到其相关性较高的分组中并预取结果,以提供快速、准确、可扩展的复杂元数据查询服务。 实验结果表明,利用关联特征组织并实现的元数据查询系统能够快速、准确的响应用户提出的复杂元数据查询请求,为海量存储系统元数据访问提供了多种查询支持,并且具有良好的可扩展性。
【图文】:

查询效率,参数,数据集


37图 4.2 合成-trace 参数 R 对查询效率的影响测试结果表明,对于不同的数据集,在一定范围内的参数 R 值其查询性能接受的;而其他范围内的参数 R 值其查询性能明显比最优性能要慢 10 倍至右;本文提出的基于采样预评估的参数 R 的选取方法在 LANL-trace 数据集的最优 R 值分别为 112,165 和 89;在合成-trace 数据集中估算出的最优 R 1452 和 2679;针对不同负载特征的数据集,基本都能大致估算出参数 R ,因此该方法是可行的。在确定了最优参数 R 之后,系统会根据用户对查询准确率的要求自动计算

查询效率,参数,性能测试,最优值


图 4.3 参数 k 对查询效率的影响测试结果表明,查询性能随着参数 k 的变化而变化,呈现出中间低两头高而本文 3.3.2 小节中从算法上保证了选取的 k 值为样本查询的最优值,而由算的不确定性,因此该组参数在实际查询时能保证其查询时间在最优值附近 查询性能测试本节主要对单 MDS 节点上的查询性能做对比测试,测试的对比对象为 DBysql v14.14),使用到的数据集为 LANL trace 中共约 100 万条元数据信息。选取了一组性能较优的分组参数(k=4,L=1,w=400,index_size=4000)对行了分组索引,接下来从点查询、KNN 查询、范围查询三方面测试查询性率。.1 点查询性能测试
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333

【参考文献】

相关期刊论文 前1条

1 王强,刘东波,王建新;数据仓库元数据标准研究[J];计算机工程;2002年12期



本文编号:2536211

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2536211.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0e2c0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com