当前位置:主页 > 科技论文 > 计算机论文 >

大规模网络存储环境中的数据布局与查询优化技术研究

发布时间:2020-05-21 15:57
【摘要】:日益增长的海量数据的有效管理已经成为科学研究、工程以及信息服务等领域的巨大挑战性问题。海量数据对大规模网络存储环境提出了巨大的需求,使得现有的大规模网络存储技术在可扩展性、高性能、并发、综合效能、分布管理、安全可用、数据一致性以及可靠性等方面已经不能满足分布海量数据管理应用的需要。因而,研究大规模网络存储技术具有重大的意义。本文对大规模网络存储环境涉及的数据布局、查询优化以及元数据负载均衡等关键技术进行深入研究,提出了有效的解决方案和算法,主要的研究工作和创新点如下: (1)提出了一种面向多副本的自适应数据布局算法RSEDP。 大规模存储系统的可靠性和自适应性面临着重大的挑战,需要可靠、自适应以及有效的数据布局算法,现有的研究只能部分满足这些目标。本文首先提出了一种可靠的副本数据布局算法RRDP和一种有效的自适应数据布局算法SEDP,在此基础上,将两种算法相结合,提出了一个面向多副本的自适应数据布局算法RSEDP,从而获得可靠性、自适应性和有效性。RRDP将相同的副本分配在不同的存储设备上,避免相同的副本集中到相邻的存储设备上,获得较高的冗余度和容错能力。SEDP算法将聚类算法与一致hash方法相结合,引入少量的虚拟存储设备,大大减少了算法对存储空间的消耗。可以根据存储设备的权重公平地分布数据,自适应系统的扩展和缩减。为了利用RRDP和SEDP各自的优点,RSEDP根据数据的访问频率将数据划分为热数据和冷数据,热数据采用RRDP布局,冷数据采用SEDP布局。理论和实验结果表明,RSEDP可以获得较高的冗余度和容错能力,按照存储设备的权重公平地分布数据,自适应存储设备的增加和删除,在存储规模发生变化时迁移最优的数据量,并且可以快速地定位数据,对存储空间的消耗较少。 (2)提出了一种高效的分层数据布局算法EHDP。 目前大部分的布局算法只能适应单层模式,少数的多层模式对存储设备配置有严格的要求,而且无法在常数时间内定位数据,自适应性较差。本文提出了一种新的分层数据布局算法EHDP,首先使用最大最小聚类算法将存储设备集合进行分类,采用分而治之的方法管理大规模的存储设备,支持灵活的存储设备配置;然后使用本文提出的EFAH hash算法在集群间和集群内分布数据。理论和实验结果表明:EHDP可以在常数时间内定位数据,从而减轻元数据服务器的计算量,避免性能瓶颈;同时可以在存储设备之间较公平地分布数据,达到I/O负载均衡的目的;而且在存储设备集合变化时,迁移较少的数据量以满足数据再次分布的公平性,在平衡I/O负载的同时尽可能不影响存储系统对外的服务性能。 (3)提出了面向不确定数据流的多个top-k查询优化算法。 在大规模网络存储的某些应用中,数据以流的形式存在。由于外在的因素,不确定性是应用数据流的固有特征。不确定数据流上的top-k查询处理越来越重要,如何在多个top-k查询之间共享结果是节省计算开销以及提供实时响应的关键。然而,由于不确定top-k查询处理的复杂语义,在多个top-k查询之间共享结果面临着重大挑战。本文首次对单个top-k查询处理的频率上限进行了定义,对多个top-k查询的共享进行了分类,提出了一个最优的动态规划以及在时空上更有效的贪心算法来解决该共享问题。使用理论分析证明了动态规划与不共享的性能上界,以及贪心算法与动态规划方法的性能下界。实验结果表明,本文提出的贪心算法在多数情况下可以找到最优解,在访问延迟与吞吐量上可以达到与动态规划方法相同的性能;与不共享方法以及组内共享方法相比,动态规划以及贪心算法使得执行查询时的计算开销大大减少,获得高吞吐量和低访问延迟。 (4)提出了一种面向数据流的多个聚合查询优化算法。 大规模网络存储的很多应用将数据流上的聚合查询注册到系统中,这些查询具有不同的滑动窗口大小以及不同的频率上限,如何在查询中共享计算结果面临着挑战。相关文献首先提出了该问题,使用最早截止时间优先EDF方法。但是该方法没有提出具体的优化算法。本文对具有不同滑动窗口大小和不同频率上限的多个聚合查询的优化问题进行了形式化定义,提出了一个合并规则对查询进行分类。然后,提出有效的共享算法来求解查询的执行计划,只要连续两次执行查询的时间间隔不大于频率上限,则查询可以更频繁地被执行,从而使得更多的查询能够共享计算结果。考虑低载和超载两种情况,本文将共享算法与EDF方法结合。实验结果表明,与不共享方法和EDF方法相比,本文提出的共享算法使得执行查询时扫描的元组数大大减少,得到较高的吞吐量以及较低的访问延迟。 (5)提出了一种自适应的分布式元数据负载均衡算法ADMLB。 大规模存储环境中元数据的负载均衡对于提高整个系统的I/O性能具有重要的作用。现有的元数据负载均衡策略不能动态地平衡元数据的访问负载,而且自适应性和容错性有待提高。本文首先提出了基本的负载均衡算法(BBLA)和分布式的增量负载均衡算法(IBLA),在此基础上,将两种算法相结合,提出了自适应的分布式元数据负载均衡算法(ADMLB)。采用基本的负载均衡算法(BBLA)按照服务器的性能公平地分布负载,使用分布式的负载均衡算法(IBLA)定时地调整负载的分布。ADMLB可以在元数据服务器之间均衡地分布负载,根据负载的变化自适应地调整负载的分布,具有很好的容错性,而且可以很快地定位元数据服务器。
【图文】:

特性图,冗余度,存储设备,容错特性


图 2.8 RSEDP 和 RR 的冗余度性特性来表示失效存储设备上的副本在其他存备失效时,其他存储设备上存储了该存储设定位到其他存储设备上。容错特性可以反映9 显示了存储设备 16 失效时,其副本在其他以看出,RSEDP 可以将存储设备 16 上的负2.9(b)表示 CD 将存储设备 16 的负载分散到了 RR 的容错特性,高柱子表示对应的存储低柱子表示相应存储设备上有较少的失效存RSEDP 的容错特性远远好于 CD,同时比 R

存储设备,副本,分布情况,容错特性


图 2.8 RSEDP 和 RR 的冗余度2.3.2 容错特性我们使用容错特性来表示失效存储设备上的副本在其他存储设备上的分布情况。当一个存储设备失效时,其他存储设备上存储了该存储设备的副本,,则该存储设备上的负载被定位到其他存储设备上。容错特性可以反映存储设备失效时负载均衡情况。图 2.9 显示了存储设备 16 失效时,其副本在其他存储设备上的分配情况。从图 2.9(a)可以看出,RSEDP 可以将存储设备 16 上的负载公平地分配到其他存储设备上。图 2.9(b)表示 CD 将存储设备 16 的负载分散到相邻的 4 个存储设备上。图 2.9(c)显示了 RR 的容错特性,高柱子表示对应的存储设备上有较多失效存储设备上的负载,低柱子表示相应存储设备上有较少的失效存储设备上的负载。从图 2.9 可以看出,RSEDP 的容错特性远远好于 CD,同时比 RR 好。
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP333

【相似文献】

相关期刊论文 前10条

1 唐伟;;校园网络存储系统设计[J];科技信息;2011年19期

2 ;优化设置 提高移动存储设备读写速[J];计算机与网络;2010年02期

3 张智广;;数据备份技术实用小探[J];太原城市职业技术学院学报;2011年05期

4 吴继伟;;加强移动存储设备管理的几点思考[J];金融科技时代;2011年06期

5 肖小康;张东;贾慧强;;基于CPLD/FPGA的USB读写控制器[J];单片机与嵌入式系统应用;2011年06期

6 刘晓普;杜彬彬;;企业数据存储技术的分析[J];苏盐科技;2011年02期

7 三水;;全面防控Autorun病毒[J];个人电脑;2011年09期

8 曹春华;;U盘无法停用 请出软件对付[J];电脑爱好者;2011年07期

9 孙遒;;基于UML的高校机房网络存储管理系统的设计[J];信息技术;2011年06期

10 王胜川;;基于云计算的存储技术研究[J];石油工业计算机应用;2011年02期

相关会议论文 前10条

1 杨琳;;从电影《手机》想到个人短信加密[A];四川省通信学会2005年学术年会论文集[C];2005年

2 ;数字管道数据存储、备份平台建设[A];中国石油石化数字管道信息化建设论坛暨燃气管网安全、经济、运营技术交流研讨会论文集[C];2009年

3 张成林;江文兵;;通讯存储设备中硬盘振动控制浅析[A];2011年机械电子学学术会议论文集[C];2011年

4 韩猛;何玉华;杨楠;;白云鄂博铁矿计算机数据网络存储和备份的实现[A];中国计量协会冶金分会2010年会论文集[C];2010年

5 张学红;刘志芳;;云存储技术研究与探讨[A];全国数字媒体技术专业建设与人才培养研讨会论文集[C];2011年

6 冯振乾;苏金树;张晓哲;;对象存储研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

7 黄意安;;存储系统在数字图书馆建设中的应用分析[A];福建省图书馆学会2006年学术年会论文集[C];2006年

8 杨志;;浅谈内网移动存储设备的管控[A];全国计算机安全学术交流会论文集(第二十二卷)[C];2007年

9 蒋澄瑛;;如何构建一个实用的网络存储系统[A];中国造船工程学会’04 MIS/S&A学术交流会学术论文集[C];2004年

10 李超;邢春晓;石晶;周立柱;;面向海量信息管理的网络化存储研究综述[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

相关重要报纸文章 前10条

1 ;为网络存储环境铸造坚实基础[N];中国计算机报;2003年

2 邓侃;网络存储要分散[N];中国计算机报;2002年

3 本报记者 李佳师;网络存储选择什么?[N];中国电子报;2001年

4 ;绿色 存储解决方案评析[N];计算机世界;2008年

5 郭涛;网络存储互通才能畅通[N];中国计算机报;2002年

6 本报记者 宋乐永 王臻;网络存储走向标准化、虚拟化[N];计算机世界;2005年

7 本报记者 郭涛;填补网络存储标准制定的空白[N];中国计算机报;2009年

8 赵栋伟;网络存储的虚拟化之路[N];计算机世界;2004年

9 本报记者 郭平 张广彬;这里是春天[N];计算机世界;2003年

10 赛迪顾问;融合是网络存储的方向[N];通信产业报;2003年

相关博士学位论文 前10条

1 陈涛;大规模网络存储环境中的数据布局与查询优化技术研究[D];国防科学技术大学;2011年

2 卢军;高性能网络存储技术研究[D];电子科技大学;2002年

3 覃灵军;基于对象的主动存储关键技术研究[D];华中科技大学;2006年

4 邓劲生;广域网络存储虚拟化技术研究[D];国防科学技术大学;2005年

5 邓玉辉;基于网络磁盘阵列的海量信息存储系统[D];华中科技大学;2004年

6 董晓明;对象属性控制的存储策略研究[D];华中科技大学;2006年

7 何水兵;对象存储控制器关键技术研究[D];华中科技大学;2009年

8 向东;iSCSI-SAN网络异构存储系统管理策略的研究[D];华中科技大学;2004年

9 秦磊华;存储扩展流量控制缓存分配策略研究[D];华中科技大学;2007年

10 罗益辉;海量对象存储系统数据组织算法的研究[D];华中科技大学;2006年

相关硕士学位论文 前10条

1 周臣云;异构网络存储统一管理系统的设计[D];西安电子科技大学;2009年

2 彭亮亮;基于IPv6的校园网络存储再生性的研究[D];西安电子科技大学;2010年

3 张亦倩;高速网络环境下的存储系统研究[D];浙江大学;2011年

4 刘璐;基于网络存储的自动化测试平台的设计与实现[D];电子科技大学;2010年

5 吕松;对象存储结点的设计与实现[D];华中科技大学;2006年

6 李天翼;基于网络存储的web服务器集群系统的研究与实现[D];四川大学;2003年

7 陈固彬;网络存储与容灾技术在ERP中的应用与整合[D];厦门大学;2009年

8 徐伟;网络存储在高校数字图书馆的设计与实现[D];南昌大学;2010年

9 高静;基于iSCSI的IP SAN的研究与实现[D];哈尔滨工程大学;2007年

10 李小利;基于InfiniBand的网络存储系统结构与卷分配策略研究[D];湖南大学;2008年



本文编号:2674544

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2674544.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户276c1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com