超级计算中心网络及数据传输的设计与实现
发布时间:2020-05-31 10:47
【摘要】: 高性能计算是信息技术的一个重要分支,被公认是继理论和实验科学之后,人类认识未知世界的第三大方法,高性能计算水平也已成为衡量一个国家核心竞争力的关键指标。超级计算中心作为提供高性能计算能力的一个主要场所,已从封闭走向开放,超级计算中心的网络及数据传输系统的可靠性、可用性、安全性也变得非常重要。 本论文对超级计算中心的网络及数据传输系统进行了设计和实现。从Internet出口链路、超级计算中心内部网络及超级计算机三个层面,对数据传输进行了研究,发现数据传输不稳定问题的主要原因在负载不均衡。特别是国产超级计算机,由于技术水平的原因,虽然有多个接入结点和多个存储结点,但由于这些资源是共享的并且它们的调度是静态的,当有多个用户同时集中使用或单个用户大量使用其中某些资源时会引起严重的负载不均衡从而导致数据传输的不稳定。 为此,论文重点设计了超级计算中心的网络系统。采用七层交换机方便地解决了Internet出口链路的负载均衡问题,采用冗余的网络结构解决了内部网络的负载均衡,在可靠性、可用性和安全性方面也做了大量的工作。 论文的另一部分重要工作是在LVS集群软件的基础上提出了一种新的具有良好适应性的负载动态反馈调度算法。目前,LVS软件中共有八种调度算法,它们均属于静态调度算法。由于静态调度算法在很大程度上依赖于调度任务和服务器的静态属性,而我们知道,任务具有波动性,且外界环境也在不断地变化,因此通常静态调度算法无法很好地实现负载的均衡。为了将任务更均衡地分配给各后端服务器,论文提出了动态反馈调度算法。动态反馈调度算法通过监视和评估各个服务器的当前负载,然后由此选择负载最轻的服务器去处理新的任务。 最后,利用搭建的实验环境,对动态反馈调度算法进行评测。为模拟负载不均衡的情况,论文对其中一台服务器加上额外的负载。测试结果表明,相比其它调度算法,动态反馈调度算法能够更好地完成负载均衡的任务。特别地,采用动态反馈调度算法,使系统具有可伸缩的功能。由于集群系统中的负载均衡器定期收集后端服务器的相关信息,因此某台服务器出现故障后,负载均衡器能识别并不再给它分派任务,从而使整个系统对外表现来说,服务不会终止,而仅是服务能力略有下降。
【图文】:
该系统历时一年半于 2004 年6月研制成功,并通过技术鉴定,且于 年 6 月进入了 TOP500 的前 10 名,成为全球排名第十的超级计算机系统,,也前中国峰值速度最快的商用超级计算机系统。2004 年8月,该系统在上海计算中心完成安装,经过近 2 个月的调试和试运行,于 2004 年 11 月 15 日宣布开通运行。曙光 4000A 超级计算机系统峰值浮点计算能力为每秒 10 万亿次,其 Lin性能达每秒 7 万亿次。全机系统由 4 个接入结点、512 个计算结点,16 个存点以及百兆管理网络、千兆存储网络、Myrinet 计算网络、KVM 维护网络共成。全机总计有 2128 个 64 位 AMD Opteron 2.4G 的 CPU,共计 4.3TB 内存,光纤存储系统(SAN)以及 20TB 的 SCSI 存储系统。曙光 4000A 从体系结构上来说属于集群结构,其硬件系统包括结点机系网络系统、存储子系统、监控系统、电源系统、通风和供电系统七个部分。重点介绍与本论文相关的网络系统及存储系统。1 网络系统曙光 4000A 中由四套性能不同的网络系统组成,Myrinet 计算网络专用算、千兆存储网络专用于数据的存储和共享、百兆管理网络专用于管理、监护网络专用于系统的监控与维护,见图 1-6。
网络出现故障时可升格为计算网络。百兆管理网络采用二级级连结构,连接所有计算结点、存储结点和接入结点,并且可以连接到超算中心内部局域网上。监控维护网络采用星形网络和菊花链式网络相结合的网络拓扑结构。这种结构可以称为两级的树状结构,它综合了星形结构和菊花链式结构的优点,同时又最小化地降低了菊花链式结构所能发生的故障。2 存储系统曙光 4000A 存储系统主要由千兆高速以太网、NFS 文件系统、存储结点、磁盘阵列构成。其中千兆高速以太网提供计算结点与存储设备之间的数据通道。NFS文件系统提供所有结点通过存储结点来读写 SCSI 和 SAN 磁盘阵列。16 个存储结点连接 SCSI 与 SAN 磁盘阵列,提供存储服务。连接方式见图 1-7。SCSI 磁盘阵列总容量为 19.2TB,SAN 磁盘阵列总容量为 75TB。SCSI 磁盘阵列由 16 个容量为 1.2TB 的 SCSI 磁盘阵组成,每个 SCSI 盘阵直连一个存储结点,所有用户目录存放在 16 个 SCSI 磁盘阵列上,通过 Quota 限制每个用户的目录空间。SAN 磁盘阵列由 3 个容量为 25TB 的盘阵组成,通过 HBA 卡直连光纤交换机,并通过光纤交换机连至存储结点。SAN 共划分为大小不等、数量不同的多个逻辑卷(LUN)。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP38;TP393.02
本文编号:2689739
【图文】:
该系统历时一年半于 2004 年6月研制成功,并通过技术鉴定,且于 年 6 月进入了 TOP500 的前 10 名,成为全球排名第十的超级计算机系统,,也前中国峰值速度最快的商用超级计算机系统。2004 年8月,该系统在上海计算中心完成安装,经过近 2 个月的调试和试运行,于 2004 年 11 月 15 日宣布开通运行。曙光 4000A 超级计算机系统峰值浮点计算能力为每秒 10 万亿次,其 Lin性能达每秒 7 万亿次。全机系统由 4 个接入结点、512 个计算结点,16 个存点以及百兆管理网络、千兆存储网络、Myrinet 计算网络、KVM 维护网络共成。全机总计有 2128 个 64 位 AMD Opteron 2.4G 的 CPU,共计 4.3TB 内存,光纤存储系统(SAN)以及 20TB 的 SCSI 存储系统。曙光 4000A 从体系结构上来说属于集群结构,其硬件系统包括结点机系网络系统、存储子系统、监控系统、电源系统、通风和供电系统七个部分。重点介绍与本论文相关的网络系统及存储系统。1 网络系统曙光 4000A 中由四套性能不同的网络系统组成,Myrinet 计算网络专用算、千兆存储网络专用于数据的存储和共享、百兆管理网络专用于管理、监护网络专用于系统的监控与维护,见图 1-6。
网络出现故障时可升格为计算网络。百兆管理网络采用二级级连结构,连接所有计算结点、存储结点和接入结点,并且可以连接到超算中心内部局域网上。监控维护网络采用星形网络和菊花链式网络相结合的网络拓扑结构。这种结构可以称为两级的树状结构,它综合了星形结构和菊花链式结构的优点,同时又最小化地降低了菊花链式结构所能发生的故障。2 存储系统曙光 4000A 存储系统主要由千兆高速以太网、NFS 文件系统、存储结点、磁盘阵列构成。其中千兆高速以太网提供计算结点与存储设备之间的数据通道。NFS文件系统提供所有结点通过存储结点来读写 SCSI 和 SAN 磁盘阵列。16 个存储结点连接 SCSI 与 SAN 磁盘阵列,提供存储服务。连接方式见图 1-7。SCSI 磁盘阵列总容量为 19.2TB,SAN 磁盘阵列总容量为 75TB。SCSI 磁盘阵列由 16 个容量为 1.2TB 的 SCSI 磁盘阵组成,每个 SCSI 盘阵直连一个存储结点,所有用户目录存放在 16 个 SCSI 磁盘阵列上,通过 Quota 限制每个用户的目录空间。SAN 磁盘阵列由 3 个容量为 25TB 的盘阵组成,通过 HBA 卡直连光纤交换机,并通过光纤交换机连至存储结点。SAN 共划分为大小不等、数量不同的多个逻辑卷(LUN)。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP38;TP393.02
【参考文献】
相关期刊论文 前10条
1 吴少刚,章隆兵,蔡飞,胡伟武;一种适用于机群OpenMP系统的有效调度算法[J];计算机研究与发展;2004年07期
2 刘楚达,刘轶,钱德沛;IP服务质量的研究[J];计算机工程;2003年16期
3 罗爱玲,马范援,姚鸿斌;虚拟专网安全性的研究与实现[J];计算机工程;2004年08期
4 刘耀,胡越明,金利峰;高可靠计算机系统的容错技术[J];计算机工程;2004年S1期
5 夏启志;綦科;谢高岗;;BGP4+协议一致性测试系统设计与实现[J];计算机工程;2006年03期
6 刘健,徐磊,张维明;基于动态反馈的负载均衡算法[J];计算机工程与科学;2003年05期
7 郭成城,晏蒲柳;一种异构Web服务器集群动态负载均衡算法[J];计算机学报;2005年02期
8 王伟杰;杜慧军;;基于校园网中的虚拟路由集群技术[J];计算机应用与软件;2006年06期
9 王友良,叶柏龙;分布式系统中动态负载平衡的研究[J];科学技术与工程;2005年09期
10 潘柱廷;信息安全保障域及其互联——电子政务安全保障框架[J];网络安全技术与应用;2003年01期
相关硕士学位论文 前1条
1 杨琳峰;容错加固计算机的设计与实现[D];天津大学;2003年
本文编号:2689739
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2689739.html