全新 nvidia spectrum-x 网络平台构筑阿里生成式 ai 云底座。
随着生成式 ai 的热潮席卷全球,用于训练生成式 ai 的大型高性能网络基础设施开始受到客户和行业的关注。这不仅仅是因为巨大的市场潜力,更因为生成式 ai 应用对当前网络的技术与产品带来的巨大挑战。
由于生成式 ai 训练任务的特性,其对网络的要求与传统的 dc 网络在多方面存在差异。主要体现在:
性能至上,对于网络带宽及通信效率的要求高,需要实现从 gpu 到网络,再到其它 gpu 的端到端带宽平衡,从而达到充分发挥集群训练性能的目的。
ai 网络流量并发性高和突发性流量多,对于数据的完整性要求很高,依赖于 rdma 转发保证带宽最大化和数据的完整性,降低对 cpu 资源消耗。
模型并行加数据并行共存的通信机制导致对于网络时延敏感,网络中的任何额外的时延都可能影响数以百计的 gpu 之间的通信效率。
需要无收敛的网络拓扑保证各种通信场景下的网络带宽没有瓶颈。
由于传统的网络解决方案无法满足这些需求,nvidia 依靠多年在 ai 和高速通信领域的积累,推出了 spectrum-x 以太网解决方案,以推动以太网技术可以更好地适配生成式 ai 基础设施的要求。
nvidia spectrum-x 是专为基于以太网的 ai 云提高性能和效率而设计的平台。
nvidia spectrum-x 依托于 nvidia spectrum-4 以太网交换机和 nvidia bluefield-3 dpu 的紧密结合,专为 ai 工作负载构建了端到端的创新网络平台,大幅提升了以太网在大规模、可扩展环境中的通信效率,并在多租户环境中实现了一致的、可预测的性能,提高了生成式 ai 云的性能和能效。nvidia spectrum-x 网络平台还包括 cumulus linux、netq、air 和 doca 加速软件等,以及 nvidia 的 linkx 系列线缆和光模块产品,共同助力该网络平台实现出色的性能。
nvidia spectrum-x 网络平台集成了 nvidia spectrum-4 以太网交换机、nvidia bluefield-3 dpu、nvidia linkx 线缆及加速软件和 sdk,通过无损以太网的端到端动态路由、基于可编程拥塞控制的性能隔离技术等先进的 roce 扩展功能,构建了一个专为 ai 云而优化和加速的端到端高性能 400gbe 以太网络。测试显示,与传统以太网相比,采用 nvidia spectrum-x 网络平台可将大规模 ai 工作负载的性能提高到 1.7 倍,并将网络的有效通信带宽提升到 1.6 倍。
nvidia spectrum-x 网络平台,实现了 gpu 到 gpu 直接的端到端加速和优化,大幅减少了大规模生成式 ai 模型的运行时间,提升了 gpu 的效率,优化了 ai 平台的总体拥有成本(tco)和降低了基础设施的整体功耗。同时,它还具有高度的通用性,有力地支撑了各种生成式 ai 应用,由于它也是标准的以太网,实现了与已有的基于以太网堆栈的云架构和云服务互通。
阿里云作为全球领先的云供应商,拥有巨型的通用计算平台。同时,阿里云也持续向加速计算领域扩张,建成并持续扩张以“pai 灵骏”算力服务为代表大型的 gpu 集群。阿里云基础设施网络团队从 2017 年开始构建端网融合的可预期高性能 rdma 网络架构,过去几年已经在高性能存储领域实现了大规模部署,目前正在大规模 ai 计算领域持续创新迭代和规模部署,以适配 ai 计算对高性能网络的诉求。阿里云也充分认识到技术创新对以太网方案持续支持高性能网络,尤其是生成式 ai 基础设施的重要性。
为此,阿里云联合 nvidia 对 spectrum-x 解决方案进行测试,以评估新技术对高性能网络的适应能力。
测试的主要内容和结果
阿里云测试环境配置
测试环境使用了 2 台 spine 交换机,4 台 tor 交换机,16 台 hgx gpu 服务器并配置了 nvidia bluefield-3 dpu,基于 nvidia 51.2t spectrum-4 交换芯片的 sn5600,以太网交换机,支持 128*400g 或者 64*800g 端口。每台 gpu 服务器配置 8 张 bluefield-3 dpu,每 4 台 gpu 服务器为一组连接到一台 tor 交换机,共 4 组连接到 4 台 tor 交换机。tor 交换机通过 200g 网络连接到 bluefield-3 dpu,4 台 tor 交换机通过 2 台 spine 交换机连接在一起,构成无阻塞胖树网络。
主要的测试内容
这些测试由多个级别的工作负载组成,从简单到复杂:
rdma 基准性能测试,覆盖带宽和延迟。
孤立场景下的 all to all 和 all reduce 集合通信测试,专注于 nccl 性能基准。
在共享资源和有背景噪声环境下的性能测试。
故障场景的测试。
测试结果显示,由于使用了端到端的逐包负载均衡优化技术(adaptive routing)和零配置 roce 拥塞控制(ztr cc)使得网络利用率显著提升,并显著减少由于网络拥塞和 in-cast 问题带来的时延和抖动。网络带宽利用率在各种测试场景下均可超过 90%。这种逐包负载均衡技术也可以对多种故障情况(本端和远端)做出响应,合理地利用网络内的带宽资源。在真实训练任务的测试过程中,spectrum-x 可以降低 20% 以上的训练时间。在获得这一切收益的同时,网络的配置工作量大大降低,运维人员不再需要进行复杂的配置和频繁的调优工作。
这些测试结果表明 nvidia spectrum-x 加速网络平台的突破性技术可大幅提升大规模生成式 ai 工作负载的性能,并大幅缩短生成式 ai 模型的运行时间。
通过采用 nvidia spectrum-x 网络平台,客户可进一步为千行百业的客户提供具有性能和成本优势的生成式 ai 云服务,将 ai 通用大模型和行业大模型赋能和融合各种应用场景。nvidia 和阿里云的开发人员将基于 nvidia spectrum-x 网络平台的加速软件和 sdk 进一步在虚拟化、定制化可编程拥塞控制、遥测、快速故障响应等方面展开合作,推动这一新解决方案的进一步发展和应用。
针对这一联合测试,阿里云基础设施网络研发事业部总经理蔡德忠表示:“高性能网络技术是 ai 计算 scaling law 的关键所在,这个领域需要持续不断的创新迭代,阿里云始终坚持网络的开放性,也是网络开源生态的领导者和积极贡献者,阿里云与 nvidia 在 ai 计算和高性能存储领域合作多年,将持续探索创新基于 open ethernet 的高性能网络方案,助力 ai 计算集群的大规模高效扩展。”
nvidia 网络高级副总裁 gilad shainer 表示:“生成式 ai(generative ai)是面向下一代业务需求的典型代表,为了支撑成千上万的用户的需求,生成式 ai 云需要先进及可靠的网络基础架构满足各种 ai 业务的平滑增长。阿里云和 nvidia 在 spectrum-x 以太网平台上的策略合作,可以充分利用 spectrum-x 的先进路由技术和云上业务性能隔离技术,使阿里云及其广大用户可以尽情享受生成式 ai 的服务。”
智慧灯杆如何助力“智慧防疫”?(附十大应用案例)
AC和DC电源有什么区别?
LM7805中文资料介绍
数字货币到底是什么
动态可调LED面板diy图解
全新NVIDIA Spectrum-X网络平台构筑阿里生成式AI云底座
拉伸仪是一款怎样的仪器,它有哪些特点
变压器的作用以及其在改变相位方面的应用
串激电机火花大怎么解决_串激电机和无刷电机哪个好
投入式液位变送器的原理及优缺点
了解神经网络,你需要知道的名词都在这里
什么是SSH密钥?如何使用SSH密钥?
CC2530芯片的主要特点及应用领域
高精度定位系统如何实时获取运营人员的在岗状态
怎样在JavaScript中使用循环结构
注重品质细节,UGS优肌诗美容仪高端护肤
使用MSGEQ7音频频谱分析仪芯片
长江存储首款128层QLC规格的3DNAND闪存,满足不同应用场景的需求
如何使用机器学习来分析区块链数据集
汽车设计的重大挑战:选择汽车电力线极性保护二极管