网络协议为计算机网络中进行数据交换而建立的规则、标准或约定的集合。法律层面上,osi 七层协议为国际协议。
由于hpc/ai对于网络高吞吐、低时延的要求,在数据中心中 tcp/ip 逐步过渡到rdma。rdma中 包 含 不同 的 分 支 , 其中,infiniband 专为 rdma 设计,从硬件级别保证可靠传输 ,技术先进,但是成本高昂。而 roce 和 iwarp 都是基于以太网的 rdma技术。
本重点从以下几方面出发,聊聊交换机和 ai 有什么关系?
q:什么是协议?
q:数据中心架构中,交换机有什么用?
q:英伟达交换机=ib 交换机?
q:英伟达 superpod 如何理解?
q:交换机市场现状?
q:什么是协议?
网络协议为计算机网络中进行数据交换而建立的规则、标准或约定的集合。法律层面上,osi 七层协议为国际协议。20 世纪 80 年代,为了规范化计算机之间的通信方式,从而满足开放式网络的需求,osi(open system interconnection)协议被提出,其采用了一种七层网络。
物理层:解决了硬件之间如何通信,主要功能为定义物理设备标准(如接口类型、传输速率等),从而实现比特流(一种以 0、1 表示的数据流)的传输。
数据链路层:主要功能为帧编码和误差纠正控制。具体工作为接受来自物理层的数据,并封装为帧,然后传输到上一层。同样也可以将来自网络层的数据拆为比特流传输给物理层。之所以能实现纠错的功能,是因为每帧除了要传输的数据外,还包括校验信息。
网络层:在节点之间创建逻辑电路,通过 ip 寻找地址(在网络中每个节点都有一个ip)。这一层传输的数据以包为单位。
传输层:负责监督数据传输的质量,若发生丢包,则应该重新发送。
会话层:主要功能为管理网络设备的会话连接。
表示层:主要负责数据格式转换、加密等。
应用层:提供应用接口,可以为用户直接提供各种网络服务,完成各种网络工作。
tcp/ip 是包含各种协议的协议簇,这些协议可以大致分为四层,即应用层、传输层、网络层、数据链路层,实际上,tcp/ip协议可以理解做 osi 七层协议的优化版。
由于 hpc 对于网络高吞吐、低时延的要求,tcp/ip 逐步过渡到 rdma。tcp/ip 有几个主要的缺点:
其一,存在数十微秒的时延。由于 tcp/ip 协议栈在传输时,需要多次上下文切换,并依赖 cpu 进行封装,因此时延较长。
其二,cpu 负载严重。tcp/ip 网络需要主机 cpu 多次参与协议栈内存拷贝,cpu负载与网络带宽相关系数过大。
rdma(远程内存直接访问技术,remotedirect memory access):能直接通过网络接口访问内存数据,无需操作系统内核的介入。这允许高吞吐、低延迟的网络通信,尤其适合在大规模并行计算机集群中使用。
rdma 未规定全部协议栈,但是对具体的传输提出了较高的要求:例如不轻易丢、吞吐量大、延时低等等。rdma 中包含不同的分支,其中, infiniband 专为 rdma 设计,从硬件级别保证可靠传输 ,技术先进,但是成本高昂。而 roce 和 iwarp 都是基于以太网的rdma 技术。
q:数据中心架构中,交换机有什么用?
交换机和路由器工作的层次不同。交换机(switch)工作在数据链路层,基于 mac(网卡的硬件地址)识别,能完成封装转发数据包功能,允许不同的设备间相互通信。路由器(router)亦称选径器,工作在网络层,实现相互连接,基于 ip 实现寻址,将不同的子网络相连接。
传统的数据中心往往使用三层架构,即接入层、汇聚层、核心层,而在小型的数据中心中,可以忽略汇聚层的存在。其中,接入层通常直接与服务器相连,常用的接入交换机常为tor(top of rack)交换机。汇聚层是网络接入层和核心层的 “中介(中间层)”。核心交换机为进出数据中心的包提供转发,并为汇聚层提供连接性。
传统的三层网络有较为显著的缺点,并且随着云计算的发展,这些缺点愈发突出:
带宽浪费:每组汇聚交换机管理一个 pod(point of delivery),每个 pod 内都是独立的 vlan 网络。汇聚交换机和接入交换机之间通常使用 stp(spanning tree protocol,生成树协议)。stp 使得对于一个 vlan 网络只有一个汇聚层交换机可用,其他的汇聚层是被阻塞的,同时这也导致汇聚层无法水平拓展。
故障域大:由于 stp 的算法,网络拓扑变更时需要重新收敛,容易发生故障。
时延较长:随着数据中心的发展,东西向流量大幅增加,而三层架构间服务器之间的通信需要层层经过交换机,造成了较大的时延,且核心交换机和汇聚交换机的工作压力不断扩大,性能升级也造成成本的上浮。
叶脊架构优势明显,具有扁平化设计、低延迟、具有带宽高等特点。叶脊网络(leaf-spine)使得网络扁平化,其中叶交换机相当于传统的接入层交换机,脊交换机类似核心交换机。
叶和脊交换机之间通过 ecmp(equal cost multi path)动态选择多条路径。当 leaf 层的接入端口和上行链路都没有瓶颈时,这个架构就实现了无阻塞(non blocking)。因为fabric 中的每个 leaf 都会连接到每个 spine,所以,如果一个 spine 出现问题,数据中心的吞吐性能只会有轻微的下降(slightlydegrade)。 q:英伟达交换机=ib 交换机?
不是。英伟达 spectrum 和 quantum 平台,同时布局了以太网和 ib 交换机。
英伟达 spectrum 和 quantum 平台,同时布局了以太网和 ib 交换机。ib 交换机主要由厂商 mellanox 运营,英伟达于 2020 年成功将其收购。此外,英伟达 spectrum 平台的交换机主要基于以太网,旗下产品不断迭代,2022 年发布的 spectrum-4 是 400g 交换机产品。
spectrum-x 针对生成式 ai 所设计,优化了传统以太网交换机的限制。nvidia spectrum x 平台的两个关键元素是 nvidia spectrum-4 以太网交换机和 nvidia bluefield-3 dpu。
spectrum-x 的主要优势包括: 将 roce 扩展用于 ai 和自适应路由(ar),以实现 nvidia 集合通信库(nccl)的最大性能。nvidia spectrum-x 能够在超大规模系统的负载和规模下实现高达 95% 的有效带宽。
利用性能隔离来确保在多租户和多作业环境中,一个作业不会影响另一个作业。
确保在出现网络组件故障时,网络架构能够继续提供最高性能。
与 bluefield-3 dpu 同步,实现最佳 nccl 和 ai 性能。
在各种人工智能工作负载下保持一致和稳定的性能,这对实现 sla 至关重要。
在组网方式中,ib 还是以太网是个重要的问题。目前的市场中,以太网占据了绝大部分的市场份额,但是在一些大规模的运算场景中,ib 又一枝独秀。isc 2021 超级计算大会上,在 top10 的系统中 ib 占据了 70%的份额,在 top100 中 ib 占据 65%的份额。随着考虑范围越来越大,ib 的市场份额越来越低。
spectrum 和 quantum 平台针对不同的应用场景。在英伟达的设想中,ai 应用场景可大致分为 ai 云和 ai 工厂,在 ai 云中可以使用传统以太网交换机和 spectrum-x 以太网,而在 ai 工厂中则需要使用 nvlink+infiniband 的方案。
q:英伟达 superpod 如何理解?
superpod 是服务器集群,通过将多个计算节点相连,以提供较大的吞吐性能。
以英伟达 dgx a100 superpod 为例,英伟达官方推荐的配置中使用的交换机为 qm9700,能提供 40 个 200g 端口。由于其采用的架构为胖树(不收敛)架构。在第一层中, dgx a100 服务器共有 8 个接口,分别接入 8 个叶交换机,20 台服务器组成一个 su,因此共需8*su 台服务器,第二层架构中,由于网络不收敛,且端口速率一致,因此脊交换机提供的上行端口要大于等于叶交换机的下行端口。因此,1 个 su 对应 8 台叶交换机和 5 台脊交换机,2 个 su 对应 16 台叶交换机和 10 台脊交换机,依此类推。此外,当 su 数量增至 6 个以上时,官方推荐加入一层核心层交换机。
在 dgx a100 superpod 中,计算网络的连接中服务器:交换机~1:1.17(以 7 个 su 为例);但是在 dgx a100 superpod 中,这一比例为 1:0.38。若考虑到存储器及网络管理的需求,则 dgx a100 superpod 和 dgx h100 superpod 中服务器:交换机分别为 1:1.34 和 1:0.50。
从端口方面看,在 dgx h100 的推荐配置中,每个 su 由 31 台服务器组成。一方面,dgx h100 只有 4 个用于计算的接口,另一方面,在 dgx h100 superpod 中交换机为 qm9700,提供 64 个 400g 端口。
从交换机性能看,dgx h100 superpod 推荐配置中的 qm9700 性能大幅提升。infiniband 交换机引入了 sharp 技术。通过聚合管理器在物理拓扑中构造流聚合树(sat,streaming aggregation trees),然后由树中的多台交换机执行并行运算,可以大幅降低延迟,提高网络性能。qm8700/8790+cx6 仅最多支持 2 个 sat,但qm9700/9790+cx7 最多支持 64 个。叠加端口数量增多,因此交换机用量下降。
从交换机价格看,qm9700 价格约为 qm8700/8790 的两倍。据 shi 官网数据,quantum-2 qm9700 单价 3.8 万美金,quantum qm8700/8790 分别为 2.3 万/1.7 万美金。
交换机市场现状?
交换机市场短期景气较好,随着 ai 发展,市场需求有望进一步扩大,且呈现向高端迭代趋势。
从格局上看,交换机市场尚为蓝海,思科份额较大,arista 成长迅速。
市场规模方面:2023q1 全球以太网交换机收入 100.21 亿美元,同比+31.5%。其中,200g/400g 交换机收入同比增加 41.3%,100g 交换机收入同比+18.0%。
端口出货数量方面:2023q1 出货 2.29 亿个同比+14.8%。其中,200g/400g、100g 端口分别增加 224.2%、17.0%。
竞争格局优于服务器市场,思科一家独大,arista 成长迅速。据thenextplatform 测算,2023q1 思科占据 46%的市场份额,约 46.1 亿美元,同比+33.7%。arista 凭借在数据中心的出色表现,2023q1 收入11.5 亿美元,同比+61.6%。 盈利能力方面,思科和 arista 毛利率均接近 60%。较优的格局铸就了产业链厂商良好的盈利能力,思科和arista 的毛利率虽然由略微下降的趋势,但总体仍保持 60%左右的毛利率。展望后市,我们认为随着 ai 发展,交换机市场有望持续受益。
elmos可编程烟雾探测器芯片E520.30
关于斜拉链机头轮轴承位磨损修复效果前后的对比
八零联合装备 赋能新型显示芯片智能化生产时代
Dialog IC解决方案帮助智能家居更互联和更安全
负线性稳压器具有0.8 µV RMS噪声和74dB电源抑制比
交换机和AI有什么关系?
可穿戴技术与功能
基于迪文T5L0 ASIC的摄像头方案
Java手写分布式锁的实现
全球产业格局巨变,德系与美系背道而驰
SiC414应用电路
织物透湿量仪的自身特点是什么
SD-Branch是什么?有什么优势?
尼得科传动技术推出使用了精密控制用减速机“FLEXWAVE”的超扁平执行器
镍电池极片自动化控制要点
并行端口接口为低压系统供电
测量万用表电阻挡接地问题
温控电路的设计与调试
苹果手机电池门升温_苹果手机电池爆炸引关注_苹果电池爆炸原因竟是“降频门”?
单片2.4GHz无线收发芯片nRF24E1的应用