英伟达超级芯片的真正杀手锏,C2C互联技术

英伟达于今年发布了新一代的gh200 grace hopper硬件平台,预示着其发展hpc与ai的重要路线迈进了新阶段。gh200将用于应对世界上最复杂的生成式ai负载,涵盖大语言模型、推荐系统和矢量数据库等应用,且英伟达依然为gh200准备了不同的配置选项,无疑这一芯片很快就会用于各大数据中心和超算中。
nvlink,从片外互联走向片内互联
或许在多数人眼中,gh200不过是新一代grace cpu和hopper gpu结合的又一新产品,但这必然不是英伟达追求的“1+1=2”效果。事实上,gh200是象征着英伟达在芯片互联技术先进设计水平的集大成者。
在英伟达的第四代nvlink技术和第三代nvswitch技术下,创造一个256个gh200连接在一起的系统也不在话下。但这样的片外互联技术并不算罕见,市面上也有不少初创公司的ai芯片可以做到类似或者更夸张的扩展性。
然而在片内芯片互联上,nvlink-c2c这一互联技术确实达到了新的高度。nvlink-c2c是英伟达专为其superchip系列打造的内存一致、高带宽、低延迟互联技术。也是其实现高达900gb/s总带宽的关键所在。900gb/s的带宽是什么概念呢?与现代ai/hpc加速器常用的16路的pcie 5.0相比,还要快上6倍。
nvlink-c2c的优势
nvlink-c2c的第一大优势就是其内存一致性,这不仅提高了开发者的效率、芯片性能,还提高了gpu可以访问的内存量。在这一互联技术的支持下,如今cpu、gpu线程都可以并行访问cpu和gpu各自的内存,无需页迁移,所以开发者可以专心于优化算法本身,而不是内存管理。
其次就是900gb/s的带宽了,有了nvlink-c2c,应用程序可以直接用满gpu的内存,再以超高的带宽直接调用grace cpu的内存。毕竟即便是最新的hbm3e版gh200,也只有144gb的内存,而grace cpu可以支持到最高480gb的lpddr5x内存。甚至在nvswitch的支持下,可以高速访问整个系统中最高达144tb的内存。
如此一来在gpt这样的llm模型中,可用的内存也就变多了。这对于batch size增加后,推理所需内存数增加的生成式ai来说至关重要。相比过去x86 cpu+pcie 5.0 h100的搭配组合,gh200在更大的batch size下推理速度有着数倍的提升。
英伟达也对高带宽在hpc加速上的优势进行了解读,以abinit的标准执行时间为例,abinit是一个用于计算材料光学、机械、振动等特性的模拟软件。以只用x86 cpu的执行时间作为标准,在x86 cpu与hopper gpu的结合下,超高性能的hopper gpu极大地缩短了执行时间。
然而在cpu与gpu之间的传输开销下,这一组合最终只能做到快上1.16倍的优势。而如果是使用grace hopper方案的话,在nvlink-c2c的超大带宽下,cpu与gpu之间的传输开销迅速缩减,最终实现了缩短4.25倍的执行时间。
写在最后
英伟达会走上自研cpu和superchip的路线其实并不令人意外,为cpu与gpu之间打通一个更快的接口一直是英伟达的努力方向之一。此前由于x86的cpu设计主要还是有英特尔和amd两家厂商完成,而grace这样的自研arm芯片则没了设计限制,可以掺入英伟达的各种定制化开发。
nvlink-c2c也为市面上其他的ai芯片带来了更大的挑战,毕竟英伟达在性能、软件生态上已经处于领先地位,又有着如此高效的互联技术。可以预见未来其他厂商也会在芯片互联、高速接口等领域发力,否则很难与英伟达同台竞争。

疫情之后中国的区块链产业将会迎来一个巨大的发展机遇
最高资助1亿!深圳要解决智能传感器产业“卡脖子”问题(附政策全文)
雅特力携高性能 MCU亮相ELEXCON 2022,持续发力中高端
蔬菜农药检测仪的使用方法
美国制裁范围扩大!这次是中国服务器巨头浪潮被断供
英伟达超级芯片的真正杀手锏,C2C互联技术
湿敏元件分类:
STM32 SPI驱动触摸屏(XPT2046)(下)
随着互联网的进一步普及 人工智能发展正在加速崛起
竟然存在比原子钟还要精确的东西?
轮胎压力监测系统(TPMS)的电路设计
新闻 | 阿拉伯IPv6理事会成立,区域IPv6部署按下加速键
华为mate9评测,科技感爆棚 跑分比骁龙821高三分之一
IP视频监控系统存储设备选型指导
自动驾驶大规模落地离我们还有多远?
一文解读100G光模块发展标准及主要类型
AI去马赛克,你听说过吗?
瑞森碳化硅功率器件,国产替代的助推器
索尼FES Watch U手表在日本开售:电子墨水技术
努比亚Z17发布会最新消息:努比亚Z17配置、价格预测,努比亚Z17发布会直播地址、视频直播、图文直播平台