英伟达超级芯片的真正杀手锏，C2C互联技术

英伟达于今年发布了新一代的gh200 grace hopper硬件平台，预示着其发展hpc与ai的重要路线迈进了新阶段。gh200将用于应对世界上最复杂的生成式ai负载，涵盖大语言模型、推荐系统和矢量数据库等应用，且英伟达依然为gh200准备了不同的配置选项，无疑这一芯片很快就会用于各大数据中心和超算中。
nvlink，从片外互联走向片内互联
或许在多数人眼中，gh200不过是新一代grace cpu和hopper gpu结合的又一新产品，但这必然不是英伟达追求的“1+1=2”效果。事实上，gh200是象征着英伟达在芯片互联技术先进设计水平的集大成者。
在英伟达的第四代nvlink技术和第三代nvswitch技术下，创造一个256个gh200连接在一起的系统也不在话下。但这样的片外互联技术并不算罕见，市面上也有不少初创公司的ai芯片可以做到类似或者更夸张的扩展性。
然而在片内芯片互联上，nvlink-c2c这一互联技术确实达到了新的高度。nvlink-c2c是英伟达专为其superchip系列打造的内存一致、高带宽、低延迟互联技术。也是其实现高达900gb/s总带宽的关键所在。900gb/s的带宽是什么概念呢？与现代ai/hpc加速器常用的16路的pcie 5.0相比，还要快上6倍。
nvlink-c2c的优势
nvlink-c2c的第一大优势就是其内存一致性，这不仅提高了开发者的效率、芯片性能，还提高了gpu可以访问的内存量。在这一互联技术的支持下，如今cpu、gpu线程都可以并行访问cpu和gpu各自的内存，无需页迁移，所以开发者可以专心于优化算法本身，而不是内存管理。
其次就是900gb/s的带宽了，有了nvlink-c2c，应用程序可以直接用满gpu的内存，再以超高的带宽直接调用grace cpu的内存。毕竟即便是最新的hbm3e版gh200，也只有144gb的内存，而grace cpu可以支持到最高480gb的lpddr5x内存。甚至在nvswitch的支持下，可以高速访问整个系统中最高达144tb的内存。
如此一来在gpt这样的llm模型中，可用的内存也就变多了。这对于batch size增加后，推理所需内存数增加的生成式ai来说至关重要。相比过去x86 cpu+pcie 5.0 h100的搭配组合，gh200在更大的batch size下推理速度有着数倍的提升。
英伟达也对高带宽在hpc加速上的优势进行了解读，以abinit的标准执行时间为例，abinit是一个用于计算材料光学、机械、振动等特性的模拟软件。以只用x86 cpu的执行时间作为标准，在x86 cpu与hopper gpu的结合下，超高性能的hopper gpu极大地缩短了执行时间。
然而在cpu与gpu之间的传输开销下，这一组合最终只能做到快上1.16倍的优势。而如果是使用grace hopper方案的话，在nvlink-c2c的超大带宽下，cpu与gpu之间的传输开销迅速缩减，最终实现了缩短4.25倍的执行时间。
写在最后
英伟达会走上自研cpu和superchip的路线其实并不令人意外，为cpu与gpu之间打通一个更快的接口一直是英伟达的努力方向之一。此前由于x86的cpu设计主要还是有英特尔和amd两家厂商完成，而grace这样的自研arm芯片则没了设计限制，可以掺入英伟达的各种定制化开发。
nvlink-c2c也为市面上其他的ai芯片带来了更大的挑战，毕竟英伟达在性能、软件生态上已经处于领先地位，又有着如此高效的互联技术。可以预见未来其他厂商也会在芯片互联、高速接口等领域发力，否则很难与英伟达同台竞争。

疫情之后中国的区块链产业将会迎来一个巨大的发展机遇
最高资助1亿！深圳要解决智能传感器产业“卡脖子”问题（附政策全文）
雅特力携高性能 MCU亮相ELEXCON 2022，持续发力中高端
蔬菜农药检测仪的使用方法
美国制裁范围扩大！这次是中国服务器巨头浪潮被断供
英伟达超级芯片的真正杀手锏，C2C互联技术
湿敏元件分类：
STM32 SPI驱动触摸屏(XPT2046)（下）
随着互联网的进一步普及人工智能发展正在加速崛起
竟然存在比原子钟还要精确的东西？
轮胎压力监测系统(TPMS)的电路设计
新闻 | 阿拉伯IPv6理事会成立，区域IPv6部署按下加速键
华为mate9评测,科技感爆棚跑分比骁龙821高三分之一
IP视频监控系统存储设备选型指导
自动驾驶大规模落地离我们还有多远？
一文解读100G光模块发展标准及主要类型
AI去马赛克，你听说过吗？
瑞森碳化硅功率器件，国产替代的助推器
索尼FES Watch U手表在日本开售：电子墨水技术
努比亚Z17发布会最新消息：努比亚Z17配置、价格预测，努比亚Z17发布会直播地址、视频直播、图文直播平台