Grace设计是为了填补英伟达人工智能服务器中CPU的空缺

4月12日上午,英伟达召开了春季gpu技术大会,图形和加速器设计师宣布他们将再次设计自己的基于arm的cpu。这款cpu以计算机编程先驱、美国海军少将格蕾丝•霍珀(grace hopper)的名字命名,它是英伟达在全面垂直整合硬件堆栈方面的最新尝试,能够在提供常规gpu产品的同时提供高性能cpu。据英伟达介绍,该芯片是专为大规模神经网络工作负载设计的,预计将于2023年在英伟达的产品中使用。
距离芯片准备就绪还有两年的时间,英伟达这次表现得相对低调,只提供了芯片的部分细节。例如,它将基于arm的neoverse内核的未来迭代产品,因为目前更多关注的是英伟达未来的工作流模式,而不是速度和输出。至少目前,英伟达已经明确表示,grace是英伟达的内部产品,将作为其大型服务器产品的一部分。该公司并没有直接瞄准英特尔xeon或amd epyc服务器市场,相反,他们正在建造自己的芯片来补充他们的gpu产品,创造一种可以直接连接他们的gpu的专用芯片,帮助处理参数规模达到万亿级的人工智能模型。
总的来说,grace的设计是为了填补英伟达人工智能服务器中cpu的空缺。公司的gpu非常适合于特定的深度学习模型,但不是所有模型都必须依赖于gpu。英伟达当前的服务器产品通常依赖于amd的epyc处理器,该处理器对于一般的计算目的来说速度非常快,但缺少英伟达寻找的那种高速i/o和深度学习优化。更重要的是,英伟达目前因使用pci express进行cpu-gpu连接而遇到瓶颈。它们的gpu可以通过nvlink在彼此之间快速对话,但不能返回主机cpu或系统ram。
这个问题的解决方案是使用nvlink进行cpu-gpu通信,就像grace之前的情况一样。正是出于这个原因,英伟达曾与openpower基金会合作,将nvlink引入到power9中。然而,随着power的流行度下降,以及power10跳过了nvlink,这种关系似乎正在逐渐消失。而英伟达正在以自己的方式构建带有nvlink功能的arm服务器cpu。
根据英伟达的说法,最终的结果将是一种高性能、高带宽的cpu与未来一代的英伟达服务器gpu协同工作。在英伟达谈论将每个英伟达 gpu与一个grace cpu集成在一块板上的情况下(类似于今天的夹层卡),不仅cpu性能和系统内存随gpu的数量而增加,而且通过回旋方式,grace可以用作英伟达 gpu的各种协处理器。这是一个非常英伟达解决方案,不仅可以提高性能,而且在amd或intel的cpu与gpu尝试类似的集成与融合的情况下,可以给他们一个反击。
到2023年,英伟达将达到nvlink 4, soc和gpu之间的累积带宽将至少达到900gb/秒,grace soc之间的累积带宽将超过600gb/秒。关键是,这大于soc的内存带宽,意味着英伟达的gpu将有一个到cpu的高速缓存链接,可以在全带宽下访问系统内存,同时也允许整个系统拥有一个单一的共享内存地址空间。英伟达将此描述为平衡系统中可用的带宽数量。拥有内置cpu是增加内存有效量的主要手段,因为英伟达的gpu仍然是大型神经网络的主要限制因素,由于内存容量的限制,只能有效地运行与本地内存池一样大的网络。
而且,这种以内存为中心的策略也反映在grace的内存池设计中。由于英伟达将cpu与gpu放在一个共享的软件包中,因此他们打算将ram放在它旁边。配备grace的gpu模块将包括一定数量的lpddr5x内存,而英伟达的目标是至少500gb /秒的内存带宽。在2023年,lpddr5x可能会成为带宽最高的非显卡存储器选项,此外,由于lpddr5x技术的根源是移动设备,而且追踪长度非常短,英伟达还在大力宣传使用lpddr5x可以提高能源效率。而且,由于这是服务器部分,grace的内存也将启用ecc。
至于cpu性能,实际上这是英伟达所说得最少的部分。该公司将使用下一代arm的neoverse cpu内核,,在这方面,最初的n1设计已经吸引了大量眼球。除此之外,该公司还表示,在specrate2017_int_base的吞吐量基准测试中,这款处理器的内核将突破300点,与amd的一些第二代64核epyc处理器相当。该公司也没有透露太多关于cpu是如何配置的,或者针对神经网络处理的优化是如何添加的。但由于grace的目的是支持英伟达的gpu,预计它会在gpu普遍较弱的情况下变得更强。
另外,如前所述,英伟达为grace设计的远大目标是大大减少了大型神经网络模型训练所需的时间。英伟达的目标是在1万亿参数模型上提高10倍的性能,
而他们对64个模块的grace+a100系统(具有理论上的nvlink 4支持)的性能预测将把这种模型的训练时间从一个月缩短至三天。或者,能够在8个模块的系统上对5000亿个参数模型进行实时推断。
总体而言,这是英伟达在数据中心cpu市场的第二次真正尝试,也是第一次有可能成功。英伟达的project denver计划最初是在十年前宣布的,但从未像英伟达预期的那样取得真正的成果。定制的arm内核家族从来都不够好,也从未使用英伟达的移动soc制成。相比之下,grace对于英伟达来说是一个更安全的项目。它们只是授予arm内核许可,而不是构建自己的内核,这些内核也将被其他许多方使用。因此,英伟达的风险降低了,主要是在i/o和内存方面做得很好,并保持最终设计的节能效果。
如果一切都按计划进行,那么有望在2023年见到grace。英伟达已经确认grace模块将可用于hgx载板,以及扩展为dgx和所有其他使用这些板的系统。因此,尽管我们还没有看到英伟达grace计划的全部内容,但很明显,他们正在计划使其成为未来服务器产品的核心部分。
两个超级计算机客户:cscs和lanl
尽管grace要到2023年才能发货,但英伟达已经找到了首批客户,而且他们都是超级计算机的客户。瑞士国家超级计算中心(cscs)和洛斯阿拉莫斯国家实验室今天宣布,他们将订购基于grace的超级计算机。这两套系统都将由惠普的克雷集团(cray group)建造,预计将于2023年上线。
cscs的系统称为alps,将替换其当前的piz daint系统,即xeon和英伟达 p100集群。根据两家公司的说法,alps将提供20 exaflops的ai性能,大概是cpu,cuda内核和张量内核吞吐量的组合。推出时,alps应该是世界上最快的以人工智能为中心的超级计算机。
有趣的是,cscs对系统的雄心壮志不仅限于机器学习工作负载。该研究所表示,他们将把alps作为通用系统,从事更传统的hpc类型任务以及以ai为重点的任务。这包括cscs对天气和气候的传统研究,而ai之前的piz daint也已用于该研究。
如前所述,alps将由hpe建造,后者将基于其先前宣布的cray ex架构。这将使英伟达的grace与amd的epyc处理器一起成为cray ex的第二个cpu选项。
与此同时,los alamos的系统正在开发,作为实验室与英伟达之间持续合作的一部分,而lanl将成为美国第一个使用grace系统的客户。尽管实验室计划利用grace提供的最大数据集规模来计划将其用于3d仿真,但lanl并未讨论系统的预期性能是否超出“领导级别”的事实。lanl系统定于2023年初交付。
原文标题:grace:英伟达数据中心cpu市场的第一次成功尝试!
文章出处:【微信公众号:ssdfans】欢迎添加关注!文章转载请注明出处。


iphone8什么时候上市多少钱?iPhone8线下已开始预订!32G价格6288起,要不要考虑一下华为mate10?
三星s8什么时候上市?三星s8最新消息:堆料狂魔?三星S8的造价成本,比肩小米6的售价!
中国电信实测5G通信性能,荣耀手机整体领先
魅蓝E2最新消息:魅蓝E2真机配置曝光,隐藏式闪光灯,全新处理器售价或1699!
“安芯”植入RFID技术,助力产业数字化升级
Grace设计是为了填补英伟达人工智能服务器中CPU的空缺
三星Note10 Lite渲染图曝光采用了Infinity-O屏幕设计四周边框较窄
中小企业布局智能制造 NIP与机械云助力串连端到云
广和通推出区块链模组,加速碳中和进程
惠普薄锐ENVYx360评测 全能又不专
鸿海的面板工厂再陷亏损 夏普电视难与中国电视竞争
关于汽车线束测试,你了解多少?
艾拉比芮亚楠:当OTA普及,我们将在物联网和车联网看到三个变化
NLP类别不均衡问题之loss合集
国产操作系统到底什么水平?鸿蒙能否后来者居上
UIS测试是什么?雪崩能量对实际应用的影响
联想推出K5 Pro国民手机,支持18W QC3.0快充实现充电五分钟追剧一小时
LED显示屏成为LED应用领域最成熟的细分市场
Hey Siri:一场语音技术和讨论热潮和语音助手的创业热潮
面对全球30万亿汽车产业格局,这是一个“杀手锏”!