AWS推出由AWS设计的AWS Trainium2芯片系列

一年多来，我们一直期待amazon web services在今年的re:invent大会上为其本土服务器推出 graviton4 处理器。正如预期，aws首席执行官adam selipsky推出了第四代 graviton cpu系列，包括去年针对hpc工作负载的超频graviton3e处理器。
selipsky在主题演讲期间没有强制举起graviton4 芯片，这很奇怪。
graviton4 提高了各种工作负载的性价比和能效标准
正如我们所预料的那样，graviton4 也基于 arm ltd 的“demeter”neoverse v2 内核，该内核与 nvidia 的“grace”cg100 cpu 一样基于 armv9 架构。（nvidia 官方并没有给 grace 一个与其 gpu 命名方案一致的产品名称，所以我们就暂且这样命名。c代表cpu，g代表grace。）我们在2017年对demeter v2核心进行了深入研究。9月份，arm发布了“genesis”计算子系统，与之前由aws部署在graviton3和graviton3e处理器中使用的“zeus”v1 内核相比，v2 内核的每时钟指令数提高了13%。
显然，这在 ipc中并不是一个大的跳跃，因为核心数量也在跳跃，这就是为什么我们还假设 aws已经放弃了代工合作伙伴台积电用于蚀刻 graviton3 和 graviton3e 芯片的5纳米工艺，而是更密集且有些成熟的4纳米工艺。同样的4n工艺还用于制造 nvidia 的 grace cpu 及其“hopper”gh100 gpu——这两款产品都席卷了生成式 ai 世界。
graviton4 封装上有 96 个 v2 核心，比 graviton3 和 graviton3e 提升了 50%，而且与 8 个 ddr5 内存控制器相比，graviton4 上有 12 个 ddr5 控制器，并且graviton4使用的 ddr5内存速度频率提升了16.7%，达到5.6 ghz。通过数学计算，graviton4 每个插槽的内存带宽为536.7 gb/秒，比之前的graviton3和graviton3e处理器提供的307.2 gb/秒高出 75%。
在 selipsky 的演示以及 aws 发布的有关 graviton4 的有限规格中，该公司表示通用 web 应用程序在 graviton4 上的运行速度比在 graviton3 上快 30%（不是 graviton3e，它超频且很热），但数据库的运行速度将提高 40%，大型 java 应用程序的运行速度将提高 45%。现在，这可能意味着aws已经在v2核心中实现了同步多线程 (smt)，为每个核心提供两个线程，就像英特尔和 amd 的 x86 处理器以及一些 arm 芯片过去所做的那样。
我们不这么认为，下面的比较显着特征表显示每个套接字有 96 个线程，而不是 192 个线程。我们认为每个套接字有 96 个线程，并且每个核心的二级缓存加倍至2mb对java和数据库应用程序的性能产生了巨大的影响。您可以通过添加双向smt获得3倍的vcpu，但这不会为您提供3倍的内存。与 graviton3 芯片相比，它的内存仍然只有 1.5 倍。
aws 在其博客中提到的有关使用 graviton4 芯片的新 r8g 实例的其他内容也让我们犹豫不决：“r8g 实例提供了更大的实例大小，比当前一代 r7g 实例多出 3 倍的 vcpu 和 3 倍的内存。”
r8g 拥有 96 个核心和十几个内存控制器（均比 graviton3 提升了 1.5 倍），您只会期望 r8g 的 vcpu 数量是使用 graviton3 芯片的 r7g 实例的 1.5 倍，而内存容量仅是使用 graviton3 芯片的 r7g 实例的 1.5 倍。因此，我们认为这是 graviton 系列的第一个双插槽实现。这也是我们认为 graviton4 芯片拥有大约 9500 万到 1 亿个晶体管的原因之一，而不是您预期的 8250 万个晶体管（如果 aws 只是在 graviton3 设计中添加 50% 的核心并保持不变）。我们认为，l2 缓存加倍、增加四个 ddr5 内存控制器以及一对现在也进行线速加密的 i/o 控制器也增加了晶体管预算。
graviton4在另一个方面也值得注意。过去，neoverse模块以32核或64核模块完成，arm建议使用具有uci-express或ccix互连的小芯片来构建更大的处理器复合体。制作自己的 arm cpu设计的公司总是可以实现单片芯片，出于延迟和功耗的原因，您会这样做。这些互连不是免费的，尤其是具有 96 个内核的芯片，其产量会比 32 个内核或 64 核心低得多。这也是有代价的。
因此，从上面的芯片照片来看，我们认为 graviton4 是一个双小芯片封装，其中一个小芯片与另一个小芯片旋转了 180 度。这可能就是为什么封装上中央核心复合体左侧和右侧的存储控制器小芯片彼此偏移的原因。
我们认为 graviton4 与前几代芯片的比较如下：
诚然猜测，我们认为 graviton4 的性能比 graviton3e 稍差，但达到该目标所需的功耗却低了近一半，并且内存容量高出 50%，带宽高出 75%，功耗大约为 130 瓦。功率包络具有更低且更理想的 2.7 ghz 时钟速度。
根据我们估计的这些数字（粗体红色斜体显示），graviton4 芯片的每瓦性能（按 ecu 性能单位测量）与 graviton3 大致相同，这几乎是您在工艺适度缩减的情况下所希望的一切。
随着更多细节的出现，我们将更新这个故事。
还有一件事：aws 在其公告中表示（但 selipsky 并没有在他的主题演讲中吹嘘），迄今为止，它已在其机群中部署了超过 200 万个 graviton 处理器，并拥有超过 50,000 个客户使用过它们。
这是一个非常可观的 cpu 数量，如果 aws 没有开始内部生产 graviton，这些芯片将全部来自 intel、amd，甚至可能来自 ampere computing。但他们没有。这就是为什么将您的业务计划固定给超大规模提供商和云构建商是一个冒险的提议。
trainum2旨在云中提供最高性能、最节能的ai模型训练基础设施
此外，aws还在大会上推出了由 aws 设计的aws trainium2 芯片系列。
graviton4 和 trainium2 标志着 aws 芯片设计的最新创新。随着每一代芯片的推出，aws 都提供了更好的性价比和能效，除了采用 amd、intel 和 nvidia 等第三方最新芯片的芯片/实例组合之外，还为客户提供了更多选择，以运行几乎任何应用程序或amazon elastic compute cloud (amazon ec2) 上的工作负载。
据了解，trainium2 的设计速度比第一代 trainium 芯片快 4 倍，并且能够部署在多达 100,000 个芯片的 ec2 ultracluster 中，从而可以在一个简单的环境中训练基础模型 (fm) 和大型语言模型 (llm)。时间的一小部分，同时将能源效率提高了 2 倍。
aws 计算和网络副总裁 david brown 表示：“硅支撑着每个客户工作负载，使其成为 aws 创新的关键领域。” “通过将我们的芯片设计重点放在对客户重要的实际工作负载上，我们能够为他们提供最先进的云基础设施。graviton4 标志着我们在短短五年内推出的第四代芯片，是我们为各种工作负载打造的最强大、最节能的芯片。随着人们对生成式 ai 兴趣的高涨，tranium2 将帮助客户以更低的成本和更高的能源效率更快地训练他们的 ml 模型。”
当今新兴的生成式人工智能应用背后的 fm 和 llm 接受过海量数据集的培训。这些模型使客户能够通过创建各种新内容（包括文本、音频、图像、视频甚至软件代码）来完全重新想象用户体验。当今最先进的 fm 和 llm 的参数范围从数千亿到数万亿不等，需要可靠的高性能计算能力，能够扩展到数万个机器学习芯片。aws 已经提供了最广泛、最深入的采用 ml 芯片的 amazon ec2 实例选择，包括最新的 nvidia gpu、trainium 和 inferentia2。如今，包括 databricks、helixon、money forward 和 amazon search 团队在内的客户使用 trainium 来训练大规模深度学习模型，充分利用 trainium 的高性能、规模、可靠性和低成本。但即使拥有当今最快的加速实例，客户也希望获得更高的性能和规模，以便以更低的成本更快地训练这些日益复杂的模型，同时减少他们使用的能源量。
trainium2 芯片专为 fm 和 llm 的高性能训练而设计，参数高达数万亿个。与第一代 trainium 芯片相比，trainium2 的训练性能提高了 4 倍，内存容量提高了 3 倍，同时能效（性能/瓦特）提高了 2 倍。trainium2 将在 amazon ec2 trn2 实例中提供，单个实例中包含 16 个 trainium 芯片。trn2 实例旨在使客户能够在下一代 ec2 ultracluster 中扩展多达 100,000 个 trainium2 芯片，与 aws elastic fabric adapter (efa) 拍级网络互连，提供高达 65 exaflops 的计算能力，并为客户提供对超级计算机的按需访问一流的性能。凭借这种规模，客户可以在数周而不是数月内培训 3000 亿个参数的 llm。通过以显着降低的成本提供最高的横向扩展 ml 训练性能，trn2 实例可以帮助客户解锁并加速生成 ai 的下一波进步。
一家人工智能安全和研究公司anthropic表示，“我们正在与 aws 密切合作，使用 trainium 芯片开发未来的基础模型。trainium2 将帮助我们大规模构建和训练模型，对于我们的一些关键工作负载，我们预计它的速度至少比第一代 trainium 芯片快 4 倍。我们与 aws 的合作将帮助各种规模的组织释放新的可能性，因为他们将 anthropic 最先进的人工智能系统与 aws 安全、可靠的云技术结合使用。”
来源：eetop