深度解读亚马逊AI芯片核心技术

亚马逊网络服务可能不是第一家创建自己的定制计算引擎的超大规模提供商和云构建商，但它紧随谷歌之后发布了自研的ai芯片——谷歌于 2015 年开始使用其自主研发的 tpu 加速器来处理人工智能工作负载。
aws 于 2017 年开始使用“nitro”dpu，并很快决定如果要在未来继续在服务器基础设施方面进行创新，就需要在所有方面对计算引擎进行创新。现在我们已经看到了多代 nitro dpu、四代 graviton arm 服务器 cpu、两代 inferentia ai 推理加速器，以及现在的第二代 trainium ai 训练加速器。trainium2 芯片与 graviton4 服务器 cpu 一起在 aws 最近于拉斯维加斯举办的 re:invent 2023 大会上亮相，我们花了一些时间尝试了解这个新的 ai 训练引擎以及它与 inferentia 系列的关系。
aws 尚未公布有关这些 ai 计算引擎的大量详细信息，但我们（指代nextplatform）设法与 gadi hutt 进行了一些交流，他是 aws annapurna labs 部门的业务开发高级总监，负责设计其计算引擎并通过代工厂和指导它们。深入了解 aws 系统，更深入地了解 inferentia 和 trainium 之间的关系以及对 trainium2 的期望；我们还对技术文档中的规格进行了一些挖掘，并尝试填补空白，就像我们发现信息缺乏时所做的那样。
不过，为了做好准备，我们先做一点数学计算，然后再了解 aws ai 计算引擎的数据源和速度。
在 aws 首席执行官 adam selipsky 的 re:invent 主题演讲中，nvidia 联合创始人兼首席执行官黄仁勋是一位惊喜嘉宾，他在讲话中表示，在“ampere”a100 和“hopper”h100 期间，aws 购买了两百万个这样的设备。
有传言称，aws 将在 2023 年完成大约 50,000 个 h100 订单，我们假设去年可能有 20,000 个订单。以每台 30,000 美元的价格——考虑到需求，nvidia 几乎没有动力打折，而且最近几个季度的净利润率远高于其数据中心收入的 50% ——即 21 亿美元。这还剩下 193 万美元的 a100，按照 2020 年至今的平均价格约为 12,500 美元计算，总计 241.3 亿美元。
在如此巨大的投资流中，性价比曲线显然还有弯曲的空间，而且 aws 创建了自己的 titan 模型，以供母公司 amazon 和数以万计的企业客户使用，并提供其他模型，重要的是来自 anthropic 的claude 2，在其本土开发的 inferentia 和 trainium 上运行。
我们认为这条曲线看起来与 aws 使用 graviton 服务器 cpu 所做的没有太大不同。aws 非常乐意销售 intel 和 amd 的 cpu，但它的价格/性能比“传统”高出 30% 到 40%。由于它通过 graviton 省去了中间商，因此可以以更低的价格提供 arm cpu 实例，这对越来越多的客户有吸引力。我们预计 nvidia 和 amd gpu 以及 aws 制造的 inferentia 和 trainium 设备之间也会存在同样的传统定价差距。
抛开这些数学问题，我们来谈谈 inferentia1，并概览一下 inferentia2 和 trainium1，这样我们就可以了解 trainium2，它将与当前在 hopper h100 gpu 加速器上运行的工作负载进行正面竞争。如您所知，h100 的价格几乎与黄金一样昂贵（目前 sxm5 版本每盎司的价格约为黄金的一半），并且像稀土矿物一样难以获得，并且是支撑人工智能经济的不可或缺的一部分。
推断 trainium 的架构
所有计算引擎都是计算元素、存储元素和将它们连接在一起的网络的层次结构，并且围绕这些元素的抽象级别可能会发生变化，特别是当架构是新的并且工作负载快速变化时。
inferentia1 芯片由 annapurna labs 的人员创建，于 2018 年 11 月首次发布，一年后全面上市，是 aws ai 引擎工作的基础，以下是该设备的架构：
该器件有四个内核，具有四个不同的计算元件，以及用于片上存储的片上 sram 存储器和用于片外存储的 ddr4 主存储器，这与当今许多 ai 芯片制造商一样。aws 没有提供 inferentia1 设备的 sram 内存和缓存大小或时钟速度的详细规格，甚至没有提供设备中使用的每个 neuroncore 内的元件数量。不过在 inferentia 和 trainium 芯片的 neuron sdk 中，aws 确实讨论了 inferentia2 和 trainium1 中使用的 neurocore-v2 核心的架构，我们可以以此为基础来弄清楚 inferentia1 是什么，并推断出 trainium2 可能是什么是。
无论是哪代，neuroncore 都有一个处理标量计算的 scalarengine 和一个处理各种精度的整数和浮点数据向量计算的 vectorengine。这些大致相当于 nvidia gpu 中的 cuda 核心。根据 neuron sdk，neuroncore-v1 scalarengine 每个周期处理 512 个浮点运算，vectorengine 每个周期处理 256 个浮点运算。（我们认为aws的意思是scalarengine上每个周期有512位处理，vectorengine上每个周期有256位处理，然后您通过这些以选择的格式泵送数据以进行特定类型的计算。
neuroncore 架构还包括一个 tensorengine，用于加速矩阵数学，超出了通过 vectorengine 推动代数矩阵数学的能力，而矩阵数学对于 hpc 和 ai 工作负载至关重要，它们通常会完成大量工作并提供最大的吞吐量。tensorengine 大致类似于 nvidia gpu 中的 tensorcore，在 neuroncore-v1 内核中，它们可以在 fp16/bf16 粒度下提供 16 teraflops。
trainium1 芯片于 2020 年 12 月发布，并以两个不同的实例（trn1 和 trn1n）发货。我们当时对 trainium1 和2021 年 12 月的这些实例进行了尽可能多的分析，坦率地说，aws 没有提供大量有关这些本土 ai 计算引擎的数据。trainium1 使用了新的 neurocore-v2 核心，它具有相同的元素，但核心数量更少，如下所示：
通过 trainium1 芯片，aws 添加了 32 gb hbm 堆叠 dram 内存以提高设备的带宽，转向 pci-express 5.0 外形尺寸和 i/o 插槽，并增加了 neuronlink 芯片间互连链路的数量其带宽提高了 2 到 4 倍，同时带宽也提高了 2 倍。
我们没有证据证明这一点，但我们认为，通过 trainium1，aws 将每个芯片的 neuroncore 数量比 inferentia1 减少了一半（两个而不是四个），然后每个核心内的标量、矢量和张量引擎的数量增加了一倍。当时的变化实际上是缓存和内存层次结构抽象级别的变化，基本上使 neuroncore 在每个计算元素类型中实现多线程。
有趣的是，trainium 芯片中首次使用的 neuroncore-v2 还包括称为 gpsimd 引擎的东西，它是一组 8 个 512 位宽的通用处理器。（确实非常有趣。）这些设备可以直接使用 c 和 c++ 进行寻址，并且可以访问片上 sram 和内核上的其他三种类型的引擎，并用于实现需要加速且不需要加速的自定义操作。直接受其他引擎中的数据和计算格式支持。（我们必须查阅flynn 的分类法，试图弄清楚这个 gpsimd 引擎是如何适应的，并且从文档中并不清楚我们看到的是这是一个阵列处理器、管道处理器还是关联处理器.)
用于推理的 inferentia2 芯片基本上是一个 trainium1 芯片，其数量只有一半的 neuronlink-v2 互连端口。芯片的某些元件也可能未激活。时钟速度和性能似乎大致相同，hbm 内存容量和带宽也是如此。
“inferentia2 和 trainium1 之间的芯片架构几乎相同，”hutt 告诉the next platform。“我们为 inferentia2 保留了 hbm 带宽，因为这对于推理非常重要，而不仅仅是训练。llm 推理实际上受内存限制，而不是计算限制。因此，我们实际上可以采用类似的硅架构并尽可能降低成本 - 例如，我们不需要那么多的 neuronlink。通过推理，当我们从一个加速器移动到另一个加速器时，我们只需要环形的链接来生成token。当然，通过训练，您需要完整的网状连接，最大限度地减少服务器内部每个加速器之间的跳数。当然，当你访问训练服务器时，你需要大量的网络带宽。”
使用 16 个 trainium1 芯片的服务器上的互连是一个 2d 环面或 3d 超立方体，根据 hutt 的说法，它们是同一件事，具体取决于你想如何谈论它，它看起来像这样：
下面的表格汇集了我们所知道的 inferentia1、inferentia2 和 trainium1 的馈送和速度，以及我们对 trainium2 的预测（以粗体红色斜体显示）。neuron sdk 尚未使用有关 trainium2 的任何信息进行更新。
根据如下所示的 trainium2 芯片封装图片，我们认为它本质上是两个 trainium1 芯片互连在一起，要么作为单片芯片，要么作为两个小芯片插槽，通过某种高速互连将它们连接在一起：
hutt 没有透露 trainium 芯片的任何数据和速度，但他确实确认 trainium2 拥有更多的内核和更多的内存带宽，并进一步补充说，芯片的有效性能将扩展到 4 倍——他称这是一个保守的数字，也许超出了现实世界人工智能训练工作负载的 trainium1 的数字，因为这些工作负载更多地受到内存容量和内存带宽的限制，而不是受计算的限制。
我们认为trainium2芯片将有32个核心，并将从trainium 1使用的7纳米工艺缩小到4纳米工艺，这样核心的加倍就可以在与trainium1相同或稍高的功率范围内完成。我们还认为，trainium2 中的时钟速度将从 trainium1 中使用的 3 ghz（aws 已透露的数字）适度提高到 3.4 ghz。我们还认为（仅基于预感），trainium2 上的总 neuronlink 带宽将增加 33%，达到每个端口 256 gb/秒，从 trainium2 产生 2 tb/秒，并且仍然允许 2d环面互连。每个芯片上的 neuronlink 端口数量可能会增加，以增加环面的维数，并减少设备共享数据时设备之间的一些跳数。2d 环面意味着集群中任意两个 neuroncore 芯片之间有固定的两跳。网络似乎不太可能增加到全面配置，但这是可能的。（sgi 曾经用其超级计算机芯片组来做到这一点。）
我们还认为，鉴于 aws 希望使用 trainium2 将 ultracluster 扩展到 100,000 个设备，它将减少 trainium2 上的实际核心数量，使其比我们在上表中显示的 64 个核心少很多。
很难说它会在哪里，假设大约 10% 的核心将是无用的，因此芯片的产量将会高得多。您可以打赌，aws 将保留任何可以在一组单独的机器中运行所有核心的 trainium2 设备，很可能供每个核心都很重要的内部使用。这将使 trainium2 拥有 56 个核心或 58 个核心，甚至可能高达 56 个核心，并且所有带宽都可供它们使用。aws 承诺的 96 gb 可能仅用于我们认为在设备上看到的四个内存堆栈中的三个，该设备可能具有 128 gb 的实际 hbm 内存。我们强烈怀疑这将是 hbm3 内存，但 hutt 没有证实任何事情。
但他多次说过，性能是由内存驱动的，而不是指望原始峰值理论计算的增长速度快于内存带宽，如果我们是对的，内存带宽将增长 5 倍位于 trainium1 和 trainium2 之间。
以下是使用 inferentia 和 trainium 芯片可用的实例：
任何人都在猜测 trn2 实例在价格或性能方面的比较，但根据暗示和预感，我们坚信 trainium2 将提供 nvidia h100 大约 2 倍的性能，这意味着它将与之旗鼓相当- nvidia 刚刚发布的 h200 配备了更大、更快的 hbm3e 内存，适用于许多型号。当我们建议 aws 可能会对基于 trainium2 的 ec2 实例相对于使用 nvidia 的 h100 和 h200 gpu 的实例进行定价时，其比率与其自己的 graviton cpu 与 amd 和 intle x86 处理器之间的比率相同 - 介于 30% 到 40% 之间物有所值——hutt并没有劝阻我们放弃这种想法。但hutt也没有做出任何承诺，只是说性价比肯定会更好。
这并非毫无意义，而是将 100,000 个设备以 fp16 精度以 65 exaflops 连接在一起，并且没有任何稀疏技巧，而是真正的 fp16 分辨率，有机会成为世界上最大的人工智能集群。

中国物联网产业生态2016上半年报告（图表）
苹果最新发布的紫色iPhone12，它的防水性能如何
开普云在AI时代还有怎样的发展机会
海乐苗守护儿童健康，凸显海尔物联网科技生态价值
广州市市场监督管理局对消防应急照明灯产品质量进行了监督抽查
深度解读亚马逊AI芯片核心技术
电脑设备有哪些
区块链行业将会爆发出新一轮的创业浪潮
国内汽车芯片产业链的 · 现状 · 堵点 · 展望
国微思尔芯发布“Genesis 芯神匠”架构设计软件，精准定义设计目标
破壁机购买前看准这4个挑选点，省钱以外还省心
有腿的机器人目前还不够可靠机器人运送包裹技术还需发展
上合组织和小i机器人在人工智能人才培养领域的合作问题
氧气传感器结构与性能
CDMA手机的优点
高精度数据采集卡的功能特点及应用范围
打击网络诈骗黑色产业链，技术之盾显身手
高性价比无线485通信数传电台，竟如此惊艳！
高压电机轴的修复工艺
中国联通把WiFi 6纳入智慧生态布局，创造用户智慧家庭的体验