NVIDIA Hopper GPU上的新cuBLAS12.0功能和矩阵乘法性能

人工智能和机器学习基准测试中相当一部分操作是通用矩阵乘法，也称为 matmul 函数。 gems 也存在于深度学习训练的前向和后向通道以及推理中。
gemm 的突出性使得深度学习软件能够最大限度地利用用于矩阵乘法的硬件，同时支持几个关键的 ai 组件。这些成分包括具有偏置和流行激活功能的融合体及其衍生物。
本文探讨了 nvidia cublas 库在里面 cuda 12.0 重点是最近推出的 fp8 format 、 nvidia hopper 上的 gem 性能 gpu ，以及新 64 位整数应用程序编程接口（ api ）和新融合等用户体验的改进。
在深入了解这些功能之前，简要概述了当前可用的 cublas api 、如何更有效地应用每种 api ，以及 cublas 与其他可用的 nvidia 矩阵乘法工具的关系。
确定要使用的 cublas api
cublas 库是在 nvidia cuda 运行时之上的基本线性代数子程序（ blas ）的一种实现，旨在利用 nvidia gpu 进行各种矩阵乘法运算。本文主要讨论 cublas 和 cublaslt api 的新功能。然而， cublas 库还提供了针对多 gpu 分布式 gems 的 cublasxt api 。 cublasxt api 将于 2023 年在 early access 中提供，目标是 gems 及其设备内融合功能。
表 1 概述了每种 api 的设计用途以及用户可以在哪里获得最佳性能。
api api complexity called from fusion support matrix sizes for maximum performance
cublas
(since cuda 6.0) low host none large (global memory)
cublasxt (since cuda 6.0) low host none very large (multi-gpu, global memory)
cublaslt
(since cuda 10.1) medium host fixed set medium (global memory)
cublasdx (targeting 2023 ea) medium/high device user ops small (shared memory)
表 1 。各种 cublas 原料药的比较。通常， api 复杂度越高， api 越适合内核开发人员.
cublas api
cublas api 在所有三个级别实现 netlib blas 规范，每个例程最多有四个版本：实数单精度、实数双精度、复数单精度和复数双精度，分别带有 s 、 d 、 c 和 z 前缀。
对于 blas l3 gemm ，，和变量（如主机和设备引用）有更多可用选项。该 api 还提供了几个 extensions ，如传统函数的批处理和降低/混合精度版本。
cublaslt api
cublaslt api 是一个比 cublas 更灵活的解决方案，专门为人工智能和机器学习中的 gemm 操作而设计。它通过以下选项的参数可编程性提供灵活性：
矩阵数据布局
输入类型
计算类型
结语
算法实现选择
启发式
一旦用户确定了预期 gem 操作的一组选项，这些选项就可以重复用于不同的输入。简而言之，与 cublas api 相比， cublaslt 可以支持复杂的情况，例如：
该案例有多个输出，是基于变压器的模型中遇到的一个突出的 gemm .
为了提供最近的示例， a 和 b 可以采用两种新的 fp8 格式中的任一种，并在 fp32 中进行乘法和累加。 epilogue 可以包括 gelu 和偏倚，偏倚在 bf16 或 fp16 中。许多常见的尾声现在都融入了 matmul 。此外，是一个可选的附加尾声输出，用于计算梯度。使用 cublaslt 操作 handle type 描述了上述操作和许多类似操作。
nvidia 切割机和 gems
作为最著名的开源 nvidia 库之一， nvidia cutlass 还为 nvidia gpu 上的 gemm （和卷积）提供 cuda c ++和 python 抽象，并在设备、块、扭曲和线程级别提供原语。 cutrass 的一个优点是，用户可以专门为其所需范围编译 gems ，而无需像 cublas 库那样加载更大的二进制文件。
当然，这会带来性能上的权衡，因为需要大量的努力来为每个单独的用例找到和实例化最佳内核。 cublas 库通过广泛训练的启发式方法，在广泛的问题范围内提供最大的性能。
事实上，对于许多用例和数据类型， cublas 可能包括从 culass 实例化的几个内核。通常， cublas 使用各种内核源，以确保在应用程序之间更均匀地实现最大性能。
nvidia hopper 上的 fp8 支持
首次在 cuda 18.1 中引入， fp8 是 16 位浮点类型的自然发展，减少了神经网络训练的记忆和计算要求。此外，由于其对实数的非线性采样，与 int8 相比， fp8 在推理方面也具有优势。
fp8 由两种编码 e4m3 和 e5m2 组成，其中名称明确表示指数（ e ）和尾数（ m ）位数，符号位隐含。在 cuda c ++中，这些编码公开为 __nv_fp8_e4m3 和 __nv_fp8_e5m2 类型。 nvidia hopper tensor core 支持 fp16 和 fp32 累积的 fp8 矩阵产品。
在 cuda 12.0 （以及 cuda 11.8 ）中， cublas 提供了多种 matmul 操作，支持具有 fp32 累积的 both encodings 。（有关完整列表，请参见 cublas 文档 .） fp8 matmul 操作还支持附加的融合操作，这些操作对于使用 fp8 进行训练和推理非常重要，包括：
除了传统的 alpha 和 beta 外， a 、 b 、 c 和 d 矩阵的每矩阵比例因子
输出矩阵的绝对最大值计算
图 2 :变压器中常见的 gem 示意图，带有尾声、缩放因子和 cublaslt api 支持的多个输出
、和
请注意，所有比例因子都是乘法应用的。这意味着有时需要根据应用的上下文使用缩放因子或其倒数。缩放因子和矩阵之间的乘法的特定顺序无法保证。
cublas 12.0 performance on nvidia h100 gpu
我们比较了 h100 pcie 和 sxm （预览版）与 a100 （ pcie ）上 fp16 、 bf16 和 fp8 gemm 在三种情况下的基本时钟性能： cublas 库对于大矩阵大小的峰值性能，以及 mlperf 和 nvidia 深度学习示例中存在的 gemm 。
大型 gemm 表现出较大的算术强度，因此受到计算限制。当标准化为 a100 时，加速因子接近于 gpu 对之间基础数据类型的峰值性能比率。对于计算绑定的 fp16 gemm ， cublas 库在 h100 sxm 上实现了相对于 a100 的三倍加速。
另一方面， mlperf 和 nvidia dl 示例由跨越一系列算术强度的 gemm 组成。有些距离计算范围较远，因此表现出比大型 gems 更小的加速。对于 mlperf 和 nvidia dl 示例中的 gems ， cublas 库在 h100 sxm 上分别实现了 2.7 倍和 2.2 倍的加速。
在 mlperf 和 nvidia dl 示例中，通过 h100 （ pcie 和 sxm ） gpu 上的 cublaslt 标准化为 a100 pcie gpu ，实现 fp16 矩阵乘法和 gemm 的加速。通过将图形时钟锁定到每个 gpu 的基本时钟来完成测量。
为了比较 h100 上的 fp8 和 bf16 性能，我们选择 a100 上的 bf16 作为基线。之所以选择此选项，是因为 fp8 支持仅在 nvidia hopper 架构上可用。与 a100 pcie 上的 bf16 相比， cublas 库在 h100 sxm 上为 bf16 和 fp8 提供了近 2.8 倍的加速。
图 4 。通过 h100 （ pcie 和 sxm ） gpu 上的 cublaslt 实现加速， bf16 和 fp8 矩阵乘法标准化为 a100 80 gb pcie gpu 。通过将图形时钟锁定到每个 gpu 的基本时钟来完成测量。
nvidia hopper 架构工作空间要求
h100 原生内核增加了对工作空间大小的需求。因此，强烈建议为 cublaslt 调用或使用 cublassetworkspace 时提供至少 32 mib （ 33554432 b ）的工作空间。
cublas 用户体验的改进
cublas 12.0 启用了新的 fp8 和 fp16 / bf16 融合外延。在 nvidia hopper 上， fp8 融合现在提供偏置（ bf16 和 fp16 ）、 relu 和 gelu ，以及辅助输出缓冲器和辅助输出缓冲器。新的 fp16 融合器还可用于 nvidia hopper 的偏置、 relu 和 gelu 、 dbias 和 drelu 。对于 nvidia ampere 架构，单核、更快的 bf16 融合（带有偏置和 gelu ）以及 dbias 和 dgelu 现在已经公开。
heuristics cache 允许将 matmul 问题映射到先前通过启发式选择的内核。这有助于减少重复 matmul 问题的主机端开销。
cublas 12.0 扩展了 cublas api ，以支持 64 位整数问题大小、前导维数和向量增量。这些新函数与 32 位整数对应函数具有相同的 api ，不同之处在于它们的名称中有_64后缀，并将相应的参数声明为int64_t。
例如，对于经典的 32 位整数函数：
cublasstatus_t cublasisamax( cublashandle_t handle, int n, const float *x, int incx, int *result);
64 位整数对应项是：
cublasstatus_t cublasisamax_64( cublashandle_t handle, int64_t n, const float *x, int64_t incx, int64_t *result);
性能是 cublas 的主要关注点，因此当传递给 64 位整数 api 的参数符合 32 位范围时，库将使用与用户调用 32 位整数 api 相同的内核。要尝试新的 api ，迁移应该像向 cublas 函数添加_64后缀一样简单，这要归功于 c / c ++将int32_t值自动转换为int64_t。
cublas 12.0 和 nvidia hopper gpu

基于C89C58RD+单片机与VS1003实现MP3播放器设计
基于区块链的云通讯网络社交生态系统YeeChain介绍
中国智能家居专利中,三星、小米和格力占据前三
Windows 10 Version 2004大更新预计将在今年5月份前后发布将引入新版Windows Display Driver Model
苹果研发环境光传感器专利去掉iPhone 刘海
NVIDIA Hopper GPU上的新cuBLAS12.0功能和矩阵乘法性能
字符串定义及格式
特斯拉一体化压铸技术推动电动车制造革命，谷歌Gemini挑战OpenAI GPT-4
什么是3d打印机？
基于ERP/MES/PCS三层架构的现代集成制造系统模型
什么是人工气候箱，它的功能作用是什么
苹果M1芯片实现首款针对USB4和Thunderbolt 3的定制主控，提供全球首款符合新USB 4系统
超酷科技，带给你全新的电池管理体验！
基本放大电路的工作状态(三)
什么是RDRAM
中国移动正在叩开智能家居的大门！
关于RFID与NFC的关联和区别浅析
苹果设计之魂乔纳森的下一城:年过半百决定创业
固定频率升压型DC-DC转换器LT3579
eBay的平台自动升级解决方案