英伟达H100 Transformer引擎加速AI训练 准确而且高达6倍性能

在当今计算平台上,大型 ai 模型可能需要数月来完成训练。而这样的速度对于企业来说太慢了。
随着一些模型(例如大型语言模型)达到数万亿参数,ai、高性能计算和数据分析变得日益复杂。
nvidia hopper 架构从头开始构建,凭借强大的算力和快速的内存来加速这些新一代 ai 工作负载,从而处理日益增长的网络和数据集。
transformer 引擎是全新 hopper 架构的一部分,将显著提升 ai 性能和功能,并助力在几天或几小时内训练大型模型。
使用 transformer 引擎训练 ai 模型
transformer 模型是当今广泛使用的语言模型(例如 asbert 和 gpt-3)的支柱。transformer 模型最初针对自然语言处理用例而开发,但因其通用性,现在逐步应用于计算机视觉、药物研发等领域。
与此同时,模型大小不断呈指数级增长,现在已达到数万亿个参数。由于计算量巨大,训练时间不得不延长到数月,而这样就无法满足业务需求。
transformer 引擎采用 16 位浮点精度和新增的 8 位浮点数据格式,并整合先进的软件算法,将进一步提升 ai 性能和功能。
ai 训练依赖浮点数,浮点数是小数,例如 3.14。tensorfloat32 (tf32) 浮点格式是随 nvidia ampere 架构而面世的,现已成为 tensorflow 和 pytorch 框架中的默认 32 位格式。
大多数 ai 浮点运算采用 16 位“半”精度 (fp16)、32 位“单”精度 (fp32),以及面向专业运算的 64 位“双”精度 (fp64)。transformer 引擎将运算缩短为 8 位,能以更快的速度训练更大的网络。
与 hopper 架构中的其他新功能(例如,在节点之间提供直接高速互连的 nvlink switch 系统)结合使用时,h100 加速服务器集群能够训练庞大网络,而这些网络此前几乎无法以企业所需的速度进行训练。
更深入地研究 transformer 引擎
transformer 引擎采用软件和自定义 nvidia hopper tensor core 技术,该技术旨在加速训练基于常见 ai 模型构建模块(即 transformer)构建的模型。这些 tensor core 能够应用 fp8 和 fp16 混合精度,以大幅加速 transformer 模型的 ai 计算。采用 fp8 的 tensor core 运算在吞吐量方面是 16 位运算的两倍。
模型面临的挑战是智能管理精度以保持准确性,同时获得更小、更快数值格式所能实现的性能。transformer 引擎利用定制的、经nvidia调优的启发式算法来解决上述挑战,该算法可在 fp8 与 fp16 计算之间动态选择,并自动处理每层中这些精度之间的重新投射和缩放。
transformer engine 使用每层统计分析来确定模型每一层的最佳精度(fp16 或 fp8),在保持模型精度的同时实现最佳性能。
与上一代 tf32、fp64、fp16 和 int8 精度相比,nvidia hopper 架构还将每秒浮点运算次数提高了三倍,从而在第四代 tensor core 的基础上实现了进一步提升。hopper tensor core 与 transformer 引擎和第四代 nvlink 相结合,可使 hpc 和 ai 工作负载的加速实现数量级提升。
加速 transformer 引擎
ai 领域的大部分前沿工作都围绕 megatron 530b 等大型语言模型展开。下图显示了近年来模型大小的增长趋势,业界普遍认为这一趋势将持续发展。许多研究人员已经在研究用于自然语言理解和其他应用的超万亿参数模型,这表明对 ai 计算能力的需求有增无减。
自然语言理解模型仍在快速增长。
为满足这些持续增长的模型的需求,高算力和大量高速内存缺一不可。nvidia h100 tensor core gpu 两者兼备,再加上 transformer 引擎实现的加速,可助力 ai 训练更上一层楼。
通过上述方面的创新,就能够提高吞吐量,将训练时间缩短 9 倍——从 7 天缩短到仅 20 个小时:
与上一代相比,nvidia h100 tensor core gpu 提供 9 倍的训练吞吐量,从而可在合理的时间内训练大型模型。
transformer 引擎还可用于推理,无需进行任何数据格式转换。以前,int8 是实现出色推理性能的首选精度。但是,它要求经训练的网络转换为 int8,这是优化流程的一部分,而 nvidia tensorrt 推理优化器可轻松实现这一点。
使用以 fp8 精度训练的模型时,开发者可以完全跳过此转换步骤,并使用相同的精度执行推理操作。与 int8 格式的网络一样,使用 transformer 引擎的部署能以更小的内存占用空间运行。
在 megatron 530b 上,nvidia h100 的每 gpu 推理吞吐量比 nvidia a100 高 30 倍,响应延迟为 1 秒,这表明它是适用于 ai 部署的上佳平台:
对于低延迟应用,transformer 引擎还可将推理吞吐量提高 30 倍。

惠普战60商用一体机电脑评测 彻底告别杂乱的办工桌环境享受高效便捷的办公体验
Cirrus Logic推出面向Alexa语音服务的开发套件 用于智能扬声器和智能家居应用
适用于工业自动化领域的MicroSpeed连接器
机器人产业助力京津冀地区的发展
通用汽车未来5年内将推出30款新型电动汽车
英伟达H100 Transformer引擎加速AI训练 准确而且高达6倍性能
雾计算的定义及其与物联网的关系解析
华为云大数据治理轻量级解决方案为中长尾企业赋能
同轴电缆芯线电容测量方法研究
LG V30将推送安卓8.0 显示效果跟三星OLED屏不分上下
NEVS与柯尼赛格签订合作协议 计划打造世界领先的新能源汽车
高效率﹑低成本ISM频段发送器中的功放电路
存储器的主要功能是什么,它的常见分类是什么
多地布局自动驾驶产业_5G让自动驾驶走进现实
如何用Python进行无监督学习
AI逐步深入产业发展 大学生何以勇攀时代高峰
HRA(B)W1~25W系列模块电源介绍
边缘计算网关需要了解的五大优势
5G风口之下智能家居的安全问题不容忽视
智能显示屏让家居系统迎来了新的变化