NVIDIA 、 Arm和Intel发布FP8标准化规范作为AI的交换格式

人工智能处理需要跨硬件和软件平台的全栈创新,以满足神经网络日益增长的计算需求。提高效率的一个关键领域是使用较低精度的数字格式来提高计算效率,减少内存使用,并优化互连带宽。
为了实现这些好处,业界已经从 32 位精度转换为 16 位,现在甚至是 8 位精度格式。 transformer 网络是人工智能中最重要的创新之一,尤其受益于 8 位浮点精度。我们相信,拥有一种通用的交换格式将使硬件和软件平台的快速发展和互操作性得以提高,从而推动计算。
nvidia 、 arm 和 intel 联合撰写了一份白皮书 fp8 formats for deep learning ,描述了 8 位浮点( fp8 )规范。它提供了一种通用的格式,通过优化内存使用来加速人工智能的开发,并适用于人工智能训练和推理。此 fp8 规格有两种变体, e5m2 和 e4m3 。
该格式在 nvidia 料斗体系结构中本地实现,并在初始测试中显示出出色的结果。它将立即受益于更广泛的生态系统所做的工作,包括 ai 框架,为开发者实现它。
兼容性和灵活性
fp8 通过硬件和软件之间的良好平衡,最大限度地减少了与现有 ieee 754 浮点格式的偏差,以利用现有实现,加快采用速度,并提高开发人员的生产力。
e5m2 使用五位表示指数,两位表示尾数,是一种截断的 ieee fp16 格式。在需要更高精度而牺牲某些数值范围的情况下, e4m3 格式进行了一些调整,以扩展用四位指数和三位尾数表示的范围。
新格式节省了额外的计算周期,因为它只使用 8 位。它可以用于人工智能训练和推理,而不需要在精度之间进行任何重铸。此外,通过最小化与现有浮点格式的偏差,它为未来 ai 创新提供了最大的自由度,同时仍坚持当前的惯例。
高精度训练和推理
测试提议的 fp8 格式显示,在广泛的用例、架构和网络中,其精度相当于 16 位精度。变压器、计算机视觉和 gan 网络的结果都表明, fp8 训练精度与 16 位精度相似,但可以显著提高速度。有关精度研究的更多信息,请参阅 fp8 formats for deep learning 白皮书。
图 1.语言模型人工智能培训
在图 1 中,不同的网络使用不同的精度度量( ppl 和 loss ),如图所示。
图 2.语言模型 ai 推理
在人工智能行业领先的基准 mlperf inference v2.1 中, nvidia hopper 利用这种新的 fp8 格式在 bert 高精度模型上实现了 4.5 倍的加速,在不影响精度的情况下获得了吞吐量。
走向标准化
nvidia 、 arm 和 intel 以开放、无许可证的格式发布了此规范,以鼓励行业广泛采用。他们还将向 ieee 提交该提案。
通过采用一种保持准确性的可互换格式,人工智能模型将在所有硬件平台上持续高效地运行,并有助于推动人工智能的发展。
鼓励标准机构和整个行业
关于作者
shar narasimhan 是 ai 的高级产品营销经理,专门从事 nvidia 的 tesla 数据中心团队的深度学习培训和 oem 业务。


直线电机模组激光雕刻技术展现天津617年历史
告别传统路由!4G路由器让你轻松上网
中微CMS32F03564KB Flash,双运放,双比较器高性能MCU
出炉!盘点28家连接器上市企业半年报
为什么在计算机里Byte是从-128到127?
NVIDIA 、 Arm和Intel发布FP8标准化规范作为AI的交换格式
非绝缘DC/DC功率模块PTN04050A/C的特点性能及应用范围
机器自动化程度排行榜, 第一名竟然在亚洲
工业人工智能浪潮下人机交互的分析和解读
从中国智能手机产业链看本土芯片厂商的机会
74ls181引脚图及功能_逻辑功能及特性
1月29日!赛思将亮相央视财经频道《新型工业化之路——专精特新》节目
python 7个好用的装饰器分享
298.2亿美元的机器人市场,为什么过得有点“惨”?
AMD 将于 2028 年在印度投资 4 亿美元,建设其最大的设计中心
基于FPGA的数字电路设计
京东方175亿LCD厂遭质疑:未投产已落后两代半
比亚迪“眼红”海外电池红利 全球巨头争锋欧洲
洛杉矶未来将强制命令每一辆网约车都只能使用电动汽车
创新实践,复合机器人采摘运输教育沙盘案例研究