Nvidia 通过开源库提升 LLM 推理性能

加利福尼亚州圣克拉拉——nvidia通过一个名为tensorrt llm的新开源软件库，将其h100、a100和l4 gpu的大型语言模型(llm)推理性能提高了一倍。
正如对相同硬件一轮又一轮改进的基准测试结果所证明的那样，在从专用人工智能芯片中挤出尽可能好的性能时，软件往往与硬件一样重要。
“我们所做的很大一部分是硬件和软件的结合，如今英伟达的软件工程师比硬件工程师多，”英伟达超大规模和hpc计算业务副总裁兼总经理ian buck告诉《ee时报》。“这是回到最初的cuda的决定的一部分，也是交付不仅是一个带有指令集的芯片，而且是一个完整的堆栈以满足开发者需求的动机。
他说：“这提供了一个在各个层面进行创新的机会：改变硬件架构、改变指令集、改变编译器、改变驱动程序、改变工具、库等等，这样我们就可以推动整个平台向前发展。”。“在过去20年的加速计算中，这种情况已经多次出现，人工智能推理也是如此。”
tensorrt-llm是nvidia原始深度学习软件库的演变，对llm推理进行了优化。它旨在支持 h100，但也可以应用于 a100 和 l4 部署。
“[在tensorrt-llm中，我们]确保我们为大型语言模型提供最佳的张量核心优化，”buck说。“这允许人们采用任何大型语言模型并通过tensorrt-llm传递，以获得hopper的变压器引擎的好处，该引擎使hopper的fp8计算能力成为可能。而且在生产工作流程中不会有任何准确性损失。
nvidia 的 hopper 架构引入了变压器引擎，这是一个软件库，可智能地管理训练和推理工作负载的精度，以实现最佳性能。buck说，变压器引擎需要对所涉及的数学，统计数据和数据有深入的了解，并在nvidia的编译器上进行大量工作。它有助于在模型投入生产后保持模型的预测准确性，这可能是一个挑战。
“你可以很容易地将32位或16位计算塞进fpga中，但你可能会得到错误的答案，因为它没有你想要的生产级精度，”巴克说。“深思熟虑和谨慎地做到这一点，保持规模和偏差，在某些情况下将计算保持在只有8位的范围内 - 为模型的某些部分保留fp16 - 这是nvidia已经努力了一段时间的事情。
tensorrt-llm还包括一个称为动态批处理的新功能。
buck解释说，llm工作负载，甚至是同一模型的推理工作负载，都是多种多样的。llm从情绪分析等更简单的用例开始，但今天的llm可能正在回答问题，阅读长文本并总结它们，或者为电子邮件，文章，演示文稿等生成长文本或短文本。为llm推理服务的数据中心也可以为许多不同的用户提供许多不同的服务。
与现有的ai工作负载相比，现有的ai工作负载在大小上更有可能相似，因此易于批处理，buck表示，针对同一模型的llm查询在大小方面可能会相差几个数量级，从需要几毫秒才能完成的查询到需要几秒钟的查询。模型也可以堆叠，使事情变得更加复杂。
“我们的标准批处理方法总是等待最长的查询完成，”他说。“图像查询大致花费相同的时间——从效率的角度来看，这不是问题，而且查询可以填充，所以没什么大不了的。
借助新的动态批处理功能，查询完成后，查询可以停用，软件可以插入另一个查询，而较长的查询仍在进行中。这有助于提高具有不同查询长度的 llm 的 gpu 利用率。
“坦率地说，结果甚至让我感到惊讶，”巴克说。“它使hopper的性能翻了一番。hopper 是一个非常强大的 gpu，它可以在同一个 gpu 中并行处理大量查询，但如果没有动态批处理，如果你给它多样化的查询，它会等待最长的查询，而不会被充分利用。
tensorrt-llm是开源的，以及nvidia的所有llm工作，包括许多llm模型，如gpt，bloom和falcon，这些模型已经通过内核融合，更快的注意力，多头注意力等技术进行了优化。所有这些操作的内核都作为tensorrt-llm的一部分开源。
“这使得对性能感兴趣的研究人员有一个起点，使其更快，”巴克说。“我们的客户和用户很欣赏，如果他们有一个想要部署的特定想法，他们可以针对他们的用例进一步优化一些东西。
创新来自学术界，也来自meta、microsoft和谷歌等公司。虽然 nvidia 与他们合作优化推理，虽然优化可能会成为学术论文，但“世界没有一个好地方去获得这些优化，而且 nvidia 工程师所做的工作没有得到一个可以帮助世界其他地方的地方分享，“巴克说。
buck补充说，tensorrt-llm的性能提升在下一轮mlperf推理分数中应该是显而易见的，该分数将于明年春天到期。

有51基础很容易入门ARM是真的吗
2.4G NRF2401的无线通讯实现
龙腾电子12亿高精密多层印制板生产线落户珠海
供热锅炉能源审计物联网云管理系统
虹科Safran与安立Anritsu合作推出C-V2X PC5通信功能验证方案
Nvidia 通过开源库提升 LLM 推理性能
如何设计出一种可以自我调整的共识协议
电压比较器能替代运算放大器用吗
URLConnection（）和openStream（）两个方法产生SSRF的原理和修复方法
阻碍区块链技术发展的因素有哪些
自家机型都适配不过来为什么魅族还要适配其他机型！
用三极管制作音乐变色彩灯电路
SMT加工产生锡珠的原因
华大HC32F460 HC32F4A0加速程序运行速度
中国实现自给自足，多晶硅厂商瓦克化学销量跌至历史新低
CQC认证如何询价?
如何选购蓝光芯片
手机行业正在酝酿着一场防水技术革新风暴
光子集成电路的发展方向解读
我们常用的电阻器和电容器的标称值有哪些