加利福尼亚州圣克拉拉——nvidia通过一个名为tensorrt llm的新开源软件库,将其h100、a100和l4 gpu的大型语言模型(llm)推理性能提高了一倍。
正如对相同硬件一轮又一轮改进的基准测试结果所证明的那样,在从专用人工智能芯片中挤出尽可能好的性能时,软件往往与硬件一样重要。
“我们所做的很大一部分是硬件和软件的结合,如今英伟达的软件工程师比硬件工程师多,”英伟达超大规模和hpc计算业务副总裁兼总经理ian buck告诉《ee时报》。“这是回到最初的cuda的决定的一部分,也是交付不仅是一个带有指令集的芯片,而且是一个完整的堆栈以满足开发者需求的动机。
他说:“这提供了一个在各个层面进行创新的机会:改变硬件架构、改变指令集、改变编译器、改变驱动程序、改变工具、库等等,这样我们就可以推动整个平台向前发展。”。“在过去20年的加速计算中,这种情况已经多次出现,人工智能推理也是如此。”
tensorrt-llm是nvidia原始深度学习软件库的演变,对llm推理进行了优化。它旨在支持 h100,但也可以应用于 a100 和 l4 部署。
“[在tensorrt-llm中,我们]确保我们为大型语言模型提供最佳的张量核心优化,”buck说。“这允许人们采用任何大型语言模型并通过tensorrt-llm传递,以获得hopper的变压器引擎的好处,该引擎使hopper的fp8计算能力成为可能。而且在生产工作流程中不会有任何准确性损失。
nvidia 的 hopper 架构引入了变压器引擎,这是一个软件库,可智能地管理训练和推理工作负载的精度,以实现最佳性能。buck说,变压器引擎需要对所涉及的数学,统计数据和数据有深入的了解,并在nvidia的编译器上进行大量工作。它有助于在模型投入生产后保持模型的预测准确性,这可能是一个挑战。
“你可以很容易地将32位或16位计算塞进fpga中,但你可能会得到错误的答案,因为它没有你想要的生产级精度,”巴克说。“深思熟虑和谨慎地做到这一点,保持规模和偏差,在某些情况下将计算保持在只有8位的范围内 - 为模型的某些部分保留fp16 - 这是nvidia已经努力了一段时间的事情。
tensorrt-llm还包括一个称为动态批处理的新功能。
buck解释说,llm工作负载,甚至是同一模型的推理工作负载,都是多种多样的。llm从情绪分析等更简单的用例开始,但今天的llm可能正在回答问题,阅读长文本并总结它们,或者为电子邮件,文章,演示文稿等生成长文本或短文本。为llm推理服务的数据中心也可以为许多不同的用户提供许多不同的服务。
与现有的ai工作负载相比,现有的ai工作负载在大小上更有可能相似,因此易于批处理,buck表示,针对同一模型的llm查询在大小方面可能会相差几个数量级,从需要几毫秒才能完成的查询到需要几秒钟的查询。模型也可以堆叠,使事情变得更加复杂。
“我们的标准批处理方法总是等待最长的查询完成,”他说。“图像查询大致花费相同的时间——从效率的角度来看,这不是问题,而且查询可以填充,所以没什么大不了的。
借助新的动态批处理功能,查询完成后,查询可以停用,软件可以插入另一个查询,而较长的查询仍在进行中。这有助于提高具有不同查询长度的 llm 的 gpu 利用率。
“坦率地说,结果甚至让我感到惊讶,”巴克说。“它使hopper的性能翻了一番。hopper 是一个非常强大的 gpu,它可以在同一个 gpu 中并行处理大量查询,但如果没有动态批处理,如果你给它多样化的查询,它会等待最长的查询,而不会被充分利用。
tensorrt-llm是开源的,以及nvidia的所有llm工作,包括许多llm模型,如gpt,bloom和falcon,这些模型已经通过内核融合,更快的注意力,多头注意力等技术进行了优化。所有这些操作的内核都作为tensorrt-llm的一部分开源。
“这使得对性能感兴趣的研究人员有一个起点,使其更快,”巴克说。“我们的客户和用户很欣赏,如果他们有一个想要部署的特定想法,他们可以针对他们的用例进一步优化一些东西。
创新来自学术界,也来自meta、microsoft和谷歌等公司。虽然 nvidia 与他们合作优化推理,虽然优化可能会成为学术论文,但“世界没有一个好地方去获得这些优化,而且 nvidia 工程师所做的工作没有得到一个可以帮助世界其他地方的地方分享,“巴克说。
buck补充说,tensorrt-llm的性能提升在下一轮mlperf推理分数中应该是显而易见的,该分数将于明年春天到期。
有51基础很容易入门ARM是真的吗
2.4G NRF2401的无线通讯实现
龙腾电子12亿高精密多层印制板生产线落户珠海
供热锅炉能源审计物联网云管理系统
虹科Safran与安立Anritsu合作推出C-V2X PC5通信功能验证方案
Nvidia 通过开源库提升 LLM 推理性能
如何设计出一种可以自我调整的共识协议
电压比较器能替代运算放大器用吗
URLConnection()和openStream()两个方法产生SSRF的原理和修复方法
阻碍区块链技术发展的因素有哪些
自家机型都适配不过来为什么魅族还要适配其他机型!
用三极管制作音乐变色彩灯电路
SMT加工产生锡珠的原因
华大HC32F460 HC32F4A0加速程序运行速度
中国实现自给自足,多晶硅厂商瓦克化学销量跌至历史新低
CQC认证如何询价?
如何选购蓝光芯片
手机行业正在酝酿着一场防水技术革新风暴
光子集成电路的发展方向解读
我们常用的电阻器和电容器的标称值有哪些