NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

本文将介绍亚马逊如何使用 nvidia nemo 框架、gpu
以及亚马逊云科技的 efa 来训练其
最大的新一代大语言模型（llm）。
大语言模型的一切都很庞大——巨型模型是在数千颗 nvidia gpu 和海量的数据集上所训练而成。
不过这可能会给想要使用生成式 ai 的企业带来很多巨大的挑战。nvidia nemo（一个用于构建、自定义和运行 llm 的框架）能够帮助企业克服上述挑战。
亚马逊云科技（aws）有一支由资深科学家和开发者组成的团队，致力于为 amazon bedrock（一项用于基础模型的生成式 ai 服务）创建 amazon titan 基础模型。该团队在过去几个月中一直在使用 nvidia nemo。
亚马逊云科技高级应用科学家 leonard lausen 表示：“我们使用 nemo 的一大原因是它具有可扩展性，其优化功能使我们能够以较高的 gpu 利用率运行，同时能够扩展到更大的集群，进而能够更快地训练出模型，并向客户交付。”
实现真正的大规模训练
nemo 的并行技术可实现高效的大规模 llm 训练。当与亚马逊云科技的 elastic fabric adapter（efa）配合使用时，团队可以将 llm 扩展到多颗 gpu 上，从而加快训练速度。
efa 为亚马逊云科技客户提供了一个 ultracluster 联网基础设施，可直接连接 1 万多颗 gpu，并使用 nvidia gpudirect 绕过操作系统和 cpu。
这一结合使亚马逊云科技的科学家们能够提供出色的模型质量，这是只依靠其他数据并行方法无法大规模实现的。
通用框架
lausen 表示：“nemo 的灵活性支持亚马逊云科技根据新的 titan 模型、数据集和基础设施的具体情况来定制训练软件。
亚马逊云科技的创新成果包括从 amazon simple storage service（amazon s3）到 gpu 集群的高效流式传输。lausen 表示：“由于 nemo 本身就是基于标准化 llm 训练管线组件的常用程序库（如 pytorch lightning）所构建的，因此整合这些改进很容易。”
亚马逊云科技和 nvidia 的共同目标是将双方的合作经验融入到 nvidia nemo 等产品和 amazon titan 等服务中，最终造福客户。
gtc 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行，线上大会也将同期开放。扫描下方海报二维码，立即注册 gtc 大会。
原文标题：nvidia 为部分大型亚马逊 titan 基础模型提供训练支持
文章出处：【微信公众号：nvidia英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

新型FPGA数据架构的SmartNIC设计方案赋能5G网络和数据中心
SD-WAN三种不同场景的部署和实践
黑鲨5系列中国航天版正式发布
ADAYO华阳精机获得弗迪动力的高度认可
中国联通与宝马就下一代移动通信业务达成合作
NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持
基于TDA2009A制作的小功放电子电路设计图
华硕ROGPhone体验玩游戏到底怎么样
MathWorks的产品能够更好地助力于各行业的数字化转型
自动驾驶领军企业Mobileye：我们将坚不可摧
关于AI医疗企业的行业前景与投资机会详解
多个开关控制一个灯的方法电路图
VR产业未来的发展将走向何方
微软Edge浏览器支持历史记录和选项卡同步
求一种700M干扰分析和规避方案
深开鸿携手行业专家共同完成行业扩展兼容性测评方案设计
高通推处理器AI引擎 GPU和DSP组件首先启用
苹果自研5G基带芯片或推迟至2026年
粉尘检测仪和尘埃粒子计数器的区别是什么
电源适配器和电源模块有什么区别？