支持ai人工智能和ml机器学习部署的数据中心依靠基于图形处理单元(gpu)的服务器为其计算密集型架构提供支持。到2024年,在多个行业中,gpu使用量的增长将使gpu服务器的复合年增长率超过31%。这意味着将有更多的系统架构师承担承担相应的职责,以确保gpu系统具有最高的性能和成本效益。
然而,为这些基于gpu的ai / ml工作负载优化存储并非易事。存储系统必须高速处理海量数据,与此同时需要注意以下两个挑战:
1)服务器利用率。gpu服务器对于训练大型ai / ml数据集所需的矩阵乘法和卷积非常高效。但是,gpu服务器的成本是典型cpu服务器的3倍。为了保持roi,it员工需要让gpu使用率足够饱和。但不幸的是,很多部署经验表明gpu仅有30%的使用率。
2)gpu存储瓶颈。ml训练数据集通常远远超过gpu的本地ram容量,从而产生了一个i / o瓶颈,分析人员将其称为gpu存储瓶颈。ai和ml系统最终要等待访问存储资源,这是因为它们庞大的数据阻碍了及时访问,从而影响了性能。
为了解决这个问题,nvme闪存固态硬盘逐渐取代了标准闪存固态硬盘,成为al / ml存储的首选。nvme支持大规模的io并行性,性能约为同类sata ssd的6倍,并且延迟降低了10倍,并且具有更高的电源效率。正如gpu推动了高性能计算的发展一样,nvme闪存在降低延迟的同时,实现了更高的存储性能、带宽和吞吐量。nvme闪存解决方案可以使ai和ml数据集加载到应用程序的速度更快,并且可以避免gpu匮乏。
此外,nvme over fabrics可以虚拟化整个高速网络上的nvme资源,通过nvmeof技术可以更好的适用于ai和ml的存储架构。nvmeof使gpu可以直接访问nvme的弹性池,因此可以使用本地闪存性能来访问所有资源。它使ai数据科学家和hpc研究人员可以向应用程序提供更多数据,以便他们更快地获得更好的结果。
要获得最佳的gpu存储性能,就需要根据业务目标对基础架构进行微调。这里有四种方法可供考虑。
1.有效扩展gpu存储容量
例如,某存储公司为不需要运行自己的ai堆栈的组织提供了ai即服务解决方案。因此,这家公司需要最大的roi和可扩展性。特别是对多租户的需求,这意味着为满足各种工作负载和客户端的性能要求,基础架构必须随时准备就绪。
该基础架构团队在部署其第一个gpu服务器系统的早期就了解到,本地gpu服务器的存储容量将太有限,只有4tb的本地存储,而客户的工作量则需要10到100 tb的数据。该团队研究了外部存储选项,并注意到,使用传统阵列它们将获得更多的容量,但性能最终会阻碍ai工作负载,因为应用程序需要将数据移入和移出gpu系统,从而中断工作流程并影响系统效率。
最终这家公司通过使用软件定义存储在快速的rdma网络上合并nvme闪存(一种将数据集加载速度提高10倍的方法),最终可以实现更高的gpu容量利用率,消除了gpu瓶颈并提高了roi,因此现有的gpu变得更加充分利用。(注:参考lnstadeep)
2.大规模调整性能
ai部署的快速增长和ml训练数据集的大小增加了计算基础架构的负担,stfc(the science and technology facilities council )则是这种典型的代表。尽管stfc已添加了高端gpu服务器以提供更高的计算支持,但stfc缺乏在数百个researchers 中扩展资源所需的企业级存储功能。
通过在具有rdma功能的高速网络(例如infiniband或融合以太网(roce)v2上的rdma)上实现nvme-over-fabrics协议,大型ai / ml用户组(例如stfc)可以虚拟化nvme ssd在各种服务器上未使用的存储资源池,因此它们的性能就像在本地一样。通过这样做,可以在一个小时内完成机器学习培训任务,而以前则需要三到四天。即使具有复杂的模型训练任务,gpu存储也不再是瓶颈。
3.在并行文件系统下使用nvme池化存储
当ai和ml应用程序涉及从许多gpu服务器访问大量小文件时,作为存储基础架构就必须部署并行分布式文件系统。并行文件系统还使存储更容易实现大多数ai / ml使用所需的高吞吐量和低延迟。在并行文件系统下具有快速、灵活的池化nvme存储,可以改善对元数据的处理,从而实现更高的读取性能和更低的延迟,从而提高gpu服务器的利用率。
例如,一家超大型技术提供商最近推出了一种ai解决方案,用于预估保险公司使用的车辆碰撞场景。为了开发应用程序背后的ai逻辑,应用程序工作流涉及培训模型,方法是摄取多达2000万个小文件数据集,其中每个文件大小在150-700 kb之间。数据提取通常每8小时以100万个文件的速度或者每个客户端每秒最多35,000个文件进行。
通过在并行分布式文件系统下使用池化nvme存储方法,该技术提供商消除了它遇到的存储瓶颈,并将存储性能提高了3-4倍。
4.检查特定于gpu的“高速公路”
新的数据中心架构正在以统一的方式提高服务器、网络和存储的性能。一种类似的方法于2019年秋季首次亮相,它将来自多个供应商的基础架构元素与gpu优化的网络和存储进行集成,以在gpu内存和存储之间打开直接的数据通道,从而完全绕开cpu。这使数据能够在gpu、存储和网络设备提供的“开放高速公路”上进行传输,从而实现了对nvme企业级卓越性能的无障碍访问。
总结
ai和ml的创新步伐迅捷,这意味着当今的部署依赖及关键技术在一年前可能是不存在的,在明年也可能被新技术取代。现在精通微调gpu存储性能的it团队已经意识到它们之前的许多新选择,可以实现最佳的系统利用率和roi,从而为其组织带来竞争优势。
iPhone 8确定用OLED屏,苹果抛2亿订单三星LG疯抢
如何使电动车电池寿命更长(方法篇)
关于直线电机在生产过程中需要做到的测试环节
Arm“狠心”终止华为的技术授权之路,技术授权是否有替代方案?
3nm工艺白热化,台积电、三星、英特尔各有何进展与优势
GPU存储性能怎样去获得
日月光又拿下中兴通讯5G基站芯片订单
涤纶电容和独石电容有什么区别
苹果 iPhone 12 Pro Max 在美国成为最受欢迎的 5G 智能手机
螺丝供料器的价格如何
万物互联,嗖嗖开启“平台化”黄金时代
通领科技专利无效 公牛IPO之路又少一障碍
回顾2018年对小米来说可谓喜忧参半
新飞即将复工,康佳为新飞的现状制定了三年改造计划
不限于程序员职业属性的通用工具盘点
关于人工智能这篇文章最易懂:原理、技术和未来
经过认证的耳机将在新版Android系统中获得更多功能
示波器无源探头x10信号是增大还是衰减
诺基亚联手西门子冲击TD-SCDMA格局
独立站成跨境电商终极答案,解锁中小企业吃透红利方式