(文章来源:教育新闻网)
支持ai和ml部署的数据中心依靠基于图形处理单元(gpu)的服务器为其计算密集型架构提供支持。在多个行业中,到2024年,gpu使用量的增长将落后于gpu服务器预计超过31%的复合年增长率。这意味着将承担更多的系统架构师的职责,以确保gpu系统具有最高的性能和成本效益。
然而,为这些基于gpu的ai / ml工作负载优化存储并非易事。存储系统必须高速处理海量数据,同时应对两个挑战:
服务器利用率1)。gpu服务器对于训练大型ai / ml数据集所需的矩阵乘法和卷积非常高效。但是,gpu服务器的成本是典型cpu服务器的3倍。为了保持roi,it员工需要保持gpu繁忙。不幸的是,丰富的部署经验表明gpu仅以30%的容量使用。
该2)。ml训练数据集通常远远超过gpu的本地ram容量,从而创建了一个i / o瓶颈,分析人员将其称为gpu存储瓶颈。ai和ml系统最终要等待访问存储资源,这是因为它们的庞大规模阻碍了及时访问,从而影响了性能。为了解决这个问题,nvme闪存固态硬盘逐渐取代了标准闪存固态硬盘,成为al / ml存储的首选。
nvme支持大规模的io并行性,性能约为同类sata ssd的6倍,并且延迟降低了10倍,并且具有更高的电源效率。正如gpu推动了高性能计算的发展一样,nvme闪存在降低延迟的同时,实现了更高的存储性能,带宽和io / s。nvme闪存解决方案可以将ai和ml数据集加载到应用程序的速度更快,并且可以避免gpu匮乏。
此外,可通过高速网络虚拟化nvme资源的基于光纤的nvme(nvmeof)启用了特别适用于ai和ml的存储架构。nvmeof使gpu可以直接访问nvme的弹性池,因此可以使用本地闪存性能来访问所有资源。它使ai数据科学家和hpc研究人员可以向应用程序提供更多数据,以便他们更快地获得更好的结果。
要获得最佳的gpu存储性能,就需要根据业务目标对基础架构进行微调。这里有四种方法可供考虑:
有效扩展gpu存储容量1)例如,instadeep为可能不需要或不需要运行自己的ai堆栈的组织提供了ai即服务解决方案。因此,instadeep需要最大的roi和可扩展性。特别是,对多租户的需求意味着基础架构必须随时准备就绪,以满足各种工作负载和客户端的性能要求。
instadeep基础架构团队在部署其第一个gpu服务器系统的早期就了解到,本地gpu服务器的存储容量将太有限,只有4tb的本地存储,而客户的工作量则需要10到100 tb的tb。该团队研究了外部存储选项,并注意到,使用传统阵列它们将获得更多的容量,但性能最终会阻碍ai工作负载,因为应用程序需要将数据移入和移出gpu系统,从而中断工作流程并影响系统效率。
通过使用软件定义的存储在快速的rdma网络上合并nvme闪存(一种将数据集加载速度提高10倍的方法),instadeep可以实现更高的gpu容量利用率,消除了gpu瓶颈并提高了roi,因为现有的gpu变得更加完整利用。
如何振兴中国的传感器产业?
粉色版Galaxy Note台湾现预售4月初推出
具有优良尺寸稳定性的排针连接器
汽车芯片设计厂商杰发科技受邀出席2021世界半导体大会
瑞士官员担心加密货币基金会的成立会招致负面的影响
数据中心依靠服务器为其计算密集型架构提供支持
霍尼韦尔M.Sonic中低压超声波气体流量计
MAX2205—检测高峰均比信号
蔡司三坐标DuraMax车间三坐标测量仪一站式解决方案
微软额外提供云游戏服务xCloud
教你们视觉SLAM如何去提高定位精度
索尼wf-sp700n评测 骑车也能好好听歌了
日置模拟兆欧表IR4000系列和3490的使用小窍门
全新5G核心网测试解决方案助力创造安全互联世界
三星电子Q3营收522.4亿美元,同比增长145%,内存芯片业务获头功
如何构建完善高效的回收体系?七大建议推进动力电池回收利用可持续发展
五种关于RTC是否具备日历功能?
业界首款具有8K分辨率的8.3和13.3英寸OLED显示器
介绍一种魏德米勒的自动化远程I/O方案
关于以新业态新模式引领新型消费加快发展的意见