爆红智能AI如何看待DPU

上线仅2个月，openai的最新一代产品 - ai聊天机器人chatgpt月活用户接近1亿。
作为自然语言处理（nlp）领域的前沿研究成果之一，chatgpt已成为aigc里程碑式的产品。
这周我们也与chatgpt聊了聊他/她对大规模预训练背后所需资源的看法。
让我们一起来看看chatgpt的回答是否能让你满意呢？
强大的语言生成能力现在引起更多讨论的是规模预训练。在过去的很长一段时间里，许多的ai厂商都是通过本地设备来进行训练的。
gpt-3所训练的参数约为1750亿个，这部分需要大量的算力，而目前我们已知chatgpt导入了至少1万颗英伟达高端gpu来训练模型。
业界部分专家认为gpt-4训练参数可能会达到100万亿个参数，如此大规模、长时间的gpu集群训练任务，也对网络互联底座的性能、可靠性、成本等各方面都提出了极致的要求。
面对千亿、万亿参数规模的大模型训练，仅仅是单次计算迭代内梯度同步需要的通信量就高达tb量级。此外还有各种并行模式、加速框架引入的通信需求，使得传统低速网络的带宽远远无法支撑gpu集群的高效计算，甚至成为了其中关键的瓶颈。
因此要充分发挥gpu计算资源的强大算力，必须构建一个全新的高性能网络底座，用高速网络的大带宽来助推整个集群计算的高效率。
以cpu+gpu的异构计算模型已经成为高性能计算领域中的主流计算架构。而高吞吐、低延时是高性能计算场景中最为迫切的应用需求。
我们可以知道，gpudirect rdma是rdma在异构计算场景中的应用延伸，使得gpu之间的通信不在依赖cpu转发，从而进一步提升高性能计算场景中整体算力。
从dpu芯片的实现角度看，不同dpu厂商的核心竞争壁垒在于专用加速引擎的硬件实现上。由于dpu是数据中心中所有服务器的流量入口，并以处理报文的方式处理数据，在网络芯片领域积累更多的厂商将更有优势。
传统的gpu在访问存储时，需要将数据先搬移到系统内存，再由系统内存搬移到目标设备。而采用dpu介入后可以绕过cpu，直接通过pcie访问远端的nvme设备，加速ai训练，大大降低cpu的开销。
在ai/ml领域的工作负载对于存储系统的要求十分苛刻，目前此类应用已主要采用全闪存存储，其中nvme全闪存逐渐成为主流趋势。同时存储与前端应用主机的网络存储协议开始采用nvme over fabrics(nvme-of)。
nvme-of是一种存储网络协议，通过网络将nvme命令传送到远程nvme子系统，以利用nvme 全闪存的并行访问和低延迟，该规范定义了一个协议接口，旨在与高性能fabric技术配合使用，包括通过实现rdma技术的infiniband、roce v2、iwarp或tcp。
nvme-of是一种使用nvme协议将访问扩展到远程存储系统的非易失性存储器（nvm）设备的方法。这使得前端接口能够连接到存储系统中，扩展到大量nvme设备，并延长数据中心内可以访问nvme子系统的距离。nvme-of的目标是显著改善数据中心网络延迟，并为远程nvme设备提供近似于本地访问的延迟，目标为10us。
我们知道ai对计算的需求非常大，目前主流的ai加速还是以gpu、fpga和一些专门的ai芯片等为主。在gpu、ai芯片用于ai计算之前都是cpu承担计算的任务，cpu的效率难以满足需求，从而产生cpu+gpu+asic的异构计算。随着dpu的出现，这种异构计算的发展更加彻底，可以更大提供并行处理能力，适合大规模计算的发展。
支持chiplet技术的超异构算力芯片，伴随着ai/ml的发展将会得到更好的应用，而支持die-to-die互联技术将能够提供互联其他ai芯片和算力单元的巨大能力，摆脱一直以来pcie发展的限制。 ‍‍拿芯启源自身举例，以支持高级ai为主要目标之一的芯启源最新的dpu芯片，其架构中就应用chiplet技术。不仅提升了自有智能网卡的性能，通过支持与第三方芯片的die-to-die互联，还可以集成更多的特定专业领域的芯片，比如ai训练中的gpu芯片。
虽然pcie非常的标准，但是带宽非常有限的，pcie gen3的理论带宽是32gb/s，pcie gen4的理论带宽是64gb/s，而实测带宽大概分别是24gb/s和48gb/s。
在ai训练中，每完成一轮计算，都要同步更新一次参数，也就是权系数。模型规模越大，参数规模一般也会更大，这样算力芯片的效率会收到pcie架构的限制，支持更高能力层次的互联技术讲彻底解决带宽限制和瓶颈，极大提升单节点计算效率。
和chatgpt聊了那么多，最后再让我们来看看他/她对于dpu应用了解多少呢？

Top和Block实战经验以及DDR接口时序
引领智慧协同新趋势！MAXHUB全国新品品鉴会上海站完美收官
三大运营商5G集采展开，5G规模建设或将加速
嵌入式系统的实时数据接口扩展研究
《2023 汽车行业数字化转型报告》重磅发布
爆红智能AI如何看待DPU
如何用FPGA来实现机器学习的应用
使用垂直霍尔传感器技术实现维度测量
探析PLC入门知识点
盖瑞特开发更高效的长途商用车电动涡轮增压技术
笔记本键盘个别按键失灵怎么办
透过等保2.0解读业务安全新趋势
如何帮助开发人员快速开展物联网应用
物联网技术在公用事业领域的潜力怎么样
华为打造自己芯片生产线！华为2021年上半年业绩下滑，利润率达到9.8%！
区块链应用场景需要满足什么维度
简述pn结的三种击穿机理
电缆材料PVC和PUR有什么区别
新型全项目土壤肥料养分检测仪
GaN FET助力80 PLUS钛金级效率