从回答问题对话到写文章,chatgpt这类应用已经帮我们展示了生成式ai带来的第一波震撼,从openai的路线也可以看出,他们已经在努力把处理对象从单纯的文字,转换成图片、音频乃至视频了。但这也意味着待处理的数据大小以数量级提升,毕竟再长的文本和视频文件大小比起来还是相去甚远。
i/o瓶颈
要想进一步提升生成式ai的处理性能,我们就不得不看下背后为其提供动力的基础设备,也就是gpu、ai加速器、高带宽内存和光模块。ai模型发展的早期,只需单个gpu甚至是cpu就能处理简单的ai模型,而如今这些先进的ai模型,没有大型机柜组成的服务器和成千上万个gpu,是很难运行起来的。
比如特斯拉老版的自动驾驶训练超算,就是由720个节点的8x英伟达a100 gpu构成的,算力高达1.8 eflops。小鹏于去年建成的智算中心扶摇算力规模高达600pflops,预计也用到了上千块gpu。
尽管部署大量gpu是扩展算力的最直接途径,但与此同时传统的互联方案还是创造了巨大的i/o瓶颈,严重影响了gpu的性能利用率,导致更多的时间花在了等待数据而不是处理数据上。
为此,常用的方案变成了添加更多的gpu来弥补性能和计算效率上的损失,可这样的趋势已经在逐渐被淘汰,因为从减少碳足迹的角度来看,全球范围内各个国家都在开始考虑减少数据中心的能源损耗了。
光子ic
除此之外,另一解决方案就是利用光模块来解决速度慢的节点间电气连接,然而光模块成本较高、密度较低,所以需要更高速、端到端又能降低成本互联方案,即芯片到芯片之间的光学i/o。
利用更高带宽的光学连接取代诸多并行和高速串行i/o通道,这一愿景促使了行业对近封装光学和共封装光学的追求。相较外部可插拔的管模块,光子ic可将光学i/o集成到gpu封装内部,用来与其他的gpu节点进行直接通信,进一步提高了ai算力的扩展效率,满足了当下持续增长的ai需求。
近期,sivers semiconductors就在欧洲光通信展览会上展出了他们打造的八波长分布式反馈(dfb)激光器阵列,该阵列集成在了ayar labs的supernova多波长光源中,支持gpu之间最高4tb/s的数据传输。根据ayar labs提供的数据,新的光源配合它们的teraphy封装内光学i/o chiplet,还提供了低上10倍的延迟和8倍的传输能效。
这样的表现无疑极大地提升gpu的性能利用效率,解决当下生成式ai在i/o性能瓶颈上的燃眉之急。尽管光子计算芯片目前尚不能替代传统的电子半导体器件,但从解决带宽和延迟需求上已经有了长足的进步。
写在最后
面对生成式ai模型大小的指数级上涨,以及逐渐庞大起来的推理数据量,传统的i/o性能必然会面临淘汰,而光子ic为高性能的ai芯片提供了一条更快更高效的通路。不过仍然需要注意的是,光子ic与传统ic还有设计与制造上的区别,比如需要特定的设计工具以及工艺等。因此要想发展光子ic跟上这一波趋势,就必须从eda和晶圆代工厂开始抓起。
超级电容器与传统电容器的区别
120W x 3通道D类功放制作,D类功放制作实例
未来智能硬件的发展
华为开发者大会2022,肺功能评估及慢阻肺研究即将正式上线
基于555芯片的直流调光灯电路设计
生成式AI的I/O瓶颈,或许可以用光子IC来突破
高效交流输入激光驱动电源 AAS-XA-XV系列
iQOO手机拆评:iQOO手机真的有热管吗?iQOO手机的天线有缩水吗?
触动中国心 爱国者数码相机触控拍摄新品亮相
未来机器人推出智能机器人,可胜任AI助理工作
Waymo首轮22.5亿美元融资 自动驾驶竞争已经拉开了序幕
高通发布骁龙710 意在狙击联发科
汽车电子包含哪些领域?汽车电气设备分为几部分?
MIPI C-PHY差分传输接口的静噪特点及相应对策
在工业互联网领域应用5G,会遇到哪些瓶颈?
华为荣耀8和vivoX9对比,哪个好一点?
顺序启动和逆时停止的案例程序分享
TSOP封装内存
2011全球芯片产业大局
Intel七代酷睿桌面版国内偷跑 频率喜人