用Chiplet解决ASIC在LLM上的成本问题

虽说最近靠着gpt大语言模型的热度,英伟达之类的主流gpu公司赚得盆满钵满,但要说仗着gpu的高性能就能高枕无忧的话,也就未免有些痴人说梦了。未来随着llm的继续发展,训练与推理如果要花费同样的硬件成本,那么即便是大厂也难以负担。
所以不少厂商都在追求如何削减tco(总拥有成本)的办法,有的从网络结构出发,有的从自研asic出发的,但收效甚微,到最后还是得花大价钱购置更多的gpu。而来自华盛顿大学和悉尼大学的几位研究人员,在近期鼓捣出的chiplet cloud架构,却有可能颠覆这一现状。
tco居高不下的因素
对于大部分厂商来说,纯粹的tco并不是他们考虑的首要因素,他们更关注的是同一性能下如何实现更低的tco。当下,限制gpu在llm推理性能上的主要因素之一,不是tensor核心的利用率,而是内存带宽。
比如在更小的batch size和普通的推理序列长度下,内存带宽就会限制对模型参数的读取,比如把参数从hbm加载到片上寄存器,因为全连接层中的gemm(通用矩阵乘)计算强度不高,几乎每次计算都需要加载新的参数。
而chiplet cloud为了获得更好的tco与性能比,选择了片上sram而不是hbm的外部内存方案,将所有模型参数和中间数据(比如k和v向量等)缓存到片上内存中去,从而实现了比传统的ddr、hbm2e更好的单token tco表现,同时也获得了更大的内存带宽。
chiplet cloud,作为基于chiplet的asic ai超算架构,正是专为llm减少生成单个token所需的tco成本设计的。从他们给出的评估数据对比来看,与目前主流的gpu和tpu对比,只有chiplet cloud对于tco/token做了极致的优化。比如在gpt-3上,32个chiplet cloud服务器相较32个dgx a100服务器的tco成本改善了94倍,在palm 540b上,30个chiplet cloud服务器相较64个tpuv4芯片将tco改善了15倍。
更灵活的chiplet方案
为什么选择chiplet呢?我们先来看一个极端的堆片上内存的例子,也就是直接选择晶圆级的“巨芯”,比如cerebras systems打造的wse-2芯片。该芯片基于7nm工艺下的一整片12英寸晶圆打造,集成了2.6万亿个晶体管,面积达到46255mm2,片上内存更是达到了40gb。
但这样的巨芯设计意味着高昂的制造成本,所以chiplet cloud的研究人员认为更大的sram应该与相对较小的芯片对应,这样才能减少制造成本,所以他们选择了chiplet的设计方式。近来流行的chiplet方案提高了制造良率,也减少了制造成本,允许在不同的系统层级上进行设计的重复利用。
以台积电7nm工艺为例,要想做到0.1/cm2的缺陷密度,一个750mm2芯片的单价是一个150mm2芯片单价的两倍,所以chiplet的小芯片设计成本更低。重复利用的设计也可以进一步降低成本,加快设计周期,为asic芯片提供更高的灵活性。
chiplet cloud更适合哪些厂商
虽然论文中提到了不少chiplet cloud的优点,但这依然是一个尚未得到实际产品验证的架构,拥有验证实力的公司往往也只有微软、谷歌、亚马逊以及阿里巴巴这类具备芯片设计实力的公司。况且asic终究是一种特化的方案,最清楚云平台计算负载需要哪些优化,还得是云服务厂商自己。

VCA610典型超声波应用电路
C语言技巧之回调函数
新型医疗连接技术协助改进中国透析治疗
联发科手机芯片缺货 荐OPPO转单高通
芯华章宣布谢仲辉出任首席市场战略官,推动重大创新与生态建设
用Chiplet解决ASIC在LLM上的成本问题
LPWAN未来的前景几何?是否值得持续投入?
高低温试验箱选型考虑因素
nRF24L01的干扰问题分析
Leica激光跟踪仪如何提工业大型零部件质量和效率
苹果或在下一代iPhone中增加室内定位服务
你能分的清电子测量仪器的通讯接口吗?猜你肯定分不清哪些是哪些
防震密封胶,解决电子元器件松动问题
荣耀携手奥迪RS系列推出荣耀10GT奥迪运动限量款手机
电力系统高次谐波分析
IAR下直接下载调试报错怎么解决
2020年“创客中国”智能传感器中小企业创新创业大赛在河南成功举办
esp32和stm32哪个好_ESP32对比ESP8266
明明跑安卓,华为你说EMUI5.0 18个月不卡就不卡?
LM3424 具有温度管理控制功能的全新高亮度LED驱动器