ChatGPT炒热GPU,ASIC和FPGA能否分一杯羹?

chatgpt的出现,对于数据中心硬件市场无疑是一针强心剂,不少gpu厂商更是从中受益,从再度兴起的聊天机器人潮流中收获了更多订单。那么对于chatgpt这类对ai算力有着不小需求的应用来说,asic和fpga是否也能借上这股东风呢?
不同硬件的成本对比
在机器学习推理场景中,除了gpu外,还有一大通用ai硬件适合这一负载,那就是fpga。与gpu一样,在技术和算法还未成熟且仍在打磨阶段时,可以随时重新编程改变芯片功能的fpga架构前期硬件成本显著低于gpu。在推理性能上,现如今的fpga加速卡算力远超cpu,甚至高过不少gpu产品。
而且在chatgpt这样的聊天机器人应用上,将fpga用于推理得以发挥其最大的优势,那就是高吞吐量和低时延。更高的吞吐量和更低的时延也就意味着更大的并发,对chatgpt这种应用来说可以极大增强其响应速度。
alveo v70推理加速卡 / amd
但随着算法和模型逐渐成熟,fpga在成本上的优势就慢慢不存在了,在大语言模型上需要用到更多的硬件,而fpga量产规模的单价成本还是太高了,一旦扩充至成千上万张加速卡,其成本也是不小的。比如amd推出的新加速卡alveo v70,据传单卡价格就在2000美元左右。如果我们以int8精度来衡量算力的话,假设chatgpt需要28936块a100 gpu,那么改用alveo v70的话,也需要44693块加速卡。
所以还是有不少人将目光投向了量产规模成本更低的asic,比如谷歌就选择用自研的tpu来部署其聊天机器人bard。asic方案在单芯片算力上或许不是最高的,但计算效率却是最高的,而且随着量产化单片成本会逐渐降低。比如谷歌的单个tpu v4 pod就集成了4096个tpu v4芯片,单芯片的bf16算力达到275tflops,已经相当接近a100单卡峰值算力了。如果只是这样简单换算的话,只需几个tpu v4 pod,就能满足与chatgpt同量级的应用了。
不过asic方案并没有我们想象得那么美好,首先这类硬件的前期设计成本较大,要想投入数据中心商用,必须组建强大的硬件设计和软件开发团队,这样才能有与gpu相抗衡的性能。其次,因为本身专用硬件的特性,专用于机器学习推理的asic方案很难最大化数据中心的硬件利用率,不像gpu还可以同时用于训练、视频编解码等等。
搭建属于自己的chatgpt的成本有多高
对于gpt-3这样的大型模型来说,要想个人搭建和部署从成本上看肯定不是实惠的选择,所以我们可以选择其他的模型,比如meta推出的1750亿参数opt-175b模型。加州大学伯克利分校的sky lab就借助该模型推出了一个开源系统alpa,同时具备聊天机器人、翻译、代码编写和数学计算的功能。
要想部署opt-175b模型并搭建alpa这样的文字聊天应用,对gpu的要求要远远小于chatgpt。但这是建立在其本身响应速度和功能特性就显著弱于chatgpt的情况下,比如一旦设定的回答长度过长,就需要等上数十秒,何况它列出的gpu需求也不算小。
根据alpa的官方说明,虽然不需要用到最新一代的a100 80gb这样价格高昂的gpu或是infiniband这样先进的互联方案,但对显存的最低要求也已经达到了350gb。所以alpa给的建议是使用32个英伟达tesla v100 gpu,从而提供512gb的显存,这样硬件造价在50万到150万之间。
tesla v100 gpu / 英伟达
如果你只是想开展聊天机器人的服务,而不是自己买硬件的话,也可以选择各大公有云服务厂商的方案,比如亚马逊aws的ec2 p3系列,就是专为机器学习和hpc准备的实例。每个ec2 p3.16xlarge实例上有8块tesla v100 gpu,所以至少租赁4个实例就能运行alpa了。
不过这样一来服务器的费用也并不算便宜,单个实例按需付费每小时的花费在24.48美元左右,也就是说如果要全天运行的话,运行alpa的成本为2400美元一天。哪怕云服务厂商通常都会给到长期承诺使用的折扣,这也是一笔不小的支出。
谷歌推出的cloud tpu方案也是如此,如果真的打算以租赁服务器的方式来打造chatgpt,那么谷歌目前给出的按需定价是每芯片小时价格3.22美元。要想部署数万规模的tpu v4芯片媲美chatgpt,那么一定逃不掉超高的费用。
结语
不久前我们已经提到了chatgpt的加入或许会给微软的现有产品带来定价的提升,如今这个猜测也已经成真。微软近日宣布,从今年5月1日开始,微软bing搜索api的定价将会直线飙升,其中超大并发(每秒250次处理)的s1实例定价从每千次处理7美元提升至25美元,而额外的bing统计更是从每千次处理1美元的价格拔高至10美元。如此看来,可见大语言模型的推理成本有多高可见一斑了,哪怕是微软也经不起这样烧钱。
所以对于chatgpt这种应用,其运营者不同,对待硬件成本的看法也会不同,比如微软、谷歌之类已经拥有大规模服务器硬件的厂商,必然会利用现有gpu资源的同时,考虑如何用定制化的asic进一步节省成本。而体量较小的运营者,例如聊天机器人应用开发商、研究机构等,还是会选择租赁服务器或小规模本地部署,其首选硬件也会是gpu。
再说回fpga,虽然从目前数据中心的市场现状来看,fpga的ai推理加速卡仍处于一个弱势的位置。但随着amd开始推出alveo v70这样全新xdna架构的方案,或许能给未来需要更大吞吐量的模型提供新的出路,尤其是视频分析推理应用。

信产部公布TD具体标准研发计划 终端为重点
污水螺旋板换热器按传热原理的分类介绍
飞睿科技雷达模组存在感应雷达模块的多普勒效应原理
包税进口,绝对优势
区块链技术为什么能防伪和防篡改
ChatGPT炒热GPU,ASIC和FPGA能否分一杯羹?
SPCE061A在智能语音识别避障机器人中的设计应用
福特开发出带有激光雷达传感器的送货机器人
软银成功收购Uber14%股权 Uber最新估值690亿美元
2020年自动驾驶传感器芯片行业研究报告
AMD正式发布Zen4+Zen4c新锐龙7000U:真不是“大小核”!
单片机的软件仿真和实验有什么区别
传感器之万能传感器解析
智能传感器在物联网应用开发中的挑战分析和应对措施
跨界进军VR:仁智股份10亿现金收购硕颖数码
小米Max3评测 对于喜好大屏的朋友来说我想不到拒绝它的理由
聚焦5G毫米波 台郡科技或涉足AiP天线
优傲机器人推出自动焊接工作站 焊接技术小白也能变身自动焊接高手
二马互逼互爱 中国互联网进入“二马狂奔”时代
英飞凌的ICL8001G工作原理与应用