带你了解百度发布的XPU——AI云加速芯片细节

近日,在加州hot chips大会上,百度发布了xpu,这是一款256核、基于fpga的云计算加速芯片,合作伙伴是赛思灵(xilinx)。百度也在这次的大会上,透露了关于这款芯片的更多架构方面的细节。
过去几年,百度在深度学习领域,尤其是基于gpu的深度学习领域取得了不错的进展。而且,百度也在开发被称作xpu的新处理器。
百度解释了fpga上ai和数据分析工作负载的情况
百度研究员欧阳剑表示,百度设计的芯片架构突出多样性,着重于计算密集型、基于规则的任务,同时确保效率、性能和灵活性的最大化。今天,他在hot chips大会上与来自fpga厂商xilinx的人士一同发布了xpu。
xpu的目标是在性能和效率之间实现平衡,并处理多样化的计算任务。fpga加速器本身很擅长处理某些计算任务,但随着许多小内核交织在一起,多样性程度将会上升。
欧阳剑表示:“fpga是高效的,可以专注于特定计算任务,但缺乏可编程能力。传统cpu擅长通用计算任务,尤其是基于规则的计算任务,同时非常灵活。gpu瞄准了并行计算,因此有很强大的性能。xpu则关注计算密集型、基于规则的多样化计算任务,希望提高效率和性能,并带来类似cpu的灵活性。”
目前xpu有所欠缺的仍是可编程能力,而这也是涉及fpga时普遍存在的问题。到目前为止,xpu尚未提供编译器。不过欧阳剑表示,该团队将会很快开发一款编译器。
欧阳剑还表示为了支持矩阵、卷积,以及其他大大小小的内核,我们需要一个配备高带宽低延时内存,以及高带宽i/o接口的大型数学阵列。fpga中xpu的dsp单元提供了并行处理能力,片外ddr4和hbm接口优化了数据传输,而片上sram则提供了必要的存储特性。
在micro benchmark测试中,对于计算密集型、常规内存访问的计算任务,xpu的效率与x86内核类似。对于数据同步的计算任务,xpu的可扩展性应当可以进一步优化。而对于没有数据同步的计算任务,xpu的可扩展性与核心数量呈线性关系。
这就是问题所在。如前所述,xpu仍然没有配备编译器。这款处理器在fpga上实现,通过订制的逻辑电路提供指令。这些小核心类似于cpu,开发者只能使用汇编语言,而所有的执行都由主机来控制。整个流程包括拆分计算任务,编写xpu代码,调用专用的逻辑函数,从而在linux平台上进行编译和运行。
xpu具有256个内核,集成了一个共享内存用于数据同步,所有内核都运行在600mhz。
欧阳剑称:“在百度,我们使用fpga已有多年时间。我们的数据中心、云计算平台和自动驾驶项目中有大量fpga。我们非常了解fpga的优缺点,以及如何优化。凭借xpu的大型核心,我们专注于多样化的计算任务。”
去年有媒体报道了基于百度深度学习sda的sql加速器。当时的数据流基于sa架构。根据欧阳剑的描述,这也是xpu内存带宽和延时优势的核心。
欧阳剑同时展示了今年完成的一些benchmark测试,但信息非常粗略。不过,这只是百度第一次公开展示xpu。
如果xpu被证明可以用于ai、数据分析、云计算和无人驾驶,那么百度可能需要用asic技术去开发xpu

国盛集团携手协鑫集团共同设立新华半导体有限公司
四百以内的蓝牙耳机哪款好?四百内的蓝牙耳机测评
如何制作温度监控器
AirPods2或将会于苹果秋季发布会与我们见面
行业 | 年产3000万!中科潞安深紫外LED项目近日正式投产
带你了解百度发布的XPU——AI云加速芯片细节
华为今年制订的销售计划是1350亿美元纯利也许会在80亿美元左右
三星最新广告在新款iPhone上大放异彩
基于智能IP网络持续孵化更先进的产品与解决方案
提高带宽,打造适应未来发展的CATV解决方案
随着人工智能的不断崛起 未来几年自然智能将面临挑战
革命性新体验--手持超级夜景
气体涡轮流量计的工作原理及设计
思尔芯亮相第十届中国-中亚合作论坛暨中国与中亚国家成果展,全方位EDA解决方案推动数字经济
ICT测试治具是什么,它都具备着哪些功能
诺基亚的Android 11将在2021年4月至6月之间提供
全球独立的线控制动厂家只有博世、大陆和ZF TRW三家,L3/L4的线控制动
SM2326E:具有恒功率、低THD高功率因数的LED线性恒流控制芯片
中国iOS系统从原来的13.3%逆增至17.7%,增幅4.4%而安卓降幅4%
关于VR游戏的介绍和分析