Graphcore IPU-M2000在首个benchmark测试中显著优于GPU

graphcore业界领先的科技现已开始面向全球出货
2020年12月9日,布里斯托——graphcore为其最新的ai计算系统——ipu-m2000和纵向扩展的ipu-pod64发布了第一套性能benchmark。
在各种流行的模型中,graphcore技术在训练和推理方面均显著优于nvidia的a100(基于dgx)。
亮点包括: 训练
·efficientnet-b4:吞吐量高18倍
·resnext-101:吞吐量高3.7倍
·bert-large:与dgx a100相比,在ipu-pod64上的训练时间快5.3倍(比双dgx系统缩短2.6倍)
推理
·lstm:以更低时延实现吞吐量提升超过600倍
·efficientnet-b0:吞吐量提升60倍/时延缩短超过16倍
·resnext-101:吞吐量提升40倍/时延缩短10倍
·bert-large:以更低的时延实现吞吐量提升3.4倍
benchmark中包括了bert-large(基于transformer的自然语言处理模型)在ipu-pod64的全部64个处理器上运行的结果。
bert-large的训练时间比最新的nvidia dgx-a100快5.3倍(比双dgx设置快2.6倍以上),这一结果彰显了graphcore的ipu-pod横向扩展解决方案在数据中心的优势,以及poplar软件栈管理复杂工作负载的能力,这些工作负载能够利用多个处理器并行工作。
graphcore软件高级副总裁matt fyles在对测试结果发表评论时说:“这一整套全面的benchmark表明graphcore的ipu-m2000和ipu-pod64在许多流行模型上的性能均优于gpu。”
“诸如efficientnet之类的新型模型的benchmark特别具有启发性,因为它们证明了ai的发展方向越来越倾向于ipu的专业架构,而非图形处理器的传统设计。”
“客户需要能够处理稀疏性以高效运行大规模模型的计算系统,而这正是graphcore ipu所擅长的。在这种客户需求的趋势下,差距只会不断扩大。”
graphcore为阿里云halo定制代码正式在github开源
graphcore是阿里云halo的合作伙伴之一,为阿里云halo定制开发的代码odla_popart已经在halo的github上开源,具体请见https://github.com/alibaba/heterogeneity-aware-lowering-and-optimization
mlcommons
除了发布其ai计算系统的全面benchmark外,graphcore还宣布,其已经加入新成立的mlperf下属机构mlcommons,成为mlcommons的会员。
graphcore将从2021年开始参加mlcommons的比较benchmark测试。更多信息,请参阅mlcommons的成立公告。
现已出货
graphcore最新benchmark的发布与ipu-m2000和ipu-pod64系统向全球客户的推出时间刚好一致。一些早期发货的产品已经在数据中心安装并运行。
销售工作得到了graphcore全球合作伙伴网络以及公司在欧洲、亚洲和美洲的销售人员和现场工程团队的支持。
pytorch和poplar 1.4
graphcore用户现在可以利用poplar sdk 1.4,包括全面的pytorch支持。pytorch已成为从事尖端ai研究的开发人员的首选框架,在更广泛的ai社区中也收获了大批的追随者,并且追随者的数量还在快速增长。
paperswithcode的最新数据显示,在具有关联代码的已发表论文中,47%的论文使用了pytorch框架(2020年9月)。
额外补充的pytorch支持,再加上poplar对tensorflow的现有支持,这意味着绝大多数ai应用程序现在都可以轻松部署在graphcore系统上。
与poplar软件栈的其他元素一样,graphcore正在将其用于ipu接口库的pytorch开源,从而使社区能够对pytorch的开发做出贡献,并且加速pytorch的开发。
关于ipu-m2000和ipu-pod
ipu-machine:m2000(ipu-m2000)是一台即插即用的机器智能计算刀片,旨在轻松部署并为可大规模扩展的系统提供支持。
纤巧的1u刀片可提供1 petaflop的机器智能计算能力,并在机箱内部纳入针对ai横向扩展进行了优化的集成网络技术。
每个ipu-machine:m2000(ipu-m2000)均由graphcore的4个新型7纳米colossus™ mk2 gc200 ipu处理器提供动力,并得到poplar®软件栈的完全支持。
ipu-pod64是graphcore的横向扩展解决方案,包括16台ipu-m2000,这些机器使用graphcore的超高带宽ipu-fabric™技术进行了预先配置和连接。
ipu-pod64专为需要大规模ai计算功能的客户而设计,既可以跨多个ipu运行单个工作负载以进行并行计算,也可以通过graphcore的virtual-ipu软件供多个用户共享使用。

HSLR的Hawk获得GPU
嵌入式测试方案及高速测试技术
静态和动态人脸识别两者存在什么样的区别
三菱FX系列PLC通过指令与A700变频器通讯
基于74LS160的N进制计数器仿真设计
Graphcore IPU-M2000在首个benchmark测试中显著优于GPU
深圳背后创新路径究竟是怎么样的?
2024年资本支出大减20%?台积电:明年1月评论
5G的商用更成为车联网落地的重要条件
HarmonyOS3超能力加持 聚能泵技术让华为Mate50“没电也能打电话”
晶电开发出能让混光区域趋近于零的芯片
有什么有源电路保护方案可以取代TVS二极管和保险丝?
ADM3055E/ADM3057E收发器CAN FD端口上IEC 61000-4-5浪涌保护的解决方案
5G时代如何定义旗舰?骁龙888给出答案
探究车载充电机逆变功能的应用
如何解决脱硫烟道腐蚀问题
“物联网+区块链联合创新中心2019行业生态沙龙”在南京举行
凌力尔特推出同步降压型DC/DC 转换器LT3741
西门子S7-200 SMART/828d PLC数据采集、远程调试
VR技术的核心特征是什么