在arm虎视眈眈,risc-v新秀崛起的处境下,x86处理器内部的竞争也进入了白热化阶段。amd继推出zen cpu架构以来,总市场份额上正在一步步迎头赶上,虽说桌面和移动cpu上英特尔与amd打得有来有回,但服务器处理器市场份额上,amd保持着稳步增长的态势,越来越多的云服务商和数据中心转投了“amd yes”的阵营,更是在今年第三季度打破了市占率记录,达到了16%。尽管英特尔依然占据着70%以上的市场,面临多方压力下,这种优势似乎难以继续维持了。
在今年上半年推出了第三代至强可扩展处理器之后,英特尔于近期透露了下一代服务器处理器“sapphire rapids”的更多情报。鉴于我们已经在消费级桌面处理器12代酷睿上看到了intel 7制程带来的惊艳改进,那么同用这一制程的下一代xeon处理器,是否也能在明年发布之际一鸣惊人呢?
新的i/o与内存
考虑到sapphire rapids定于明年发售,amd的新一代epyc处理器又发售在即,英特尔并没有公布太多通用计算性能上的情报。但从英特尔在innovation 2021和linley fall processor两场大会上公布的模组化芯片设计,也能看出sapphire rapids并非什么泛泛之辈。
与刚发布的12代酷睿一样,sapphire rapids 同样引入了对pcie 5.0的支持,也在此之上进一步提升了处理器的ddio和qos能力。除此之外,cxl 1.1和全新的upi 2.0也在支持之列。
在服务器和数据中心应用上,内存也是最容易出现瓶颈的一大组成要素。我们可以从芯片原理图中可以看出sapphire rapids集成了4个内存控制器,以此最高支持8通道ddr5内存。针对计算或额外开销特别大的场景,英特尔也提供了旗下傲腾持久内存optane 300系列的支持,作为内存支持的同时也可以作为存储使用。英特尔还将推出支持hbm的版本,提供远高于8通道ddr5的内存带宽。该版本将提供两种hbm模式,一种是hbm flat模式,支持hbm+ddr5混用或是仅用hbm的模式。另一种是hbm缓存模式,将hbm作为dram的备用缓存,类似于一个l4缓存。
通用计算中的ai加速
随着ai逐渐在服务器工作流中提高占比,ai计算能力成了每个服务器处理器都躲不开的参数,这也成了英特尔在宣传sapphire rapids时不离口的话题。第三代至强可扩展处理器中,英特尔在其中内置了深度学习加速器和avx-512向量扩展,为int8和bfloat16数据的推理和训练提供了支持。而在sapphire rapids中,英特尔又加入了两大全新加速引擎amx(先进矩阵扩展)和dsa(数据流加速器)。
amx乃是一种全新的切片式指令集扩展,支持以切片运作的加速器,也是英特尔专为张量运算准备的指令集扩展。该扩展由两部分组成,切片和加速器。切片由8个2d寄存器堆组成,支持加载、清除和设为常量等基础数据运算符。每个寄存器堆大小可达1kb,但设计者也可以根据自己的算法来减小其规模。除此之外,英特尔也已经确认linux 5.16版本将正式加入对于amx的支持。
英特尔目前仅发布了tmul加速器(切片矩阵乘法单元),但amx是一个可以继续扩展下去的架构,未来还可以加入新的加速器,也可以改进现有的tmul加速器实现更高的性能,从而在单个指令和单个微操作下表达更多的工作,节省fetch、decode以及ooo的功耗。在测试中,同一个sapphire rapids处理器分别使用amx指令和avx-512 vnni,amx的运算速度是后者的7.8倍。
过去avx-512的使用中,经常会出现功率上去后频率也随之降低的情况,不少人也担心全新的amx是否会有类似的情况。英特尔确认在快速自动的得当电源控制下,amx不会出现avx的频率抖动现象。
在高性能存储、连接和密集处理的应用中,人们总是想找到解放处理器核心来提升整体性能的方式。英特尔在这个需求上推出了dsa数据流加速器,dsa可以转移cpu缓存、ddr内存以及其他i/o附加设备的数据,它的目标是为数据转移和转换运算提供更高的总体系统性能,让cpu周期解放出来完成其他更高级的功能。根据英特尔给出的数据,在openvswitch的虚拟交换机应用中,加入dsa分担工作流后,cpu占用率降低了39%,数据转移性能提高了2.5倍。
至强可以替代gpu吗?
我们都知道如今的服务器市场已经不是cpu一家独大的天下了,无论是语音识别还是图像处理,gpu带来的ai计算能力渗透进了每一个场景,任意深度学习“炼丹师”最先考虑的硬件设备也是gpu。在英特尔对sapphire rapids的描述中,称其ai性能相较于上一代ice lake芯片有了30倍的提升,如此大幅度的提升能够替代gpu吗?
英特尔为sapphire rapids给出的对比对象为英伟达的a30 gpu,在resnet-50 v1.5的图像分类推理中,单个a30的输出速度为15411张每秒,而两个sapphire rapids的成绩达到了24000张每秒以上。这一数字对比看起来似乎优势巨大,甚至接近于29855张每秒的a100 gpu,但测试中用到的乃是高端sapphire rapids型号(40核以上),无论是功耗和价格都要远超a30。
因而现阶段下,仍在使用大量ai负载的服务器并不会从现有的gpu或asic架构迁移。不过sapphire rapids本身也并非仅针对ai的特化产品,之所以x86 cpu要费心费力地去提高ai性能,也是面向通用计算与ai结合这样越来越普遍的轻度ai场景。
小结
要想把amd夺去的市场份额夺回来并不容易,英特尔面临的已经不是本世纪初的双雄争霸局面了。sapphire rapids可以说是换帅、换制程和换架构后的首个服务器产品,如果不能一鸣惊人的话,不少客户可能都会被amd未来更注重成本效能的zen 4d与zen 5夺走。而面对arm、risc-v、gpu、asic等多方入局ai的挑战,如果英特尔仍想保持x86的霸主地位,也必须加速开发自身的xe服务器gpu,同时继续扩展x86下的ai加速器生态。
荣耀X20新机品鉴会精彩回顾:粉丝激情对决,再现口碑长城
神舟十二号与地球同框啦 解析航天员手上拎的小箱子是干啥用的
光电晶体管简介
浅谈GPU网络中光互连的光通信技术
2018年哪款手机设计最出色
英特尔是否也能在明年发布之际一鸣惊人
5G Rel-17标准在2021年底完成技术冻结
vhdl语言编写 9秒倒计时器
导览机器人控制系统的软硬件设计
小米12最新官方消息:12月28日发布,首发骁龙898处理器
陈四龙:多尼斯不仅有智能项圈,还要打造“宠物智能生态圈”
1.5V锂电池代表作:XTAR BC4充电套装一物多用
热资本下的冷思考,国产GPU挑战与机遇并存
如何使便携式电子产品的电池技术充分发挥功效
智能家居正式成为手机厂商的第二战场,市场将迎来重大变革
罗德与施瓦茨与英伟达共同展示基于AI/ML的神经接收机
区块链6层协议是怎么一回事
【安防】维安达斯防爆红外光栅在某能源公司应用案例
使用内置的RTOS安全性保护连接的嵌入式设备
2019年将成为5G的元年但同时也面临着四大挑战