英特尔是否也能在明年发布之际一鸣惊人

在arm虎视眈眈，risc-v新秀崛起的处境下，x86处理器内部的竞争也进入了白热化阶段。amd继推出zen cpu架构以来，总市场份额上正在一步步迎头赶上，虽说桌面和移动cpu上英特尔与amd打得有来有回，但服务器处理器市场份额上，amd保持着稳步增长的态势，越来越多的云服务商和数据中心转投了“amd yes”的阵营，更是在今年第三季度打破了市占率记录，达到了16%。尽管英特尔依然占据着70%以上的市场，面临多方压力下，这种优势似乎难以继续维持了。
在今年上半年推出了第三代至强可扩展处理器之后，英特尔于近期透露了下一代服务器处理器“sapphire rapids”的更多情报。鉴于我们已经在消费级桌面处理器12代酷睿上看到了intel 7制程带来的惊艳改进，那么同用这一制程的下一代xeon处理器，是否也能在明年发布之际一鸣惊人呢？
新的i/o与内存
考虑到sapphire rapids定于明年发售，amd的新一代epyc处理器又发售在即，英特尔并没有公布太多通用计算性能上的情报。但从英特尔在innovation 2021和linley fall processor两场大会上公布的模组化芯片设计，也能看出sapphire rapids并非什么泛泛之辈。
与刚发布的12代酷睿一样，sapphire rapids 同样引入了对pcie 5.0的支持，也在此之上进一步提升了处理器的ddio和qos能力。除此之外，cxl 1.1和全新的upi 2.0也在支持之列。
在服务器和数据中心应用上，内存也是最容易出现瓶颈的一大组成要素。我们可以从芯片原理图中可以看出sapphire rapids集成了4个内存控制器，以此最高支持8通道ddr5内存。针对计算或额外开销特别大的场景，英特尔也提供了旗下傲腾持久内存optane 300系列的支持，作为内存支持的同时也可以作为存储使用。英特尔还将推出支持hbm的版本，提供远高于8通道ddr5的内存带宽。该版本将提供两种hbm模式，一种是hbm flat模式，支持hbm+ddr5混用或是仅用hbm的模式。另一种是hbm缓存模式，将hbm作为dram的备用缓存，类似于一个l4缓存。
通用计算中的ai加速
随着ai逐渐在服务器工作流中提高占比，ai计算能力成了每个服务器处理器都躲不开的参数，这也成了英特尔在宣传sapphire rapids时不离口的话题。第三代至强可扩展处理器中，英特尔在其中内置了深度学习加速器和avx-512向量扩展，为int8和bfloat16数据的推理和训练提供了支持。而在sapphire rapids中，英特尔又加入了两大全新加速引擎amx（先进矩阵扩展）和dsa（数据流加速器）。
amx乃是一种全新的切片式指令集扩展，支持以切片运作的加速器，也是英特尔专为张量运算准备的指令集扩展。该扩展由两部分组成，切片和加速器。切片由8个2d寄存器堆组成，支持加载、清除和设为常量等基础数据运算符。每个寄存器堆大小可达1kb，但设计者也可以根据自己的算法来减小其规模。除此之外，英特尔也已经确认linux 5.16版本将正式加入对于amx的支持。
英特尔目前仅发布了tmul加速器（切片矩阵乘法单元），但amx是一个可以继续扩展下去的架构，未来还可以加入新的加速器，也可以改进现有的tmul加速器实现更高的性能，从而在单个指令和单个微操作下表达更多的工作，节省fetch、decode以及ooo的功耗。在测试中，同一个sapphire rapids处理器分别使用amx指令和avx-512 vnni，amx的运算速度是后者的7.8倍。
过去avx-512的使用中，经常会出现功率上去后频率也随之降低的情况，不少人也担心全新的amx是否会有类似的情况。英特尔确认在快速自动的得当电源控制下，amx不会出现avx的频率抖动现象。
在高性能存储、连接和密集处理的应用中，人们总是想找到解放处理器核心来提升整体性能的方式。英特尔在这个需求上推出了dsa数据流加速器，dsa可以转移cpu缓存、ddr内存以及其他i/o附加设备的数据，它的目标是为数据转移和转换运算提供更高的总体系统性能，让cpu周期解放出来完成其他更高级的功能。根据英特尔给出的数据，在openvswitch的虚拟交换机应用中，加入dsa分担工作流后，cpu占用率降低了39%，数据转移性能提高了2.5倍。
至强可以替代gpu吗？
我们都知道如今的服务器市场已经不是cpu一家独大的天下了，无论是语音识别还是图像处理，gpu带来的ai计算能力渗透进了每一个场景，任意深度学习“炼丹师”最先考虑的硬件设备也是gpu。在英特尔对sapphire rapids的描述中，称其ai性能相较于上一代ice lake芯片有了30倍的提升，如此大幅度的提升能够替代gpu吗？
英特尔为sapphire rapids给出的对比对象为英伟达的a30 gpu，在resnet-50 v1.5的图像分类推理中，单个a30的输出速度为15411张每秒，而两个sapphire rapids的成绩达到了24000张每秒以上。这一数字对比看起来似乎优势巨大，甚至接近于29855张每秒的a100 gpu，但测试中用到的乃是高端sapphire rapids型号（40核以上），无论是功耗和价格都要远超a30。
因而现阶段下，仍在使用大量ai负载的服务器并不会从现有的gpu或asic架构迁移。不过sapphire rapids本身也并非仅针对ai的特化产品，之所以x86 cpu要费心费力地去提高ai性能，也是面向通用计算与ai结合这样越来越普遍的轻度ai场景。
小结
要想把amd夺去的市场份额夺回来并不容易，英特尔面临的已经不是本世纪初的双雄争霸局面了。sapphire rapids可以说是换帅、换制程和换架构后的首个服务器产品，如果不能一鸣惊人的话，不少客户可能都会被amd未来更注重成本效能的zen 4d与zen 5夺走。而面对arm、risc-v、gpu、asic等多方入局ai的挑战，如果英特尔仍想保持x86的霸主地位，也必须加速开发自身的xe服务器gpu，同时继续扩展x86下的ai加速器生态。

荣耀X20新机品鉴会精彩回顾：粉丝激情对决，再现口碑长城
神舟十二号与地球同框啦解析航天员手上拎的小箱子是干啥用的
光电晶体管简介
浅谈GPU网络中光互连的光通信技术
2018年哪款手机设计最出色
英特尔是否也能在明年发布之际一鸣惊人
5G Rel-17标准在2021年底完成技术冻结
vhdl语言编写 9秒倒计时器
导览机器人控制系统的软硬件设计
小米12最新官方消息:12月28日发布,首发骁龙898处理器
陈四龙：多尼斯不仅有智能项圈，还要打造“宠物智能生态圈”
1.5V锂电池代表作：XTAR BC4充电套装一物多用
热资本下的冷思考，国产GPU挑战与机遇并存
如何使便携式电子产品的电池技术充分发挥功效
智能家居正式成为手机厂商的第二战场，市场将迎来重大变革
罗德与施瓦茨与英伟达共同展示基于AI/ML的神经接收机
区块链6层协议是怎么一回事
【安防】维安达斯防爆红外光栅在某能源公司应用案例
使用内置的RTOS安全性保护连接的嵌入式设备
2019年将成为5G的元年但同时也面临着四大挑战