Zen4架构3D缓存处理器EPYC 9684X详细评测

记得多年前，电脑内存的主流配置容量还在1gb左右，而现在有这样一款处理器，其内部三级缓存的容量就超过了1gb，达到了1.1gb，如果再加上l1、l2级缓存，其容量绝对超过当年的主流电脑内存容量，它就是amd最新发布的epyc 9684x服务器处理器。而现在主流消费级处理器的三级缓存容量也不会超过100mb，即便是很多顶级服务器处理器，它们的三级缓存容量也不会超过400mb。那么amd为什么要推出三级缓存容量如此大的处理器，三级缓存容量这样大的处理器有什么作用呢？
引入3d缓存，三级缓存容量达1152mb！
epyc 9084x系列处理器解析
我们知道，缓存的存在是为了解决计算和存储之间的鸿沟，利用昂贵、高速但是小尺寸的sram来填补cpu和内存之间的速度鸿沟，同时提高数据命中率，一直以来都是cpu提高性能的不二法门。不过，缓存在超过一定容量之后，后续就很难再对所有应用都带来显著的性能提升了，更明显的性能提升来自缓存敏感型应用，在桌面应用中主要是游戏，在企业级应用中主要是数值计算类应用，比如流体分析、流体模拟、有限元、计算流体力学等应用，这些应用的场景主要是实验室、设计单位、大型企业等，是hpc也就是超级计算机的主要客户群体。
因此针对这些应用的需求，amd此次特别推出了代号“genoa-x”的epyc 9084x系列处理器。与代号“genoa”的epyc 9654、epyc 9554等处理器相比，该产品最大的不同就是增加了3d缓存，即3d v-cache。从技术本质上来说，genoa-x的3d v-cache和之前的产品没有任何不同，都是通过tsv硅穿孔技术，将额外的sram缓存芯片直接倒装连接到cpu核心晶圆上预留的缓存连接位置。从amd给出的图片来看，genoa-x的采用的是混合键合的方式实现了cpu核心和sram核心的连接。amd可以为每个ccd增加64mb sram l3缓存，是原生ccd中包含的32mb的2倍。由于额外增加的缓存是直接连接到整个ccd的缓存总线上的，因此完全可以视作相同的、一致的、均一的本地l3缓存，不存在任何速度、级别方面的差异。
拥有3d缓存的epyc 9684x处理器也采用sp5 lga6096封装，不论是在处理器大小面积，还是处理器厚度上，它都与epyc 9654完全相同。
amd处理器的3d缓存技术主要由混合键合、硅通孔、ccd、结构硅片、64mb 3d三级缓存芯片组成。
之前的epyc 9004系列处理器最多拥有12个ccd，因此amd要打造epyc 9084x系列处理器的话，只需在每个ccd上堆叠64mb 3d缓存，相当于总共外置12×64mb=768mb l3缓存，再加上ccd内部原有的12×32mb=384mb l3缓存，总计最多可以实现768mb+384mb=1152mb缓存。这也是epyc 9084x系列处理器能实现大容量三级缓存的关键原因。
amd为每个ccd堆叠了64mb的3d v-cache
amd的混合键合技术可以有效提高芯片的互联密度与能效比，其连接密度相对2d工艺高了200倍，互联密度相对单纯使用微凸点工艺高了15倍，芯片互联的能效也比微凸点工艺提高了3倍。
目前，epyc 9084x系列处理器总共包括epyc 9684x、epyc 9384x和epyc 9184x三款产品，其型号后缀都带一个“x”，这也是所有3d v-cache产品独有的标识。这三款产品的核心数量从高到低分别是96、32和16。相比没有带3d v-cache的普通epyc 9004系列产品而言，比如对比epyc 9654，epyc 9684x的基准频率高了一些，两款处理器的最大boost频率则都维持3.7ghz不变，但epyc 9684x的全核心频率为3.42ghz，比epyc 9654的3.55ghz全核心频率要略低一些。同时基准频率的提升、缓存容量的大幅增加也让epyc 9684x的default tdp热设计功耗达到了400w，而epyc 9654的default tdp为360w。三级缓存方面，由于epyc 9684x使用了全部12个ccd，所以它的3d v-cache容量达到了768mb，三级缓存总容量为768mb+384mb=1152mb缓存。
epyc 9084x系列处理器主要拥有三款型号，它们在核心、线程数，缓存容量上各不相同。
剩下两款定位稍低的3d v-cache epyc处理器设置则更为保守，与同为32核心、64线程的epyc 9354对比，epyc 9384x的基准频率、最高加速频率都要略低一些，功耗为320w。尽管工作频率稍低，但三级缓存的大幅增加还是让epyc 9384x处理器的default tdp比epyc 9354的280w略高一些。epyc 9184x也是类似情况，其最高加速频率比同为16核心、32线程的epyc 9174f的最高加速频率低了200mhz，额外的l3缓存还是在频率上带来了些许影响，default tdp仍为320w。
此外，epyc 9084x系列处理器的这三款产品也可以根据用户需求、散热条件等进行灵活配置，其处理器功耗可以配置到320w~400w。三级缓存容量方面，由于epyc 9384x和epyc 9184x只使用了8个ccd，所以它们的3d v-cache容量为64mb×8=512mb，三级缓存总容量为512mb+32mb×8=768mb。虽然epyc 9084x的sku只有三款，但实际上对hpc用户来说，这样的产品设计已经基本上可以满足用户需求了。amd给出的应用范围显示，16核心的epyc 9184x适合电路自动化设计的客户，32核心的epyc 9384x则适合电路自动化设计、流体计算、有限元分析和结构分析场合，96核心的epyc 9684x则除了不适合需要高频率的电路自动化设计外，其余的场景都是其应用范围。
根据amd的官方数据，在cfx、流体、ls-dyna、openfoam等实际测试中，96核心的epyc 9684x对比60核心的至强铂金8490h拥有很大的领先幅度，最大可以达到2.2~2.9倍性能优势，平均也有2.2~2.4倍性能优势。借助于生产工艺与架构的优势，目前amd服务器处理器在技术规格上已经远胜于对手，能有这样的成绩完全在我们意料之中，毕竟竞争对手的产品在处理器核心数量、计算线程数量上也大幅落后。那么面对没有3d v-cache的epyc 9004处理器，特别是在核心、线程数量上完全相同的产品，epyc 9084x系列处理器在那些缓存敏感型计算中是否有明显优势呢？
在专业应用上，96核心的epyc 9684x对比英特尔60核心的至强铂金8490h拥有压倒性的性能优势。
为此我们特别采用同为96核心、192线程设计的epyc 9654处理器与epyc 9684x处理器进行了对比测试，让我们看看在核心、线程数相同，缓存容量有明显差异的场景下，缓存容量更多的epyc 9684x处理器表现如何。
我们如何测试
本次测试统一考察的是双路系统的性能，因此epyc 9684x、epyc 9654处理器都统一使用了amd titanite sp5 2p2u双路主板。内存方面，两款处理器单路支持12条内存通道，双路系统支持24条内存通道，因此我们也为它们采用了24通道内存配置。本次测试所使用的内存为三星ddr5 4800 64gb，内存总数量为24根，内存总容量为1.5tb，搭配美光9300系列企业级nvme ssd。
本次测试统一考察的是双路系统的性能，epyc 9684x、epyc 9654处理器都统一采用了amd titanite sp5 2p2u双路主板，12通道、24条内存配置。
接下来我们在ubuntu 22.04操作系统下对两款处理器的性能进行了全面测试。为了让读者更好地了解这两款处理器在众多企业级产品中的性能水准，我们还在部分测试中引入了其他处理器已经测试过的成绩。它们是128核心、256线程配置的双路epyc 9554系统，64核心、128线程配置的双路epyc 9374f系统，以及128核心、256线程配置，使用ddr4 3200内存的双路epyc 7763系统。后者隶属第三代epyc霄龙处理器，采用zen3处理器架构、tsmc 7nm生产工艺。
第四代amd epyc处理器双路系统测试平台一览
处理器：epyc 9684x×2
epyc 9654×2
内存：三星ddr5 4800 64gb×24
主板： amd titanite
硬盘：美光9300系列企业级nvme ssd
系统： ubuntu 22.04
基准性能测试
接下来我们首先采用specrate 2017、unixbench dhrystone 2和whetstone、sysbench cpu、hpl与dgemm测试了处理器的基准性能。
结果令人满意。借助大得多的三级缓存容量与更高的基准频率，epyc 9684x在所有基准测试中都获得了领先。其中在specrate 2017测试中，epyc 9684x的整数性能、浮点性能分别领先epyc 9654 8.5%、14.1%；在体现处理器双精度浮点性能与整数性能的whetstone和dhrystone 2中，epyc 9684x也拥有一定优势，分别领先epyc 9654为4.58%、0.54%；在sysbench cpu测试中，epyc 9684x则获得了相对epyc 9654多达6.93%的领先优势。在hpl与dgemm测试中，epyc 9684x的优势收窄，分别为0.45%、1.34%。从测试中来看，specrate 2017、sysbench cpu比较受缓存容量的影响，因此epyc 9684x会有较大的优势，而hpl、dgemm、unixbench的影响较小。
内存性能测试
内存性能测试中，我们仍采用stream测试两款处理器的内存性能，由于epyc 9684x支持12通道ddr5 4800内存系统，所以从测试成绩来看，它的内存性能表现也非常优秀。其双路内存带宽达到747955mb/s，比双路epyc 9654系统的内存带宽还要略高一些，相对双路ddr4 3200 8通道内存系统优势巨大。
应用性能测试
接下来我们测试了两款处理器在c-ray光线追踪、ffmpeg x264视频编码等专业应用中的性能表现。在这些常见应用中，拥有3d v-cache的epyc 9684x也拥有很明显的优势。如在c-ray 1.1 4k光线追踪测试中，epyc 9684x的耗时只有epyc 9654的一半，在c-ray 1.1 8k光线追踪测试中，epyc 9684x的耗时也比epyc 9654少了14.3%。
我们还使用ffmpeg中的编码工具测试了两个双路系统的视频编码性能，编码器为x264，测试处理器在live场景中的编码速度即帧率。同样epyc 9684x也有小幅领先，其编码速度比epyc 9654双路系统快了2.8%。我们认为出现这个结果的主要原因还是在于视频编码过程中，数据的存取操作频繁，且数据量大，是制约编码器性能的主要因素之一，所以拥有更大缓存容量的epyc 9684x双路系统具备一定优势也在情理之中。
新增应用性能测试：libxsmm
除了以上测试，我们还专门增加了部分对缓存敏感的应用测试。首先我们使用libxsmm进行了测试，它是一个用于专门的密集和稀疏矩阵运算以及深度学习原语的开源库，支持使用intel amx、avx-512和其他现代cpu指令集功能。libxsmm目前主要用于hpc高性能计算、ml机器学习，以及ad自动驾驶。可以看到，在使用libxsmm库计算时，拥有3d缓存的epyc 9684x拥有巨大的优势，其算力高达7445gflops，相对epyc 9654领先多达67.5%，获得了质的飞跃。
新增应用性能测试：openfoam
openfoam则是目前领先的免费开源计算流体动力学 (cfd) 软件，在这个测试中，我们将使用drivaerfastback案例来分析汽车或老旧摩托的空气动力学，并计算其分析执行时间，数值显然是越小越好。同样epyc 9684x在该测试中拥有压倒性的优势，其任务执行时间只需83.76s，而epyc 9654则需耗时108.51s，epyc 9684x的任务执行速度比epyc 9654快了29.5%。
新增应用性能测试：heffte
heffte是作为百亿亿次计算项目的一部分而开发的高效傅里叶变换库。傅里叶变换 (fft) 用于许多领域应用，包括分子动力学、频谱估计、快速卷积和相关信号调制、无线多媒体应用。用户可以在不同配置、选项下使用heffte内置的基准测试，非常适合对cpu进行测试。显然在这类密集型计算中，3d缓存可以带来显著的作用，epyc 9684x在使用heffte库进行计算时，其算力可达135.81gflop/s，而epyc 9654的算力为109.88gflops，前者领先23.6%。
新增应用性能测试：pov-ray
接下来我们采用常见的pov-ray对两款处理器的性能进行了测试，pov-ray即持久视觉光线追踪器是一种用于创建逼真照明图像的开源工具，测试将使用光线追踪来创建3d图形。测试中，软件将测量两款处理器的光线追踪完成时间，数值越小越好。测试结果与c-ray类似，在光线追踪测试中，拥有3d缓存的epyc 9684x占据优势，只是在pov-ray中，其领先优势幅度有所缩小，epyc 9684x的光线追踪执行速度比epyc 9654快了6.5%。
新增应用性能测试：nas parallel benchmarks
我们还使用了nasa为高端计算机系统开发的基准测试—nas parallel benchmarks即nas并行基准测试，该测试主要用于评估超级计算机的并行运算性能。其基准测试来源于计算流体动力学软件，我们在该软件中测试了两款处理器的块三对角求解性能，数值越大越好。结果与openfoam基于流体动力学的软件类似，三级缓存容量达到1152mb的epyc 9684x拥有压倒性的优势，在该测试中领先epyc 9654高达40.1%。
新增应用性能测试：john the ripper
john the ripper是一款开源密码安全审核和密码恢复工具，可用于许多操作系统，支持数百种哈希和密码类型，在本次测试中主要测试两款处理器的md5加密性能，测试数值越大越好。测试结果同样证明更大的三级缓存容量是有效的，在这个测试中epyc 9684x小胜对手，加密性能领先epyc 9654约1.4%。
新增应用性能测试：rodinia
最后我们则采用了rodinia这款专注于密集型应用程序的套件进行测试，rodinia包含了应用程序支持的cuda、openmp和opencl并行模型。由于测试的是处理器，所以我们在测试中则选用openmp模型，测试处理器进行流体动力计算的能力。测试结果的数值为处理器完成计算的时间。显然处理器计算性能越强，所花时间就越少，所以测试数值是越小越好。
结果也完全在我们的意料之中，与openfoam、nas parallel benchmarks这些基于流体动力学的测试类似，epyc 9684x的表现更好，其计算执行时间更少，计算执行速度比epyc 9654快了8.36%。
3d v-cache就是最大功臣
综合以上大量测试，显然依靠3d v-cache，epyc 9684x是一款非常有价值的产品，本次测试中，它在所有测试中都战胜了epyc 9654。特别是在libxsmm、c-ray光线追踪，以及heffte、openfoam、nas parallel benchmarks等流体动力学计算中，epyc 9684x都拥有压倒性的优势。我们认为根本原因就在于3d v-cache的使用。毕竟处理器获取数据主要有两个来源，一个是直接在处理器内部的缓存中获取，一个是在外部内存中获取。
由于sram、dram两种存储介质的性能不同，再加上物理位置也大不相同，一个近在咫尺，另一个远在天边，所以缓存的传输速度、延迟表现都远优于内存，内存的传输速度一般只有三级缓存的八分之一到十分之一。而epyc 9654的三级缓存总容量为384mb，epyc 9684x的三级缓存总容量达到1152mb，容量提升200%，这也就意味着epyc 9684x的缓存可以存储更多的数据，处理器有更大的概率在自己的缓存中找到需要处理的数据，无须再到“慢吞吞”的内存中查找数据，处理器无效等待数据传输的时间大幅降低，自然处理器的计算效率，处理器的计算性能都可以得到显著提升，特别是在那些计算量大、待处理数据多的密集型计算中，epyc 9684x就能体现出很大的优势。
为了每天完成16500个流体计算任务，amd方面仅需要配置12台epyc 9384x双路服务器，英特尔则需要配置21台至强铂金8462y双路服务器，在组建成本、能耗比上amd也有很大的优势。
更值得一提的是，到目前为止，不论是在消费级产品还是企业级产品上，竞争对手都未能推出同类产品，在缓存容量、处理器核心数量、计算线程数量、性能乃至组建成本、能耗比上都有巨大差距。所以对于有流体计算、数据压缩、光线追踪、有限元分析、电路自动化设计和结构分析需求的用户而言，以epyc 9684x为首的epyc 9084x系列处理器就是打造高性能、高能效比、高扩展性专业解决方案的不二之选。

智能装备工业互联网联合创新中心在重庆市挂牌成立
FPGA一体化高级设计方法
离线语音照明解决方案：让你的照明更智能
2018 IFA产品技术创新大奖榜单揭晓年度大奖花落谁家
密封蓄电池与电动自行车充电器设计
Zen4架构3D缓存处理器EPYC 9684X详细评测
你问我如何防晒？拜托你快看防晒帽品牌排行榜
采用A723构成的输出20A 5V稳压电源电路
世界级算法之父分享波音、通用电气的“优化”秘密
OPPO将发布自研智慧跨端系统“潘塔纳尔”
食品分析仪器是什么，它的作用及特点的介绍
选好PCBA快速打样工厂的方法
iFixit 最新拆解：Mate 20 Pro 可修复性仅 4 分
通过InterBus现场总线实现汽车生产物料呼叫控制系统的设计
测试射频模块的EMI/EMC合规性
三星将在2020年Q4开始量产14nm英特尔CPU
常用的电源电路结构:阻容降压电源/线性电源/开关电源
车身控制器测试系统解决方案
奥迪用500架无人机把全新奥迪A8L送上了天，震撼的视觉效果堪比奥运开幕
Littelfuse 亚洲公司获得 TTI 亚洲颁发的 2015 年度白金优秀供应商奖