下一代深度学习加速器:英特尔Xe

在超算领域,中美之间无声的竞争还在进行中,2018年美国凭借橡树岭国家实验室的summit超算夺回了失落5年的top500冠军宝座。在hpc超算市场上,关键的还是下一代百亿亿次超算,也就是exascale超算,目前中国有三套e级超算,而英特尔、cray公司在2019年3月17日获得了美国能源部5亿美元的合同。
美国能源部长里克佩里说:“实现百亿亿次超算是必不可少的,它不仅可以提升科学计算,还要改善美国人的日常生活。”“aurora及下一代百亿亿次超算将hpc、ai等技术应用于癌症研究、气候模拟、退伍军人健康治疗等领域,基于百亿亿次超算的创新将会对我们的社会产生极为重要的影响。”美国首台百亿亿次超算将大量应用英特尔的最新技术,主处理器是下一代xeon至强,还有新一代xe加速卡、optanedc内存、秘密武器cxl以及英特尔的oneai软件,而整个系统则是基于cray公司的shasta系统,包括至少200个机柜、slingshot高性能可扩展互联架构及shasta软件堆栈。
该项目计划在2021年的时间内完成,并且每秒能够进行quintillion的运算,即400 petaflops。从这个角度来看,这比million浮点运算高出一百万倍 - 而平均每个处理器的约为200 gflop。这笔交易价值5亿美元,其中cray将获得1.46亿美元的资金,而intel将获得剩余的3.54亿美元。
图一:aurora技术革新(图片来源:英特尔)
从上图可以看出xe 是加速器,但目前还不清楚quintillionops mark的功率分布。
图二:英特尔gpu可扩展性(来源:英特尔)
英特尔野心勃勃,xe将从10nm节点开始,为未来几代图形奠定基础,并将遵循intel的单一堆栈软件哲学,即希望软件开发人员能够利用cpu、gpu、fpga和ai,所有这些都使用同一套api,英特尔称之为one api,one api作为direct3d层和gpu之间的中介(据称他们也有linux解决方案),并允许用户无缝扩展多个gpu。这表明intel也准备打造一个类似cuda的生态系统。
图三:英特尔xe路线图(图片来源:英特尔)
不过这些都不是重点,英特尔将第一次在gpu领域使用mcm封装形式,这正是英伟达梦寐以求的技术,而英特尔即将量产,第一批x2 gpu的暂定时间表也已经公布:2020年6月31日。随后是2021年的x4。看起来intel计划每年增加两个核心,所以到2024年应该会到x8。
xe将是英特尔异构计算的关键构成,之前英特尔对gpu加速一直持怀疑态度,但自从有了xe后,英特尔改变了态度,英特尔xe将加强英特尔以数据为中心的广泛产品组合,为最广泛的计算工作负载提供领先的产品,满足其对标量、矢量、矩阵和空间计算架构的综合需求。但英特尔并未透露太多细节,不过从aurora采购xe即可看出,gpu加速已经被英特尔认同。
目前制造高性能 gpu 有一个很严重的限制 — 「芯片尺寸的限制」,因为目前现有技术的光刻机受限于光刻模板、光刻光源,几乎不可能制造出更大的 gpu 核心,极限是800平方毫米。即使英伟达的技术如何进步,核心尺寸不能无止境变大已经成为英伟达 继续提升 gpu 性能的瓶颈。mcm 的封装方式与 nandflash 的做法有点类似,容量不够就将 layer堆栈起来,除了制造方式简单且具成本优势之外,还可以提高产品的性能。
此外随着cpu核心数逐渐从个位数提升到十位数范围,monolithic多核心的局限越来越大,除了制造难度大、良率低的问题,也因为它不够灵活,因为处理器除了核心数量之外,还要考虑到内存信道、pcie信道等io核心的搭配,英特尔的skylake-sp架构所示,为了配合不同核心的处理器,英特尔在它上面使用了xcc、lcc、hcc三种不同的内部架构,这样做无疑是增加了芯片的复杂性。
图四:英伟达rc-18 gpu阵列(图片来源:英伟达)
英伟达为了应付 gpu 核心面积的瓶颈,已计划开发一个名为「rc 18」的多矩阵概念,以最优化的方式整合多个 gpu 模块,达至最高流处理器数、减少通讯层级和链路长度,并可以缩小芯片面积。根据英伟达研究部主管 william j. dally的说法,「rc-18」是为深度学习执行和实现可扩展性的实验,每个芯片内部具有基于tsmc 16nm 工艺及承载 8700 万个晶体管的 16 个 pe(处理组件),因此可以从非常小的尺寸中扩展。16 个 pe 用于控制 cpu core,片上全局缓冲储存器,并安装了八个 grs 链路。在实际芯片中,grs 链路组占据相当大的面积,每芯片 grs 的 i/o 带宽达到 100 gb/s。
图五:英伟达rc18内部框架图(图片来源:英伟达)
英伟达的rc18概念设计。英伟达目前rc18概念产品只做到了8700万个晶体管,与gpu动辄百亿级晶体管相比,差距至少有5年,目前英伟达将精力全部转移到光线追踪上,靠rt核来做卖点,只字不提曾经信誓旦旦的mcm。而英特尔的mcm成功了,毕竟英特尔在芯片封装领域技术积累远比英伟达要深厚的多。
amd在cpu上大量运用mcm技术,但是在gpu上始终无法突破量产工艺瓶颈,理论上似乎很简单,但就是良率太低,无法量产。这是因为amd没有自己的晶圆厂,从未从事过芯片封装,芯片封装都是交给第三方,而英特尔拥有全球最大的晶圆厂,也拥有最优秀的芯片封装工艺,当然这背后是日本厂家新光电气和ibiden的鼎力支持,日本在封装材料和工艺方面拥有绝对优势。同时英特尔还有自己的flash存储器晶圆厂。可以借鉴flash存储器的mcm封装经验。
mcm不仅性能一流,同时也成本大幅度降低,amd透露,如果将32核封装到一块芯片中成本是1,那它们的mcm方式只有0.59,换言之,节省了41%的成本。mcm还允许一个芯片中使用不同工艺的die(裸晶),比如i/o部分不需要那么先进的工艺,28纳米足够,cpu部分就用7纳米,不仅降低成本,还复用了以前的i/o设计,降低先进制程工艺的风险,研发成果复用率高,缩短研发周期等。
图六:单一架构和mcm对比(图片来源:amd)
上图为amd mcm与单芯片对比。
英特尔xe 2 gpu性能见上表。性价比极高。
为配合mcm,英特尔在软件方面也有所动作,英特尔2019年4月9日举行了interconnect day 2019 ,当中详细介绍了处理器与处理器之间的compute express link(cxl)超高速互联新标准。虽然现阶段构思仅供数据中心的服务器使用,显然这也是为gpu准备的。英特尔 cxl 标准的原意——作为 cpu 与 accelerator 加速器(如 fpga / gpu 显示适配器)之间的互联通信。
一直以来, cpu 都是透过主板上的 pcie插槽及 pcie 协议与显示适配器沟通,但当英特尔 联合阿里巴巴、 cisco、 dell emc 、 facebook 、 google 、 hpe 、华为及微软组成强大阵容的联盟后,就发表了 cxl 的开放标准,以解决目前 pcie 协议于 cpu 与显示适配器之间的高延迟及带宽不足的问题。透过 cxl 协议, cpu 与 gpu 之间就形同连成单一个庞大的堆栈内存池( stacked memory ), cpu cache 和 gpu hbm2 内存犹如放在一起,有效降低两者之间的延迟,故此能大幅提升数据运算效率,令ai人工智能、机器学习、媒体服务、高效能运算( hpc )及云端服务变得非常快速。
mcm没有理论上的突破,突破的只是制造工艺,mcm在奔腾时代已经出现过了,而今monolithic多核已经走到了极限,唯有mcm能救场。而在服务器用cpu领域,mcm将可能是唯一方向,典型的如cascade lake-ap 48核处理器,它实际上是两个24核的cascade lake处理器通过mcm方式组合出来的,也不是原生48核。如今的mcm多芯片设计在技术水平上也跟当年简单粗暴的胶水多核不一样了,主要担心的延迟问题上,英特尔之前提到他们的emib技术相比单片电路的延迟只增加了10%,而别的技术方案中延迟甚至会增加50%之多。
monolithic多核的困境实际上是整个人类面临的瓶颈,近百年来,人类在物理学体系理论上未有任何突破,只是在细枝末节上做修修补补,所谓人工智能不过是概率论,几十年甚至近百年前的理论还是根基,所谓提升,不过是算力成指数倍的堆砌。
另外,供应链的重要性一再凸显,那种追求短平快,强调分工,只做自己擅长的战略长远上必然会遇到无法超越的瓶颈,英伟达和amd无法战胜英特尔,不再技术层面,而是供应链层面。这么多年以来,amd都是努力追赶英特尔,但amd将工厂卖掉之后是个纯粹的fabless,需要看foundry晶圆代工厂的脸色,晶圆代工厂自然要优先照顾大客户,台积电自然要优先照顾苹果、华为和高通,遇上产能吃紧,amd的订单就会往后排。这就意味着amd的供货不够稳定,或者说amd无法掌控产量,对下游整机厂来说,有可能导致旺季缺货,这是个致命的缺点,特别是淡旺季分明的笔记本电脑cpu领域,英特尔一直拥有绝对优势。英特尔单靠全球最大的12英寸晶圆产能也足以拥有在半导体领域的霸主位置。

泰芯TXLink仿真器MCU单片机开发调试工具
工业物联网对消费者的好处
配电线路中跌落式熔断器熔丝熔断的处理
“刷脸商用时代”来临B端需求注意金融安防
CC2530应用电路
下一代深度学习加速器:英特尔Xe
Android 11新增无线充电板错误放置提示功能 可提醒用户正确放置
数据集成系统在教育行业中的应用
魅蓝metal拆解 压铸金属技术是如何炼成的
台积电盈利大幅放缓表明半导体市场复苏慢于预期
虚拟仿真教学过程中的应用介绍
连接器简要分类介绍 连接器的组成和应用介绍
英飞凌推出1EDC Compact系列驱动电路
车企竞相“入股”元宇宙,美格智能着力打造制胜秘诀
霍尔传感器AH694在汽车电子节温器模块的应用
受后疫情时代拉动经济的影响,中国联通对 5G 基站进行智能化关闭
纯电动汽车整车结构图及能量回收控制过程
HUAWEIMate 20系列又有什么“黑科技”
基于深度学习的传统图像增强算法
集成放大器冷结补偿的热电偶温度测量系统