云计算和边缘计算这两个词是近几年被电子行业提及频次最高的词,伴随相关应用逐步融入社会各个领域,数据处理便成为了行业首当其冲的领域。
此前,腾讯宣布tars微服务开发框架已成功移植至arm cpu架构;百度在其数据中心采用了基于arm架构的智能计算;亚马逊aws云在自己的云服务器上做了一个基于arm架构的自研项目……
事实上,arm架构服务器由于其高性能以及自身具备的低功耗素质,已成为数据中心基础设施建设的焦点。
9月23日,arm宣布neoverse新增arm neoverse v1平台以及第二代的n系列平台neoverse n2,两款新品使得neoverse再度进阶,而新产品直指的目标则是超级计算机和数据中心。受邀参加此次新品发布的在线研讨会,揭秘neoverse处理器ip背后的发展。
01
翻倍,性能冲刺之路
首先,arm新发布的这两款neoverse平台究竟有多强?直接上数据。通过arm给出的数据,相比去年推出的neoverse n1,代号为“zeus”的neoverse v1比n1单线程性能提升50%,代号为“perseus”的neoverse n2在相同水平的功率和面积之下比n1单线程性能提升40%。
另外,会议上,neoverse平台的最新路线图也一并被披露,图示显示neoverse目前处于制程节点7/5nm上,支持pcle gen5、ddr5、hbm2e和ccix 1.1;至2021年将全面进入5nm制程节点,支持hbm3、ccix 2.0、cxl 2.0;至2022年将进入5/3nm制程节点,支持ccix next和cxl next。
值得一提的是,会议上,arm承诺后续的neoverse产品在2022年以后,每年也都会有30%的性能提升。arm基础设施事业部高级副总裁兼总经理chris bergey表示,这与arm工程团队的努力和投入是分不开的,另一方面,能够保持稳定的性能提升与arm自身软件生态的逐渐成熟有很大关系,例如很多云原生的软件现在可以比较无缝运行在arm架构上面。
图1:arm neoverse最新技术发展路线图
在核心和线程上,以云工作负载为例,可以看出neoverse v1在96核96线程下拥有极佳的处理能力,可以在核心数更少的情况下发挥更好的性能;neoverse n2则可以多达128核128线程的设计,拥有极强的扩展性,并在同样的扩展能力下拥有比n1更强的性能。
图2:云工作负载使用内核数量
文行至此,可能大家并没有感受到本次发布的neoverse v1和n2的强大?那么从neoverse从初版发布到现如今推出产品的历史来看起。
neoverse处理器ip首次亮相于2018年10月18日,同为arm指令集的ip产品,不同于cortex系列,neoverse面向的是高性能计算市场。当时neoverse平台产品中代号“cosmos”的产品是基于16nm工艺,a72、a75核心的产品。当时公布的路线图中,arm提出了每年每代产品的30%的单线程性能提升,每一代提升30%也是arm的“老传统”。
图3:2018年arm公布的neoverse发展路线图
但时间推移到下一代产品发布时间2019年2月21日,neoverse n1和e1平台被公布出来后,一切预测都被推翻了。属于7nm工艺时代的neoverse n1相比a72的“cosmos”单线程性能提升了60%,超出预计整整一倍,关键云端负载性能则提升了高达2.5倍。neoverse e1作为低功耗和低面积的代表,也拥有不俗的实力,与arm前几代方案相比,吞吐量性能提升超过2.7倍,吞吐效率提升超2.4倍,计算性能提升超2倍。
图4:2019年arm公布的neoverse发展路线图
上文有提到,v1比n1单线程性能提升50%,n2比n1单线程性能提升40%,而这一切的基础都是在n1超出前一代60%的基础上完成的。换言之,也就是说v1比“cosmos”单线程性能出140%,n2比“cosmos”单线程性能高出124%,超额两倍完成了2018的初版路线规划。
02
定位,面向不同市场
neoverse平台系列几经周折,现如今形成了三个定位,这种定位也与现今数据中心市场相符合。另一方面,也与arm的cortex的最新定位相呼应,即无视面积和功耗、纯粹注重高性能的cortex-x1、ppa(功率、性能、面积)最大化的cortex-a78。
1、v系列:追求终极性能的系列产品,性能优先于面积和功耗。拥有最高的带宽和性能表现,以及最大的buffers(缓冲区)、caches(缓存)、windows(窗口)和queues(队列),随之而来的是最大的面积和功耗。
2、n系列:满足横向扩展性能需求的系列产品,最大化ppa,即在性能、功耗和面积上保持平衡。拥有更强的扩展性,更加平衡的性能,同样面积或tdp下更多的核心数。因为支持更多的线程,因此在横跨云、智能网卡(smartnics)、企业网络、边缘设备上都拥有非常广阔的应用的场景。
3、e系列:低功耗小面积系列产品,面积和功耗优先于性能。拥有更好的效率、吞吐量和线程数,当然最重要的是在面积和功耗上拥有最好的优化。另外,e1还支持同步多线程(smt)技术,能够提供网络效果优化。
图5:三个系列不同的定位
市场方面,chris bergey告诉记者,v系列、n系列、e系列会根据合作伙伴和客户对于功耗、性能和面积上不同需求进行配置,假若客户更看重线程,n系列便是首先,假若客户需要高性能计算工作负载,v系列就能提供更大的价值。
值得一提的是,neoverse v1和n2均支持可伸缩矢量扩展(scalable vector extensions, sve),而sve则可基于未知宽度向量单元的软件编程模型,执行单指令流多数据流(simd)整数、bfloat16、浮点指令。另外,sve还可确保软件编码的可移植性与使用寿命,同时兼顾高效的执行。
利用sve,半导体厂商可以对sve电压和频率过渡实施控制,开发者可以在窄矢量和宽矢量之间随意混合代码。
sipearl公司营销副总裁craig prunty表示:“neoverse路线图上的sve为hpc和ml带来了巨大的潜力,我们非常看好这项技术对未来arm生态系统的发展。”
03
生态,软硬件钥匙
在硬件生态方面,支持重要的两个技术便是ccix(针对加速器的缓存一致性互联)和cxl(开放互联技术)。ccix主要用于跨芯片间互连,用于打造异构封装系统,支持完整缓存一致性;cxl则是基于pcle 5.0的规范,可让cpu与gpu、fpga等加速器更好地连接,带来更好地带宽和内存一致性,简化硬件设计难度,降低系统成本。
当然,异构计算已逐渐成为现在数据发展的重要“根据地”,事实上,这也是生态中的一环。数据中心无论是存储还是数据加速,整体趋势是分布式的,这便对性能和功耗提出严苛的要求。chris bergey表示,arm已看到很多异构计算的产品与方案目前都开始基于arm的架构,例如存储控制器、智能网卡中用到的计算cpu。
在异构计算方面,对于arm来说,如何提供紧耦合或是定制化的能力,甚至是通过多核封装或多芯片组装技术,将来自生态系统、ip技术与云厂商的需求与技术整合在一起,是很大的机遇。不论是基于fpga、gpu、tpu单元的加速器,数据的移动是必不可少的,arm架构的可扩展性便是优异的解决方案。
图6:ccix和cxl领导智能未来
在软件生态方面,chris bergey为记者介绍,arm将软件分为两种类型,一是云原生的软件,二是传统的企业级软件。云原生软件是arm一直以来重视的领域,在这个领域arm现在是拥有最大的持续集成/持续交付(ci / cd)平台的一等公民,并在大多数编程语言的生态环境中,arm都扮演着核心角色,同时arm也看到云原生技术在边缘计算领域变得越来越重要,在这一领域我们推出了project cassini项目。
此外,随着v-ran、o-ran等项目的崛起,云原生软件也将成为5g未来发展的一个重要组成部分。 另一方面,传统企业软件领域出现了“软件即服务”(saas)的发展趋势。面对这一趋势,由于在arm架构之上能够创造非常有利的软件即服务产品,因此很多独立软件开发商(isv)都对arm表现出浓厚的兴趣,纷纷投入arm阵营,在中国市场这一趋势尤其显著。
图7:arm支持的软件生态
“arm认为软件生态系统,特别在基础设施这个市场上,是非常重要的。” 根据chris bergey的介绍,现如今,arm处理器核在性能方面的优势,不仅获得了美国的大型互联网公司的认可,在中国的大型互联网公司以及广大的软件生态系统层面,也获得了很多的进展。另外,arm也很乐于与国内外厂商携手,利用neoverse n1和v1来帮助客户交付相关项目。
SPI硬件基础知识科普
安捷伦化学分析集团总裁:安捷伦成功之“秘笈”
新型非溶剂化氟磺酰羧酸酯实现高压宽温锂金属电池
发挥创意,畅游马达驱动世界:探索ERD4901创新有刷马达芯片
基于2片74LS138的单片机I/O口扩展分析
Arm架构服务器成为数据中心基础设施建设焦点
三星将于明年推出Galaxy Note 21
6路CAN车载网关优选器件方案
交换芯片在智能电网录波及网络记录装置中的应用
环保数采仪可实施数据采集并主动上报云平台
小米GaN充电器与普通充电器有什么区别
高通宣布将放弃收购恩智浦,未来将面临更多挑战
牛津仪器推出突破性超快ALD产品,用于量子技术和先进研发
手持机电池充电底座拥有不同的功能,使用非常便捷
电热高压蒸汽发生器操作及注意事项
汽车自动驾驶在5G时代向智能化和网联化方向发展之际具有重要意义
罗姆利用自动配置设计用EDA工具提高IC设计效率
天力锂能跨界:核心产品进入新能源汽车领域
SandStone HuaYan安全存储一体机
TicWatch Pro 2020智能手表配备1GB RAM