专为生成式ai设计的gpu:hbm密度是英伟达h100的2.4倍,带宽是英伟达h100的1.6倍。
英伟达的头号劲敌amd,终于放出了令人期待已久的ai大招。
2014年,苏姿丰成为amd ceo时,这家芯片企业正濒临生存危机,裁员约1/4,股价徘徊在2美元。随后在苏姿丰的掌舵之下,amd完成了漂亮的转身,9年来股价飙升近30倍,对英伟达和英特尔两家顶级芯片巨头形成了制衡。 随着生成式ai飓风席卷全球,英伟达gpu被各家大厂争相抢购,焦点很快转移到amd身上——amd能否生产出足够强大的ai芯片来打破英伟达近乎垄断的市场地位,抓住新一波ai浪潮? 今日,amd交出阶段性答卷。
在展示下一代ai芯片mi300x加速器时,苏姿丰满面笑容地说:“我爱这颗芯片”。 mi300x是一个纯gpu版本,采用amd cdna 3技术,使用多达192 gb的hbm3高带宽内存来加速大型语言模型和生成式ai计算。 amd主要客户将在第三季度开始试用mi300x,第四季度开始全面生产。另一种型号instinct mi300a现在正在向客户发售。 苏姿丰说,人工智能是amd“最大、最具战略意义的长期增长机会”。 现场,amd与明星ai独角兽企业hugging face宣布了一项新的合作伙伴关系,为amd的cpu、gpu和其他ai硬件优化他们的模型。
除了ai芯片外,amd还推出专为云计算和超大规模用户设计的全新epyc服务器处理器,代号为bergamo,每个插槽最多包含128个内核,并针对各种容器化工作负载进行了优化。 亚马逊旗下云计算部门aws、甲骨文云、meta、微软azure的高管均来到现场,分享在其数据中心使用amd芯片及软件的感受。
01. 加速生成式ai: 192gb hbm3,单个gpu跑大模型
此前,amd instinct gpu已经被许多世界上最快的超级计算机采用。
mi300x加速器是amd instinct mi300系列的新成员,提供一个仅有gpu配置的芯片版本。
mi300x及其cdna架构专为大型语言模型和其他先进ai模型而设计,将12个5nm chiplets封装在一起,共有1530亿颗晶体管。
这款全新ai芯片舍弃了apu的24个zen内核和i/o芯片,转而采用更多的cdna 3 gpu和更大的192gb hbm3,提供5.2 tb/s的内存带宽和896gb/s的无限带宽。
mi300x的hbm密度是英伟达h100的2.4倍,带宽是英伟达h100的1.6倍,这意味着amd可以运行比英伟达芯片更大的模型。
amd演示了在单个mi300x gpu上运行拥有400亿个参数的falcon-40b大型语言模型,让它写了一首关于旧金山的诗。
“模型尺寸变得越来越大,你需要多个gpu来运行最新的大型语言模型,”苏姿丰说,随着amd芯片上内存增加,开发者将不需要那么多gpu。
另一款mi300a被苏姿丰称作“面向ai和高性能计算的全球首款apu加速器”,将多个cpu、gpu和高带宽内存封在一起,在13个chiplets上拥有1460亿颗晶体管。
mi300a采用5nm和6nm制程、cdna 3 gpu架构,搭配24个zen 4核心、128gb hbm3,相比mi250提供了8倍以上的性能和5倍以上的效率。 amd还公布了一种amd infinity架构。该架构将8个 mi300x加速器连接在一个考虑了ai推理和训练的标准系统中,提供共1.5tb hbm3内存。
据台媒报道,amd的instinct mi300系列以及英伟达的h100/h800系列gpu都在采用台积电先进的后端3d封装方法cowos,导致台积电cowos产能短缺将持续存在。台积电目前有能力每月处理大约8000片cowos晶圆,其中英伟达和amd合计占了大约70%到80%。
此外,英伟达近年备受开发者偏爱的一大关键护城河是cuda软件。amd 总裁victor peng也展示了amd在开发软件生态方面所做的努力。 amd计划在ai软件生态系统开发中采用“开放(open)、成熟(proven)、就绪(ready)”的理念。
amd的rocm是一套完整的库和工具,用于优化ai软件栈。不同于cuda,这是一个开放的平台。
amd还分享了pytorch与rocm的合作。新的pytorch 2.0的速度几乎是之前版本的两倍。amd是pytorch基金会的创始成员之一。
amd正在不断优化rocm。victor peng说:“虽然这是一段旅程,但我们在构建可与模型、库、框架和工具的开放生态系统协同工作的强大软件栈方面取得了真正的巨大进步。”
02. 云原生处理器bergamo: 128核,256个线程,最高vcpu密度
再来看下amd的数据中心cpu。 苏姿丰首先分享了amd epyc处理器的进展,特别是在全球范围内可用的云计算实例方面。
她强调说,amd第四代epyc genoa处理器在云计算工作负载方面的性能是英特尔竞品的1.8倍,在企业工作负载方面的性能提高到1.9倍。
绝大多数ai都在cpu上运行,amd称,与英特尔至强8490h相比,第四代epyc在性能上遥遥领先,性能优势高出1.9倍。
苏姿丰说,云原生处理器以吞吐量为导向,需要最高的性能、可扩展性、计算密度和能效。
新发布的bergamo,便是云原生处理器市场的入口。
该芯片有820亿颗晶体管,提供了最高的vcpu密度。
在大散热器下,有一个表面看起来非常像以前的epyc的芯片,跟与rome或milan一样有中央i/o芯片和8个核心复合芯片(ccd)。
bergamo的每个插槽有多达128个核心、256个线程,分布在8个ccd上,每个ccd的核心数量是genoa 16个核心的两倍,采用比标准zen 4内核提供更高密度的全新zen 4c核心设计,并支持一致的x86 isa。
“zen 4c针对性能和功耗的最佳平衡点进行了优化,这为我们提供了更好的密度和能效,”苏姿丰在演讲中谈道,“结果设计面积缩小了35%,每瓦性能显著提高。”
bergamo现在正在向amd的云客户发货。amd还分享了第四代epyc 9754与英特尔至强8490h的性能、密度和能效和对比:
除了bergamo的新核心和chiplet架构之外,该处理器与genoa有很多共同之处,包括支持12通道ddr5内存、最新pcie 5.0、单插槽或双插槽配置等等。 不过,多核心不再只是amd处理器独有的特色。
不久之前,数据中心处理器新起之秀ampere computing刚推出拥有多达192个单线程ampere核心的ampere one系列处理器。
英特尔也计划在2024年初推出内核优化的至强处理器sierra forest,将内置144个高效能核心。 amd还展示了其最新的缓存堆叠x芯片,代号为genoa-x,现已上市。
该芯片针对高性能计算工作负载,包括计算流体动力学、电子设计自动化、有限元分析、地震层析成像及其他带宽敏感型工作负载,这些工作负载受益于大量共享缓存。
genoa-x cpu基于amd的标准genoa平台,采用amd 3d v-cache技术,通过在每个ccd上垂直堆叠sram模块来提高可用的l3缓存。
该芯片可提供多达96个内核和总计1.1gb的l3高速缓存,每个ccd上堆叠了一个64mb sram块。 据amd披露的数据,在各种计算流体动力学和有限元分析工作负载方面,与英特尔最高规格的60核sapphire rapids至强相比,genoa-x缓存提升的性能提高到2.2倍到2.9倍。
03. 即将推出全新dpu
最后,amd简要介绍了其网络基础设施。 去年amd以19亿美元收购pensando,进入dpu赛道。amd解释了如何使用其dpu来减少数据中心的网络开销。
amd将其p4 dpu架构称作“世界上最智能的dpu”,并称其pensando smartnic是新数据中心架构不可或缺的一部分。
amd还在现场展示了与aruba networks共同开发的智能交换机。amd计划将p4 dpu卸载集成到网络交换机本身,从而提供机架级服务。
amd最新的dpu旨在从cpu卸载网络、安全和虚拟化任务,与当前一代p4 dpu相比将提供更高的性能和能效。 其dpu已得到微软、ibm云、甲骨文云等许多主要云提供商以及vmware虚拟机管理程序等软件套件的支持。 amd打算在今年晚些时候推出giglio dpu之前扩大兼容软件列表,推出“芯片软件开发工具包”,以便用户更轻松地在其dpu上部署工作负载。
04. 结语:到2027年,数据中心ai加速器 市场规模将超过1500亿美元
全球数据中心gpu和cpu的头部企业英伟达和英特尔均在强调其加速ai的实力。作为这两条赛道“万年老二”的amd,也在竞相满足对ai计算日益增长的需求,并通过推出适应最新需求的数据中心gpu来挑战英伟达在新兴市场的主导地位。
生成式ai和大型语言模型的应用热潮正在将数据中心推向极限。截至目前,英伟达在提供处理这些工作负载所需的技术方面具有优势。根据市场调研机构new street research的数据,英伟达占据了可用于机器学习的gpu市场的95%。 “我们仍处于ai生命周期的非常、非常早的阶段,”苏姿丰预测,到2027年,数据中心ai加速器总潜在市场规模将增长5倍,从今年的300亿美元左右以超过50%的复合年增长率增长到2027年的1500亿美元以上。
amd并未透露两款mi300新芯片的价格,但这可能会给英伟达带来一定价格压力,之前h100价格据传高达30000美元乃至更多。
DAC0832引脚图管脚图及内部电路框图
紫光展锐发布全球首款LTE Cat.1bis物联网专用芯片
中国电信面对VoLTE在语音功能上难题,将分三步走
Teledyne e2v: CCD发明50周年
简单介绍一下时序和组合逻辑的一些知识
AMD甩出最强AI芯片 单个GPU跑大模型
合见工软发布高性能仿真器UniVista Simulator
德州仪器推出业界最灵活的触觉及电容式触摸组合解决方案
焊接电弧的特性_焊接电弧的导电特性
中国能源需求和结构变化以及带来的影响进行预测分析
路由器和交换机市场收入达38亿美元 增长14%
MAX7651/MAX7652 12位数据采集系统与24C02 2线串行EEPROM接口
泰科电子推出RTP200可回流焊热保护(RTP)器件
中芯国际和ASML签订批量采购协议,总价达12亿美元
蔚来北部湾城市群高速换电网络正式打通 全国已累计建成2206座换电站
电池保护板可以换吗?电池保护板多少钱一个
采用良好设计和板面布局让A/D转换器实现最高性能
LDO中使用cascode运放的补偿方法
主板上的3.0接口,你知道多少?
视频监控的大数据分析是一个完整的大数据技术应用