随着生成式ai的火热以及英伟达市值冲破万亿美元,如何取替英伟达,成为ai芯片市场新贵,又成为了一个热门话题。
以下为文章原文摘录:
看到英伟达这个万亿美元的市值,我想没有任何人敢说他不想要。。。。。。想要,就得琢磨琢磨怎么才能造他娘的反。
王侯将相宁有种乎!
你得盘个逻辑,提个口号才能举旗,得想办法证明旧社会的不足和新社会的先进性才有机会。
不知道多少人分析过nvidia的gpu的成本,我们以最新的hopper h100为例。大致上,为了跑ai大模型,你从nvidia手上购买到的是如下这样的一张卡,他叫做sxm5模组,单手就能拿捏的样子。
这个模组附带了大量的供电vrm,也通常会使用相对高阶的pcb保证供电的铜损最小。最中间的差不多就是一颗hopper gpu芯片,看得出由7颗die用chiplet方式封装,分别是1颗logic die和6颗hbm。
把他的成本打开,sxm的成本不会高于300$,封装的substrate及cowos大约也需要$300,中间的logic die最大颗,这是一颗看起来非常高贵的die,使用4nm工艺打,尺寸为814mm2,tsmc一张12英寸wafer大致上可以制造大约60颗这个尺寸的die,nvidia在partial good上一向做得很好(他几乎不卖full good),所以这60颗大致能有50颗可用,nvidia是大客户,从tsmc手上拿到的价格大约是$15000,所以这个高贵的die大约只需要$300。哦,只剩下hbm了,当前dram市场疲软得都快要死掉一家的鬼样了,即使是hbm3大抵都是亏本在卖,差不多只需要$15/gb,嗯,80gb的容量成本是$1200。
你掐指一算……
凸(艹皿艹 ),你花钱到底买到的是什么?这居然是一个投机倒把倒卖dram的货,整颗gpu物料成本中dram占了~60%,而且这dram的容量,80gb,它是个啥?够个屁啊,老黄还骗我买8张卡来存放一个gpt3大模型。
高贵的黄教主啊,想不到你是个高价倒卖dram的二手贩子啊........grace把lpddr也集成进去了,是不是这集成的lpddr不得也比标准ddr dimm贵个几倍?
所以,要革nvidia命的第一步,就应该从dram出手,如果我做把dram成本做到更合理的结构,并且再把容量做大到更少的芯片数量就能存放大模型。
这天,我能翻。
就前几天,聪明绝顶的graphcore联合创始人兼cto为众多竞争者指出了一条路,如下:
看到没,lpddr定制一下是可以做到50% hbm的带宽,但是容量远大于hbm的,剩下你只要在ai大模型的存/算带宽容量比上做到最好就行。
不过。。。。。。。他自己为啥不做?
因为一颗h100 gpgpu虽然成本只有 ~$2000,但它在市场上的售价是 ~$30000,在15倍的暴利面前,你想用降成本的方式来获取竞争力。嗯,假设你做一颗成本$1000,比h100性价比更高的dsa,能打赢吗?
客户他又不是傻子,他愿意用$30000的价格买一个$2000成本的东西,他真的会图你的成本能再降低$1000 ?
这个巨大的溢价空间,并非源自gpgpu本身,而来自于其背后的巨大黑手,一个复杂的系统,这个系统本身,甚至潜移默化影响了用户的算法。
nvidia是一个伪装成卖device,但真实是在卖一个system的公司。apple也是。
只有打掉这个系统才有可能破解其成本,想一想,ios有android,windows有linux,cuda却没有开源路径……
一计不成,再生一计。我再治他一个system的阉人之罪。
回到中国本土市场,你注意到老黄最近在呼吁,美国政府对中国的技术管制要三思而后行。嗯,网传老黄差点就来大陆炒光模块的a股了。
逻辑是没问题的,美国的技术管制大概率nvidia是参与了,所以他才那么在美国发布管制时,第一时间推出了a800、h800这样的数字对中国人是好意头的芯片型号,这种体贴amd苏妈妈就慢了一拍(苏妈妈推出了mi388……)。
美国技术管制的约束大致是芯片总带宽要小于600gb/s(双向)。
gpu a100的nvlink带宽是600gb/s,考虑到pcie不能裁,a800的nvlink被限制到400gb/s(12lane降低到8lane)。
这还好,洒洒水啦。
h100相比a100算力fp16从300t增加到接近1p,nvlink带宽从600gb/s提升到900gb/s,咔嚓一刀,h800的nvlink带宽还是得降低到400gb/s。
有点憋屈,但是我作为骄傲的中国客户,为了图8这个吉利,连4这个数字都能忍了。
我记得我列过几次大模型训练的结构,以gpt3为例,大致上用1024张a100训练gpt,8p一个node,在node内模型并行, 然后按8个8p(64p)做8级流水并行,然后16组8x8做batch 16的数据并行。。。。。。
h100的下一代是b100,它的fp16算力大致上从900t提升到了~2p flops附近。
哦豁,在这个算力下如果b800只有400gb/s的nvlink带宽,基本上tensor并行这个训练行为就没法正常执行了,各大厂商走过路过想一下啊,b800你还要再下10亿美元的单吗?
大概nvidia和us政府定规则的时候,只考虑了ampere和hopper,没把摩尔定律算进去。
所以这个破绽很简单,坏人不让我们做的,我们就越要发展。单芯片的io能力怼上去啊,600gb不够就上1tb,把互联做得大大的,8p的模型并行不够,直接来16p、32p的大互联。
有人会说:这样是不是有点不公平?嗯,美国卡中国是公平的,反过来利用一下反而不公平了?如果能给老黄一个猴子偷桃就一定要偷。
黄教主近期在台北发布了gh200,就有很多黄粉大吹特吹不是?然后呢?这块芯片的带宽是超标美国对中国技术管制的……嗯,老黄在中国发布了不能卖给中国的产品。很公平?
还有人会说:如果真这么做了,美国就会放松技术管制了。我只能说,如果你不做,技术管制不会凭空的放开,你只有做了,才有放开的一天。
当然,你说,革命之事,你求的本就是天下,不是一城一池。那是。
nvidia看长远,最大的破腚,其实是基尼系数太高,不患贫而患不均。
tsmc曾经讲过一个故事。台湾同胞辛辛苦苦攒钱建厂,一张4nm那么先进的工艺哦,才能卖到$15000,但是那某个客户拿去噢,能卖出$1500000($30000*50)的货啦,机车,那样很讨厌耶。你懂我意思吗?
就如最开始说的,在这个世界的商业规则下,$2000成本的东西卖$30000,只有一家,销售量还很大,这是不符合逻辑的,这种金母鸡得有航母才守得住。
天下财共一石,老黄独占八斗。
这是对全天下it产业的伤害,包括tsmc,一个健康的产业,其整个环节是需要一个合理的分配比例的,你要说logic制造的技术含量最高,但是分成的收益却不到1%,这种分配关系不足以长期维系,tsmc的工艺演进是需要钱的(靠的就是大家共筹,利益均分),如果全世界it就这么多钱,英伟达你是可以通过系统优势拿走更多,但产业链中tsmc及其他各个环节就会更加艰难。三星的hbm其实同理,操了白粉的心,卖个白菜的价,不值得。
嗯,不过tsmc没钱发展工艺对我们也不是坏事。或者说把芯片制造行业打到毛利接近零,那全世界只有中国人能做,也挺好。
摩尔定律之下,长期稳定地挤牙膏才是发展的王道(当然intel最终也没挤好,但如果intel如果过早把牙膏都挤了,死得更早)。
一个人过早获得了超额的财富,剩下就看他能不能守得住了 :) 从历史来看,很难的。
ai这个行业,也终将,昔日王榭堂前燕 飞入寻常百姓家。这是大势。
过流继电器的触点性能 过流继电器的应用范围
电感的使用和注意事项
新益昌去年营收净利双跌 前五大客户业务分散
为什么说数字电源是正确的选择?答案就在这里
互联网和车企的造车模式不会成主流
如何取替英伟达?如何颠覆英伟达?
华为Mate10Pro高清图集
GTX1080和GTX1660光线追踪能力实测 实际体验到底如何
爱立信发出警告:不解除对华为以及中兴的相关禁令 将离开瑞典
人工智能行业薪酬曝光,智能语音识别是人工智能中的热门,平均薪酬最高,是时候转行了
抛弃传统硬盘分区方式,SSD存储分区的新革命:NVMe介绍
OpenVINO™ 2022.3 LTS中有哪些新特性?
细说有源光缆结构原理以及应用区域
我国研制成功世界首台Ka频段交会对接微波雷达 助力嫦娥五号探月
智慧消防提升火灾报警处理效率与消防管理
温度循环冲击试验箱的除霜操作步骤
建筑能耗监测系统在中美信托金融大厦(总体)的设计与应用
铁氧体在无线充电中有哪些应用优势?
高速PCB中的过孔设计,需要注意以下几点
UltraScale架构DDR4 SDRAM接口的秘密