查看原文
其他

炸场的英伟达,把自己“炸了”?

Leslie Wu 腾讯科技
2024-09-19

“芯事重重”半导体产业研究策划,本期聚焦英伟达B200出货延迟的“卡点”分析,独家发布腾讯新闻,未经授权,请勿转载。

作者 前台积电建厂专家 Leslie Wu

(公众号:梓豪谈芯)

编辑 苏扬
频繁炸场的英伟达,没能守住3万亿美元的市值。
北京时间6月19日,英伟达市值达到3.335万亿美元,一举超过了微软和苹果成为全球第一。在经历这一高光时刻之后,英伟达的市值开始走下坡路,截至8月2日收盘,英伟达的市值缩水26%。
在此之前,已经有分析师呼吁投资者“踩刹车”。每日经济新闻援引投行DA Davidson分析师Gil Luria的观点,称英伟达业绩创纪录达到260亿美元,源于顶级客户对其GPU产品的支出,他认为这种趋势未来将会动摇,并且英伟达的股价在18个月内将出现两位数的跌幅。
黄仁勋在GTC2024上发布基于B100系列基础芯片的Blackwell架构GPU/服务器,来源:AP

在Gil Luria这样的分析师看来,顶级客户们已有“二心”,而英伟达自身的“失误”,也给了客户变心和对手截胡的窗口期,一切都要从Blackwell架构芯片的负面传闻说起,包括CoWoS良率低、B100 SKU被放弃、B200出货延迟及重新流片等关键议题

从台积电内部获悉的情况来看,英伟达Blackwell芯片重新流片的消息确有其事,但主要涉及B100系列基础芯片问题出在底层Standard cell(标准单元)——是预先设计好的标准特定功能、尺寸电路模块,如果把芯片设计理解为搭积木,标准单元就是积木的最小单位——在高压环境下会出现工况异常,目前问题都已经发现,需要重开掩膜版。

不过,整体晶圆制造Wafer-in到Wafer-out的时间没办法缩短,好在2024年只有小批量出货,本身就不是Blackwell服务器的出货时间,今年年底前扩大产能把小批量出货的进度追回来,从我个人的从业经验来看,这对于台积电来说不算难事。



替延迟出货背锅的良率


B100被放弃、B200延迟出货重新流片属于对Blackwell芯片“跳票事故”的片面理解,这与英伟达复杂的命名有关。

Blackwell系列芯片包含B100和B102两个基础芯片,包括B200\GB200在内的这些SKU,都是采用基于B100系列的Chiplet方案,B200A则是基于B102打造。

为了方便理解,给大家整理了一个表格,可以对照看B102和B100这个基础芯片,以及对应的服务器SKU,针对不同应用的服务器,还可以组合出更多款式,例如HGX B200A / HGX B200/ NVL36/72甚至是NVL8或GB210A的气冷版本。

Blackwell芯片的命名及各种SKU让外界理解混乱,可以理解,但“CoWoS良率只有66%,一片晶圆只能切10颗Good die”这种说法则脱离了常识。

我们可以从晶圆制造的前段和后段分别简要说说“良率”这个概念。

前段的GPU Die,和苹果、高通以及AMD一样,英伟达这次采用的是N4P工艺,已经非常成熟,所以良率根本不用担心。

后段封装,尤其是CoWoS的“oS”部分,不仅包含了GPU die,也还有HBM内存,而且8颗HBM本身成本就很高,如果GPU die故障,整个封装就成了废片,所以良率低于80%都不可能排产,不然成本会无限放大,毛利无法保障,如果是66%的水平,根本不会排产。

在制造环节良率异常这种风险应对上,作为Fabless厂,不管是英伟达,还是苹果,都不可能全部将产品押注在新方案上,如果新方案有问题,整代产品就可能报废,这个风险太大,所以在下单时一定会有备选方案同时开案。换句话说,即便CoWoS-L的良率真出了问题,也不会影响Blackwell芯片的出货。

我举个例子,苹果明年的A18芯片想采用台积电全新的2nm工艺,一定会同时开N3P工艺的方案,以确保“赚无一失”,英伟达自然也会如此。

根据我们拿到的数据,Blackwell采用CoWoS-L封装,目前的良率大概在90%左右且还在爬升当中,这一点也和业内对CoWoS研究最透彻的野村团队保持一致。另外,年初台积电对CoWoS-L良率的预期是95%,相比H200、H100这些产品采用CoWoS-S封装的99%的良率,90%自然是表现不佳,但对于新工艺来说,勉强可以接受。

所以说,CoWoS-L目前的良率确实不如预期,但将前段的GPU die因为标准单元的问题,需重新设计掩膜,导致Blackwell芯片无法顺利生产,间接导致后段的CoWoS-L产能出现停摆的现象,总结为CoWoS-L良率存在重大异常,来反推Backwell芯片不能顺利出货,有违事实,也有悖于行业常识

实际上,在这次B100系列基础芯片重新流片的问题之前,英伟达就已经出于CoWoS-L良率不及95%的问题进行了调整,在采用B102基础芯片的B200A上,更换为CoWoS-S封装,原计划是分担CoWoS-L的产能压力,确保2025年有更多Blackwell芯片的产出,现在这种调整,也能够帮助英伟达解决因为GPU die设计问题导致的进度延后问题,并且也能帮助拉高2025年Blackwell芯片的总体出货量。



谁在掐着英伟达的“脖子”

过去有很多讨论,说英伟达卡着算力的脖子,但是英伟达自己的“脖子”却被更上游的HBM内存这些企业卡着。
应该这样说,目前HBM、液冷QCD快接头模块供应都比较紧张,但供应紧张并不会延迟出货,顶多是导致出货量减少,而且现阶段这些紧缺的零部件的工艺还是有保障的,比如三星,目前已经确定加入英伟达的HBM供应商体系当中。
真正会影响Blackwell芯片发货的,是后续各种服务器产品化的节点。
从产业链的消息来看,目前进入生产阶段的不止芯片,还有板卡组件、交换设备、机架、制冷方案等等。

GTC2024上,黄仁勋现场介绍GB200 NVL72服务器,来源:网络

而从8卡机柜扩容到72卡机柜,需要考虑包括网络带宽收敛、以及各种并行策略(模型数据切分、分段计算、拷贝和重组)在整个机柜中的最佳工况等等诸多问题。此外,由于托盘变得更多,密度更高更紧凑,内部布线数量、高速交换、散热这些复杂的问题,都意味着机架也要重新设计,目前也应该都在测试当中。
由于NVL36/72服务器都是全新的技术方案,所有子系统与集成是否完善也是风险点之一,外界的关注点过去都集中在性能上,实际上整个系统的高成熟度与可靠度,也是考量这代产品好坏的依据。
对于采用水冷散热的GB200系列,还要考虑漏液的问题,主要涉及三个部件:水冷板、分歧管、CDU液冷分配单元以及QCD快接头,其中快接头最容易发生漏液,所以漏液也是服务器厂家最头疼的问题,它的质量最为关键,直接牵涉到责任的归属划分。一般情况下,如果出现漏液,英伟达会向客户先行赔付,然后再向鸿海、广达这类系统厂进行索赔,一台AI服务器机架动辄数百万美元,漏液赔偿可能会让一家小企业直接破产
从我们拿到的消息来看,目前英伟达与鸿海、广达这些系统厂还在进行水冷散热的测试,还没有大量导入。
前面说的,不管是芯片厂、系统厂还是散热厂,面对动辄数百万美元的赔偿,没有哪一家厂商愿意轻易承担这种风险,都需要实际导入后,有了“小白鼠”后才能大规模落地。



英伟达会“翻车”吗?

文章开头我们提到,英伟达的市值已经自历史高点的3.3万多亿美元,下跌到现在的2.6万亿美元,跌幅超过26%,而在一季报发布的时候,英伟达自信的预期二季度营收280亿美元,误差在±2%的区间内。
现在,由于GPU die的设计问题,CoWoS封装良率不及95%的预期,各种服务器技术方案还没定案,都会影响Blackwell芯片的顺利出货,那么这些问题是否会更进一步,将英伟达踢出2万亿市值的榜单?
可以这样说,短期内不会有太大的问题,关键就在于,Blackwell芯片第三季度本身就是小批量排产,第四季度才会上量,而且这只是台积电的排产节奏,完成GPU die的生产之后,接下来是后段CoWoS,再接着就是Bumping厂,最后到工业富联、纬创这些系统厂做组装,进而完成服务器出货和业绩落地。
一句话说,服务器出货才对英伟达的营收有影响,而不是台积电的芯片出货。
按照现在的节奏,服务器的大批量交付最快也要到2025年的第一季度,换句话说,英伟达明年第一季度才会在Blackwell芯片上实现较大的业务增量。也就是说,这款芯片,到明年才会为英伟达贡献大量的营收,这也是原来市场就有的合理预期,并不会反映在第二季度、甚至是第三季度的业绩上。
对英伟达来说,在三季度发现设计上的问题,并且拿出解决方案,然后在台积电跑个Super hot run(超级急件)对应的时间还是第四季度的中后期,大概在11月-12月,本身这部分产能就已经预定完成,3个月基本可以继续排产,且台积电不论N4P还是CoWoS - S/L,产能都比现在充足 , 把稼动率拉到120%,来应对因为设计缺陷导致原本第三季度要小批量出货的芯片延迟出货的问题 , 基本上没有太大困难 , 也就是说,以年度来计算 , 今年Blackwell出货虽然会少,但不会少很多
对英伟达和整个产业链下游来说,芯片问题目前已暴露,服务器的各个子系统也必须同时进行各种实际环境的的测试。比较乐观的地方在于,目前生产出的芯片 , 只在特定高压环境会有问题 ,这些芯片是可以交给鸿海等服务器系统厂家去做各种调适与测试,也就是服务器各子系统跟原本一样,还是有半年时间拿到芯片去模拟各种环境的测试 ,最终大量的出货时间点会落在2025年的2-3月份 。
从目前的情况看,第二季度在H200泄洪式出货的背景下,业绩大概率还是符合指引并超预期,而且本身2023年的营收主力是H200系列,前面提到,今年Blackwell芯片小批量出货的规模会比原计划有所减少,大概在2万片晶圆(CoWoS-L从41K减少到不足20K),换算成英伟达业绩预估在80-95亿美元左右,但采取H系列增量销售以及B系列回片后冲刺产能的紧急应对措施,这次业绩损失大概会落在 50 亿美元左右,这些可能会反映在第四季度财报当中,对股价的冲击必定是有的,毕竟是产品翻车。
比起Blackwell芯片“翻车”这个事情本身,更值得思考和重视的一个问题在于,英伟达每年都会推出新的SKU,需要许多创新技术,这个节奏非常之快,如果没有足够的时间去优化并提高可靠性,未来几年在某一款产品上彻底翻车这个可能性也是有的,这是我们需要重新审视的英伟达的发展逻辑,也是竞争对手们苦苦等待的机会。
从更宏观的角度来,看尽管这两年英伟达的增长逻辑没有问题,但更长期的发展则是风险不断加大。这种风险不仅仅表现为每一代疯狂激进的技术更迭,还有应用端以及后续需求问题,简单说就是大家耳熟能详的“AI泡沫” ,又或者是否会出现新技术的强力竟争者,比如新的芯片技术或者掌握大模型的上游企业开始自研。
这两天确实看到很多报道,关于中美巨头们都纷纷下场自研,插播一个消息供参考,OpenAI的自研芯片项目,已经和台积电谈的差不多了。






推荐阅读
继续滑动看下一个
腾讯科技
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存