作者|张书嘉 Morris
编辑|苏扬
10月17日,美国更新出口管制标准,要求先进芯片性能超过特定阈值,即需要申请出口许可。在严苛的限制条件下,英伟达针对中国市场的特供版H800、A800两款芯片也面临禁售,以下为美国商务部对先进芯片性能的划定标准:
●总算力之和≥4800 TOPS ,
●总算力≥1600,且性能密度≥5.92;
●2400≤总算力<4800,且1.6<性能密度<5.92;
●总算力≥1600,且3.2≤性能密度<5.92。
面对新的管制条例,英伟达给了两个解法:其一,沟通美国商务部申请许可,给特定的中国客户“开白”;其二,针对新的管制条例,再次定制全新的特供版本。
刚刚举办的第三财季电话会议上,英伟达首席财务官科莱特·克雷斯确认了这一消息。克雷斯表示,英伟达正在与中东和中国的一些客户合作,以获得美国政府销售高性能产品的许可。此外,英伟达正试图开发符合政府政策且不需要许可证的新数据中心产品。
01
02
实操上,通常的晶圆厂都会配置专业设备,由激光直接在裸片上切割线路/沟槽,而在亚利桑那钱德勒市的Intel Fab42工厂里,还有直接在专用隧道镜下面手工雕刻晶体管的设备,宣称是原子尺度的,不同于寻常的扫描隧道显微镜,几年前Intel有个宣传视频,提到这台设备,据传全球持证的操作手不超过14人。
其实在平面晶体管以前,显微镜手雕不算是高难度动作,但进入FinFET以后,由于垂直方向的3D栅极结构,手雕设备的代价和操作员就变得遥不可及了。
具体到H20/L20,这两款特供产品,是如何通过H800、L40S降规而来?可以先看看相关参数:
H20:对应H100/800系列,Hopper架构(HBM3、2.5D CoWoS封装、NVLink)
L20:对应L40S系列,Ada Lovelace架构(GDDR6,2D InFO封装,PCIe Gen4)
*注:固件相应修改;
03
举个例子:A、如今市面仍可见的Intel F系列CPU,就是点断显核的70分die;B、Apple Si的前两代,官宣8核NPU,实际有9个,就是设计冗余。
以上这些,在晶圆制造工序中也算是基本操作,特别是中试厂/线,Alpha - Beta流片的过渡期间,有小错就会直接手改,不会返回修改掩膜重新流片的。
从芯片设计者的角度来看,设计冗余度是在芯片开发流程中原本存在的,因为前道光刻过程是强调高良率的,具体到失效晶体管数,测试环节判断模块级别的良率,坏点可以直接电路割断,后续引线、封盖工艺流程都不变。
例如3年前,Intel曾向市场推出过不带显核的F系列CPU,就是物理降规/阉割的产物,点断显核,重新封装销售。但是该款芯片偶尔耗电巨大,经用户投诉,建环境验证后发现就是原本通过物理点断失效的显核在接电之后不受控制而导致的莫名电源故障。
这个案例反映的情况就是我们上文所讲的,同一条流水线,经过点断失效的芯片,后续的导线/引脚和封装过程不变,可以继续销售。尤其早期Intel 10nm的良率很低,积压很多这样的低分片,才会把显核失效的芯片加印F标继续销售。
如今这个“冗余度”可能有很大空间,毕竟H100已然是814平方毫米的大芯片,几乎接近光罩尺寸边缘(26mm*33mm=858mm2)。而如今发布的H20降规型号,大概是H100 15%的性能,但是其物料成本几近相同。
04
除了在逻辑芯片表面的激光点断工艺之外,还有针对某些特殊位置的点断要求,比如CoWoS中介层的点断。
CoWoS作为台积电的2.5D封装方案,可以使得多颗芯片封装到一起,互连和内存等器件均通过硅中介层互联,达到了封装体积小,功耗低,引脚少的效果。
相比表面激光点断,在CoWoS的前道部分——即CoW部分是硅通孔和中介层——在该层面操作点断,做差异化,反而更经济,也更容易保证良率。因为算力逻辑芯片和I/O 芯片是分列的,可以屏蔽底层物理互连的通道,也可以缩减HBM3内存性能,而且在硅中介层修改差异化更容易,相比全部在逻辑芯片上修改的代价更低,因为中介层上操作的线宽精度可以较低,甚至点断最上面那层金属的线宽即可。
但是,CoWoS中介层上面是只能够屏蔽物理互连和HBM内存,但是无法屏蔽FP64单元、Tensor core单元这样的计算逻辑芯片面积,这就需要补充用到前文所说的在逻辑die表面点断失效的方法。
另外,正常情况下,物理点断失效的电路是不能从外部第三方察觉的,且工艺不可逆;尤其如今芯片都是十几层金属,裸片的表面修改了,上面金属层是看不穿的,除非是用到反工程的透视扫描。
综上,我们看到进一步特供/降规生产的H20/L20等型号,可以判断是H800和L40S的裸片的后道物理点断工序的改造产物,同时重新封装、重新修改固件,成为新的SKUs。
回想Nvidia之前积压的、原本销往中国的50亿美元的GPU产品尚未交付,如今返厂做了后道改造才得以如此快速的发布新的SKU,那么猜测国内厂商的50亿美元订单也许会转换为这三个型号。
05
核心AI芯片相关参数及出口管制情况,APPLIES对应受管制,DOESN'T APPLY对应不受管制
然而对于H20,其集群的理论扩容极限是5万张卡,以单卡算力0.148P(FP16/BF16)计算,集群合计提供7400P算力,远低于H100/H800/A100。
基于NVIDIA H800的8卡服务器模组