近日,黄仁勋让海外科技圈提早过上了圣诞节。

英伟达B300:AI推理的「加速器」,供应链的「下马威」

由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的信息,但这并没有让英伟达的脚步放缓。

在GB200和B200发布6个月后,英伟达就宣布将推出全新的GPU GB300和B300。外界看来似乎是一个循序渐进的过程,但事实上,这是非常高效的迭代。全新GPU为大模型的推理和训练性能带来巨大的提升,对大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。定制化工艺做了一个调整设计,专用于计算芯片,使得B300浮点运算比B200高50%,GB300和B300的热设计功耗分别达到1.4KW和1.2KW,相比之下,GB200和B200的热设计功耗分别为1.2KW和1KW。

此外,B300的内存从8-Hi(8层堆叠)升级到12-Hi HBM3E,每个GPU的HBM容量增加到288GB,但引脚速度将保持不变,所以每个GPU的内存带宽仍然是8TB/s。不过,三星并没有收到黄仁勋带来的礼物,因为至少在未来的9个月内,他们都没有机会拿到GB200和GB300的订单。

GPU卷内存的背后,是大模型的下一场战事「推理」

英伟达改进GPU内存的背后,是为满足OpenAI O3对推理性能的更高要求。

OpenAI O3采用KVCache技术对模型的推理能力进行优化,即通过缓存注意力机制中的键(Key)和值(Value)来减少冗余计算,从而提高模型推理的速度。关键就是缓存之前的旧数据,仅对新输入的Token进行计算,所以对缓存的性能提出了更高的要求。

下图是在不同批处理大小下,使用H100和H200两种GPU处理长序列时,Meta开源大模型Llama3.1405B在FP8(8位浮点数表示法)精度下的处理速度。输入设置为1000个Token,输出19000个Token,由此模拟OpenAI o1和o3模型中的思维链。

H100升级到H200的两个改进是:内存更高,速度更快。

由于更多的内存带宽(H200 4.8TB/s vs H100 3.35TB/s),在所有可比较的批处理中,交互效率通常提高43%。

H200运行比H100更高的批处理,但成本降低了3倍。

内存容量提升,在多个维度都会产生影响。

由于请求和响应之间的等待时间很长,推理模型可能会带来糟糕的用户体验。如果能够缩短推理时间,这将增加用户的付费意愿。

3倍的成本差异是巨大的。在中代升级中,硬件产品能够实现3倍的变化,这在某种程度上,比摩尔定律、黄氏定律或其他所有硬件改进速度都要快得多。

在大模型竞赛中,更具能力和差异化的模型能够收取显著的溢价,头部模型的毛利率超过70%,而落后模型毛利率低于20%。

当然,英伟达并不是唯一一家可以提高内存容量的公司。ASIC同样可以做到,且事实上AMD在这方面可能处于更有利的地位,MI300X的192GB、MI325X的256GB以及MI350X的288GB,这些产品的内存容量比英伟达要高。

GB200 NVL72和GB300 NVL72在性能和成本方面都有很大的提升,在推理中使用NVL72的关键是它使得72个GPU能够处理同一个问题,并共享内存,且延迟极低。世界上没有其他加速器拥有全互联的交换连接以及能够通过交换机进行全约简操作。GB200 NVL72和GB300 NVL72为实现许多关键功能带来了革命性的变化:

更高的交互性使得思维链的延迟更低。

72个GPU分散KVCache,以实现更长的思维链(增强智能)。

与典型的8个GPU服务器相比,更好的批量大小扩展,使得成本更低。

在处理同一问题时,可以搜索更多的样本,以提高准确性,最终提升模型性能。

因此,NVL72的推理性价比比之前提高了10倍以上,特别是在长推理链上。KVCache占用内存对经济效益是致命的,但NVL72能够将推理长度扩展到10万以上token并在高批量中进行。

英伟达的「转身」,供应链的「震动」

英伟达在GB300的设计上有很大的改动,对于GB200, 英伟达提供整个Bianca板(包括Blackwell GPU,Grace CPU, 512GB的LPDDR5X、VRM全部集成在一块印刷电路板上)以及交换托盘和铜背板。

对于GB300,英伟达不再提供整个Bianca板,只提供“SXM Puck”模块上的B300以及BGA封装上的Grace CPU。HMC(混合内存立方体)将由美国初创公司Axiado提供,替换掉了之前的供应商Aspeed。此外,交换托盘和铜背板将仍由英伟达提供。

客户现在需要自主采购计算板上其余的组件,外部存储器将采用LPCAMM模块,而不是焊接的LPDDR5X,美光或将成为这些模块的主要供应商。

向SXM Puck的转变,为更多的OEM和ODM提供了参与供应计算托盘的机会,以前只有纬创资通和工业富联可以生产Bianca板。在这次供应商调整中,纬创资通成为更大输家,因为他们失去了Bianca板的份额。相对而言,工业富联虽然失去了Bianca板的份额,但他们是SXM Puck模块的独家制造商,这部分带来的收益完全可以抵消掉Bianca板带来的损失。英伟达虽然想找更多其他的SXM Puck模块供应商,但目前还没有实际下单。

另一个重大变化是VRM(电压调节模块),虽然SXM Puck上有一些VRM,但大部分的VRM将由超大规模厂商或者OEM直接从VRM供应商处采购。

此外,英伟达还在GB300平台上提供了800G ConnectX-8 NIC( *** 接口卡),这使得在InfiniBand和以太网上的横向扩展带宽翻倍。由于上市时间的影响,英伟达之前取消了GB200的ConnectX-8,并且放弃了在Bianca板上启用PCIe Gen 6(PCI Express接口的最新一代标准)。

市场信息表明,GB200和GB300的延迟发布,给硅谷的大厂们带来了很大的影响。而这背后传递出的信号是从第三季度,大量订单转向了GB300。截至上周,所有大厂都决定使用GB300。一部分原因是更高的性能和更大的内存,另一方面,英伟达已经控制了大厂模型训练的命运。

受制于产品上市时间、机架、冷却和电源功率密度的重大变化,大厂在服务器层级无法对GB200进行太多更改。这导致Meta放弃了希望从博通和英伟达两个渠道采购 *** 接口卡(NICs)的希望,转而完全依赖英伟达。谷歌也放弃了自家的 *** 接口卡,选择与英伟达合作。

硅谷大厂们习惯了成本优化,从CPU到 *** ,再到螺丝和金属板。

亚马逊是一个例外,定制化让他们“被迫”选择了次优配置。由于亚马逊使用了PCIe交换机和效率较低的200G弹性织物适配器NIC,无法像Meta、谷歌、微软、甲骨文、X和Coreweave那样部署NVL72,因此不得不使用NVL36,这也导致每个GPU的成本更高,因为背板和交换机内容更多。

GB300的出现为亚马逊带来转机,大厂能够定制主板、冷却系统等功能。这使得亚马逊能够构建自己的定制主板,随着更多组件采用水冷,以及K2V6 400G NIC在2025年第三季度支持HVM(硬件虚拟化管理),亚马逊同样可以使用NVL72架构,并大幅改善其总体拥有成本(TCO)。

本文由雷峰网(公众号:雷峰网)编译自:https://semi *** ysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/#b300-gb300-not-just-an-incremental-upgrade