8月27日消息,在近日召开的Hot Chips 2024大会上,美国AI芯片初创公司SambaNova首次详细介绍了其新推出的全球首款面向万亿参数规模的人工智能(AI)模型的AI芯片系统——基于可重构数据流单元 (RDU) 的 AI 芯片 SN40L。
据介绍,基于SambaNova 的 SN40L 的8芯片系统,可以为 5 万亿参数模型提供支持,单个系统节点上的序列长度可达 256k+。对比英伟的H100芯片,SN40L不仅推理性能达到了H100的3.1倍,在训练性能也达到了H100的2倍,总拥有成本更是仅有其1/10。
SambaNova SN40L基于台积电5nm制程工艺,拥有1020亿个晶体管(英伟达H100为800亿个晶体管),1040个自研的“Cerulean”架构的RDU计算核心,整体的算力达638TFLOPS(BF16),虽然这个算力不算太高,但是关键在于SN40L还拥有三层数据流存储器,包括:520MB的片上SRAM内存(远高于此前Groq推出的号称推理速度是英伟达GPU的10倍、功耗仅1/10的LPU所集成的230MB SRAM),集成的64GB的HBM内存,1.5TB的外部大容量内存。这也使得其能够支持万亿参数规模的大模型的训练和推理。
SambaNova在推出基于8个SN40L芯片系统的同时,还推出了16个芯片的系统,将可获得8GB片内SRAM、1TB HBM和24TB外部DDR内存,使得片上SRAM和集成的HBM内存之间的带宽高达25.5TB/s,HBM和外部DDR内存之间的带宽可达1600GB/s。高带宽将会带来明显的低延时的优势,比如运行Llama 3.1 8B模型,延时低于0.01s。
下图是SambaNova SN40L的内部结构,包括:计算单元(PCU)、存储单元(PMU)、网状开关(S)、片外存储器和IO(AGCU)。
SN40L 内部的计算单元(PCU)的内部架构,它具有一系列静态阶段,而不是传统的获取/解码等执行单元。PCU可以作为流媒体单元(从左到右的数据)运行,蓝色是交叉车道减少树。在矩阵计算操作中,它可以用作收缩阵列。支持BF16、FP32、INT32、INT8等数据类型。
下图是SN40L 的高级存储单元框架图。这些是可编程管理的暂存区,而不是传统的缓存。
SN40L 的网状 *** 拥有三种物理 *** ,包括矢量 *** 、标量 *** 和控制 *** 。
AGCU单元用于访问片外存储器(HBM和DDR ),而PCU用于访问片内SRAM暂存区。
下图是SN40L 的顶层互联结构:
SN40L 的关键核心在于其可重构数据流架构,可重构数据流架构使其能够通过编译器映射优化各个神经 *** 层和内核的资源分配。
下面是一个例子,说明Softmax是如何被编译器捕获,然后映射到硬件的。
可以看到,将它映射到大语言模型(LLM)和生成式AI的Transformer模型,下面是映射。在解码器内部,有许多不同的操作。
下图是解码器放大图。每个方框内都是一个操作符。同时,通常可以运行多个操作符,并把数据保存在芯片上以便重用。
以下是SambaNova对运算符如何在GPU上融合的猜测,不过他们也指出这可能不准确。
在RDU中,整个解码器是一个内核调用。编译器负责这种映射。
解码器作为RDU上的单个内核。
回到Transformer的结构,下图展示了解码器的不同功能。可以看到,每个函数调用都有启动开销。
不是32个调用,而是写成一个调用。
换句话说,这意味着调用开销减少了,因为只有一个调用,而不是多个调用。结果,增加了芯片对数据做有用工作的时间。
SambaNova 首席执行官兼创始人 Rodrigo Liang 表示:“借助数据流,你可以不断改进这些模型的映射,因为它是完全可重构的。因此,随着软件的改进,你获得的收益不是增量的,而是相当可观的,无论是在效率方面还是在性能方面。”
下面是SambaNova的16个SN40L芯片系统在Llama3.1 405B/70B/7B上的表现,在Llama 3.1 7B模型下,以完全的16bit精度运行,其每秒的Token生成数竟然高达1100个。这比此前Groq推出的基于LPU(号称推理速度是英伟达GPU的10倍,功耗仅1/10)的服务器系统在Llama 3 8B上的最快基准测试结果每秒生成800个Token还要快。即使是在Llama3.1 405B模型上,以完全的16bit精度运行,16个SN40L芯片的系统每秒Token生成数也能够高达114个。而在Llama 3.1 7B模型下,其每秒的Token生成数更是高达1100个。由于内存容量限制,与其最接近的竞争对手需要数百块芯片来运行每个模型的单个实例,因为 GPU 提供的总吞吐量和内存容量相对较低。
SN40L在Llama 3.1 70B模型上进行批量推理和吞吐量缩放表现,随着批量大小的变化,吞吐量接近理想规模。
据SambaNova 介绍,基于8个SN40L芯片的标准AI服务器系统在运行80亿参数的AI大模型时,速度达到了基于8张英伟达H100加速卡的DGX H100系统的3.7倍(每生成20个Token所耗费的时间),而整个系统所占用的空间也只有DGX H100的1/19,模型切换时间也仅有DGX H100系统的1/15。
在芯片推理性能方面,SN40L达到了英伟达H100的3.1倍;在训练性能方面,SN40L也达到了英伟达H100的2倍。
总结来说,SambaNova 可以在8个SN40L芯片的系统上运行数百个大模型(在16个SN40L芯片的系统上可以同时运行多达 1000 个 Llama 3 7B大模型),同时还能够保持很快的响应速度,拥有完全精度。更为关键的是,其总拥有成本比竞争对手低 10 倍(虽然未明确是哪款竞品芯片,但从前面的对比来看,应该说的是H100)。
“SN40L的速度展现了Dataflow的魅力,它加速了 SN40L 芯片上的数据移动,更大限度地减少了延迟,并更大限度地提高了处理吞吐量。它比 GPU 更胜一筹——结果就是即时 AI,”SambaNova Systems 联合创始人、斯坦福大学知名计算机科学家 Kunle Olukotun 表示。
值得一提的是,在基于SN40L芯片的系统之上,SambaNova 还构建了自己的软件堆栈,其中包括今年2月28日首次发布的拥有1万亿参数的Samba-1 模型,也称为 Samba-CoE(专家组合),其使得企业能够组合使用多个模型,也可以单独使用,并根据公司数据对模型进行微调和训练。
在芯智讯看来,SN40L相比目前的一些AI芯片来说,拥有着显著的优势,比如其可重构的数据流架构,可以调整硬件来满足各类工作负载要求,使得其可以很好的处理图像、视频及文本等不同的数据类型,适合多模态AI应用。但是,相对于英伟达的GPU可以灵活的处理各种模型来说,SN40L在灵活性上还是要略逊一筹,因为相关模型必须要经过专门的调整才能在其上面运行。而且,英伟达强大的CUDA生态对于其来说也是一大挑战。
不过,在AI模型参数越来越大,所需的芯片数量和资金成本越来越高的背景之下,SN40L在性能和成本上的优势,以及可以轻松实现对于万亿参数大模型的支持,因此也有着与英伟达直接竞争的机会。或许正因为如此,SambaNova也获得了资本的青睐,目前已经累计获得了超过10亿美元的融资。
编辑:芯智讯-浪客剑
发表评论
2024-11-28 09:08:06回复
2024-11-28 09:11:12回复
2024-12-05 02:14:22回复
2024-12-05 02:17:25回复