图片来源:摩尔线程

摩尔线程张建中:在AI战场,万卡已成最低标配

界面新闻记者 | 李彪

界面新闻编辑 | 宋佳楠

“在AI主战场,万卡是更低标配。”

随着Scaling Law(规模越大,性能越好) 成为行业共识法则,国内百模大战仍在冲击更大的目标,摩尔线程CEO张建中作出了上述判断。

而参数量和数据量的不断增加,意味着对算力的需求也在增加。在此趋势下,国产厂商都在加紧建设更大规模的AI智能算力数据中心。去年发布并落地多个千卡(显卡,即GPU)智算中心集群后,GPU厂商摩尔线程近期又推出了首个万卡集群方案。

当前训练AI大模型离不开GPU,各公司拥有GPU的数量已经成为衡量算力规模的基本依据。相比OpenAI、谷歌、Meta等国际巨头成批采购几十万张英伟达显卡搭建数据中心集群,国内公司大多数还只能采购几千张,只有字节等少数头部厂商拥有上万张卡规模的算力集群。

卡的数量直接决定了训练一个大模型所用的时间。张建中提到,去年国内“百模大战”开打后,几乎每个月都有新的模型发布。而现在,一家AI大模型公司训练迭代一次大模型的时间已经缩短为两周,超过两周就跟不上同行的速度。

去年英伟达的H100以及后续的高端GPU对华出口遭禁后,国内一度出现严重的算力紧缺。张建中告诉界面新闻记者,从国际巨头计划采购英伟达显卡的订单变化来看,今年市场对算力的需求有增无减,万卡,甚至超万卡集群,是这一轮大模型竞赛的入场券。公司的目标是在国内市场“占位”,努力保证训练大模型时“有卡可用”。

今年也是行业广泛热议的大模型应用落地之年。除传统的ChatGPT聊天机器人外,像上半年爆火的Sora、国内对标Sora的快手“可灵”,以及更多的AI手机、智能驾驶端侧模型等,都在寻找落地场景。这背后都需要更多的算力支持。

在张建中看来,当下“Scaling Law”法则在AI大模型行业依然奏效,即为了追求更好的性能,规模做大的同时,算力需求也越来越大。

*** 息显示,2020年左右,OpenAI使用约1万块英伟达GPU来训练GPT-3.5模型,当时的模型参数量只有1750亿。到了2023年,OpenAI推出1.8万亿参数的GPT-4时,市场调研机构 SemiAnalysis估测其已经拥有近3万块英伟达GPU。

虽然GPT-5迟迟未面世,规模还是一个秘密,但外媒曝光了OpenAI与微软正在合作的“星际之门”计划。这是一个包含百万张GPU的超级数据中心,计划在2028年建成。

国内的AI算力市场也从去年开始不断扩容,全国各地掀起了智算中心“基建潮”。北京、上海、深圳、安徽、江苏五地,目前已公布未来几年内智能算力中心建设的具体方案,青岛、贵州、南昌等超过30个地方城市正渐次加入。

据行业自媒体“中国IDC圈”不完全统计,到2024年5月下旬,我国共建设有智算中心283座,其中已投产运营的达到89座,超过一半处于开工或在建状态。

界面新闻此前从多位行业人士处了解到,各地建设智算中心正处于“跑马圈地”的阶段。一方面,国内需要建设更多智算中心,将“盘子”做大,从而保证算力供应;另一方面,由于英伟达显卡遭禁,国产AI芯片的单卡性能与之相比存在较大差距,国产厂商普遍选择走集群化、规模化路线,将多个小型单点算力节点通过高速 *** 互连技术建成一整个超大规模的算力集群。也因此,落地的智算中心越建越大。

一家头部国产服务器厂商在一场活动上提到,去年国内建智算中心都以万卡为目标,今年整体需求水涨船高,开始以5万卡作为新的目标。眼下能够满足AI公司训练模型的GPU是市场上的硬通货,基本上是“谁有GPU,谁能建智算中心”。

但在张建中看来,智算中心从千卡到万卡,不只是简单的“堆卡”。规模变大的同时,难度也呈指数级倍增——既要实现智算中心扩容,也要兼顾质量。这对厂商而言是一项极其复杂的系统工程。

算力利用率与稳定性是行业衡量智算中心质量的两项重要指标。目前,摩尔线程的千卡智算中心的算力利用率已达到50%,未来推动万卡集群智算中心落地时,目标是达到60%的算力利用率,同时保证99%以上的稳定性。这与国际巨头已十分接近,但要达到领先仍存在较大挑战。