摩尔线程张建中：在AI战场，万卡已成更低标配

图片来源：摩尔线程

摩尔线程张建中：在AI战场，万卡已成最低标配

界面新闻记者 | 李彪

界面新闻编辑 | 宋佳楠

“在AI主战场，万卡是更低标配。”

随着Scaling Law（规模越大，性能越好）成为行业共识法则，国内百模大战仍在冲击更大的目标，摩尔线程CEO张建中作出了上述判断。

而参数量和数据量的不断增加，意味着对算力的需求也在增加。在此趋势下，国产厂商都在加紧建设更大规模的AI智能算力数据中心。去年发布并落地多个千卡（显卡，即GPU）智算中心集群后，GPU厂商摩尔线程近期又推出了首个万卡集群方案。

当前训练AI大模型离不开GPU，各公司拥有GPU的数量已经成为衡量算力规模的基本依据。相比OpenAI、谷歌、Meta等国际巨头成批采购几十万张英伟达显卡搭建数据中心集群，国内公司大多数还只能采购几千张，只有字节等少数头部厂商拥有上万张卡规模的算力集群。

卡的数量直接决定了训练一个大模型所用的时间。张建中提到，去年国内“百模大战”开打后，几乎每个月都有新的模型发布。而现在，一家AI大模型公司训练迭代一次大模型的时间已经缩短为两周，超过两周就跟不上同行的速度。

去年英伟达的H100以及后续的高端GPU对华出口遭禁后，国内一度出现严重的算力紧缺。张建中告诉界面新闻记者，从国际巨头计划采购英伟达显卡的订单变化来看，今年市场对算力的需求有增无减，万卡，甚至超万卡集群，是这一轮大模型竞赛的入场券。公司的目标是在国内市场“占位”，努力保证训练大模型时“有卡可用”。

今年也是行业广泛热议的大模型应用落地之年。除传统的ChatGPT聊天机器人外，像上半年爆火的Sora、国内对标Sora的快手“可灵”，以及更多的AI手机、智能驾驶端侧模型等，都在寻找落地场景。这背后都需要更多的算力支持。

在张建中看来，当下“Scaling Law”法则在AI大模型行业依然奏效，即为了追求更好的性能，规模做大的同时，算力需求也越来越大。

*** 息显示，2020年左右，OpenAI使用约1万块英伟达GPU来训练GPT-3.5模型，当时的模型参数量只有1750亿。到了2023年，OpenAI推出1.8万亿参数的GPT-4时，市场调研机构 SemiAnalysis估测其已经拥有近3万块英伟达GPU。

虽然GPT-5迟迟未面世，规模还是一个秘密，但外媒曝光了OpenAI与微软正在合作的“星际之门”计划。这是一个包含百万张GPU的超级数据中心，计划在2028年建成。

国内的AI算力市场也从去年开始不断扩容，全国各地掀起了智算中心“基建潮”。北京、上海、深圳、安徽、江苏五地，目前已公布未来几年内智能算力中心建设的具体方案，青岛、贵州、南昌等超过30个地方城市正渐次加入。

据行业自媒体“中国IDC圈”不完全统计，到2024年5月下旬，我国共建设有智算中心283座，其中已投产运营的达到89座，超过一半处于开工或在建状态。

界面新闻此前从多位行业人士处了解到，各地建设智算中心正处于“跑马圈地”的阶段。一方面，国内需要建设更多智算中心，将“盘子”做大，从而保证算力供应；另一方面，由于英伟达显卡遭禁，国产AI芯片的单卡性能与之相比存在较大差距，国产厂商普遍选择走集群化、规模化路线，将多个小型单点算力节点通过高速 *** 互连技术建成一整个超大规模的算力集群。也因此，落地的智算中心越建越大。

一家头部国产服务器厂商在一场活动上提到，去年国内建智算中心都以万卡为目标，今年整体需求水涨船高，开始以5万卡作为新的目标。眼下能够满足AI公司训练模型的GPU是市场上的硬通货，基本上是“谁有GPU，谁能建智算中心”。

但在张建中看来，智算中心从千卡到万卡，不只是简单的“堆卡”。规模变大的同时，难度也呈指数级倍增——既要实现智算中心扩容，也要兼顾质量。这对厂商而言是一项极其复杂的系统工程。

算力利用率与稳定性是行业衡量智算中心质量的两项重要指标。目前，摩尔线程的千卡智算中心的算力利用率已达到50%，未来推动万卡集群智算中心落地时，目标是达到60%的算力利用率，同时保证99%以上的稳定性。这与国际巨头已十分接近，但要达到领先仍存在较大挑战。

摩尔线程张建中：在AI战场，万卡已成更低标配

你可能感兴趣的

发表评论