实测七款“国产Sora”，恕我直言……

文 | 硅基研究室，作者 | kiki

实测七款“国产Sora”，恕我直言……

8月的一个普通夜晚，即便是在凌晨，快手可灵的官方创作者交流群里，讨论声依旧不减。

“美女、萌宠和科幻”。一位创作者这样分享自己的AI视频流量密码。“求大神的提示词，来一个”“怎么赚钱？求带？”类似的声音不在少数。

这一发生在可灵社群里的讨论，恰好反映了时下AI最热门赛道的现状——AI视频的火热。

自今年6月起，国内AI视频的迭代速度似乎进入了一个「大爆炸期」。6月，快手可灵、Runway、Luma AI等产品全面对外开放；7月，商汤推出最新AI视频模型 Vimi，爱诗科技发布PixVerse V2，生数科技Vidu大模型开放使用，智谱AI在官宣AI生成视频模型清影（Ying）正式上线的同时，还顺便开源了自家的视频生成模型CogVideoX-2B......

在国内竞逐AI视频的玩家中，也鲜明地分为两派：之一类是大厂派，典型是快手与字节跳动；第二类是AI大模型创企，如智谱AI、爱诗科技、生数科技、MewXAI（艺映AI）、右脑科技（Vega AI）等，据「硅基研究室」不完全统计，目前国内涉足AI视频领域的选手有近20家，行业整体呈现加速迭代的趋势。

据东吴证券的测算，中国AI视频生成的行业潜在空间为947~5858亿元，在中性假设下（AI渗透率=15%）为3178亿元，其中C端、B端市场空间分别为 2673亿元、505亿元。

不过，行业热闹与前景的B面，AI视频还没到「开香槟」的时刻。我们实测国内7款的AI视频产品后发现——能用的很多，但好用的很少，在玩家们激进的商业化策略中，还远没从「玩具」进化到「生产力工具」。

「国产Sora」实测：能用的很多，但好用的很少

层出不穷的大片demo，来自各界的赞美，让国产AI视频成为了时下最热闹的赛道，在Sora尚未开放时，国内的AI玩家似乎都在抢抓这一窗口期，把「对标Sora」写在了日程表上。

最激进、最为耀眼的当然要数快手的可灵，猎豹移动董事长傅盛甚至在体验过后表示：“我觉得（可灵）也吊打了Sora，我认为这个产品今天，在我能使用的范畴内就是全世界之一的。”

事实果真如此吗？热闹和喧嚣之外，国产AI视频产品真的已经如此能打了吗？为了探究这些问题的答案，「硅基研究室」选取了国内较为热门的7款AI视频产品进行实际体验，我们的发现是：能用的很多，但好用的依旧很少。

我们选取的7款产品分别为：快手的「可灵」、字节跳动的「即梦」、智谱AI的「清影」、爱诗科技的PixVerse V2、生数科技的Vidu、右脑科技的Vega AI以及MewXAI的艺映AI。

在实测标准上，我们将比较不同产品的三大能力，包括基础能力、理解能力和生成能力，为了尽量保持客观，大多数AI视频镜头都需要多次抽卡，因此我们将使用统一的提示词，展示一次性生成的结果，同时因为篇幅所致，文章仅展示部分视频生成结果。

•基础能力：产品主要的基础功能比较

•理解能力：主要考察产品对简单和复杂提示词的理解。

•生成能力：包括视频生成速度和视频画面的稳定性、一致性、准确性与创造性。

以下为具体的实测结果图——

场景一：简单提示词+静物定格画面

在该场景下，我们选取了Sora发布时的一段提示词：A stop motion animation of a flower growing out of the windowsill of a suburban house.（定格动画，郊区一所房子的窗台上，长出了一朵花）。聚焦在静物场景下，上述产品的理解和生成能力。

综合实测结果，在理解能力上，除了Vega AI外，大多数的AI视频产品都包含了我们给出的提示词要素：定格动画、郊区、房子和花。

但在视频生成上，效果都不及预期。

首先在视频生成速度上，一段4～6s的视频，除了Vidu在40秒内生成外，大多数的视频生成用时均在一分钟以上，PixVerse V2用时2分钟（5s），可灵用了5分钟（5s）、即梦用了2分11秒（6s），艺映AI用了12分钟（4s），而智谱清影和Vega AI都是我们在花钱加速后，才缩短了生成时间。

其次，在生成能力上，实测结果显示，在稳定性、一致性、准确性和创造性上，国产AI视频产品都需要很长的路要走。根据实测结果，在「场景一」下，我们认为即梦、艺映AI和PixVerse V2的表现更优。

在画面的稳定性和一致性上，即梦的表现最为稳定，对定格动画的理解也更准确。艺映AI是几个视频里唯一选择俯视视角的，同时也生成了阳光等新元素，画面相对完整。PixVerse V2虽然定格动画感不是很强，但画面稳定性、一致性都表现的不错，而且光线和氛围感都十分自然。

但很多AI视频都在可控性和准确性上出现了问题。比如，可灵对定格动画的理解明显不够，画面虽然写实、风格也较为统一，但少了一些美感。在湖面的一致性和稳定上，智谱清影的表现都不尽如人意，后续出现了明显的元素扭曲和卡顿。

尽管Vidu只用36秒就生成了所需视频，但就画面的呈现来看，是最七个产品中画面精细度最不足的，同时从花的运动状态来看，也是唯一一个出现了违背常识现象的。Vega AI是唯一一个用了「移镜头」的，但对定格动画的理解明显不足。

场景二：复杂提示词+人物特写

在稍复杂的提示词场景下，我们选取了人物特写镜头来考验相关产品的相关能力。提示词为：生成一段24岁年轻长发女子的特写镜头，她在一家咖啡店里陷入了沉思，思考着自己的未来，因为悲伤，她眼睛里有一滴泪滑下，她后来似乎想到了开心的事，露出了微笑。电影《天使爱美丽》风格，以暖色调为主，画面色彩生动。

从实测结果来看，对于提示词中所包含的相关元素，国产Sora们的理解能力都还不错，所生成的画面风格因各自底层模型能力也全然不同。

具体到生成能力上即梦、可灵明显更优，而其他的AI视频选手都或多或少出现了问题。

•即梦：即梦用2分30秒时间生成了视频，画面氛围感也不错，甚至衍生出人物喝咖啡的情节，画面呈现也较为连贯。

•可灵：可灵生成上述视频总计时间为6分种左右，风格较为写实，表情细节的呈现也超出我们预期。

•智谱清影：清影依旧是「速度型」选手，1分钟不到就生成了视频，也是唯一一个展现人物侧面视角的产品，但画面主体的面部明显出现了问题（我们要的是泪水，不是这镶在脸上的水晶）。

•PixVerse V2：用时1分58秒生成，PixVerse V2之一帧的表现还是不错的，人物面部的悲伤情绪也很好地表达了出来，但越往后明显画面的一致性和准确性上出现错误，人物发丝甚至出现了透明的状态。

• Vega AI：Vega AI用时3分半，但与我们要求的风格暖色明显不符，同时从人物主体的运动来看，画面上的人物并没有明显变化。

场景三：简单提示词+图生视频功能

最后一个场景，我们来试试「图生视频」功能，这也是目前创作者在使用AI视频时为保持画面一致性和稳定性的常规操作。可灵不久前因为「甄嬛骑摩托」火爆全网，这次我们不妨就让胖橘（皇上）来吃汉堡。

我们投喂给AI视频产品一张图，提示词描述为：皇上吃汉堡。

因为篇幅原因，我们此处不展示所有视频结果，只说结论。首先从「吃汉堡」这个细节来看，做到完全呈现的只有智谱清影和艺映AI，即梦只有人物咀嚼的动作，PixVerse V2只出现了一只手，可灵则直接什么也没出现。再者，从画面的生成能力来看，上述视频的生成效果都不太自然，比如可灵出现的手、清影的汉堡都出现了明显的扭曲和畸变。

大厂VS创企：不同的姿态，相同的挑战

客观来说，Sora发布为国产AI视频玩家提供了更多的参照体系，在技术、应用以及商业化上方面，都有明显的迭代与升级。

在技术层面，据业内的观点，Sora的出现验证了DiT架构在视频生成方面的可行性，通过使用Transformer替换U-Net架构，并在潜在空间训练，展现出了更好地训练效率和生成效果。而国内厂商沿着这一技术路线，在包括模型的生成时长、视觉效果上的分辨率、帧率、运镜以及风格上都有明显进步，与Sora的差距也在缩短。

在应用层面，目前多数AI视频产品已面向C端开放，且在使用门槛较低，适用于新手，同时，特别是快手、即梦等产品已应用于短剧创作，在场景的落地速度上比预期要快。

在商业化上，国内热门AI视频产品大多都进行了商业化的探索，其中可灵、即梦、Pixverse、Vidu、艺映AI等推出了付费会员制，依靠订阅模式解锁相关进阶功能，智谱清影和Vega AI则推出视频加速包，按次收费。本质上模式还是沿用两种模式，C端按照生成量定价，B端靠出售API。

部分AI视频产品C端收费模式图源：Vega AI、智谱清影

不过，细细拆解此轮AI视频的爆发，大厂和创企呈现出两类明显的姿态——大厂激进，创企却较为冷静。特别是「一月三次升级」的快手可灵，更是把大力出奇迹写在了台面上。反观创企，倒是显得格外冷静。以智谱清影为例，在上线后，产品基本功能并未做快速迭代，在商业化上也呈现出谨慎的态度。

而之所以此轮AI视频呈现出「大厂引领」的表现，有两点主要原因：一是，视频场景复杂，极为依赖算力和数据资源，而这本身就是抖、快的优势所在。二是，从战略意图来看，抖、快之所以高度重视AI视频产品，不仅是为了创收，更多的考虑是争夺用户流量。

而创业者的冷静也在情理之中。「捏Ta」创始人胡修涵就曾提到，在AI视频崛起时，也曾考虑提供视频功能，但考虑到视频效率和成功率的问题，将视频放进产品，实际对用户留存没有太大的用处。“视频是一个很强的表达模态，但我们的用户还是更愿意去生图。”考虑到实际投入产出比，创企难免会转变态度。

尽管有着不同的姿态，但摆在国产Sora面前的挑战都是类似的。

首先，在用户层，「硅基研究室」观察，目前大多数的AI视频产品所采取的是「大C小B」的战略。也就是说，现阶段AI视频产品主攻的并非是专业级创业者，而是一些能迅速掌握简单功能的入门级用户，包括视频运营、新媒体运营或KOL等用户，此类用户往往没有专业工具的包袱，因此产品使用的迁移成本更低。

但这也有明显的阻碍。此类人群既是内容的创作者，也是内容的消费者，愿意尝鲜，容易付费，但也具备不稳定性。一位AI产品经理告诉「硅基研究室」，此类便内容工具型产品除了早期要为用户创造「Wow moment」外，依赖对用户需求的快速反馈和内容生态的建立。

其次，在商业化层面，目前就生成成本来看，从目前Sora尚未全量开放来看，视频模型/产品依旧面临着成本关。智谱AI CEO就曾说过，清影目前也只是一个阶段性产品，清影更多也还是通过API付费，他们在思考的是：“怎么把视频生成算力成本降下来、响应速度提升上去、让所有人可以用。”

快手可灵创作者群讨论体验问题图源：可灵社群截图

可以肯定的是，现阶段，无论是技术、用户，抑或是商业化上，国产AI视频产品还远没到开香槟的时刻，各家厂商都还在探索，对齐模型能力与产品，做持续的优化。视频本身是一个强模态，未来内容平台的跨模态也成为行业共识，但在产品早期，不如先尊重产品常识——如何优化用户体验，围绕视频工作流的某一个场景做深做专，实现真正降本增效，这或许是无数的技术变化中，提高AI视频渗透率的一个不变铁律。

参考资料：东吴证券：《国产 AI 视频大模型应用落地先行，行业空间、降本幅度、竞争格局探讨》

发表评论

33人参与，2条评论

星辰
2024-09-08 10:33:36回复
对于AI视频产品的火热，我认为这是一个非常有潜力的领域，虽然目前还存在一些挑战和困难点需要解决和改进的地方很多但是看到这些产品不断迭代升级和创新突破的过程非常令人兴奋！期待未来国产Sora能够在用户体验和商业应用方面取得更大的进展并引领行业发展潮流开启新的篇章同时我也希望创作者们能够充分利用这一工具创作出更多有趣、有思想的作品丰富人们的视觉体验和文化生活！！

FallingLeaf
2025-02-15 16:22:49回复
国产AI视频产品虽火热，但实际应用中仍存在诸多挑战，期待行业在追求技术创新的同时不断优化用户体验和商业化路径！

实测七款“国产Sora”，恕我直言……

你可能感兴趣的

发表评论