抢跑Sora！腾讯视频大模型初体验：功能多，但不强

2024年2月15日，OpenAI正式对外公布文生视频大模型Sora，引得全球网友高呼“AI解构真实世界的时候到了”。然而大约10个月时间过去，Sora依然只存在于PPT上，反而是亚马逊云科技抢先OpenAI发布了Nova Reel文生视频大模型，谷歌则面向企业用户开放了AI视频模型Veo。

海外互联网巨头忙于开发和布局AI生成视频的同时，国内互联网巨头们也没有闲着，早前快手旗下的AI团队就打造出了视频生成大模型可灵，随后清华大学与北京数生科技联手打造了视频生成大模型Vidu，日前腾讯公司的AI团队也推出了混元文生视频大模型，并在腾讯元宝App上线。

作为国内知名度、市值更高的互联网公司，腾讯在游戏、即时通信、移动支付等领域声名显赫。过去常有人质疑腾讯的技术研发能力，如今腾讯与亚马逊云科技、谷歌等海外互联网巨头同期拿出了视频生成大模型，证明了自己的研发能力丝毫不弱。

不过，体验才是判断技术实力的最终标准，腾讯视频生成大模型究竟好不好用，体验过才知道。

混元视频模型初体验：功能多而不强

腾讯混元大模型参数量为130亿，是目前参数量更大的开源视频生成类大模型，公测期间用户每天可以获得4次标准和2次高品质视频生成机会，视频生成长度为5秒。

单纯看功能，腾讯混元文生视频大模型比小雷之前使用过的同类产品都简单易用，提供了丰富的视频类型设置，例如比例、风格、景别、光线、镜头运动、流畅运镜、丰富动作、导演模式等。然而，真的到使用阶段，小雷的体验却一言难尽。

（图源：腾讯元宝App截图）

刚开始小雷并没有给大模型上难度，以描述语“夕阳西下，少女坐在靠窗的书桌前，眼神不住地向上飘，嘴角微微上扬，似乎想起了什么值得开心的事”生成一段视频，结果如下图。

（图源：腾讯混元大模型生成）

腾讯混元大模型生成的视频画面不错，足够以假乱真，只是与小雷脑补的画面有明显差别，白人女孩也有点“出戏”，而且书桌、窗户等细节并没有表现出来，整体令小雷有点失望。按理说，掌握了国内头部短视频平台视频号的腾讯，拥有充足的视频数据可用于训练大数据，结果这个视频给我的感觉却是基于国外数据训练。

随后，小雷又以“晴朗的天空，忽然乌云密布，继而骤然下起了暴雨，路上的行人有的慌忙跑到房檐下避雨，有的把挎包顶在头上一路狂奔”为描述语生成了一段视频。

（图源：腾讯混元大模型生成）

这段视频不细看还能接受，但若仔细看就会发现视频存在明显的漏洞，如部分人物步伐有些虚浮，不像走在地面上，右侧有个红色的包“漂”了过去，可能是AI未能成功生成提包的人。至于天气变化未能体现、没有感受到在下雨等问题，小雷已无力吐槽。

最后一轮测试，小雷选择了中景+拉近镜头，并以“宁静的海滩，满月高悬在天空，微风吹动着海边的椰子树，发出哗啦啦的声音，一只小猫咪慵懒地躺在沙滩上，舔舐着前腿上的毛发”为描述语生成了一段视频。

（图源：腾讯混元大模型生成）

这个场景相对较为简单，没有明显的景物变化，就人类的脑补能力来说，比上一个要容易。然而这则视频却暴露了腾讯混元大模型的问题，我明明设置了拉近镜头，可视频没有表现出镜头的动态变化。小雷提到的椰子树、猫咪舔舐毛发等物体和动作，也没有体现出来。这段视频月亮和海浪细节不错，猫咪也很真实，但终究不是我想要的结果。

为验证大模型的一致性问题，小雷用该段描述语和镜头设置再次生成了一段视频。与上一段视频相比，猫咪有了舔舐毛发的动作，椰子树也出现在画面中，可月亮因太大产生了虚假感，猫咪动的时候，沙子始终没有变化也属于漏洞。

（图源：腾讯混元大模型生成）

小雷翻看了腾讯混元大模型给出的范例，大多数是使用大量关键字描述，而非如小雷给出的自然语言，后者难度显然更高。从实际表现来看，腾讯混元大模型已经可以理解人类自然语言，并根据描述的画面生成视频，同一段话两次生成的结果也较为接近，只是细节方面有待提升。

当然，腾讯混元大模型究竟达到了什么水平，还是要对比过后才能知道。因此，小雷使用Vidu和可灵两款大模型根据第三段描述语分别生成了一段视频。需要注意的是，这两款视频生成大模型虽然未提供镜头控制功能设置，但可以在描述语后加入中景、拉近镜头等词语加以调控。

Vidu生成的视频将小雷描述中的风吹动椰子树、舔舐毛发、镜头拉近都完美展现，与小雷脑补的画面较为接近。美中不足的是，这段视频中的月亮过于明亮，搭配湛蓝的整体色调，更像早上太阳初升的时间，沙滩则过于平整，没有任何沙子的感觉。

（图源：Vidu生成）

可灵生成的视频在小雷看来是这几个视频中更符合预期的，海浪、风吹动椰子树、舔舐毛发等细节都有，还加入了虚化和镜头拉近效果，影子的细腻变化更是惊喜。问题在于该视频依然存在细节方面的问题，没有表现出满月，更像是白天。

（图源：可灵生成）

另外两段描述语，小雷也用Vidu和可灵进行了测试，限于篇幅问题，不再一一展示。总而言之，现阶段视频生成类大模型均已具备理解自然语言的能力，但面对较为复杂的场景，依然会存在诸多漏洞，而在相对简单的场景下，Vidu、可灵等“老牌”视频生成模型的表现略好，细节漏洞少一些，腾讯混元大模型仍有较大进步空间。

混元视频大模型未来可期，但要腾讯足够重视

从0到1的难度，可能比从1到2高得多，摸着石头过河的混元大模型在易用性、功能性方面更胜一筹，但AI大模型不同于其他行业，不但需要前人引路，还需要技术积累、算力规模、训练数据。

拥有腾讯作为后盾，混元大模型不缺财力，可算力需要大量GPU和AI计算卡，更何况当前AI公司都在争夺GPU和AI计算卡的产能，哪怕腾讯不缺钱，也需要时间堆算力、程序员优化算法、大量数据用于训练。Vidu和可灵已升级至1.5版本，除了文生视频，还支持图片生成视频，刚诞生不久的混元文生视频大模型略显稚嫩，生成的视频质量有一定的差距。

（图源：mockup套壳）

好在，混元大模型背后毕竟是国内互联网行业霸主腾讯，在腾讯技术团队和资金的支持下，相信混元大模型能够以极快的速度成长。

从腾讯、亚马逊云科技、谷歌等企业的表现来看，2025年会是全球视频生成大模型爆发的一年，AI生成视频的长度也将从数秒提升至分钟级，如亚马逊云科技的Nova Reel即将支持生成长达2分钟的视频。

与AI生成图文相比，生成视频才能彻底解放想象力，将我们大脑中的想法和脑补的画面转化成现实。还有无数的 *** 小说作家，希望能够通过AI将小说转化成动画或真人视频。一旦AI生成视频技术成熟，全球文娱产业将遭遇前所未有的变局。

视频生成大模型正井喷式涌现，2025年或将成为“视频生成大模型元年”，也是决定相关企业成败的关键一年。从可灵、Vidu到腾讯混元大模型，国内企业已及时入场，把握到了新时代的机遇。能否在新时代引领全球视频生成大模型行业，或许很快就能见分晓。

抢跑Sora！腾讯视频大模型初体验：功能多，但不强

你可能感兴趣的

发表评论