2024年2月15日,OpenAI正式对外公布文生视频大模型Sora,引得全球网友高呼“AI解构真实世界的时候到了”。然而大约10个月时间过去,Sora依然只存在于PPT上,反而是亚马逊云科技抢先OpenAI发布了Nova Reel文生视频大模型,谷歌则面向企业用户开放了AI视频模型Veo。

抢跑Sora!腾讯视频大模型初体验:功能多,但不强

海外互联网巨头忙于开发和布局AI生成视频的同时,国内互联网巨头们也没有闲着,早前快手旗下的AI团队就打造出了视频生成大模型可灵,随后清华大学与北京数生科技联手打造了视频生成大模型Vidu,日前腾讯公司的AI团队也推出了混元文生视频大模型,并在腾讯元宝App上线。

作为国内知名度、市值更高的互联网公司,腾讯在游戏、即时通信、移动支付等领域声名显赫。过去常有人质疑腾讯的技术研发能力,如今腾讯与亚马逊云科技、谷歌等海外互联网巨头同期拿出了视频生成大模型,证明了自己的研发能力丝毫不弱。

不过,体验才是判断技术实力的最终标准,腾讯视频生成大模型究竟好不好用,体验过才知道。

混元视频模型初体验:功能多而不强

腾讯混元大模型参数量为130亿,是目前参数量更大的开源视频生成类大模型,公测期间用户每天可以获得4次标准和2次高品质视频生成机会,视频生成长度为5秒。

单纯看功能,腾讯混元文生视频大模型比小雷之前使用过的同类产品都简单易用,提供了丰富的视频类型设置,例如比例、风格、景别、光线、镜头运动、流畅运镜、丰富动作、导演模式等。然而,真的到使用阶段,小雷的体验却一言难尽。

(图源:腾讯元宝App截图)

刚开始小雷并没有给大模型上难度,以描述语“夕阳西下,少女坐在靠窗的书桌前,眼神不住地向上飘,嘴角微微上扬,似乎想起了什么值得开心的事”生成一段视频,结果如下图。

(图源:腾讯混元大模型生成)

腾讯混元大模型生成的视频画面不错,足够以假乱真,只是与小雷脑补的画面有明显差别,白人女孩也有点“出戏”,而且书桌、窗户等细节并没有表现出来,整体令小雷有点失望。按理说,掌握了国内头部短视频平台视频号的腾讯,拥有充足的视频数据可用于训练大数据,结果这个视频给我的感觉却是基于国外数据训练。

随后,小雷又以“晴朗的天空,忽然乌云密布,继而骤然下起了暴雨,路上的行人有的慌忙跑到房檐下避雨,有的把挎包顶在头上一路狂奔”为描述语生成了一段视频。

(图源:腾讯混元大模型生成)

这段视频不细看还能接受,但若仔细看就会发现视频存在明显的漏洞,如部分人物步伐有些虚浮,不像走在地面上,右侧有个红色的包“漂”了过去,可能是AI未能成功生成提包的人。至于天气变化未能体现、没有感受到在下雨等问题,小雷已无力吐槽。

最后一轮测试,小雷选择了中景+拉近镜头,并以“宁静的海滩,满月高悬在天空,微风吹动着海边的椰子树,发出哗啦啦的声音,一只小猫咪慵懒地躺在沙滩上,舔舐着前腿上的毛发”为描述语生成了一段视频。

(图源:腾讯混元大模型生成)

这个场景相对较为简单,没有明显的景物变化,就人类的脑补能力来说,比上一个要容易。然而这则视频却暴露了腾讯混元大模型的问题,我明明设置了拉近镜头,可视频没有表现出镜头的动态变化。小雷提到的椰子树、猫咪舔舐毛发等物体和动作,也没有体现出来。这段视频月亮和海浪细节不错,猫咪也很真实,但终究不是我想要的结果。

为验证大模型的一致性问题,小雷用该段描述语和镜头设置再次生成了一段视频。与上一段视频相比,猫咪有了舔舐毛发的动作,椰子树也出现在画面中,可月亮因太大产生了虚假感,猫咪动的时候,沙子始终没有变化也属于漏洞。

(图源:腾讯混元大模型生成)

小雷翻看了腾讯混元大模型给出的范例,大多数是使用大量关键字描述,而非如小雷给出的自然语言,后者难度显然更高。从实际表现来看,腾讯混元大模型已经可以理解人类自然语言,并根据描述的画面生成视频,同一段话两次生成的结果也较为接近,只是细节方面有待提升。

当然,腾讯混元大模型究竟达到了什么水平,还是要对比过后才能知道。因此,小雷使用Vidu和可灵两款大模型根据第三段描述语分别生成了一段视频。需要注意的是,这两款视频生成大模型虽然未提供镜头控制功能设置,但可以在描述语后加入中景、拉近镜头等词语加以调控。

Vidu生成的视频将小雷描述中的风吹动椰子树、舔舐毛发、镜头拉近都完美展现,与小雷脑补的画面较为接近。美中不足的是,这段视频中的月亮过于明亮,搭配湛蓝的整体色调,更像早上太阳初升的时间,沙滩则过于平整,没有任何沙子的感觉。

(图源:Vidu生成)

可灵生成的视频在小雷看来是这几个视频中更符合预期的,海浪、风吹动椰子树、舔舐毛发等细节都有,还加入了虚化和镜头拉近效果,影子的细腻变化更是惊喜。问题在于该视频依然存在细节方面的问题,没有表现出满月,更像是白天。

(图源:可灵生成)

另外两段描述语,小雷也用Vidu和可灵进行了测试,限于篇幅问题,不再一一展示。总而言之,现阶段视频生成类大模型均已具备理解自然语言的能力,但面对较为复杂的场景,依然会存在诸多漏洞,而在相对简单的场景下,Vidu、可灵等“老牌”视频生成模型的表现略好,细节漏洞少一些,腾讯混元大模型仍有较大进步空间。

混元视频大模型未来可期,但要腾讯足够重视

从0到1的难度,可能比从1到2高得多,摸着石头过河的混元大模型在易用性、功能性方面更胜一筹,但AI大模型不同于其他行业,不但需要前人引路,还需要技术积累、算力规模、训练数据。

拥有腾讯作为后盾,混元大模型不缺财力,可算力需要大量GPU和AI计算卡,更何况当前AI公司都在争夺GPU和AI计算卡的产能,哪怕腾讯不缺钱,也需要时间堆算力、程序员优化算法、大量数据用于训练。Vidu和可灵已升级至1.5版本,除了文生视频,还支持图片生成视频,刚诞生不久的混元文生视频大模型略显稚嫩,生成的视频质量有一定的差距。

(图源:mockup套壳)

好在,混元大模型背后毕竟是国内互联网行业霸主腾讯,在腾讯技术团队和资金的支持下,相信混元大模型能够以极快的速度成长。

从腾讯、亚马逊云科技、谷歌等企业的表现来看,2025年会是全球视频生成大模型爆发的一年,AI生成视频的长度也将从数秒提升至分钟级,如亚马逊云科技的Nova Reel即将支持生成长达2分钟的视频。

与AI生成图文相比,生成视频才能彻底解放想象力,将我们大脑中的想法和脑补的画面转化成现实。还有无数的 *** 小说作家,希望能够通过AI将小说转化成动画或真人视频。一旦AI生成视频技术成熟,全球文娱产业将遭遇前所未有的变局。

视频生成大模型正井喷式涌现,2025年或将成为“视频生成大模型元年”,也是决定相关企业成败的关键一年。从可灵、Vidu到腾讯混元大模型,国内企业已及时入场,把握到了新时代的机遇。能否在新时代引领全球视频生成大模型行业,或许很快就能见分晓。