从没想过中国之一个让国外网友求着开放会员订阅通道的AI应用居然是出自快手。

在海外,Sora 正在被可灵替代

在经历一个多月的狂奔吸引上百万人排队内测之后快手可灵终于全面开放,最有意思的是直到开放测试之前还有网友表示自己没排进去内测。

狗BEE 提示词:长着小狗身体的蜜蜂在花丛中飞

而在内测过程中,中外网友则经历了身份互换,外网用户也体验了一把之前国内网友求手机号注册chatgpt的辛酸。好在可灵上周宣布开启全球测试。网友以为好日子到了,结果画风如下。

运气好的之一批用户已经开始各种脑洞大开。

但大部分外国网友正在经历每个爆款应用都会遇到的体验。内测一号难求 → 公测卡在注册界面 → 成功注册发现服务器过载。感恩快手让外国网友再次体验了一次。

最有意思的是这些人3小时出不来一条视频,除了抱怨慢,体验了视频生成的效果之后更多的人在说赶快出订阅计划,我要花钱!

因为有用户发现可灵中国版出了订阅计划。换算价格后发现33软妹币一个月换66个时长5秒的视频,相当于一条视频只要5毛。这个单价击穿了之前的价格地板pika(一条视频8毛)。

可灵视频:熊鹰展翅

当然写这篇文章不止是为了讲可灵火,更重要的凭什么是它?AI视频下半场比赛谁能解决sora之前暴露出来的问题然后更专业的服务于影视从业人员?

素材源自 ***

现在大家看到火的AI视频形式千篇一律。比如跨越时空拥抱、菌子中毒、人突然变身等等。但我相信大部分人使用工具时,都会发现AI很难通过言语将我们的脑洞具现化。这也是sora之前暴露出来的问题之一。AI视频下半场比赛更重要的是谁能服务影视行业工作流?

现在我们把pika、LUMA、可灵、智谱清影、爱诗科技pixverse拉一块同台PK一下,让大家直观感受一下各自的能力。新玩家pk老玩家,究竟是新王登基,还是旧王不朽。

文生视频语义理解测试

测试将分为两个板块,首先进行文生视频的测试,针对可灵、智谱清影的提示词将使用中文,其他外文软件将通过谷歌翻译后进行。

空间理解测试

中文提示词:两只拟人化的狗在擂台进行拳击,左边的狗用黑色的拳套,右边的狗用红色的拳套。

英文提示词:Two anthropomorphic dogs fight in a ring, the one on the left wearing black gloves and the one on the right wearing red gloves.

这道题主要测试AI能否让左边的狗是黑色拳套,右边的狗是红色拳套,同时两只狗拟人化的在进行拳击比赛。

从结果来看可灵强到我要逐帧观看。短短5秒两狗进行了3次激烈的攻防战,开头黑狗迅速低头躲避黄狗的拳同时出拳反击被黄狗格挡。之后黑狗前倾准备二次进攻被黄狗抓住破绽,头都被打歪了(这是物理意义上的受击反馈,而不是虚空躲空气,属于加分项),第三次吸取教训低头前倾进攻。

由于没有限定视频风格,清影答卷采用了动画风格,但也是左黑右红并且拟人化打拳击赛。

接下来到爱诗科技pixverse,虽然狗也带拳套,但颜色出错....并且两只狗好像含情脉脉?

LUMA倒是做到左黑右红了,但拳套颜色一直在变....而且说好的两狗打架,怎么有只狗进化成人了?

pika倒是很干脆,擂台也没有,拳套也没有,左边的狗一直摸右边狗也不知道图啥。

接着测试前后理解。

中文提示词:正面拍摄,长焦,一只仓鼠卖力地蹬着一辆自行车,在仓鼠身后一只很肥的橘猫正在追赶仓鼠。

英文提示词:Front shot, long focus, a hamster pedaling hard on a bicycle, behind the hamster a very fat orange cat is chasing the hamster.

在这个环节,可灵的猫有种龟兔赛跑的感觉,感觉像是仓鼠在蹬自行车,猫从仓鼠后面路过,仓鼠闻到猫的气味后有个惊讶的表情,然后开始卖力蹬车。但没有符合追赶这个设定,而且这胖橘长得鼠里鼠气会不会是吃了鸭脖?

清影我认为是这一场的MVP,透过画面就能感觉到仓鼠很卖力蹬车,胖橘追的也很猛,而且画面还做了虚化的效果,突出仓鼠这个主体。

LUMA在这里再次抽风,正面拍摄的机位没了,仓鼠已经消失不见,橘猫以一种诡异的姿势趴在自行车上,我就想问这车轮摩擦着猫不会觉得哪里不舒服吗?

pika咋说呢,表现比LUMA好一点,就是两个主角对了......但也只是对了人,画面内容直接跑题。

pixverse这次表现也比LUMA和pika好,至少符合生成需求,就是仓鼠的个头比猫大了很多,然后画面用了慢动作看不出紧张 *** 的追逐感。

接着是单个主体指定运动方向的测试。

中文提示词:固定机位,侧面拍摄,一个头被气球替代的男人从广场左边跑到广场右边。

英文提示词:Fixed position, side shot, a man with his head replaced by a balloon runs from the left to the right of the square.

可灵的表现居然爆冷了,前面还分得清楚左右的,到这里却左右不分,变成从广场右边跑到左边。

清影咋说呢.....跟可灵一样的表现,区别就是可灵用于训练的视频数据估计比清影高清很多,所以对比起来清影略微逊色,但这个问题后面会提到,最重要的还是要符合需求。

pixverse倒是理解了从左往右跑,但变成了人物追气球,这里希望的是一个头变成气球的男人。

LUMA同样左右不分,然后还变成人手里拿着气球。

PIKA放弃参赛,要的是侧面固定机位拍摄人从左往右跑,结果他一直是跟随机位,人物对着镜头跑,生成的人物也不符合要求。

这一轮对比下来,其实可灵、清影还算符合要求,用工具镜像一下就行,其他的软件就只能继续抽盲盒了。

脑洞能力测试

中文提示词:正面拍摄,一只熊猫和喜鹊组合而成的鸟类生物站在树枝上,高速扇动翅膀。

英文提示词:Front shot, long focus, a hamster pedaling hard on a bicycle, behind the hamster a very fat orange cat is chasing the hamster.

这是可灵生成的画面,我称之为“熊鹰展翅”,不得不说在这一方面sora不出,可灵独占鳌头。

清影:大家快看,我长翅膀了,我给大家舞一个。

pixverse这一波表现不错,虽然在转身的时候有一定瑕疵,但至少形象保持住了同时动作也有在执行。

LUMA咋说呢,其实之一眼观感不错,但没有按照要求高速扇动翅膀。而且它转身的那一刻,像极了会易容术的女孩卸妆,主打一个转瞬即逝。

PIKA生成的画面我认为没有偏题,只是鸟的占比比熊猫的占比高,但问题在于没按要求高速扇动翅膀。

镜头运镜理解

接下来进行运镜理解测试,众所周知,不管是文生视频还是图生视频,除了一些软件有给出运镜选项,大部分时候要怎么运镜还是得靠语言描述,而运镜在工作流中又是相当重要的。

中文提示词:低角度向上推进,一只熊猫坐在墙上弹吉他。

英文提示词:Thrust upward at a low Angle, a panda sits on the wall playing guitar.

可灵这一波虽然是有从低角度向上推进,但缺失了坐在墙上这个细节。其实我希望的是它能从坐在墙上这句话反推出最开始画面应该是有一面墙,然后随着镜头的位移再出现熊猫弹吉他。

这一点清影就完美做到了,但对比可灵来说还是输在了数据集。虽然清影用的是动画画风,但墙面出现了明显的扭曲。不过如果从工具的角度来看,清影这一波比可灵强,就看后期团队能不能加强高清数据集的投入了。

pixverse直接放弃理解,答卷对一半也能拿一半分不是?

LUMA:运镜了,把自己运迷糊了,吉他也不弹了。

Pika:放弃参赛是我自愿的。

为什么我在上面强调工具性的优势要大于数据集?因为我相信就像老游戏高清化一样,数据集这种东西肯花时间肯定能有,但如果理解问题出错了,大模型的幻觉是很难修正的。比如下面的例子,当有高清数据集时,比拼的就是理解能力。

中文提示词:低角度向上推进,缓缓抬头,一只猪突然趴到墙上盯着你。

英文提示词:Push up at a low Angle, slowly look up, and suddenly a pig is sitting on the wall staring at you.

这一次相较上面的测试加了一个缓缓抬头,加大运镜在提示词中的权重。

结果可灵只有一只猪趴在墙上咀嚼东西。

清影完美诠释低角度向上推进、缓缓抬头,一只猪趴在墙上盯着镜头。而且清晰度也拉满了。

pixverse虽然生成了猪,但其他需求也没达标,挺可惜的,前面的各种前后左右关系理解还可以的。

LUMA这一波硬气了,确实有镜头位移。但只是单纯的推进没有从低角度向上移,而且这头“猪”也没趴在墙上。我怀疑LUMA的数据集是不是有什么特殊癖好,上面要生成狗他就狗变人。这次要生成猪,就来了一手猪人.....虽然挺自然的就是了....

Pika我已经默认放弃参加比赛了......在这一关的测试中,我相信可灵应该是综合能力之一。首先视频够高清,左右理解、前后理解都很到位。但智谱新推出的清影我认为潜力不比可灵差,人家输在了视频清晰度,而语义理解犹在可灵之上。pixverse表现可以排到第三,比两个老牌AI视频好一点。LUMA大家也看到了,在持续更新了快一年,表现也就那样,pika直接就是勿cue。所以在AI视频这个赛道上,国产的软件已经某种意义上比外国的LUMA更适合作为工具。

图生视频测试

那既然文生视频搞不定,我做好图片用图生视频不就行了?我想说AI无法通过语言想象出来的东西,给他一张图片他也不知道怎么处理。而且运镜、各种左右前后运动的理解同样需要语言理解支持。所以图生视频还多了一些测试点,那就是AI能否准确识别图中的东西从而对应文字进行视频生成。

中文提示词:老人吃手里的手机,大口咀嚼。

英文提示词:The old man ate the phone in his hand and chewed it.

这是可灵的表现,这里主要测试AI能否准确理解“吃手里的手机”这一动作,即软件能否找到图片里手中的手机并往嘴里喂,而不是虚空生成“手”以及“手机”往嘴巴里喂。

清影的表现比可灵差一些,但还是知道张嘴去啃手里手机的。

pixverse生成的是老人在闻手机,一脸痛苦,估计他也知道这东西难以下嘴。但至少知道去靠近手里的手机。

LUMA全程痛苦脸看手机,完全跟动作没关系。

这是pika的表现,手没动,嘴巴好像骂的很难听,一眼万年,一言难尽....接下来提高难度。

中文提示词:挖掘机挖地

英文提示词:Excavator excavation.

大家也看出来了这不是传统意义上的挖掘机,而是打破了物种生殖隔离的挖掘机,看看AI能不能识别出挖掘机的部分,在不崩坏动物身体的前提下完成动作。

可灵的表现还是可以的,包括脖子上机械结构的运动都有展现出来。

清影的表现也不错,就是这挖掘机有点变成抓手了,但好歹是完成了指令动作,同时也有看起来合理的机械运动。

pixverse这是把挖斗当成嘴了吧,直接把东西“咬”上来的。但至少是在动。

LUMA我认为这次的表现更好,因为相较于可灵和清影,长颈鹿本身有了运动,挖掘工作也在同步进行,这样子让这个怪异生物体看起来很自然。就是腿消失了一条....

pika:我不动我就不会露馅。接着测试多人物中左右辨别能力和表情控制能力。

中文提示词:左边的女人哭,右边的女人笑。

英文提示词:The woman on the left rolls her eyes and the woman on the right laughs.

可灵表现不理想,紫薇没翻白眼,倒是像在说“***,忘刷牙齿了。”

清影的表现也不理想,不过容嬷嬷像是在喊“不~~~~~~~~紫薇!”

pixverse:一起来织毛衣啊。

LUMA的表现暴露出了一个问题,就是表情控制没到位,同时由于欧美面孔数据过多,人物都变成欧美妆容和五官了。

pika:微微动一下,表示尽力了。这一关中,可灵、清影在图片物体识别、动作执行里表现得相当到位,其他app的表现只能说是废片。LUMA长颈鹿挖掘机也可圈可点。不过大家集体倒在左右人物表情控制这一关,全部乱来。LUMA还变成了外国人脸。

sora的问题

测试了那么多,肯定就有小伙伴问了,整这些花里胡哨的干啥?其实上面的测试全是从用sora *** 气球男孩的团队shykids分享的sora的各种问题作为出发点进行测试的。

据他们介绍当时团队已经规划好气球男孩的剧本,openAI要求他们2周内交出成果。但这个过程却遇到了大问题。团队花50个小时(最保守估计)生成三百多个视频,最终只能在推翻原本大纲的情况下拼凑出80秒的画面。

有小伙伴好奇,不是有2周吗?是的,那50个小时之后他们都在用AE修改画面和Topaz超分画面。具体地问题有如下:sora只能打字让AI生成视频,虽然引入了gpt处理文字,辅助sora理解用户意图。但只能勉强在单条视频保持角色一致性。即使后面用同一段提示词,得到的视频画面也完全不一样。

比如在广场奔跑这个镜头,文字要求的是,黄色气球人穿着正装从广场左边跑向右边,生成的却是,头顶纸袋的人追红色气球。或者一个通灵的衣服拉着气球裸奔。团队只能通过AE对一个勉强能用的素材进行调整。

再比如人脸和玩滑板画面,AI会在气球上印人脸,甚至直接让人顶着气球玩。而且由于训练集的原因AI对很多东西都有刻板印象,比如气球一定要被线拉着导致他们后期要用AE处理。画面的不确定性导致气球人这部短片不能按照原定的剧本拍摄,团队只能边生成素材边敲定剧本。整体内容方向改为以人的成长经历为轨迹,从小孩到成年的日常生活为主,所以你看到的画面虽然有主线但基本都是生活碎片。

同时生成素材很花时间,sora可以选择生成3秒到60秒的画面,但时间越长画面越不稳定。其中3~20秒的画面通常要10到20分钟来生成,团队至少生成了300多个片段,每个片段生成时间按更低的10分钟算也要花上50小时。因此为了加速 *** 过程,团队只要求AI生成480P的画面,再用Topaz工具提升画面分辨率。

尽管如此,最终得到的素材总时长约1.2小时,经过筛选和加工却只能得到80秒的画面。另一个问题就是AI很喜欢生成慢动作视频。尽管提示词里没有要求慢动作,很多视频看起来都是0.5倍速播放,导致团队要花时间调整节奏。

AI视频工具的将来绝对是要走进影视工作者的工作流当中,才真正有生存之地。目前来看sora并不具备这种能力,我们所有看到的画面只是openAI精心筛选的团队参与。这就像花了几百万雇张艺谋的团队拿苹果手机拍视频来证明手机视频录制的能力,我不否认苹果的能力,但真正厉害的还是团队。

同等条件下,可灵、清影甚至是爱诗科技这些明面上中国企业的后来者,如果去溯源的话你会发现技术发展路线可以追溯到两三年前,甚至sora同款的DiT技术我们也是同时期研发。

在这一次的对比中可以看到老牌的AI视频工具在近一年的长跑中并没能保持住领先的优势,反而有种日暮西山的感觉。当了半年期货的sora我认为短时间难以成为外国版可灵,而可灵狂奔一个月已经在世界舞台上成为中国版sora,随着时间的发展也许大家需要的不再是sora,而是可灵、清影......雷峰网(公众号:雷峰网)

参考链接:

https://x.com/shykids/status/1773392341455253752

https://www.technologyreview.com/2024/03/28/1090266/how-three-filmmakers-created-soras-latest-jaw-dropping-videos/

https://www.tomsguide.com/ai/ai-image-video/remember-the-ballon-head-sora-video-it-wasnt-all-ai-generated-after-all