作者|陶然 编辑|魏晓
小杨哥事件中曝出来那段“卢文庆录音”,先是内容尺度之大引起舆论哗然,接着又被查明全部是AI伪造。
一来二去,AI技术再次被推上了风口浪尖。
图/言域科技官方回复
先不论技术好与坏,本质上,AI合成录音可以被理解为一种Deepfake,即利用深度学习算法,实现音视频的模拟和伪造,也就是通过人工智能技术中的深度学习模型,将人的声音、面部表情及身体动作拼接,合成为非常逼真的虚假内容 。
技术层面来说,它是中性的,类似的方式除了语音模拟,还包括AI换脸、人脸合成、视频生成等,统称为深度伪造。
但,中性的技术,架不住使用者图谋不轨。
蓝媒汇咨询了国内头部AI数字人公司风平智能创始人兼CEO林洪祥,对于这类事件,林洪祥坦言,AI带来的生产效率提升是全方面的,但在“应用”扩展起来的中途,违规事件想要完全隔绝,恐怕需要系统性的规范并有效执行。
依照行业目前的技术水平,用户只需要找几分钟的零散素材作为AI的学习样本,就能迅速克隆出完整的AI人声。而录音中的一些说话的顿挫、情绪语调,完全是可以通过技术手段去增减、调整的。
并且,落到实际应用环节,复制一套AI人声的成本“现在已经不高了”,市面上的应用很多都会给一些免费的入口,以涉事模型为例,Reecho睿声模型提供了免费的声音克隆服务,更为专业的版本则另需付费。
把从网上截取的一段卢老板直播转成音频导入,短短几秒钟后,卢老板的AI声音就克隆了出来。
再仿照原事件中情绪和文本都非常离谱的一段录音,作为脚本导入模型,一段卢文庆锐评马斯克的录音,就做完了。
(本音频为AI合成,仅供测试,严禁对外传播)
“小马他俩走了,是吧。我跟你们说,我想让谁火就让谁火,懂吗。我认识的CEO多了去了,我捧谁不是捧。别给我提马斯克,不好使,知道不,不好使,我们喝酒也是不好使,他是个啥,没有三只羊,谁来给他卖货,懂不懂这个道理。”
坦白讲,如果那种AI诈骗 *** 听多了,或者对人声敏感,其实还能听出来AI音频有种“机器感”——语调从始至终都过于稳定,人情绪激动的时候绝不会这样。但这只是最基础的普通版模型、瞬时克隆功能。如果有更充足的语料、选择专业克隆功能,效果会更“真实”。
那么,AI合成的音视频,有可能像测谎仪那样比较直观通过数据分辨真伪吗?
这个标签,不是简单的在角落里加个“由XX AI生成”水印,以AI合成声音为例,它会在人说话声音的频段之外,添加额外的噪声频段,甚至在可见音的范围内,添加一定的特征频段。
但目前,愿意将这项功能普及的企业并不会太多,限制因素无他,主要还是多一道手续产生的成本——尽管单次使用模型的成本并不高,但每个音视频模型预训练阶段的投入,以及阶段性产出后开发下一代音视频模型所产生的成本,对于现阶段的AI企业仍有较大压力。
目前,AI音视频行业尚在早期,推广阶段如何获客的同时覆盖成本,是从业者绕不开的话题。
但上述这些,显然都不是图谋不轨的不法分子会考虑的事,烟花还是炸弹关键看火药怎么用。
半年多前,香港警方披露了一起涉案金额高达2亿港元的诈骗案。案件中,某跨国公司香港分部的职员接到总部CFO通知,称总部正在计划一个“秘密交易”,需要将公司资金转到几个香港本地的账户中待用。
而后,员工受邀参加总部发起的“多人视频会议”,并按照会议要求先后将2亿港元分别转账15次,分别转到了5个银行账户内。
图源/央视新闻
实际上,这场多人视频会议,除了该分部职员外,其他“人”都是诈骗分子利用公开音视频切片合成的AI形象,再用视频 *** 会议的形式换脸换声音,诈骗团队直接变成高管团队发号施令。
香港案件中,不法分子是相当于是用AI换脸+AI变声器真人出镜,而小杨哥这次的AI伪造录音,则是完全由大模型学习三只羊公司卢文庆相关音频素材后,合成语调、情绪都趋近于真人的整段音频。流程,就是这么简单——AI合成音视频,已经是一项成熟的技术,相关产品,也已发展成为完整产业。
但,AI合成音视频的主流,绝非造假。流浪地球第二部的剧情内,刘德华饰演的图恒宇以数字生命的形式复活了丫丫,而在剧情外,已故的知名影星吴孟达,也在借由 AI 现身银幕。
所以,以后如果再出类似小杨哥录音事件,讨论技术有罪还是无罪之前,还是尽量先把人控制住。
管管人性,救救AI。
Lanmeih/今日话题
你对AI技术的态度是?
咱们评论区聊聊~
发表评论