这两天的机器人大会竟被吐槽为「蜡像博览会」,我翻了翻大家现场发回的视频和照片——可以理解成「赛博聊斋」或「恐怖谷嘉年华」,大概就是这么个意思。

之前你们说 2024 就有性爱机器人,人呢!人呢!

「机器人」的确不必像人,但 *** 机器人还是越像越好——至少大多数人是这么期望的。

十年之后……丨Giphy

甚至很多人还会迫不及待给出一个自己的预测——一个 *** 机器人「进入千家万户」的具体时间:

2014 年,皮尤研究中心预测,机器人 *** 将在 十年内很快普及;

2015 年,英国媒体预测,大约 2025 年前后,人类与机器将能够建立性关系;

2016 年,一家为公关公司做未来趋势预测的机构, 十年左右, *** 机器人将进入中高收入群体。

2014-2016,正是上一轮 AI 和机器人被广泛讨论,并被给予厚望的时代,就如同今天一样。十年过去了,说好的 *** 机器人呢?(我没急!谁急了?!)

我最期待的科技进步之一丨Giphy

一万美元的温存

大多数机器人是不必执念于「做个人」的。工厂里的机械臂伸出来是「螃蟹钳」,拧螺丝、搬重物,早就比真人好使多了;

还记得这一集么?也许一只「手」就够了……丨Giphy

商场、酒店里的来回跑的,专业的名字叫「服务型机器人」,「没脸」,轮子上顶个带 iPad 的「床头柜」,在这样的空间中,轮子比双足跑得又稳又快;

而至于如今最常见的机器人,则是满大街跑的蔚小理、特斯拉,除非能变形,不然更是和人形没有半点关系。

但一类机器人,必须像人。 *** 机器人(Sex Robot),人形机器人的终极「圣杯」,要模仿人制造出生理功能,在每一次动作、表情、接触中都不让人产生「恐怖谷效应」;满足人的情感诉求,将机器「人」的每一项技术要求「拉满」。

设计成这个形象,你很难说工程师在想什么~丨Giphy

打开目前更先进的 *** 人偶官网,随便选择一款叫做「Novax」的sexrobot(机器人的性别只有女性可选),基础版本标价 7199.99 美元。

Novax 是模块化设计的,以防万一哪天你厌倦了她的长相或身体。她的脖子、眼睛、嘴、眉毛都可以做「有限制的」运动。这家公司做人体模型和情趣玩偶起家, Novax 们的外形都十很「写实」,脸部仿生度很高。使用者甚至可以和她接吻,但小心有浸液风险,因为她的芯片和线路大多布在后脑。

就是这个网站,但其他宣传图实在不敢放出来……丨网站截图

嵌入机器人 *** 的传感器,需要另外付钱。它可以模拟人体的接触,检测使用者的运动,反馈给机器人,让她做出逐渐兴奋的反应——但目前也仅仅是声音上的。

如果你想要对五官、形体、器官等特征做一些特殊「爱好」的自定义,估计还要再多付 5000 美元。

这种 *** 玩偶其实仍无法被严格地称为「机器人」,但相比多年前的产品已经能体现出更复杂的交互和更好的使用体验。

初代 Roxxxy,呃……丨官方宣传资料截图

比如,曾经美国性玩具品牌 Roxxxy 推出的 *** 玩偶,有男女两个版本,只是在内部嵌入了铰链金属骨架,以实现手动摆出并固定各种姿势……在当时售价就要近一万美元。

如果你真的被 Novax 打动,并且觉得这钱花得真值,把你的机器伴侣接回家之后,或许才是麻烦的开始……

爱的姿势与套路

某个深夜,孤枕难眠,你搬出了你可人的伴侣——「宝贝儿,先凹个造型~」,但「宝贝儿」的身体忽然不听使唤了,就像是卡壳的洗衣机,恼人的蜂鸣声中,她停在了一个贞子一般的姿势,还直抽抽。

这个流畅程度,恐怕……丨Giphy

你气得找售后理论,「买的时候,说挺好,无缝更换姿势。」 *** 解释道:「这就跟人上了年纪,身体没那么活泛一样,这机器人的关节还是没法跟人比的。」

目前最火的人形机器人特斯拉「擎天柱」来举例,它身上有 40 个驱动器(躯干 28 个,双手 12 个),可实现全身 200 多个自由度,手部 11 个自由度。相比之下,人类(按照大多数人将关节定义为两块骨头相交的地方)大概有 350 个关节。

我总觉得,要灵活到这样才行吧丨Giphy

机器人若想实现精准的动作,需要运动控制算法将各「关节」的轨迹规划出来,并给出各关节的控制参数(比如力度,角度,速度等)。

一些先进的控制策略,旨在提高机器人的自主性和对环境的判断力。比如 MPC(Model Predictive Control,模型预测控制),在每一个采样瞬间,求解未来一段时间内达到更佳状态的一序列动作,再回过头来确定当前动作。例如,观察到斜坡上有水,就放慢速度;预见后面要腾空,就加几个垫步过渡,使连接更流畅。

但在此之前,机器人得有一套尽可能全的动作库,和一张描述了它行动路线的地图。

灵巧无双丨Giphy

你或多或少也听明白了, 从「智能」程度上来说,「Atlas (来自波斯顿动力)们」还是一个编程好的机器人,与工厂里机械的单任务装配线工具无异。环境感知和运动控制算法的能力的提升,让它的「表演」看上去是自发性的,但还远称不上智能。

这就好像,你的 *** 机器人只被「 *** 」过公主抱。有一天,你对它娇嗔:「举高高~」。先不说,它的「双手」会不会把你肋骨掐得生疼,最怕,它会把你一头塞进天花板。

可以脑补一下,如果在床上发生这种失误……丨Giphy

原因是传统机器人的运动控制 *** 不具备泛化性。进入全新的、开放的环境中的前提是得建立环境准确的模型。

拆解目前市面上人形机器人的各部分,其实可以勉强做出对应真实人体的类比:「身体」,机器人本体(构型,材料等)和负责各功能的硬件模块;

一些「小脑」问题……丨Giphy

「小脑」,运动控制系统,向上承接大脑给出的任务指令,向下控制本体整机的运动;

以及「大脑」,负责推理、规划、决策,和环境感知和交流—— 以目前的技术成熟度来说,机器人的身子强于脑子,硬件本身领先于智能水平。

前戏,有戏

人类对于机器人「智能」的定义,十分模糊,各执一词。但又几乎都能矫情到一个点上,比如 要求朝夕相处的机器人,在含情脉脉看向你时,得知道你是你,不能把你认成别人。如果认错了,就跟人类伴侣在睡梦醉酒中,梦呓着他人名字一样。

过去,机器人要知道你是你,得事先给它看人在各种样子、角度、光线下的照片,穿衣服的裸体的、长发的短发的、化妆的素颜的……

将大语言模型作为「大脑」,它能在过往训练数据中学习到共性,将知识迁移到一个全新问题上,做到闻一知二、举一反三。 大模型在自然语言理解和逻辑推理能力的进步,正在改变机器人的人机交互和决策规划方式(也是机器人摆脱智障标签的关键)。

机器人听到「帮我从冰箱里拿一个苹果」的指令后,通常分四步:定义任务;做任务分解和动作拆分(来到冰箱前-开门-取苹果-关门-到你跟前-递给你苹果);为每一步调取机器能读懂的符号式指令;执行。过去机器人靠自己只能完成最后一步,前面都由人类工程师设计,编程好。而现在机器人可以直接处理自然语言指令,如果指令复杂就自行按逻辑拆解成一序列步骤,按步解决。

Figure 的惊艳表现得益于多模态 AI 的加持丨官方视频截取

测试者对正在做家务的 Figure AI 机器人说,「你能把它们收到那里吗?」一并指了指桌台上的收纳筐。它「秒懂」,还知道把洗好的杯子倒放,盘子立着叠——上下文模糊指代,说话抽象,这些人类的对话习惯,机器人也懂了。

还是某个深夜,你又孤枕难眠了,搬出伴侣后,你问它:「达令~你爱我吗?」它回复:「根据斯滕伯格的爱情三元理论,爱情由亲密、 *** 和承诺三种成分构成。论亲密,你经常跟我讲老板的八卦;说到 *** ,我们刚刚才体验到生理上的兴奋;而我愿意与你维持这样的关系下去。」

不对, *** 机器人不能是过于顺从的「电子舔狗」。

有效交互式营造氛围重要的一环丨Giphy

我们期待的灵魂(机器)伴侣,大概是这样的:你一句「我累了」,它或许只是坐到床边,静静陪伴你,并在必要时给你一个拥抱。

你对 Figure AI 机器人说「我饿了」,它会思考片刻后,拿一只苹果给你。 不耐烦的人类伴侣要小心了,看来机器人真的准备好提供情绪价值了。

在机器甜心面前,不必伪装

除了决策,控制,交互,一个合格的「机器尤物」还要具备通用感知能力。感知也是实现上述这些的前提。

人类的感知天然是多模态的,五感会对应一个 token 存储在人脑中。不同感知方式互为补充,构成对现实世界尽可能全面的体验和理解。

力反馈对于人来说,是再普通不过的事。机械「关节」想握鸡蛋而不碎,需要非常精准的扭矩控制,其驱动系统的软硬件之间,要做大量配合和调试,这在过去更多靠内部感知(力矩、IMU 等)。

希望未来版本的「擎天柱」能灵活如此吧丨Giphy

如今很多「灵巧手」声称具备了环境感知能力和力控算法。 特斯拉「擎天柱」 Gen2 就曾展示了「轻松拿捏鸡蛋」。有了这双手,机器人就能把控好力道,在安慰时轻轻抚摸,而不是给一个「大比兜」。

对于 *** 机器人来说,触感是最必要的「模态」——压力的变化,强度和频率的变化,让机器人判断出对方,是兴奋中,还是兴奋过头了……

然而触感之外,还需要机器伴侣懂得你情绪的变化,床帏之间,或许是一些声音,或许是一些微表情。 人最擅长心口不一,他们情感复杂又多变。即便正常人类能捕捉到的情绪,也不过是他人的「表面工夫」。

这位算是比较能感受情绪的了吧丨Giphy

据说,今天的 AI 已经能「感受」到人的情绪了。

就像在 GPT-4o(虽然一再跳票)的语音交互展示里,AI 能听懂语气词,会说人话,对话有来有回,流畅自然,且有情感,延时控制在一个字之内。

在大模型涌现出人类情感模仿的能力之前,就有情感引擎(Emotion Engine)之类的技术,在试图解决机器人情感理解,共情回应问题。

声音,表情识别(声音、视觉模态)之外,如果辅以 PSiFI (个性化皮肤集成面部接口)技术,能采集到说话者面部微小肌肉运动和声带振动,并加以分析其中蕴含的情感信息。诸如此类,更多模态和精细的传感器将被开发出来,让复杂的情感识别不成问题。

读懂表情这件事,对人来说也不简单丨Giphy

人类一句话中,含惊讶量、含悲伤量、含兴奋量等……各有多少, 人工智能势必要搞清楚喜极而泣,和强颜欢笑,哪一种才是真正的快乐。

拥抱电子皮肤能分泌真实催产素么?

先是传统的充气或硅胶娃娃,然后是能摆姿势的 *** 玩偶,最终期待是会嘘寒问暖的机械姬……

*** 机器人的命题若想成立,它们需要拥有可双足直立的躯干构型和拟人化的运动控制;转得快的大脑;会回应,甚至主动表达情绪;模拟真实的生理接触等等一些极为基本的类人的行为表达,和生理特征。

对,更好还能变形,比较好伪装丨Giphy

但是其中随便一点拿出来,都是技术还没攻克的难题。而且 这是一个既技术栈复杂,又长链条的行业。

机器人维持身体平衡很难(所以才会不断有被踹不倒的鲁棒性测试),所以无法完成下蹲,弯腰等重心改变的动作。

如果你仔细回想,是不是总觉得机器人的走路姿势别扭?那是因为它们的腿都站不直。因为弯曲是为了提高运动可控性,让关节可达空间变大,补偿行走时重心有所浮动,让机器人有更好的缓冲能力。如果只是让机器人走得更快更稳,有其他很多替代方式。

大模型这个「通用的认知引擎「如何落到机器人的运动控制上,解决机器人的任务泛化和通用性难题,是接下来的重点。「擎天柱」们当前也只是在工厂里拣拣货,安安零件,相比之下,像整理好随手乱丢的衣服这些生活里的随机事件,是对通用机器人更难的命题。

嗯……也许有人也能接受吧……丨Giphy

脸是人类所拥有的带宽更高的通信工具。人类已经能让 AI 生成各式各样,听上去也自然的声音。关键是,声音得配合着面部表情来,做到准确,生动,无延迟。

有研究者试着用 26 个微小电动机,模拟肌肉在做表情时的状态。当机器人看到人类嘴角似乎上扬,眼睛似乎微微眯起,就判断人类是想微笑。通过这种模仿、预测、修正,以至未来能自发作出表情反应。

但现实是,拿到各大展会上进行展示的机器人 在做完张嘴、眨眼、转动眼球一些基本面部动作后,还不「死机」,就挺不容易了。

*** 机器人被认为是人形机器人的终极「圣杯」,而将 *** 机器人做到「极致」,是机械工程与仿生学的结合。运用仿生学原理,通过模仿人类的身体结构和运动规律,为机器人创造类似「骨骼」、「关节」、「肌肉」和「皮肤」系统的机械结构。

布满电子皮肤是一项更高的要求丨Giphy

有机器人试图在指腹处配置柔性触觉传感器,就是为了模仿人类皮肤的功能,靠它可以检测出触摸到的基础力度、温度、湿度、震动、材质、软硬等特性。

如果要将「电子皮肤」铺满全身,需要大约两平方米,一家供应商估计光是这些传感器成本就要超过三万人民币。

这样一看,一万美元的玩偶也不觉得贵了。 好好待「它」,真机械姬到来之前,「它」还得陪你度过无数个漫漫长夜。

Keep dreaming……丨Giphy

作者:沈知涵

编辑:卧虫

封面图来源:Giphy

文章转载自果壳