图片来源:界面新闻

对话联想创投王光熙:未来3-5年具身智能会产生新的商业化价值

界面新闻记者 | 肖芳

界面新闻编辑 | 文姝琪

大模型为具身智能带来了诸多令人兴奋的变化,也让机器人能够在更多实际场景中替代人类成为可能。

在语言大模型兴起的两年时间内,具身智能一个非常显著的变化是,大脑的能力突飞猛进,在交互和决策、感知和决策方面的变化可谓是划时代的。正是更加聪明的大脑,让具身智能半开放或者开放式的生活工作场景中解决了一些实际问题。

在联想创投2024 CVC创投周上,联想集团副总裁、联想创投合伙人王光熙在接受界面新闻采访时表示,把大模型底层算法技术更好的用到操控小脑上,用相对比较优雅的模型、算法实现智能端到端服务,是具身智能创业企业和互联网大厂下一步要解决的问题,也是投资人关注的重点。

未来3-5年会产生不同以往的商业化价值

大模型为具身智能带来的商业化机会,也让此前不确定非常强的机器人商业化有了一些方向。在王光熙看来,未来3-5年具身智能行业可能会产生不同以往的商业化价值。

在2024 CVC创投的展示区,界面新闻记者了解到了一些具身智能融合大模型的应用案例。比如具身智能人形机器人研发公司星动纪元在全球首次提出将视觉语言模型、大语言模型与人形机器人算法进行整合,用大型语言模型指导其人形机器人小星的上层任务规划,其在水泥地上、树林里、草地里、石子路上都能快速行走,而且有较强的稳定性。

融合大模型技术之后,机器人研发的侧重点也和此前有了很大不同。过去,机器人的研发都是侧重于完成某一类特定工作,比如配送机器人负责配送、建筑机器人智能刷墙。但如今,机器人完成多类型任务成为可能,一个在工厂中工作的机器人既能能螺丝,还能喷漆或者组装零件。

在刚刚结束的2024世界人工智能大会上,界面新闻记者也看到了一些类似的展示。比如,具身智能机器人公司穹彻智能展示的机器人小彻在家庭场景中不仅可以完成很多任务,而且可以实现非常精细化的操作:它可以进行简单的地面清洁工作,能够抓取地面上的杂物丢进垃圾桶,同时还可以还可以切鸡块、削黄瓜、包榨菜等。而切鸡块、包榨菜等能力可以在真实的农业供应链中落地,产生商业价值。

从整体的需求来看,目前中国的具身智能行业市场规模呈现增长趋势。智研瞻产业研究院发布的《中国具身智能行业报告》显示,2023-2029年具身智能产业的的市场规模呈现逐渐增长趋势,预计到2029年中国具身智能产业的市场规模将达到185.64亿元左右。

王光熙表示,在科技发展中,大家总是高估短期的进展,低估了远期的事。在大模型的加持下,机器人的应用场景进一步拓宽,原来只能解决问题的比例不超过20%,如果这个比例能提升到一半,其在很多商业场景中就能够被更好地应用。

这些具身智能机器人能力的提升的一个重要因素是大模型带来的感知能力提升。传统的具身智能感知系统在处理复杂和多样化的环境信息时往往显得力不从心,但大模型可以整合来自多个传感器的数据,如视觉摄像头、深度传感器、触觉传感器等,实现对周围环境的多维度感知。

通过对这些不同类型数据的综合分析,具身智能体能够更加全面、准确地理解其所处的环境。比如,一个具备大模型支持的机器人在仓库中工作时,不仅能够通过视觉识别货物的形状和位置,还能利用触觉感知货物的重量和质地,从而更加精准地进行搬运操作。

此外,大模型还能够处理模糊和不确定的感知信息。在现实世界中,传感器数据往往会受到噪声、干扰和遮挡等因素的影响,导致信息不完整或不准确。大模型通过学习大量的类似场景数据,可以对这些不完美的感知信息进行推测和补全,从而提高具身智能体的环境适应能力。

数据不足仍然在限制机器人的能力

具身智能和大模型融合极大地提高人机交互效率的同时,面临着一系列挑战,包括数据、模型脆弱性和可靠性等问题。这些问题不仅影响模机器人的性能,也隐藏着潜在的风险。

在王光熙看来,将大模型的智能充分多模态化同样还有很长的路要走。尤其是在进入物理世界时,涉及听觉、触觉、力学反馈等模态的数据量较少,需要解决数据来源和融合的问题。

而在清华大学研究员苏航看来,收集真实的数据是非常困难的。“我们做过一个评估,目前我们实验室收集到全网能够获取到所有的人形机器人的数据以及各种AI操作的数据,至少比真正的泛化型差2~3个数量级,哪怕达到GPT3.5的水平也差2~3个数量级。”

提升泛化能力是具身智能公司需要持续去做的工作。影响具身智能数据泛化能力的因素包括数据的多样性、质量、规模,以及模型的架构和训练 *** 等,丰富多样且高质量的数据有助于模型的泛化能力,而合理的模型架构和有效的训练算法能够更好地捕捉数据中的关键信息,并避免过拟合,增强对新数据的适应性。

王光熙表示,在学术研究方面,大家已经慢慢意识到数据来源的问题也没有大家想象的那么难实现,之后的数据来源会是一个相对比较多来源的融合,除了实际收集的数据之外,还可以包括仿真数据、模仿学习数据以及其它模态的视频、图片的数据能够转化过来的数据。

在商业化场景中,具身智能机器人的可靠性也非常关键,通过大量实验和场景的训练以及强化学能够快速的让它把一个任务完成的更好。

“今天GPT可以胡说八道笑一笑就过去了,如果机器人的执行是乱来,那这个产品在很多场景里是不可用的,这种事都还需要在技术、产品、商业化可落地层面还有很多的事要做,这些东西积累在一起确实需要几年的时间才能真正体现规模化的商业效应。”王光熙表示。