文 | 捉羊李
具身智能在AI赛道领域愈发火热,几乎国内外所有科技大厂,都或多或少投身于这个浪潮中,数亿级融资不断。
就在这两日,世界机器人大会(WRC 2025)正在北京如火如荼的举办,其热度不亚于几日前的WAIC。备受瞩目的国内具身智能独角兽们纷纷展示绝活,宇树科技的两名Unitree G1机器人上演了一场拳击赛;银河通用机器人轮盘人形机器人Galbot化身小卖部店员,为顾客取送商品;星动纪元则展示了最新发布机器人L7智能分拣包裹的能力。还有加速进化的T1机器人踢足球赛、擎朗智能的双足服务机器人XMAN-F1打爆米花等等,会场共有200余家机器人企业大秀肌肉,展现产品的落地场景和应用能力。
具身智能的时代将至,我们该如何理解具身智能?它又面临着何种的瓶颈与未来?
我们如何理解具身智能?
我们人类在出生后还没有理解社会语言时,无法对语言的指令做出反馈,但可以通过视觉、触觉、听觉等感知向外界做出回馈,并慢慢通过“感知-行动”逐步来学习认知。这也就是具身智能所在做的事情,具身智能通过将人工智能融入到机器人等实体产品中,赋予他们如同人类一样感知外界和学习交互的能力,并以此作出决策,进而在不同的场景“随机应变”地完成任务。
在中外诸多文献中,非具身智能(Disembodied AI)又称互联网智能(Internet AI)。非具身智能并不需要与外界进行物理交互,也并不需要迁移进真实世界中的实体。非具身智能往往依赖喂哺给它的数据,它更像一个“思想家”而非“实践家”,当然它也具有它的优势,如AlphaGo,横扫数十位围棋大师。
上海交通大学教授卢策吾曾给出一个案例去解释这两者之间中的区别,他将非人类视角的智能称为第三人称智能,也就是非具身智能,通过输入盒子样式的符号,让机器学习什么是盒子;而人类视角的智能,则是通过打开盒子,去体验什么是盒子。这便是实践性学习方法和概念性学习方法的区别。

(图片来源于网络)
从技术层面来说,我们也在从大语言模型(LLM)到图像-语言模型(VLM)再到图像-语言-动作多模态模型(VLA)不断推进,让机器人能处理更多信息,不局限于只是单纯的实现输入的指令,而是实现更复杂的交互,推动人形机器人实现具身智能。
具身智能数据采集的瓶颈
尽管具身智能行业前景光明,但目前行业发展面临一个绕不开的难题:数据的稀缺性。其稀缺性原因有二,一是因为数据采集成本高,二是因为数据量难以形成规模。
为什么说具身智能的多模态数据获取成本更高?人工智能的演进与发展都依靠数据对模型以及机器人的的训练。上文提到的非具身智能中收集并用来训练的数据大多来源于公开的互联网文本,可以通过互联网用户的浏览、搜索、点击、发言等线上行为来获取数据。而具身智能领域获取数据就更加复杂,它涉及到机器人与真实世界的动态交互,比如抓取、搬运、行走、避障等,需要采集机器人在与环境交互时视觉、触觉、力觉等多模态的传感数据以及决策数据,这就决定了这类数据耗时长且生成成本更加高昂。
并且具身智能对数据的需求还具有海量、高质量且多样化的特点。例如,自主导航机器人需要处理海量环境数据,以增强其路径规划和避障能力;执行高精度任务的工业机器人需要极其精确的数据,微小的误差都可能导致严重的生产质量问题;家庭服务机器人必须拥有广泛的家庭环境数据,来提高泛化能力,以适应不同家庭的各项任务。
具身智能的数据量难以形成规模,是因行业中存在“数据孤岛”。
因为大多数具身智能机器人都需要在特定环境中收集数据,他们的数据存储格式、元数据形式、数据标注粒度都并不相同。并且由于高昂的成本以及隐私安全考虑,公司与公司之间并不会共通数据。现下的数据集无法共通,数据无法最大化的利用,导致行业间会有重复工作和资源浪费,形成一座座不互通的“数据孤岛”。数据无法流转,无法形成一个标准体系,大大减缓了具身智能的进展。
合成数据或者是出口
上文中提到,具身智能对真实数据的采集、处理、标注和利用都面临诸多挑战。且人工智能领域的训练数据还存在一个通用的问题,即人类生成数据的速度无法匹及到AI不断增涨的需求。
马斯克在今年年初曾表示,“在AI训练中,我们现在基本已经耗尽了人类积累的总和。”OpenAI联合创始人兼前首席科学家伊利亚·苏茨克维尔在神经信息处理系统(NeurIPS)大会也曾直言道,“人工智能的训练数据如同化石燃料一样面临着耗尽的危机”。互联网智能的数据尚且不足以训练消耗,何况是更难以获取的多模态数据呢?
综合原因下,目前具身智能领域大多使用的是以合成数据为主、真实数据为辅的模式。
真实数据(Real World Data)属于人类创建的文本、图像和视频,是在真实事件和场景下生成中的数据。合成数据(Synthetic Data)就是通过仿真系统或生成式AI技术,在虚拟环境中“模拟”出机器人与环境的交互场景。这一仿真技术叫做Sim-to-Real,利用技术手段,将虚拟环境无限地逼近于真实场景,相当于给受训的机器人们创造一个“元宇宙”。
以此生成的数据虽然不是直接从现实世界中采集的,但经过精心设计和技术处理,也可以具备较强的真实性和泛化能力。合成数据由于无需人工遥操机器、无需标注等特点成本相对更加低廉,使用率也更高于其他行业。据合成数据公司光轮智能的甘宇飞表述,在自动驾驶领域,合成数据的使用比例大约在30%至40%之间,而在具身智能领域,这一比例则高达80%至90%。

(图片来源于网络)
合成数据是一把达摩利斯之剑。它成本低廉,还能让机器人在万端变换的环境中安全的测试;但合成数据毕竟依赖于模拟环境,可能会编造出看似合理但并不可能存在的场景,甚至一丝光照的差别都可能导致AI出现行为偏差,甚至走向“崩溃”。
综合原因下,目前具身智能领域大多使用的是以合成数据为主、真实数据为辅的模式。并需要将两者数据的时间空间维度对齐,将虚拟与真实更好的弥合才能高效的训练具身智能,这也是行业间大多使用的战略性决策。
具身智能机器人的落地和商业化
具身智能的载体不一定是人形机器人,但是人形机器人是更好的载体,也是追逐的风口。目前,谁家能将具身智能机器人商业化量产落地?这是各行各业都在关注的话题。
我想,这一天的到来可能没有那么快,行业仍处于训练阶段,量产落地可能还需要几年时间。具身智能的概念很大,展望的前景很广,但其训练成本和生产生产成本过高,未来生产力必然是决定行业黑马的重要因素。
我们期待具身智能机器人飞入寻常百姓家这一天的到来。
参考文献:
- 1.为什么说具身智能是通往AGI值得探索的方向?上海交大教授卢策吾深度解读
- 2.《独家对话光轮智能:合成数据如何破解AI“数据饥渴”》|50x50 https://www.tmtpost.com/7582234.html
- 3.《The Value of Data in Embodied Artificial Intelligence》| https://cacm.acm.org/blogcacm/the-value-of-data-in-embodied-artificial-intelligence/#six