AI而非硬件：人形机器人终于走向实用 (2026)

丰田研究院首席执行官吉尔·普拉特指出，人形机器人期待已久的突破终于到来，而真正起到催化作用的并非更先进的电机或关节，而是AI。具体而言，是从手工编写机器人行为，转向通过模仿学习和扩散策略模型，让机器人能够从人类示范中直接学习，而无需大量编程。

人形机器人面临的“大脑与身体”难题

硬件从来都不是真正的瓶颈。十多年前，人形机器人的机械结构就已经能够完成令人惊叹的动作——Boston Dynamics Atlas早在2013年就已亮相，更早的研究型人形机器人则在此之前就已存在。真正严重落后的是“大脑”：也就是让这些身体发挥价值的软件、学习架构和推理系统。

普拉特在最近一次IEEE Spectrum访谈中直言：“现在改变的不是身体，而是大脑。机器人学领域长期存在一种尴尬的差距——我们制造的机械装置能力极强，却始终缺乏让机器人效用匹配其潜力的手段。”

如今这一差距正在迅速缩小。原因并非执行器变得更便宜（虽然确实如此），而是AI研究带来了一种全新的机器人行为编程方式。工程师不再需要为每个任务编写明确代码，机器人现在可以通过观察人类示范来学习。这种模仿学习范式，再结合同时在多个任务上训练的大型行为模型（LBMs），正是普拉特所说的当前突破核心。

这与自动驾驶的发展路径颇为相似。2004年的DARPA Grand Challenge和2007年的Urban Challenge并未直接催生商用无人车，但它们验证了概念、培养了人才、明确了方向。普拉特在2012-2015年设计DARPA Robotics Challenge时，用的正是同一套逻辑。十年之后，他认为那次奠基工作的累积效应，如今被现代AI进一步放大，终于开始兑现。

为什么系统1 AI不够用——下一步该怎么办

当前AI——包括驱动最强大机器人“大脑”的大语言模型——几乎完全依赖心理学家所说的系统1思维：快速、模式匹配、反射式响应。看到某种输入模式，就输出对应动作。这套方法在很多时候效果惊人，但遇到边界情况就会失效。

缺失的部分是系统2思维：缓慢、深思熟虑的推理过程，包括构建内部世界模型、设想各种假设情景，并规划达成目标的行动序列。普拉特的比喻非常形象：试图让系统1 AI表现出系统2的能力，“就像挤一个装满水的气球，你按住一边，水就会从另一边鼓出来”。解决一个失败模式，另一个问题马上在别处冒头，整体性能提升非常有限。

这也直接对应当前AI研究圈的分歧。一派是规模化拥护者，认为现有的Transformer架构经过打磨就能实现通用推理；另一派——以Meta首席AI科学家Yann LeCun为代表——则认为自回归预测（根据过去token预测下一个）在架构上就无法实现真正推理，无论规模多大都无济于事。普拉特站在LeCun一边：机器人最终需要的是世界模型，而非更强大的模式匹配器。

对现阶段人形机器人而言，这意味着重大限制。过去两年你看到的那些令人印象深刻的演示——不管是灵巧操作、家务劳动还是仓库拣选——几乎都建立在系统1扩散策略之上。这些机器人是在“反应”，而非“思考”。它们在全新边缘案例上会失败，因为它们从未“设想”过那个场景，只在训练数据中见过类似情况。

丰田研究院的扩散策略如何打破学习瓶颈

两年前，丰田研究院发表了关于扩散策略的研究——这项技术借用了AI图像生成背后的扩散模型机制，并将其应用于机器人动作生成。模型不再生成像素，而是直接输出电机指令。效果非常出色，用普拉特的话说，“我们现在看到的几乎每一项机器人演示，都在以某种形式使用扩散策略。”

TRI随后将其扩展为大型行为模型（LBMs）：用同一个模型同时训练多个不同任务，而不是一个任务一个模型。关键发现是“正向迁移”——在训练集中加入新任务，反而能提升已有任务的表现，并大幅减少达到熟练度所需的总数据量。这直接攻克了此前让机器人学习难以规模化落地的“数据瓶颈”。

不过数据挑战依然存在。不同于LLM可以拿整个互联网文本来训练，机器人必须在现实世界中收集物理交互数据——示范动作、轨迹、传感器读数。这个过程既缓慢又昂贵。LBMs降低了每个任务所需的数据量，但行业仍未找到“足够可靠部署”的明确数据阈值。

普拉特的过渡方案借鉴了自动驾驶最终实现商业化的路径：监督自主。大多数时候，机器人依靠系统1推理独立完成任务；遇到真正陌生的情况——相当于Robotaxi遇到双排停车堵路——它会举手请求远程人工操作员提供指导。人类给出系统2层面的决策，机器人负责执行。这种混合模式绕过了尚未解决的世界模型难题，同时今天就能带来实际商业价值。

炒作误区：为什么在平坦工厂部署人形机器人毫无意义

普拉特的观点并非一味乐观。他对当前人形机器人投资的流向提出了尖锐批评：工厂车间。

人形结构的核心价值在于：人类建造的世界是为人体优化的。门把手、楼梯、车辆内部、医院病房——这些环境都青睐双足行走和灵巧操作。在杂乱不平、障碍物多的空间里，腿部确实比轮式结构更优，因为双足可以直接“跨”过障碍，而非绕行。

但现代工厂地面平整、无障碍、专为自动化设计。在这种环境下，轮式方案在机械上更简单、成本更低、能耗更少、可靠性更高。人形机器人的“腿部溢价”——额外的复杂性、成本和故障风险——在为叉车和AGV设计的仓库地面上毫无用武之地。

“看到这么多投资都集中在工厂这种完全适合轮子的平坦环境里的腿式机器人，实在很奇怪。”普拉特直言。

这对正在评估当前人形机器人产品的采购者非常重要。形态溢价是真实存在的，而在许多高调宣传的目标场景中，这种溢价并没有对应的运营价值。普拉特在TRI重点关注的，正是人形机器人能真正发挥价值的领域：养老护理、家庭协助，以及其他非结构化的人类生活空间。

这对机器人采购者意味着什么

普拉特的观点对采购决策有直接指导意义。如今，一款人形机器人的AI能力层级，远比它的机械规格更重要。一台集成了行业标准扩散策略和基于LBM的学习系统的机器人，其实际能力会远远超过仅依赖传统手工编码行为树的平台——哪怕两者纸面上的物理参数相差无几。

以下是当前主流人形机器人及协作机器人平台按AI能力层级的实用对比：

平台	AI层级	学习方法	远程操作后备	最佳使用环境
Boston Dynamics Spot（加装AI模块）	系统1+	扩散策略 / 行为克隆	有（远程操作）	工业巡检、非结构化户外
Figure 02 / 1X NEO	系统1	模仿学习，LLM集成	部分支持	结构化制造（有限）
Unitree H1 / G1	系统1	扩散策略变体	有限	研究、概念验证
Agility Robotics Digit	系统1	行为克隆	有（仓库作业）	平坦仓库——轮式可能更优
传统协作机器人（UR、Fanuc）	前AI时代	编程 / 示教器	无	结构化、重复性工业任务

采购者关键建议：

别只买身体，要买学习系统。 重点考察训练数据管道是否完善、机器人学习新任务的速度，以及厂商是否支持监督自主后备机制。
诚实地匹配形态与环境。 腿式人形机器人适合非结构化的人类空间。在平坦结构化环境里，先看看出售的二手协作机器人或轮式平台，再决定是否为“人形溢价”买单。
数据护城河真实存在。 拥有最多示范数据的厂商——尤其是TRI、Figure和1X——将获得不断强化的结构性优势。评估厂商的数据策略，而非仅看当前演示效果。
监督自主是当前最佳实践。 支持远程操作员后备的平台，今天就能真正部署，而完全自主系统很容易在边缘案例上失效。

想全面对比当前市场上的各种平台，可在Botmarket浏览人形机器人，按能力层级进行筛选。

常见问题解答

为什么人形机器人现在可行，而十年前不行？

硬件并没有发生根本性变化——能在物理任务上表现出色的双足机构早在2015年DARPA机器人挑战赛决赛之前就已存在。真正改变的是AI学习系统。扩散策略和大型行为模型让机器人能够从人类示范数据中习得新技能，而无需手工编写指令，极大降低了每个任务的工程成本，并在非结构化输入上显著提升了真实世界表现。

什么是扩散策略？它对机器人学为什么重要？

扩散策略将AI图像生成背后的生成机制应用到机器人动作生成上。模型不再输出像素，而是输出电机指令序列。丰田研究院在2022-2023年发表的相关工作证明，该方法在操作基准测试上超越了之前的模仿学习技术，此后几乎所有主流商业人形机器人开发者都在以各种形式采用这项技术。

我应该为仓库或工厂购买腿式人形机器人吗？

大多数情况下不建议。吉尔·普拉特明确指出，平坦的结构化工厂环境“非常适合轮子”，腿式结构的机械复杂性会增加成本和故障风险，却无法带来相应的运营收益。轮式协作机器人或轮式移动操作臂通常更具性价比，也更可靠。人形腿部的价值体现在真正非结构化的环境——家庭、医院、室外有台阶和障碍物的空间——那里的人类尺度交互才是其不可替代的优势。

机器人学中的系统1和系统2 AI有什么区别？

系统1 AI（快速、模式匹配）是当前机器人正在做的事：根据训练数据将感知输入映射为动作。系统2 AI（缓慢、审慎推理）则需要构建内部世界模型、规划多步动作序列，并在行动前设想新场景。目前的人形机器人几乎完全运行在系统1层面。尚未有商用平台实现稳健的系统2推理，这仍是该领域最核心的未解难题。

监督自主对机器人部署意味着什么？

监督自主是一种混合运行模式：机器人大部分时间独立完成任务，但在遇到训练分布之外的情况时，会请求远程人工操作员介入。这与商用Robotaxi服务在遇到路况边缘案例时的处理方式完全一致。对采购者而言，这意味着当前一代机器人已能可靠部署，但需要将远程运营基础设施和人工监控人员成本纳入预算。

当前的人形机器人投资热潮最终能否带来真正有用的产品？

普拉特的看法是谨慎乐观：确实发生了本质不同的变化，AI突破是真实的，投资正在加速能力迭代。他指出的风险在于应用方向错误——尤其是把人形形态部署在平坦工厂这种更简单平台就能胜出的场景。最有可能产生持久价值的投资，是那些针对真正非结构化环境——养老护理、家庭协助、灾难响应——的领域，在这些场景中，人形形态具有不可替代的优势。

人形机器人的大脑与身体差距正在缩小，但能力与合适部署场景之间的差距却在同步扩大。目前获得融资的平台，将决定未来十年哪些公司能主导具身AI技术栈。

你认为哪家人形机器人的AI学习系统最具护城河？监督自主是解决了商业化问题，还是只是推迟了它？

最后更新：2025