LATENT网球人形机器人领跑本周人形机器人里程碑

LATENT网球人形机器人领跑本周人形机器人里程碑

LATENT人形机器人从不完美的人类数据学会打网球——加上削苹果的灵巧双手、KAIST实地测试和玻璃门感知,本周Physical AI亮点盘点。

1 分钟阅读2026年4月17日
Takeshi Yamamoto
Takeshi Yamamoto

一台人形机器人能从不完美的人类运动数据中学会打竞技网球,这成为本周机器人技术盘点的最大亮点——它也释放出一个更重要的信号:物理AI系统如今已能在缺少干净参考数据的情况下,掌握复杂动态运动技能。从削苹果的灵巧双手到KAIST实地测试的人形机器人,具身智能的演进步伐正肉眼可见地加速。

目录


LATENT是什么?它如何从人类数据中学习网球?

LATENT(Learns Athletic humanoid TEnnis skills from imperfect human motioN daTa)是一套训练系统,它让人形机器人通过学习噪声、不完美的人类运动数据,就能打出具有竞争水平的网球对攻,而无需依赖干净的、针对机器人的运动学参考数据。最终效果是,这台人形机器人能在与人类对手的实时对战中,准确追踪并回击高速飞来的网球。

LATENT要解决的核心难题其实极具挑战性。人类打网球的动作迅猛、动态极强,且高度依赖上下文——时速80公里的正手抽击,需要全身协调的姿势、预判性的步法,以及毫秒级的挥拍时机。过去,要把这些动作精确捕捉下来用于机器人模仿学习,通常需要昂贵的动作捕捉设备或完美映射到机器人形态的人类运动学数据。而LATENT彻底绕过了这个瓶颈。

根据LATENT项目页面的介绍,该系统能容忍噪声和不完美的人类演示数据,却依然能在全尺寸人形机器人上输出稳定、高动态的策略执行。这正是值得我们内化的物理AI洞见:模仿学习对数据质量的脆弱性正在被系统性地打破。当凌乱的真实人类数据与可用的机器人训练信号之间的鸿沟不断缩小,可转移到人形机器人身上的运动和灵巧技能范围将大幅扩展。

选择网球作为基准任务是深思熟虑的结果。它同时考验高速感知(追踪球的轨迹)、全身反应控制(步法、挥拍力学、重心转移)和工具使用(把球拍当作延伸末端执行器)。如果人形机器人能从不完美的数据中学会这项技能,那么工厂环境中具有类似动态特性的操作任务——快速抓取放置、动态装配——就会变得更加可行。竞技本身不是重点,泛化能力才是。

Sharpa的灵巧削苹果机器人与MoDE-VLA

Sharpa宣称自己是全球第一家展示机器人用双灵巧拟人手完成削苹果的公司。这是一项双臂、富接触的操作任务,远远超出传统工业夹爪的能力范围。其背后的MoDE-VLA(Mixture of Dexterous Experts — Vision-Language-Action)系统,将视觉、语言、力觉和触觉数据融合,通过一群专精的AI“专家”协同工作,在高维动作空间中稳定控制。

实事求是地说,这仍是一个受控演示。苹果削皮本质上是非结构化的:水果形状各异、果皮韧性不断变化,手中旋转需要连续的多指协调,即使遥操作也很难轻松提供。Sharpa采用的是共享自治架构——操作员不必逐个手指下指令,而是通过键盘或脚踏触发预先学会的技能基元(如“旋转物体”),机器人则负责底层协调。

这个设计选择非常关键。高自由度机械手的指级遥操作在实际大规模数据收集中几乎不可行。通过把操作员输入抽象到技能级触发,Sharpa让强化学习在大规模下变得可行。随后MoDE-VLA框架负责真正的手中协调——通过混合专家架构融合触觉反馈和视觉数据,在持续操作中保持稳定的接触。

对于正在评估humanoid robots用于精密装配或食品处理的企业来说,这种架构值得持续跟踪。富接触双臂灵巧操作一直是商用机器人最难跨越的能力鸿沟之一。Sharpa的方案提供了一条可信的路径——尽管从演示台上削一个苹果,到产线上削一万个苹果,中间还有很长的距离。

本周其他人形与腿足机器人里程碑

本周还有几项演示值得作为一个整体关注:

系统机构关键能力训练方法
KAIST Humanoid v0.7KAIST DRCD Lab实地测试 + 人类交互深度强化学习 + 人类演示
UMV (Unmanned Mobile Vehicle)Robotics and AI Institute驾驶、跳跃、翻滚NVIDIA Isaac Lab强化学习
LimX Dynamics OliLimX Dynamics玻璃门检测 + 导航计算机视觉
Tesollo Finger-Tip ChangerTesollo / Hanyang University模块化指尖更换协作式硬件设计
KAIST Humanoid v0.7KAIST DRCD Lab自研执行器、实地移动深度强化学习

KAIST Humanoid v0.7值得注意,因为它采用了自研执行器——这一选择显示出实验室掌控从硬件到策略全栈的雄心。大多数学术人形平台依赖商用执行器;在关节层面进行垂直整合,能让研究人员更精确地调控扭矩带宽和柔顺性,直接提升移动稳定性。

Robotics and AI Institute的UMV在NVIDIA GTC主题演讲中被提及为“AI Native”企业,这表明Isaac Lab的仿真到现实转移已能产出可迁移的移动策略,支持翻滚、跳跃等行为。缩小仿真到现实的差距仍是机器人领域最具商业价值的问题之一;每一次成功转移都能大幅降低策略训练的数据采集负担。

LimX Dynamics的玻璃门感知单独看不算爆炸性新闻,但作为能力里程碑意义重大。透明表面长期以来会欺骗标准深度传感器(激光雷达、结构光),因为它们会反射或透射信号而非返回可用数据。在步行机器人的实时导航系统中解决这个问题,消除了腿足机器人在商用建筑部署的一个真实障碍。

值得关注的操纵、感知与边缘案例

除了人形机器人,本周还有两项演示展现了机器人工程师如何解决那些在工厂地板上实际操作时才会暴露的隐蔽问题。

Nomagic的鞋盒操作机器人针对了一个非常具体且真正棘手的问题:带盖纸箱不能可靠地抓取盖子,因为夹紧力会把盒子打开而不是抬起。Nomagic开发了专用硬件来解决这个问题——他们的系统已经实现商业部署,Zalando在其物流中心安装了多达50台Nomagic机器人。这不是实验室演示,而是正在活跃仓库中规模化解决的生产制约。

克兰菲尔德大学受Strandbeest连杆机构启发的风力机器人则提供了另一种洞见。它专为在恶劣环境中长期探索而设计,完全依靠风能运行——无需电池,也无需充电基础设施。对于偏远地区的巡检和环境监测应用来说,这种能量独立性比速度或精度更重要。

斯坦福BDML的“抱树”停栖无人机则展示了利用结构化停栖机构进行顺应式空中抓取。其应用领域是环境感知,但底层能力——一台能锚定在不规则自然表面并保持静止的飞行机器人——对基础设施巡检(电线、桥梁桥墩)具有直接意义,能避免悬停带来的能耗成本。

本周演示对人形机器人意味着什么

本周的演示集群指向三个正在汇聚的趋势,采购者和工程师都应重点跟踪。

从不完美数据中学习正在成为常态。 LATENT和KAIST v0.7都明确使用了含噪或演示-derived的训练数据。曾经需要昂贵动作捕捉设备或专业数据管道的“干净数据瓶颈”正在松动。这大大加快了教会人形机器人新任务的时间表。

灵巧性正通过架构而非单纯硬件来突破。 Sharpa的MoDE-VLA方法将多种感知模态(视觉、触觉、力觉、语言)通过专精子模型融合。这类似于大语言模型中的混合专家模式,如今被应用到物理操作中。这是一次从单一控制策略向架构转变的真正飞跃。

阻碍部署的边缘案例正在被逐个攻克。 玻璃门、鞋盒盖子、模块化指尖。这些问题与打网球的人形机器人相比毫不炫目,但商业部署恰恰被这些边缘案例卡住。领域针对特定失效模式生成精准解决方案的速度本身,就是成熟度的信号。

对于同时评估used industrial robots和新兴人形平台的企业来说,实际启示是:十二个月前还看似结构性的能力差距,正在以快于大多数采购周期的速度缩小。建立能容纳快速能力迭代的评审流程,尤其是在操作和自主导航领域。

常见问题解答

什么是机器人领域的LATENT?

LATENT全称“从不完美人类运动数据中学习竞技人形网球技能”。它是一套系统,用于训练全尺寸人形机器人通过噪声、不完美的人类动作捕捉数据学会打竞争性网球对攻,无需干净的机器人专用运动学参考或专家遥操作演示。

人形机器人现在能和人类打网球了吗?

LATENT系统展示了一台人形机器人能与人类对手进行竞争性对攻——追踪并回击高速网球。这仍是研究演示而非商用产品。作为物理AI基准,这项能力意义重大,但具备如此全身动态控制水平的商用人形机器人,到2025年中期仍处于研究或早期预生产阶段。

MoDE-VLA在机器人中有什么用途?

MoDE-VLA(混合灵巧专家——视觉-语言-动作)是Sharpa开发的AI控制架构,它通过专精子模型融合视觉、语言、力和触觉数据,来控制高自由度机械手完成富接触操作任务,例如手中旋转和苹果削皮。它旨在稳定高维动作空间中的控制,而单一策略往往在此失效。

玻璃门检测为什么是腿足机器人的里程碑?

玻璃等透明表面会反射或透射激光雷达、结构光等标准深度传感信号,导致它们不可见或被误判为空旷空间。LimX Dynamics在步行机器人的导航系统中实现实时玻璃门检测,消除了腿足机器人在商用办公和零售环境中部署的一个真实障碍,这些场所普遍存在玻璃门和隔断。

人形机器人训练中的sim-to-real转移是如何实现的?

仿真到现实转移是指在物理仿真环境(如NVIDIA Isaac Lab)中训练机器人控制策略,然后部署到真实硬件上的过程。挑战在于仿真物理永远无法与现实完全一致;“sim-to-real差距”会导致策略在真实机器人上表现不同。缩小这一差距的技术包括域随机化,即在仿真中变化参数,使策略对真实世界的变异性保持稳健。


单周研究演示中可见的物理AI进展速度令人惊叹——但实验室演示与量产就绪系统之间的距离,仍然是人形机器人下一阶段部署的核心挑战。

本周这些演示里——网球技能、削苹果还是玻璃门导航——你认为哪一个弥合了最具商业意义的能力差距?

最后更新:2025

相关文章

参与讨论

Which demo closes the most commercially significant gap — tennis skills, apple peeling, or glass door navigation?

更多文章

🍪 🍪 Cookie 偏好设置

我们使用 Cookie 来衡量性能。 隐私政策