研究人员开发了LaST-HD框架,让机器人通过观察人类手部演示学习复杂操作技能。通过将人类和机器人动作对齐到共享推理空间,该框架无需大量昂贵的机器人专用数据即可实现可扩展训练,在双臂和灵巧任务上达到了最先进水平。
目录
研究人员构建了什么
LaST-HD是一个训练框架,弥合了人类手部动作与机器人手臂动作之间的鸿沟。核心创新是人机潜在对齐策略:不是直接将手部姿态映射到机器人动作(由于具身差异而失败),而是将人类和机器人的观测投影到共享潜在空间,捕捉物理推理和任务动态。从对齐的潜在表示中,一个推理专家生成机器人的动作。

为了收集高质量的人类演示,团队创建了OOL手套,这是一种定制数据手套,以超过200 Hz的频率记录手部运动学,位置精度亚毫米级,延迟低于10毫秒。手套捕捉手腕相机视图(位于拇指和食指之间的虎口区域),提供手指与物体交互的可见性。演示包括同步视频、手部状态和任务描述(通过麦克风记录或使用视觉语言模型标注),从而实现大规模多模态训练数据。
LaST-HD还引入了混合训练方案,将人类手部数据与少量机器人演示数据结合,使模型能够利用丰富的人类示例,同时保持与机器人动作空间的对齐。
关键成果
LaST-HD在一系列操作任务上进行了评估,包括双臂分拣、灵巧手操作和工具使用。该框架在领域内和泛化设置中均持续优于Cosmos-Policy、UMI和Hawor等强基线。
在双臂分拣水果任务上的消融研究证实,LaST-HD的每个组件都有显著贡献。移除潜在对齐会导致成功率大幅下降,而用低保真数据替换OOL手套也会降低性能。注意力图可视化显示,LaST-HD的潜在标记精确聚焦于被操作物体和接触点,而先前方法则广泛关注场景。
虽然具体数值结果保留在完整论文中,但作者报告称LaST-HD在所有测试任务上均达到了最先进的成功率,尤其在未见过的物体排列和新工具上表现出强大的泛化能力。
工作原理
LaST-HD分三个阶段运行:
- 使用OOL手套收集数据 – 人类演示者戴上手套自然执行任务。手套流式传输手部关节角度、手腕姿态和第一人称相机视图。运动学求解器实现每个关键点亚毫米级RMS位置误差,提供接近动作的监督,可重新定位到任何机器人夹爪或灵巧手。
- 人机潜在对齐 – 两个独立的编码器(一个用于人类手部,一个用于机器人观测)将输入映射到共享潜在空间。对比损失对齐这些潜在表示,使得相同的物理推理(例如“抓住瓶盖”)无论具身如何都能产生类似的潜在标记。这一对齐是关键:它防止模型学习具身特定的视觉模式,而是专注于任务相关的动态。

- 推理专家与动作解码器 – 从对齐的潜在表示中,基于Transformer的推理专家输出动作标记。这些标记被解码为机器人关节指令。模型同时在人类演示和少量机器人演示上训练,潜在对齐损失确保人类数据对机器人策略有所贡献。
OOL手套的硬件规格实现高保真捕捉:
| 规格 | 数值 |
|---|---|
| 采样率 | >200 Hz |
| 端到端延迟 | <10 ms |
| 位置精度(RMS) | 每个关键点亚毫米级 |
这对机器人领域为何重要
LaST-HD直接解决了机器人操作学习中的数据瓶颈问题。传统方法需要费力的遥操作或示教来收集机器人专用演示。通过使用可穿戴手套,单个人类可以在几分钟内生成数千个高质量的操作示例,涵盖各种任务和环境。
这为训练机器人应用于多样化的现实场景打开了大门,例如仓库分拣、装配和辅助任务。潜在对齐方法意味着同一人类数据可以训练多种机器人形态——从简单夹爪到灵巧的仿人机器人手——而无需从头重新训练。对于运营经理和工程师而言,这意味着更快的部署、更低的数据收集成本,以及跨二手协作机器人或工业机器人车队扩展机器人技能的能力。
OOL手套本身是一种实用工具,可能成为机器人学习实验室的标准组件,类似于如今使用的相机支架。
局限性与开放问题
LaST-HD依赖于定制的OOL手套硬件,目前尚未商业化。更广泛的采用取决于制造和校准成本。该框架还需要少量机器人演示数据进行微调——并非完全从人类数据零样本迁移。此外,当前评估侧重于桌面操作;扩展到移动操作或需要全身协调的任务仍有待探索。
最后,潜在对齐假设人类手部运动和机器人手臂运动共享共同的物理推理结构。对于人类解剖结构与机器人形态根本不同的任务(例如蛇形臂),对齐可能会失效。作者指出,扩展到更多样化的具身是未来的开放方向。
常见问题
LaST-HD代表什么? 它代表“人机演示的潜在空间迁移”,是一个通过在共享潜在空间中对齐人类和机器人数据来学习物理推理的框架。
使用LaST-HD需要OOL手套吗? 手套是主要数据收集工具,但潜在对齐方法原则上可以与其他高保真手部跟踪系统配合使用,前提是能达到类似的亚毫米精度。
需要多少机器人数据? LaST-HD使用混合训练方案;确切比例可调。作者展示,仅需相对人类数据的一小部分机器人演示,即可取得强结果。
LaST-HD能与现有机器人硬件配合使用吗? 可以。该框架输出的动作与任何机器人手臂或灵巧手兼容,从标准平行夹爪到仿人机器人手,通过重新定位人类轨迹实现。
结论
LaST-HD提供了一条将人类手部数据转化为丰富训练资源的实用路径,用于扩展机器人操作学习。其潜在对齐方法解决了具身不匹配问题,而OOL手套提供了精细控制所需的数据质量。对于机器人社区而言,这可能会加速向通用操作能力的进步。
你希望机器人通过这样的简单演示最想学习哪些人类技能?
