教授机器人新操作技能成本高昂。为每个新任务收集人类演示并微调策略需要大量人力。视觉-语言-动作(VLA)模型在通用操作方面取得了进展,但其能力仍受限于训练数据中的技能。这个过程类似于人类遇到新场景:我们了解自己已掌握的技能,从而识别当前技能是否不足。然后推理出哪些新能力能填补空白,并通过有针对性的练习来学习。习得的技能可以存储为可复用的能力,用于未来任务,从而实现持续、终身学习。
我们提出InSight,一种通过可操控VLA实现开放世界技能获取的框架。我们展示了如何使VLA在可组合操作基元层面具备可操控性,并在新任务需要缺失基元时自主扩展。
从演示中分割基元
一个自动基元分割流水线将遥操作演示分解为带标签的基元,无需人工标注,实现基元级别的VLA可操控性。演示离线分三个阶段分割。首先,VLM将任务指令分解为有序基元序列。其次,逐帧处理子采样视频,将每帧分配给一个计划基元,通过每帧末端执行器运动描述(报告主要平移/旋转轴)与图像交叉验证,然后返回连续基元之间的边界帧。第三,通过局部传递精化每个边界,协调末端执行器变化点与最早视觉清晰帧。结果是得到一组连续、带基元标签的片段,每个片段成为一个训练片段。

具有可操控基元的VLA
我们将技能定义为由语言指令描述的目标能力(例如,“拧开瓶盖并将内容物倒入碗中”)。计划是VLM规划器为完成技能生成的基元序列。

VLM引导的技能获取
给定一个在基础基元集上训练的可操控VLA,InSight在面对需要缺失基元的新任务时自主扩展技能集。首先,VLM将任务分解为基元序列,并与已知基元词汇表比较。不在词汇表中的基元被标记为基元差距。规划器被约束为每个基元差距返回一个单轴运动。因此,需要多个不同运动(例如,先向前倾斜再向后倾斜)的任务会产生多个基元差距,而不是一个复合基元。
一个VLM引导的基元获取循环识别新任务的缺失基元,用VLM推导的参数执行它们,并在自主生成的演示上重新训练VLA,以完成新技能。
仿真结果:从拾放演示中学习翻转积木
我们在仿真和真实操作任务中评估InSight。在仿真中,我们在LIBERO环境中使用7自由度Franka Panda,研究从拾放演示中翻转积木。机器人被要求翻转一个乐高积木,使插销朝上,仅给定人类拾放演示(积木侧放)。我们收集了150个人类遥操作拾放演示,自动分割出七个基元类型共超过700个基元片段。翻转积木任务需要一个不在拾放演示中的旋转基元,VLM将其识别为基元差距。
多任务硬件验证
在硬件上,我们使用6自由度UFactory xArm评估拧瓶盖和倒水任务,与Code-as-Policies风格的零样本基线比较,然后将单独获取的拧和倒基元与基础拾放技能组合成一个长时程的拧-倒任务。我们衡量统一策略在添加新基元后是否保留原有的拾放技能。最后,我们评估InSight是否扩展到接触丰富、非抓取的运动,通过从舀取演示中获取扫基元。

关键结果
我们在仿真和硬件上通过五个任务验证InSight,包括翻转积木、关抽屉、扫、拧和倒。该框架实现了零目标技能人类演示的自主技能获取,在倒水等任务上成功率高达96%,在复杂的14基元长时程任务上成功率为80%,同时完全保留原始基础技能的性能。
结论、局限与未来工作
我们提出了InSight,一种通过VLM引导的基元差距发现与执行实现VLA自主技能获取的方法。通过训练自主分割的基元、利用VLM推理识别基元差距、以及通过VLM引导的低级控制生成训练数据,InSight使机器人能够在无需额外人类演示的情况下获取新技能。
常见问题
InSight如何识别新任务中缺失的基元? VLM将任务分解为基元序列,并将每个基元与已知词汇表比较。不在词汇表中的基元被标记为需要获取的基元差距。
InSight是否需要为新技能提供任何人类演示? 不需要。InSight实现了零目标技能人类演示的零样本技能获取,所有训练数据通过VLM引导的低级控制自主生成。
InSight能否在不遗忘先前习得技能的情况下添加新基元? 能。实验表明,在添加新基元并训练后,统一策略完全保留原始基础技能的性能。
InSight在复杂长时程任务中能处理多少种基元类型? InSight在复杂的14基元长时程任务上实现了80%的成功率,展现了扩展到长操作序列的能力。
