机器人领域的长期目标是构建通用系统,使其能够根据高层语言指令执行长时程操作。除了识别物体,这类系统还需将指令与任务相关的3D几何信息对应起来:物体应放置在哪里、接触哪个部位、以及操作过程中如何定向和移动工具。这一要求对于灵巧手尤为严格,因为微小的3D接地误差会导致抓取不稳定、碰撞、逆运动学失败,或接触工具的错误功能区域。
推断出的3D接地与可复用的原子动作基元库相结合。工具使用行为被表示为“原子动作包”,这是一个按交互类型索引的短时6D物体轨迹库。对于新场景,系统检索相应的基元并将其对齐到接地的任务几何信息。为支持灵巧手执行,相同的多视角接地方法用于估计功能接触区域,在这些区域上生成候选抓取,并通过逆运动学和碰撞可行性筛选,以确保整个工具使用轨迹的可行性。对于长时程任务,闭环验证和重试机制允许系统在执行失败后重新接地或重新规划。
实验

该框架在真实桌面场景中进行了零样本机器人操作评估,测试其从简单任务到长时程场景的可扩展性。评估涵盖四种关键能力:(1) 在干扰物和目标中的目标接地及碰撞鲁棒性(例如,将推断出的垃圾放入篮子);(2) 空间关系推理(例如,将工具放在炉子上);(3) 可供性感知的工具使用(例如,用扫帚扫地);以及(4) 长时程序列操作(例如,烹饪和整理3-4个物体)。更多工具使用场景见补充材料。
硬件设置
系统配备xArm机械臂和Inspire灵巧手。桌面环境由多个标定过的RGB相机(包括一对立体相机)监控。使用FoundationStereo进行立体深度估计,FoundationPose进行多物体6D姿态估计。
基线方法
我们将零样本框架与RGB-D接地基线以及两个视觉-语言-动作(VLA)模型进行比较。RGB-D基线从单视角预测2D关键点,并利用对齐的深度图将其提升至3D。对于VLA模型,我们使用每个任务30次遥操作示范对预训练模型进行微调,而我们的方法完全零样本,仅依赖VLM推理进行3D接地和操作。
评价指标
成功率。 若机器人根据文本指令完成任务,则该试验视为成功。对于指定目标物体或目标位置的任务,我们检查目标物体是否被放置在期望位置。
碰撞误差。 评估预测的路径点或放置接地是否导致被操作物体与周围环境发生碰撞。该指标报告被操作物体与周围环境之间的平均最大穿透深度。
长时程成功率。 对于序列任务,仅当所有步骤按正确顺序完成时,试验才算成功。由于长时程真实机器人试验耗时较长,不同任务的试验次数可能不同。我们报告试验次数和成功率。当使用重试时,若任务在重试次数内完成,则该试验视为成功。
讨论

我们提出了一种零样本长时程操作框架,通过多视角3D接地将VLM推理与物理执行桥接起来。通过将语言指令分解为一系列3D接地的操作基元,系统通过将物体中心的原子动作与目标场景进行空间对齐,无缝支持标准的拾取-放置和复杂的工具使用任务。实验结果表明,多视角融合策略在空间精度和遮挡鲁棒性方面显著优于单视角RGB-D基线。此外,基元级公式自然支持闭环执行,使系统能够验证任务进度并在长时程任务中动态恢复中间失败。
3D接地方法比较
我们进一步分析了单视角RGB-D接地基线和多视角接地方法在杂乱真实场景中的表现。由于依赖单一观测,RGB-D基线对遮挡和不完整几何形状敏感,常导致3D目标定位错误。相比之下,多视角方法跨视角聚合语义接地线索,在杂乱环境中产生更一致的任务相关3D估计。
基于圆柱模板的抓取生成
对于工具使用任务,直接优化指尖接触点可能不够,因为成功的工具使用需要抓取在整个运动执行过程中保持稳定且动作一致。许多家用工具具有近似圆柱形的抓取可供性,如扫帚柄、瓶子和锅柄。当估计的可供性区域对应于这样的圆柱区域时,利用这一结构先验来初始化手掌姿态。
在区域中心附近采样表面顶点,并使用其向外的表面法线定义手掌姿态锚点,控制手掌参考点、期望的手掌法线和手掌到表面的偏移。为覆盖多种抓取风格,围绕接近方向采样不同的手掌方向,同时保持法线对齐。对于每个采样的手掌姿态,使用基于仿真的抓取优化进行手指闭合优化。通过沿六个轴施加外力和扭矩来评估抓取稳定性。
实现细节
所有实验中使用的超参数如下。
常见问题
系统如何处理3D接地时的遮挡? 多视角融合策略从多个标定过的RGB相机聚合语义线索,在杂乱环境中显著优于单视角RGB-D基线,具有更高的空间精度和遮挡鲁棒性。
框架可以执行哪些类型的工具使用任务? 系统支持多种任务,包括将物体放入篮子、将工具放在炉子上、用扫帚扫地,以及长时程序列如烹饪和整理多个物体。
如何为灵巧工具操作生成抓取? 系统采用基于圆柱模板的方法,利用家用工具的结构先验,然后进行基于仿真的手指闭合优化和外部力作用下的稳定性验证。
系统能否在执行失败后恢复? 是的,基元级公式支持带有验证和重试机制的闭环执行,允许系统在重试次数内从中间失败中重新接地或重新规划。
