随我而动是一个两步算法,从单目RGB视频中重建手-物交互并将其重定位到多指灵巧机器人手上。
我们的手-物重建过程在相关指标上优于现有技术,并能处理多样化的视频——无论是第一人称视角还是第三人称视角,从野外网络视频到生成式视频模型的输出。
我们的重定位过程通过引入新颖的组件来鲁棒化噪声重建参考轨迹,改进了现有的可扩展动力学感知重定位技术。
最终得到的机器人数据可在灵巧机器人手和臂上运行,完成了从网络视频到真实灵巧手部署的首个完整流水线。
重建方法
重建过程以单目RGB视频为输入,输出完整的手-物轨迹。它适用于各种相机视角和视频质量,从专业录制到日常手机拍摄。

重定位方法
重定位步骤旨在在机器人手上复现重建的手-物轨迹。然而,人手和机器人的形态不同,且接触信息和力信号在运动学数据中缺失。先前的工作通过运动学求解器或机器人启发式方法解决,但无法保证物理合理性或失去通用表达性。
随我而动执行动力学感知重定位,在遵循参考轨迹的同时确保物理仿真中的真实性。该方法基于MPPI框架,采用采样优化,使用在迭代和预测时域上退火的核,从广泛探索过渡到局部细化。
实验设置
所有任务均使用22自由度Sharpa Wave手。真实世界部署结果在双臂设置上展示,使用Sharpa Wave手和UR3e臂,均以50 Hz频率控制。
重定位结果
在重建的野外数据上,随我而动达到71%的成功率,显著优于基线方法(25%)。主要差异在于预热阶段,它发现比初始噪声帧更稳定和自然的初始状态,从而在后续时间步成功跟踪。扰动虽然在定量指标上影响不大,但显著改善了定性结果(例如自然抓取)。转移奖励鼓励在关键转移时间步成功抓取和放置,否则轨迹可能错过物体。
在OakInk2上的验证显示,每个组件都带来一致改进,从基线的72%提升至81%。这表明我们的重定位方法虽然专为不完美的重建参考设计,但即使在干净的动捕轨迹上也能产生有效增益,并在该基准的1000多个双臂任务中具有良好的可扩展性。
结论
随我而动提供了一个框架,用于将日常人类视频重建并重定位到灵巧机器人手上。该方法在第一人称、第三人称和在线视频源上均有效,展示了通过观察人类来扩展机器人数据的路径。
局限性。 该方法假设物体为刚性,且需要单目RGB的半准确度度深度估计;当假设不成立时可能失败。单目观察还存在手-物真实距离的歧义,难以区分物理接触与视觉遮挡。该方法仅重建手和一个物体,而非完整场景,因此无法推理环境约束(如障碍或关节)。最后,当前物理模拟器仅近似真实世界动力学,这限制了实际性能的上限。
常见问题
随我而动支持哪些视频类型? 该方法处理第一人称、第三人称和野外网络视频,以及生成式视频模型的输出。
重定位如何处理人手与机器人手的差异? 它使用基于MPPI采样的动力学感知重定位,配合预热、扰动和转移奖励等新颖组件,以处理噪声重建参考。
真实世界验证使用了什么硬件? 所有实验使用22自由度Sharpa Wave手和UR3e臂,在50 Hz频率下的双臂设置中进行。
当前方法的主要局限性是什么? 该方法假设物体为刚性,需要单目RGB的半准确度深度,且无法重建完整场景或推理环境约束。
