随我而动：将日常人类视频转化为灵巧机器人数据 (2026)

随我而动是一个两步算法，从单目RGB视频中重建手-物交互并将其重定位到多指灵巧机器人手上。

我们的手-物重建过程在相关指标上优于现有技术，并能处理多样化的视频——无论是第一人称视角还是第三人称视角，从野外网络视频到生成式视频模型的输出。

我们的重定位过程通过引入新颖的组件来鲁棒化噪声重建参考轨迹，改进了现有的可扩展动力学感知重定位技术。

最终得到的机器人数据可在灵巧机器人手和臂上运行，完成了从网络视频到真实灵巧手部署的首个完整流水线。

重建方法

重建过程以单目RGB视频为输入，输出完整的手-物轨迹。它适用于各种相机视角和视频质量，从专业录制到日常手机拍摄。

重定位方法

重定位步骤旨在在机器人手上复现重建的手-物轨迹。然而，人手和机器人的形态不同，且接触信息和力信号在运动学数据中缺失。先前的工作通过运动学求解器或机器人启发式方法解决，但无法保证物理合理性或失去通用表达性。

随我而动执行动力学感知重定位，在遵循参考轨迹的同时确保物理仿真中的真实性。该方法基于MPPI框架，采用采样优化，使用在迭代和预测时域上退火的核，从广泛探索过渡到局部细化。

实验设置

所有任务均使用22自由度Sharpa Wave手。真实世界部署结果在双臂设置上展示，使用Sharpa Wave手和UR3e臂，均以50 Hz频率控制。

重定位结果

在重建的野外数据上，随我而动达到71%的成功率，显著优于基线方法（25%）。主要差异在于预热阶段，它发现比初始噪声帧更稳定和自然的初始状态，从而在后续时间步成功跟踪。扰动虽然在定量指标上影响不大，但显著改善了定性结果（例如自然抓取）。转移奖励鼓励在关键转移时间步成功抓取和放置，否则轨迹可能错过物体。

在OakInk2上的验证显示，每个组件都带来一致改进，从基线的72%提升至81%。这表明我们的重定位方法虽然专为不完美的重建参考设计，但即使在干净的动捕轨迹上也能产生有效增益，并在该基准的1000多个双臂任务中具有良好的可扩展性。

结论

随我而动提供了一个框架，用于将日常人类视频重建并重定位到灵巧机器人手上。该方法在第一人称、第三人称和在线视频源上均有效，展示了通过观察人类来扩展机器人数据的路径。

局限性。 该方法假设物体为刚性，且需要单目RGB的半准确度度深度估计；当假设不成立时可能失败。单目观察还存在手-物真实距离的歧义，难以区分物理接触与视觉遮挡。该方法仅重建手和一个物体，而非完整场景，因此无法推理环境约束（如障碍或关节）。最后，当前物理模拟器仅近似真实世界动力学，这限制了实际性能的上限。

常见问题

随我而动支持哪些视频类型？ 该方法处理第一人称、第三人称和野外网络视频，以及生成式视频模型的输出。

重定位如何处理人手与机器人手的差异？ 它使用基于MPPI采样的动力学感知重定位，配合预热、扰动和转移奖励等新颖组件，以处理噪声重建参考。

真实世界验证使用了什么硬件？ 所有实验使用22自由度Sharpa Wave手和UR3e臂，在50 Hz频率下的双臂设置中进行。

当前方法的主要局限性是什么？ 该方法假设物体为刚性，需要单目RGB的半准确度深度，且无法重建完整场景或推理环境约束。