大多数机器人动作模型会忘记几秒前发生的事情,导致它们在需要回忆过去事件的任务中失败。MemoryWAM引入了一种混合持久记忆系统,让机器人世界动作模型能够回忆长期上下文,而无需承受存储每一帧历史数据的巨大计算成本。
目录
研究人员构建了什么
MemoryWAM是一种用于长时程机器人操作的双模型架构,结合了视频扩散模型(Video DiT)和单独的动作扩散模型(Action DiT)。其突破在于三层记忆系统:一个由最近观测组成的滑动窗口、一组定期保存以捕获重要过渡的“锚定帧”,以及将整个历史压缩成小内存占用的紧凑“要点令牌”。
与早期要么完全没有记忆、要么保留完整历史(随时间推移成本高得令人望而却步)的世界动作模型(WAM)不同,MemoryWAM维持一个固定大小的记忆预算。在推理过程中,Video DiT只处理当前观测,并用压缩的历史上下文更新键值缓存。然后,Action DiT在关注该缓存表示的同时对动作令牌进行去噪,从而实现长时程推理而无需重新处理过去帧。
研究人员在模拟环境和真实世界的双臂机器人(ARX臂,平行夹爪,使用RealSense D455相机)上测试了MemoryWAM。真实世界任务包括一个“壳牌游戏”,机器人必须跟踪一个在位置间交换的杯子,以及一个需要记忆物体位置的长时程抓取放置序列。

关键结果
MemoryWAM在依赖记忆的操作任务上优于所有基线,同时显著降低了延迟和GPU内存使用。
- 模拟实验: 仅使用短期观测窗口(无记忆)的策略在需要回忆几个时间步之外事件的任务上失败。MemoryWAM可靠地解决了这些任务。
- 真实世界壳牌游戏: 机器人必须跟踪一个以不规则间隔交换的杯子。使用完整历史的“LingBot-VA”基线推理延迟很高——高到在执行过程中物理上错过了杯子交换,导致任务失败。MemoryWAM以显著更低的延迟成功完成。
- GPU内存成本: MemoryWAM使用的GPU内存远低于完整历史的LingBot-VA基线,因为它从不存储每一帧历史数据。
- 推理延迟: 论文中的具体数字显示,LingBot-VA的高延迟是一个关键的失败模式。MemoryWAM的混合方法将延迟保持在足够低的水平,适合实时控制。
在模拟和真实世界测试中一致的趋势是:对于非马尔可夫任务,记忆至关重要,但存储完整历史效率低下。MemoryWAM的压缩持久记忆提供了两全其美的方案。
工作原理
MemoryWAM将机器人对世界(动力学)的理解与动作生成分离。Video DiT从每个新观测中提取特征,并更新一个持久键值缓存。该缓存存储三种类型的记忆:
- 滑动窗口: 最近的4-8帧,用于短期时间连续性。
- 锚定帧: 在关键时刻(如手抓取物体时)选择的帧,以低分辨率无限期保存。
- 要点令牌: 其他所有内容的学到的压缩表示,通过将Video DiT的中间特征传递给一个小型变换器,输出固定数量的令牌(例如8或16个)。

在推理过程中,Action DiT通过对随机动作令牌进行去噪来预测一批未来动作。它通过交叉注意力关注缓存的视频表示,因此可以“看到”当前和过去的上下文。关键创新在于,Video DiT只处理当前帧来更新记忆——它从不重新编码过去的帧。
该系统处理单个新观测,在一次前向传播中更新缓存,然后采样动作。这与将所有过去观测堆叠起来并每一步将整个堆栈通过视觉模型处理的方法根本不同。
基准测试亮点(定性总结):
| 任务 | 无记忆基线 | 全历史基线 | MemoryWAM |
|---|---|---|---|
| 壳牌游戏(真实) | 失败(无法回忆杯子) | 失败(延迟过高) | 成功 |
| 长时程抓取放置(模拟) | 约20步后失败 | 有效但延迟高 | 成功+低延迟 |
| GPU内存占用 | 低(但失败) | 高(线性增长) | 低且恒定 |
论文文本中未提供精确数值表,但模式清晰:MemoryWAM以实际计算量解决了依赖记忆的任务。
对机器人技术的重要性
许多真实世界的机器人任务——如装配、烹饪或仓库分拣——需要记住几分钟前发生的事情。当前最先进的视觉-语言-动作模型(VLA)通常假设环境是马尔可夫的(即只有最新图像重要),当物体消失在障碍物后面、工具被使用并放下、或序列中有时间上分离的依赖关系时,这一假设就会失效。
MemoryWAM的方法对于在复杂动态环境中运行的人形机器人和仓库机器人尤其相关。能够记住十分钟前放置工具位置的人形机器人不需要不断重新扫描环境。能够跟踪多个站点间库存交接的仓库机器人受益于持久记忆而无需爆炸式计算成本。
实际的推理速度意味着MemoryWAM可以在当前一代GPU上实时运行,使其可部署在二手工业机器人上(升级现代控制器)。对于运行二手协作机器人执行长序列装配任务的公司,这种内存高效架构可以自动化以前需要人工监督的任务。
局限性与开放问题
MemoryWAM继承了视频扩散模型的基本局限性:它们在高层次语义推理和抽象任务规划方面存在困难。论文建议,未来的工作可以将MemoryWAM的记忆系统与“系统2”推理模型(如大型语言模型)结合,以处理需要逻辑、数学或自然语言理解的任务。
另一个开放问题是可扩展性:要点令牌压缩对于持续数小时或数天的任务效果如何?实验涵盖了分钟级任务。锚定帧选择策略(何时保存锚点)是硬编码的;在线学习这种选择可以提高泛化能力。
最后,MemoryWAM仅在一个带有平行夹爪的双臂平台上进行了测试。部署在不同的机器人形态或灵巧手上可能需要重新调整记忆配置。
常见问题解答
MemoryWAM与早期世界动作模型有何不同? 早期模型要么没有记忆(在长时程任务上失败),要么存储每一帧历史数据(变得缓慢且内存占用大)。MemoryWAM使用混合方法,通过锚定帧和要点令牌压缩历史,保持固定大小的记忆。
MemoryWAM需要特殊硬件吗? 不需要——在实验中它运行在标准GPU上。记忆设计是纯软件的,兼容任何使用相机图像和关节级动作输出的机器人。
MemoryWAM最适合哪些任务? 机器人需要记住几秒前发生事件的任务,如物体跟踪(壳牌游戏)、涉及遮挡物体的多步装配或长时程抓取放置序列。
MemoryWAM可以结合语言模型进行指令跟随吗? 论文提到这是未来工作。当前模型接受任务描述作为条件,但未集成单独的语言推理循环。
结论
MemoryWAM解决了长时程机器人操作中的一个关键瓶颈:如何在不付出全部计算代价的情况下记住过去。通过结合滑动窗口、锚定帧和压缩要点令牌,它在依赖记忆的任务上取得了优越性能,同时实现了实时推理速度。这使世界动作模型向在工厂和家庭中实际部署迈进了一步。
一个机器人到底需要多长的记忆才能处理大多数真实世界的操作任务?
