La mayoría de los modelos de acción robótica olvidan lo que ocurrió hace más de unos segundos, lo que les hace fallar en tareas que requieren recordar eventos pasados. MemoryWAM introduce un sistema de memoria persistente híbrido que permite a los modelos de acción mundial robóticos recordar contexto a largo plazo sin el coste computacional paralizante de almacenar cada fotograma pasado.
Tabla de Contenidos
- Qué Construyeron los Investigadores
- Resultados Clave
- Cómo Funciona
- Por Qué Esto Importa para la Robótica
- Limitaciones y Preguntas Abiertas
- Preguntas Frecuentes
- Conclusión
Qué Construyeron los Investigadores
MemoryWAM es una arquitectura de dos modelos para manipulación robótica a largo plazo que combina un modelo de difusión de video (Video DiT) con un modelo de difusión de acción separado (Action DiT). El avance clave es un sistema de memoria de tres niveles: una ventana deslizante de observaciones recientes, un conjunto de "fotogramas ancla" guardados periódicamente para capturar transiciones importantes, y "tokens resumen" compactos que comprimen toda la historia en una huella de memoria pequeña.
A diferencia de modelos de acción mundial (WAM) anteriores que carecen de memoria por completo o retienen toda la historia (lo que se vuelve prohibitivamente caro con el tiempo), MemoryWAM mantiene un presupuesto de memoria de tamaño fijo. Durante la inferencia, el Video DiT procesa solo la observación actual y actualiza la caché clave-valor (KV) con contexto histórico comprimido. Luego, el Action DiT elimina el ruido de los tokens de acción mientras atiende a esta representación almacenada en caché, lo que permite el razonamiento a largo plazo sin reprocesar fotogramas pasados.
Los investigadores probaron MemoryWAM tanto en entornos simulados como en un robot real de dos brazos (brazos ARX con pinzas paralelas, usando una cámara RealSense D455). Las tareas del mundo real incluyeron un "Juego de Tres Vasos" donde el robot debe seguir un vaso mientras se intercambia entre posiciones, y una secuencia larga de recoger y colocar que requiere memoria de ubicaciones de objetos.

Resultados Clave
MemoryWAM superó a todas las líneas base en tareas de manipulación que requieren memoria, logrando una latencia y un uso de memoria GPU drásticamente menores.
- Experimentos en simulación: Las políticas que usaban solo una ventana de observación corta (sin memoria) fallaron en tareas que requerían recordar eventos de hace más de unos pasos de tiempo. MemoryWAM resolvió estas tareas de forma fiable.
- Juego de Tres Vasos real: El robot tenía que seguir un vaso mientras se intercambiaba a intervalos irregulares. La línea base "LingBot-VA" (que usa historia completa) tenía una latencia de inferencia tan alta que físicamente perdía los intercambios durante la ejecución, causando fallos en la tarea. MemoryWAM tuvo éxito con una latencia sustancialmente menor.
- Coste de memoria GPU: MemoryWAM usó significativamente menos memoria GPU que la línea base LingBot-VA de historia completa, porque nunca almacena cada fotograma pasado.
- Latencia de inferencia: Los números concretos del artículo muestran que la alta latencia de LingBot-VA fue un modo de fallo crítico. El enfoque híbrido de MemoryWAM mantuvo la latencia lo suficientemente baja para el control en tiempo real.
La tendencia constante tanto en pruebas simuladas como reales: la memoria es esencial para tareas no markovianas, pero almacenar la historia completa es ineficiente. La memoria persistente comprimida de MemoryWAM ofrece lo mejor de ambos mundos.
Cómo Funciona
MemoryWAM separa la comprensión del mundo (dinámica) de la generación de acciones. El Video DiT extrae características de cada nueva observación y actualiza una caché KV persistente. Esta caché almacena tres tipos de memoria:
- Ventana deslizante: Los 4–8 fotogramas más recientes para continuidad temporal a corto plazo.
- Fotogramas ancla: Fotogramas seleccionados en momentos clave (por ejemplo, cuando una mano agarra un objeto) que se conservan indefinidamente a baja resolución.
- Tokens resumen: Una representación comprimida aprendida de todo lo demás, producida al pasar las características intermedias del Video DiT a través de un pequeño transformer que genera un número fijo de tokens (por ejemplo, 8 o 16).

Durante la inferencia, el Action DiT predice un bloque de acciones futuras eliminando el ruido de tokens de acción aleatorios. Atiende a las representaciones de video almacenadas en caché mediante atención cruzada, por lo que puede "ver" tanto el contexto actual como el pasado. La innovación clave es que el Video DiT solo procesa el fotograma actual para actualizar la memoria—nunca recodifica fotogramas pasados.
El sistema procesa una sola observación nueva, actualiza la caché en una pasada hacia adelante, y luego muestrea acciones. Esto es fundamentalmente diferente de los enfoques que apilan todas las observaciones pasadas y ejecutan toda la pila a través de un modelo de visión en cada paso.
Aspectos destacados del benchmark (resumen cualitativo):
| Tarea | Línea base sin memoria | Línea base con historia completa | MemoryWAM |
|---|---|---|---|
| Juego de Tres Vasos (real) | Falló (sin recuerdo del vaso) | Falló (latencia demasiado alta) | Éxito |
| Recoger y colocar largo (sim) | Falló después de ~20 pasos | Funcionó pero con alta latencia | Éxito + baja latencia |
| Huella de memoria GPU | Baja (pero falla) | Alta (crece linealmente) | Baja y constante |
No se proporcionó una tabla numérica exacta en el texto del artículo, pero el patrón es claro: MemoryWAM resuelve tareas que dependen de la memoria con un coste computacional práctico.
Por Qué Esto Importa para la Robótica
Muchas tareas robóticas del mundo real—como ensamblaje, cocina o clasificación en almacenes—requieren recordar lo que ocurrió hace minutos. Los modelos actuales de visión-lenguaje-acción (VLA) a menudo asumen que el entorno es markoviano (es decir, solo importa la última imagen), lo que falla cuando los objetos desaparecen detrás de obstáculos, las herramientas se usan y se dejan, o las secuencias tienen dependencias separadas en el tiempo.
El enfoque de MemoryWAM es especialmente relevante para robots humanoides y robots de almacén que operan en entornos complejos y dinámicos. Un humanoide que puede recordar dónde dejó una herramienta hace diez minutos no necesita escanear el entorno constantemente. Un robot de almacén que puede rastrear transferencias de inventario a través de múltiples estaciones se beneficia de la memoria persistente sin explotar los costes computacionales.
La velocidad de inferencia práctica significa que MemoryWAM puede ejecutarse en GPUs actuales en tiempo real, lo que lo hace desplegable en robots industriales usados equipados con controladores modernos. Para empresas que ejecutan cobots usados en tareas de ensamblaje con secuencias largas, esta arquitectura eficiente en memoria podría permitir la automatización de tareas que antes requerían supervisión humana.
Limitaciones y Preguntas Abiertas
MemoryWAM hereda las limitaciones fundamentales de los modelos de difusión de video: tienen dificultades con el razonamiento semántico de alto nivel y la planificación abstracta de tareas. El artículo sugiere que el trabajo futuro podría combinar el sistema de memoria de MemoryWAM con un modelo de razonamiento "Sistema 2" (como grandes modelos de lenguaje) para manejar tareas que requieren lógica, matemáticas o comprensión del lenguaje natural.
Otra pregunta abierta es la escalabilidad: ¿qué tan bien funciona la compresión de tokens resumen para tareas que duran horas o días? Los experimentos cubrieron tareas de minutos. La política de selección de fotogramas ancla (cuándo guardar un ancla) está codificada; aprender esta selección en línea podría mejorar la generalización.
Finalmente, MemoryWAM se probó solo en una plataforma de dos brazos con pinzas paralelas. Desplegarlo en diferentes morfologías robóticas o con manos diestras puede requerir reajustar la configuración de memoria.
Preguntas Frecuentes
¿Qué hace diferente a MemoryWAM de los modelos de acción mundial anteriores? Los modelos anteriores no tenían memoria (fallaban en tareas a largo plazo) o almacenaban cada fotograma pasado (volviéndose lentos y pesados). MemoryWAM utiliza un enfoque híbrido con memoria de tamaño fijo que comprime la historia en fotogramas ancla y tokens resumen.
¿Requiere MemoryWAM hardware especial? No—se ejecutó en GPUs estándar en los experimentos. El diseño de memoria es solo software y compatible con cualquier robot que use imágenes de cámara y salidas de acciones a nivel de articulación.
¿Para qué tareas es más adecuado MemoryWAM? Tareas donde el robot debe recordar eventos que ocurrieron hace más de unos segundos, como seguimiento de objetos (Juego de Tres Vasos), ensamblaje de múltiples pasos con elementos ocultos, o secuencias largas de recoger y colocar.
¿Puede combinarse MemoryWAM con un modelo de lenguaje para seguir instrucciones? El artículo lo menciona como trabajo futuro. El modelo actual acepta una descripción de tarea como condicionamiento, pero no integra un bucle de razonamiento de lenguaje separado.
Conclusión
MemoryWAM resuelve un cuello de botella crítico en la manipulación robótica a largo plazo: cómo recordar el pasado sin pagar el precio computacional completo. Al combinar una ventana deslizante, fotogramas ancla y tokens resumen comprimidos, logra un rendimiento superior en tareas que dependen de la memoria con velocidades de inferencia en tiempo real. Esto acerca los modelos de acción mundial un paso más al despliegue práctico en fábricas y hogares.
