MemoryWAM: 지속적 메모리로 로봇 행동 모델을 더 빠르고 똑똑하게 (2026)

대부분의 로봇 행동 모델은 몇 초 전의 일조차 잊어버려, 과거 사건을 기억해야 하는 작업에서 실패합니다. MemoryWAM은 하이브리드 지속적 메모리 시스템을 도입하여, 모든 과거 프레임을 저장하는 데 드는 막대한 계산 비용 없이 로봇 월드 액션 모델이 장기적 맥락을 기억할 수 있게 합니다.

연구진이 만든 것

MemoryWAM은 장기간 로봇 조작을 위한 이중 모델 아키텍처로, 비디오 확산 모델(Video DiT)과 별도의 행동 확산 모델(Action DiT)을 결합합니다. 혁신은 세 계층의 메모리 시스템에 있습니다: 최근 관측값을 담는 슬라이딩 윈도우, 중요한 전환점을 포착하기 위해 주기적으로 저장되는 '앵커 프레임', 그리고 전체 이력을 압축하여 작은 메모리 공간에 저장하는 '요약 토큰'입니다.

메모리가 전혀 없거나 전체 이력을 유지하는(시간이 지날수록 비용이 엄청나게 커지는) 초기 월드 액션 모델과 달리, MemoryWAM은 고정된 크기의 메모리 예산을 유지합니다. 추론 중에 Video DiT는 현재 관측값만 처리하고 압축된 과거 맥락으로 키-값(KV) 캐시를 업데이트합니다. 그런 다음 Action DiT는 캐시된 표현에 어텐션하면서 행동 토큰의 노이즈를 제거하여, 과거 프레임을 다시 처리하지 않고도 장기적 추론을 가능하게 합니다.

연구진은 MemoryWAM을 시뮬레이션 환경과 실제 세계의 이중 암 로봇(RealSense D455 카메라를 사용한 ARX 암과 평행 그리퍼)에서 테스트했습니다. 실제 작업에는 로봇이 컵의 위치 바뀜을 추적해야 하는 'Shell Game'과 물체 위치를 기억해야 하는 장기간 집어 옮기기(pick-and-place) 작업이 포함되었습니다.

MemoryWAM 하이브리드 메모리 시스템: 슬라이딩 윈도우, 앵커 프레임, 요약 토큰

주요 결과

MemoryWAM은 메모리 의존적 조작 작업에서 모든 기준 모델을 능가했으며, 대기 시간과 GPU 메모리 사용량을 획기적으로 줄였습니다.

시뮬레이션 실험: 짧은 관측 윈도우만 사용하는 정책(메모리 없음)은 몇 타임스텝 전의 사건을 기억해야 하는 작업에서 실패했습니다. MemoryWAM은 이러한 작업을 안정적으로 해결했습니다.
실제 Shell Game: 로봇은 불규칙한 간격으로 위치가 바뀌는 컵을 추적해야 했습니다. 전체 이력을 사용하는 'LingBot-VA' 기준 모델은 추론 대기 시간이 너무 높아 실제로 컵 교체를 놓쳐 작업에 실패했습니다. MemoryWAM은 대기 시간을 대폭 낮추며 성공했습니다.
GPU 메모리 비용: MemoryWAM은 전체 이력을 저장하는 LingBot-VA 기준 모델보다 GPU 메모리를 훨씬 적게 사용했습니다.
추론 대기 시간: 논문에 제시된 구체적 수치에 따르면, LingBot-VA의 높은 대기 시간은 치명적인 실패 요인이었습니다. MemoryWAM의 하이브리드 접근법은 실시간 제어에 충분히 낮은 대기 시간을 유지했습니다.

시뮬레이션과 실제 실험 모두에서 일관된 경향은 다음과 같습니다: 비마르코프 작업에는 메모리가 필수적이지만, 전체 이력을 저장하는 것은 비효율적입니다. MemoryWAM의 압축된 지속적 메모리가 두 마리 토끼를 모두 잡습니다.

작동 원리

MemoryWAM은 로봇의 세계 이해(역학)와 행동 생성을 분리합니다. Video DiT는 각 새 관측값에서 특징을 추출하고 지속적 KV 캐시를 업데이트합니다. 이 캐시는 세 가지 유형의 메모리를 저장합니다:

슬라이딩 윈도우: 단기 시간 연속성을 위한 최근 4-8개 프레임.
앵커 프레임: 중요한 순간(예: 손이 물체를 잡을 때)에 선택된 프레임으로, 낮은 해상도로 무기한 보존됩니다.
요약 토큰: 그 외의 모든 정보를 학습된 압축 표현으로 변환한 것. Video DiT의 중간 특징을 작은 트랜스포머에 통과시켜 고정된 수의 토큰(예: 8개 또는 16개)을 출력합니다.

MemoryWAM 실험용 ARX 암과 Realsense 카메라를 갖춘 실제 세계 이중 암 로봇 설정

추론 중에 Action DiT는 무작위 행동 토큰의 노이즈를 제거하여 미래 행동 청크를 예측합니다. 교차 어텐션을 통해 캐시된 비디오 표현에 어텐션하여 현재와 과거 맥락을 모두 '볼' 수 있습니다. 핵심 혁신은 Video DiT가 메모리 업데이트를 위해 현재 프레임만 처리한다는 점입니다. 과거 프레임을 다시 인코딩하지 않습니다.

시스템은 하나의 새로운 관측값을 처리하고, 한 번의 순방향 패스로 캐시를 업데이트한 다음, 행동을 샘플링합니다. 이는 모든 과거 관측값을 쌓아 각 단계에서 전체 스택을 비전 모델에 통과시키는 접근법과 근본적으로 다릅니다.

벤치마크 하이라이트 (정성적 요약):

작업	메모리 없는 기준 모델	전체 이력 기준 모델	MemoryWAM
Shell Game (실제)	실패 (컵 기억 불가)	실패 (대기 시간 과다)	성공
장기간 집어 옮기기 (시뮬)	약 20단계 후 실패	작동하나 대기 시간 높음	성공 + 낮은 대기 시간
GPU 메모리 사용량	낮음 (but 실패)	높음 (선형 증가)	낮고 일정

논문 본문에 정확한 수치 표는 없지만, 패턴은 명확합니다: MemoryWAM은 실용적인 계산 비용으로 메모리 의존적 작업을 해결합니다.

로봇 공학에서의 의의

조립, 요리, 창고 분류와 같은 많은 실제 로봇 작업은 몇 분 전의 일을 기억해야 합니다. 현재 최첨단 시각-언어-행동 모델(VLA)은 종종 환경이 마르코프적(즉, 최신 이미지만 중요함)이라고 가정하는데, 이는 물체가 장애물 뒤로 사라지거나, 공구를 사용했다 내려놓거나, 시간적으로 분리된 의존성이 있는 작업에서 실패합니다.

MemoryWAM의 접근법은 복잡하고 동적인 환경에서 작동하는 휴머노이드 로봇과 창고 로봇에 특히 적합합니다. 10분 전에 공구를 어디에 두었는지 기억하는 휴머노이드는 지속적으로 환경을 재스캔할 필요가 없습니다. 여러 스테이션에서 재고 인계를 추적하는 창고 로봇은 계산 비용 폭발 없이 지속적 메모리의 이점을 얻습니다.

실용적인 추론 속도 덕분에 MemoryWAM은 현재 세대 GPU에서 실시간으로 실행될 수 있으며, 현대 컨트롤러로 개조된 중고 산업용 로봇에도 배포 가능합니다. 긴 작업 열을 가진 조립 작업을 위해 중고 협동 로봇을 운영하는 기업은 이 메모리 효율적 아키텍처를 통해 이전에 인간의 감독이 필요했던 작업을 자동화할 수 있습니다.

한계와 미해결 과제

MemoryWAM은 비디오 확산 모델의 근본적인 한계를 그대로 가지고 있습니다: 고수준 의미 추론과 추상적 작업 계획에 어려움을 겪습니다. 논문은 향후 연구에서 MemoryWAM의 메모리 시스템을 '시스템 2' 추론 모델(예: 대규모 언어 모델)과 결합하여 논리, 수학, 자연어 이해가 필요한 작업을 처리할 수 있다고 제안합니다.

또 다른 미해결 과제는 확장성입니다. 요약 토큰 압축이 몇 시간 또는 며칠 동안 지속되는 작업에서 얼마나 잘 작동할까요? 실험은 몇 분 길이의 작업을 다루었습니다. 앵커 프레임 선택 정책(앵커를 저장할 시점)은 하드코딩되어 있으며, 이 선택을 온라인으로 학습하면 일반화가 개선될 수 있습니다.

마지막으로, MemoryWAM은 평행 그리퍼를 장착한 단일 이중 암 플랫폼에서만 테스트되었습니다. 다른 로봇 형태나 손재주가 좋은 손에 배포하려면 메모리 구성의 재조정이 필요할 수 있습니다.

자주 묻는 질문

MemoryWAM이 초기 월드 액션 모델과 다른 점은 무엇인가요? 초기 모델은 메모리가 없어 장기 작업에 실패하거나, 모든 과거 프레임을 저장하여 느리고 메모리 집약적이었습니다. MemoryWAM은 고정 크기 메모리로 과거를 앵커 프레임과 요약 토큰으로 압축하는 하이브리드 접근법을 사용합니다.

MemoryWAM에 특별한 하드웨어가 필요한가요? 아니요. 실험에서 표준 GPU에서 실행되었습니다. 메모리 설계는 소프트웨어 전용이며, 카메라 이미지와 관절 수준의 행동 출력을 사용하는 모든 로봇과 호환됩니다.

MemoryWAM은 어떤 작업에 가장 적합한가요? 로봇이 몇 초 전의 사건을 기억해야 하는 작업, 예를 들어 물체 추적(Shell Game), 물체가 가려진 다단계 조립, 또는 긴 집어 옮기기 작업에 적합합니다.

MemoryWAM을 지시 따르기를 위한 언어 모델과 결합할 수 있나요? 논문에서는 향후 연구로 언급합니다. 현재 모델은 작업 설명을 조건으로 받지만, 별도의 언어 추론 루프를 통합하지는 않습니다.

결론

MemoryWAM은 장기간 로봇 조작의 중요한 병목 현상인 '과거를 기억하되 전체 계산 비용을 지불하지 않는 방법'을 해결합니다. 슬라이딩 윈도우, 앵커 프레임, 압축된 요약 토큰을 결합하여 메모리 의존적 작업에서 실시간 추론 속도로 뛰어난 성능을 달성합니다. 이는 월드 액션 모델을 공장과 가정에서 실용적으로 배포하는 데 한 걸음 더 가까이 다가서게 합니다.