MIT의 '벽을 보는 AI'가 창고 로봇의 가장 큰 인식 문제를 해결하다 (2026)

MIT 연구진은 특별히 훈련된 생성형 AI 모델을 이용해 숨겨진 3D 객체의 형태를 완성하는 시스템을 구축했다. Credit: Courtesy of the researchers.

창고와 스마트홈에서 작동하는 로봇에게는 근본적인 사각지대가 있다. 카메라에 가려진 모든 것은 로봇에게 존재하지 않는 것과 같다. MIT 연구진은 이 문제를 해결하기 위해 생성형 AI를 도입, 밀리미터파 무선 신호와 특별히 훈련된 AI 모델을 사용하여 카메라 없이도 숨겨진 물체와 전체 공간을 이전 방식보다 거의 20% 더 높은 정확도로 재구성하는 데 성공했다.

카메라 기반 로봇 시각의 구조적 한계
Wave-Former가 벽 너머 숨겨진 물체를 재구성하는 방법
RISE: 단일 레이더로 전체 공간 매핑
훈련 데이터 문제와 MIT의 해결책
창고 및 산업용 로봇 공학에 미치는 영향
자주 묻는 질문

카메라 기반 로봇 시각의 구조적 한계

카메라에 의존하는 로봇 인식은 물체가 시야에서 사라지는 순간 실패한다. 포장재 뒤, 잔해 아래, 모퉁이 너머 등이다. 이는 예외적인 상황이 아니다. 창고, 물류 허브, 가정 환경에서 로봇이 직접 볼 수 없는 물체를 찾고, 식별하고, 잡아야 하는 일상적인 현실이다.

기존의 대안들 — 다중 카메라, 구조광, LiDAR — 모두 동일한 제약을 공유한다. 명확한 광학 경로가 필요하다는 점이다. 골판지, 건식벽, 플라스틱, 심지어 두꺼운 직물만 있어도 로봇은 사실상 눈이 멀게 된다. 이러한 한계는 물류 작업에서 포장된 품목의 잘못 식별, 생산 라인을 중단시키는 그립 실패 등 비용이 많이 드는 오류를 초래한다.

MIT Signal Kinetics 그룹은 10년 넘게 밀리미터파(mmWave) 레이더 신호를 사용한 대안을 구축해 왔다. 이는 현대 Wi-Fi와 동일한 주파수 대역으로, 일반적인 장애물을 통과하고 숨겨진 물체에서 반사된다. 문제는 그 반사가 정밀한 조작에 사용하기에는 너무 불완전하다는 점이었다.

Wave-Former가 벽 너머 숨겨진 물체를 재구성하는 방법

Wave-Former는 MIT의 새로운 시스템으로, mmWave 레이더와 생성형 AI 모델을 결합하여 장애물 뒤에 숨겨진 물체의 전체 3D 형태를 재구성한다. 약 70개의 일상 물체(캔, 상자, 식기, 과일 등)를 대상으로 한 실험에서 이전 최고 성능 대비 거의 20% 향상된 정확도를 달성했다.

핵심 물리 문제는 정반사성(specularity)이다. mmWave 신호는 거울에 비친 빛처럼 표면에서 단일 방향으로 반사된다. 레이더 센서는 자신에게 직접 되돌아오는 반사만 포착하므로, 숨겨진 물체의 윗면은 부분적으로 보이지만 측면과 밑면은 사실상 보이지 않는다. 이전 시스템은 이러한 불완전한 포인트 클라우드를 물리 기반 규칙만으로 해석하려 했지만 근본적인 한계가 있었다.

Wave-Former의 파이프라인은 세 단계로 작동한다. 첫째, raw mmWave 반사로부터 숨겨진 물체의 부분 재구성을 구축한다. 둘째, 이 부분 형상을 그럴듯한 완성을 예측하도록 훈련된 생성형 AI 모델에 입력한다. 셋째, 표면을 반복적으로 정제하여 완전한 3D 재구성에 수렴할 때까지 진행한다. 그 결과, 로봇은 숨겨진 물체를 감지할 뿐만 아니라 신뢰할 수 있는 그립을 계획할 수 있을 정도로 기하학 구조를 이해할 수 있다.

Robohub의 연구 보도에 따르면, 이 시스템은 골판지, 목재, 건식벽, 플라스틱, 직물 뒤에 숨겨진 물체를 대상으로 검증되었다. 이는 실제 창고 및 물류 환경에 존재하는 정확한 재질이다.

RISE: 단일 레이더로 전체 공간 매핑

MIT의 두 번째 시스템 RISE(Radar-based Indoor Scene Understanding)는 단일 고정 mmWave 레이더의 반사를 사용하여 가구 배치를 포함한 전체 실내 공간을 재구성한다. 기존 기술보다 약 2배 높은 공간 정밀도를 제공하며 이동식 센서 플랫폼이 필요하지 않다.

현재 대부분의 무선 장면 재구성 접근법은 레이더를 이동 로봇에 장착해 환경을 스캔해야 한다는 중대한 운용 제약이 있다. RISE는 다른 접근법을 취한다. 방 안을 자연스럽게 움직이는 사람에 의해 생성된 다중 경로 반사(multipath reflections)를 활용하는 것이다.

사람이 움직이면 mmWave 신호가 그 사람에게 반사된 후 다시 벽과 가구에 부딪혀 레이더로 돌아온다. 이러한 2차 반사는 일반적으로 '유령 신호'라는 이름으로 잡음으로 간주되어 폐기되지만, 실제로는 방 구조에 대한 공간 정보를 담고 있다. 사람이 움직임에 따라 유령 신호가 이동하고, 그 변화하는 위치는 주변 표면의 기하학적 구조를 드러낸다.

RISE 시스템은 방 안에서 움직이는 사람의 무선 신호 반사를 활용하여 전체 실내 공간을 재구성한다 연구진은 또한 방 안에서 움직이는 사람의 무선 신호 반사를 활용하여 전체 실내 공간을 완전히 재구성하는 확장 시스템을 구축했다. Credit: Courtesy of the researchers.

RISE는 단일 고정 레이더로 포착된 100개 이상의 인간 궤적에서 검증되었다. 개인정보 보호 측면에서도 주목할 만하다. 카메라 시스템과 달리 mmWave 레이더는 개인의 시각적 이미지를 캡처하지 않으므로, 카메라가 규제나 동의 장벽에 직면하는 환경에서 배포할 수 있다.

훈련 데이터 문제와 MIT의 해결책

이 분야에서 AI 모델의 근본적인 장애물은 데이터 부족이다. 생성형 모델을 처음부터 훈련시킬 만한 mmWave 데이터셋은 없다. MIT의 해결책은 기존의 대규모 컴퓨터 비전 데이터셋 위에 mmWave 물리학을 시뮬레이션하는 것이었다. 즉, 레이더 특화 훈련 데이터 없이 AI에게 레이더의 언어를 가르친 것이다.

GPT나 Claude 같은 대규모 생성 모델을 훈련하려면 수백만 또는 수십억 개의 예제가 필요하다. mmWave 연구 데이터셋은 그보다 몇 자릿수 작다. MIT 연구 조교 Maisy Lam의 설명에 따르면, 충분한 실제 레이더 데이터를 수집하는 데는 "수년이 걸렸을 것"이다.

연구진의 해결책은 합성 적응(synthetic adaptation)이었다. 대규모 기존 컴퓨터 비전 데이터셋을 가져와 mmWave 반사의 물리적 특성(정반사성, 잡음 특성, 신호 기하학)을 이미지 데이터에 계산적으로 적용했다. 이를 통해 생성 모델이 학습할 수 있는 합성적이지만 물리적으로 정확한 훈련 세트를 만들었다.

이 접근법은 물리적 AI 연구에서 떠오르는 더 넓은 패턴, 즉 물리학 기반 시뮬레이션을 사용하여 실제 데이터가 부족하거나 수집 비용이 많이 드는 경우 AI 훈련을 부트스트래핑하는 방식을 대표한다. 동일한 원리는 로봇 조작 학습의 많은 발전의 기반이 되는 sim-to-real 전송의 지배적인 패러다임을 이룬다.

시스템	작업	신호 소스	정확도 향상	센서 구성
Wave-Former	숨겨진 물체 3D 재구성	물체의 mmWave 반사	~20% over SOTA	이동형 또는 고정형 레이더
RISE	전체 방 장면 재구성	움직이는 사람의 mmWave 반사	~2배 정밀도 over SOTA	단일 고정 레이더

창고 및 산업용 로봇 공학에 미치는 영향

로봇 구매자와 엔지니어에게 이 두 시스템은 서로 다르지만 동등하게 시급한 운영 문제를 해결한다. 밀봉된 용기 내 포장 품목 확인, 그리고 완전한 센서 커버리지 없이 동적 환경을 이해하는 로봇의 능력 향상이다.

물류 및 포장 확인

현재 창고 로봇은 밀봉된 상자 안에 무엇이 있는지 열어보지 않고는 확인할 수 없다. Wave-Former가 골판지와 플라스틱을 통해 3D 물체 형상을 재구성하는 능력은 출하 전 검증 문제를 직접 해결한다. 이는 e-커머스 물류에서 잘못 포장된 주문으로 인한 반품률이 상당한 비용을 초래하는 주요 고통 지점이다. mmWave 인식을 장착한 로봇은 라인 속도를 늦추지 않고도 상자가 밀봉되기 전에 품목 존재 여부와 대략적인 형상을 확인할 수 있다.

협동로봇 및 AMR을 위한 스마트 배치

RISE의 단일 레이더 공간 매핑 기능은 인간과 공간을 공유하는 자율 이동 로봇(AMR) 및 협동로봇(cobot)에 즉각적인 시사점을 제공한다. 현재 인간 추적 접근법은 밀집된 카메라 커버리지(관련 개인정보 보호 문제 포함) 또는 이동 로봇 자체에 장착된 센서가 필요하다. 유령 신호 분석을 통해 방의 실시간 공간 모델(인간 위치 포함)을 구축하는 고정 레이더는 동적 환경에서 더 안전하고 반응성이 뛰어난 협동로봇 작동을 가능하게 할 수 있다.

이러한 응용 분야에 로봇을 평가하는 팀은 Wave-Former와 같은 인식 시스템이 상용화로 진전되는 과정을 주시하면서 중고 산업용 로봇과 현재 Botmarket에서 구매 가능한 협동로봇을 살펴보는 것이 좋다.

배포 일정

두 시스템 모두 연구 단계에 있으며, 결과는 IEEE 컴퓨터 비전 및 패턴 인식 학회(CVPR)에서 발표될 예정이다. 연구는 NSF, MIT 미디어랩, Amazon의 지원을 받았으며, Amazon의 참여는 상업적 관심의 중요한 신호이다. 연구진의 다음 목표는 무선 신호를 위한 기초 모델(foundation model)을 구축하는 것이라고 밝혔다. 이는 언어 분야의 GPT나 Gemini와 유사한 것으로, 환경과 물체 유형 전반에 걸친 이 접근법의 일반화 가능성을 획기적으로 향상시킬 것이다.

자주 묻는 질문

Wave-Former란 무엇이며 어떻게 작동하나요?

Wave-Former는 MIT가 개발한 시스템으로, 밀리미터파(mmWave) 레이더 신호를 사용하여 골판지, 건식벽, 플라스틱 같은 장애물 뒤에 숨겨진 물체의 3D 형상을 재구성합니다. 레이더 반사로부터 부분 재구성을 구축한 후 생성형 AI 모델을 사용하여 누락된 형상을 완성합니다. 약 70개의 일상 물체를 대상으로 한 실험에서 이전 최고 성능보다 거의 20% 더 나은 정확도를 달성했습니다.

RISE는 카메라 없이 어떻게 방을 재구성하나요?

RISE는 단일 고정 mmWave 레이더를 사용하며, 방 안을 움직이는 사람에게서 반사된 후 주변 가구와 벽에 다시 반사되는 '유령 신호'를 활용합니다. 이러한 다중 경로 반사가 사람의 움직임에 따라 어떻게 변화하는지 추적함으로써 생성형 AI 모델이 전체 방의 공간 레이아웃을 추론합니다. RISE는 100개 이상의 테스트 궤적에서 기존 무선 장면 재구성 기술보다 약 2배 높은 공간 정밀도를 보였습니다.

mmWave 신호는 어떤 장애물을 통과할 수 있나요?

밀리미터파 신호(Wi-Fi와 동일한 주파수 대역)는 골판지, 목재, 건식벽, 플라스틱, 직물 등 일반적인 비금속 재질을 통과합니다. 금속은 효과적으로 통과하지 못합니다. 따라서 상품이 골판지와 플라스틱에 포장되는 창고 환경에 적합하지만, 금속이 많은 산업용 인클로저에서는 적용이 제한적입니다.

이 기술이 카메라보다 개인정보 보호에 더 좋은가요?

네. mmWave 레이더는 환경 내 사람의 시각적 이미지를 캡처하지 않으며 신호 반사만 감지합니다. RISE의 공간 매핑 기능은 식별 가능한 시각적 데이터를 기록하지 않고 인간 움직임을 신호 소스로 사용하므로, 병원, 가정, 규제 작업장 등 개인정보 보호에 민감한 환경에서 카메라 기반 공간 매핑보다 중요한 이점을 제공합니다.

이 기술은 언제 상용 로봇에 사용될 수 있나요?

Wave-Former와 RISE 모두 현재 연구 단계이며, CVPR에서 논문이 발표될 예정입니다. Amazon이 펀딩 파트너 중 하나이므로 활발한 상업적 관심을 시사합니다. MIT 연구진은 무선 신호 기초 모델을 구축하는 것이 다음 개발 우선순위라고 밝혔습니다. 창고 또는 협동로봇 시스템에 상용화되기까지는 수년이 걸릴 수 있지만, 배포 가능한 하드웨어로의 궤적은 명확합니다.

이 연구는 지난 해 로봇 인식 분야에서 가장 실용적으로 기반한 발전 중 하나입니다. 단순한 벤치마크 개선이 아니라, 로봇이 주변 세계를 모델링하는 방식의 진정한 구조적 변화입니다. 생성형 AI는 더 이상 언어나 이미지 도구에 머물지 않고, 물리적 시스템이 직접 관찰할 수 없는 것에 대해 추론할 수 있게 하는 추론 엔진이 되고 있습니다.