비전-언어 모델, 창고 로봇에 상황 인식 의미론적 지도 제공 (2026)

창고 로봇이 대폭 업그레이드되었습니다. 연구진은 자율이동로봇(AMR)이 장면에 있는 물체가 무엇인지뿐만 아니라 이동 가능한지까지 이해할 수 있는 파이프라인을 구축했습니다. SLAM, Segment Anything(SAM), 비전-언어 모델을 결합하여 고정 선반과 이동 가능한 팔레트, 이동식 지게차를 별도의 작업별 학습 없이 구분하는 의미 지도를 생성합니다.

연구진이 구축한 시스템

칼스루에 공과대학 연구팀은 일반 산업용 로봇 센서(2D 레이저 스캐너 2개, 전방 RGB 카메라 1개)로 작동하는 상황 인식 의미 매핑 파이프라인을 개발했습니다. 파이프라인은 다섯 단계로 구성됩니다. 첫째, GMapping SLAM을 사용하여 2D 기하학적 지도를 구축합니다. 둘째, 모든 카메라 프레임에 대해 SAM의 자동 마스크 생성기를 실행하여 클래스에 무관한 분할 마스크를 생성합니다. 셋째, 해당 마스크를 지도 좌표계로 투영하고 프레임 간 중복 인스턴스를 클러스터링하여 지속적 객체 표현을 만듭니다. 넷째, 비전-언어 모델(VLM)이 각 객체 클러스터의 다중 뷰 관측을 종합적으로 추론하여 의미 클래스(예: "선반", "팔레트", "지게차")와 이동 가능성(정적 인프라인지 잠재적 동적 장애물인지 결정하는 중요한 속성)을 추론합니다. VLM은 클래스, 이동 가능성, 설명이 포함된 구조화된 JSON을 반환합니다. 마지막으로 지도 융합 모듈이 이러한 의미 속성을 기하 지도 점에 연결하여 6차원 포인트 클라우드(x, y, 클래스, 이동 가능성, 보조 필드 2개)를 생성합니다. 시스템은 완전히 제로샷(zero-shot) 및 오픈 보캐블러리(open-vocabulary) 방식으로 사전 정의된 객체 범주가 필요 없습니다.

주요 성과

파이프라인은 실제 물류 테스트 환경에서 정답 의미 레이블과 비교하여 평가되었습니다. 최고 성능 VLM 구성(직접 JSON 프롬프팅을 사용한 Gemini 3.1 Flash Lite)은 의미 분할에서 평균 교집합 대 합집합(mIoU) 98.93% , 전체 품질(PQ) 56.82%를 달성했습니다. 이동 가능성 분류는 균형 클래스별 정확도(mAcc) 84.86% 를 기록했습니다. 이러한 수치는 제로샷 설정(모델이 환경을 사전에 본 적 없음)에서 나온 것이므로 주목할 만합니다.

연구진은 또한 철저한 구성 요소 분석을 수행했습니다. 다중 뷰 추론을 제거(단일 프레임 관측 사용)하면 mIoU가 10포인트 이상 떨어지고 지도 전반에 걸쳐 단편적이고 일관성 없는 객체 레이블이 발생했습니다. VLM 추론 단계가 이동 가능성 추정의 주요 병목인 반면, 인스턴스 연관 오류가 전체 품질 성능의 주요 제한 요소였습니다. 가장 가까운 마스크에서 최근접 이웃 레이블 전파를 사용하는 간단한 기준선은 완전히 실패하여 VLM 추론이 필수적임을 확인했습니다.

VLM에 입력된 예시 이미지: 강조 표시된 객체가 있는 파노라마 장면 분할 마스크와 동일 객체의 확대 이미지

표: 최고 VLM 구성의 주요 지표 성능

지표	점수
의미 분할 mIoU	98.93%
이동 가능성 분류 mAcc	84.86%
전체 품질(PQ)	56.82%

작동 원리

이 시스템의 핵신은 매핑 파이프라인 내에서 다중 뷰 관측과 VLM 추론을 통합한 방식으로, 언어 모델을 후처리 단계로 적용하는 것이 아닙니다. GMapping SLAM을 통해 레이저 스캔으로 2D 기하 지도를 구축한 후, 파이프라인은 모든 RGB 프레임에 SAM을 실행하여 세분화된 클래스 불가지론적 마스크를 생성합니다. 2D 레이저 스캐너와 카메라 간의 시간 동기화를 통해 설정된 점-픽셀 대응 관계로 각 마스크를 기하 지도 좌표계로 투영합니다.

그런 다음 인스턴스 클러스터링이 쌍별 교집합 대 합집합(IoU)을 사용하여 프레임 간 투영된 마스크를 그룹화합니다. IoU가 임계값(실험에서 0.5로 설정)을 초과하는 두 인스턴스는 동일한 물리적 객체의 관측으로 간주됩니다. 이 클러스터링은 두 가지 목적을 수행합니다. 최종 지도를 위한 지속적 객체 수준 표현을 생성하고, VLM 추론 단계를 위해 해당 객체의 모든 카메라 뷰를 집계합니다.

VLM은 복합 입력을 받습니다: 객체의 위치를 경계 상자 오버레이로 보여주는 전체 장면 분할 마스크와 객체 자체의 확대 이미지입니다. 연구진은 이 복합 형식이 중요하다는 것을 발견했습니다. 공간적 맥락을 제공하면서 VLM의 주의를 대상 객체에 집중시켜 시각적으로 지배적인 요소(예: 대형 선반)에 산만해지지 않도록 합니다. 프롬프트에는 명시적 이동 가능성 온톨로지가 포함됩니다: 고정(바닥/구조물에 부착), 이동 가능(로봇이 이동할 수 있지만 비어 있을 때는 정지), 이동식(지게차와 같은 자체 추진 차량). VLM은 클래스, 이동 가능성, 추적 가능성을 위한 짧은 설명이 포함된 구조화된 JSON을 반환합니다. 신뢰도가 낮으면 두 필드에 대해 "알 수 없음"으로 대체됩니다.

전체 파이프라인은 사전 녹화된 데이터에서 오프라인으로 실행됩니다. 저자는 최상의 결과를 위해 Gemini 3.1 Flash Lite를 사용했지만 아키텍처는 모델에 구애받지 않습니다.

로봇 공학에서의 중요성

창고 및 물류 센터에서 정적 인프라와 이동 가능 또는 이동식 객체를 구별하는 능력은 로봇이 막히는 것과 적응하는 것의 차이를 만듭니다. 기존 점유 격자 지도는 로봇에게 팔레트가 방해가 된다고 알려주지만, 팔레트를 밀어낼 수 있는지 또는 지게차가 스스로 움직일지 알려주지 않습니다. 이 상황 인식 의미 지도는 더 높은 수준의 작업을 가능하게 합니다: "팔레트를 이송 스테이션에서 선반으로 운반"하려면 무엇과 어디에 있는지, 팔레트가 이동 가능한지 모두 알아야 합니다.

제로샷, 오픈 보캐블러리 특성 덕분에 새로운 창고 레이아웃마다 훈련 데이터셋을 만들지 않고도 이러한 지도를 생성할 수 있습니다. 이는 지속적으로 레이아웃을 재구성하는 시설에서 AMR을 배포하는 장벽을 낮춥니다. 시스템은 자연어 질의도 지원합니다. 창고 관리자가 "이동 가능한 팔레트는 모두 어디에 있나요?"라고 물으면 로봇이 지도에 해당 속성이 인코딩되어 있으므로 답변할 수 있습니다.

이 기술은 지게차나 작업자와 같은 동적 객체와 안전하게 작동해야 하는 창고 로봇 및 중고 산업용 로봇에 직접 적용됩니다. 중고 협동로봇을 사용하는 시스템의 경우 유사한 접근 방식으로 재프로그래밍 없이 이동 가능한 객체를 회피하거나 상호작용할 수 있습니다.

기하 지도 위에 다양한 객체 클래스와 이동 가능성 상태가 표시된 최종 상황 인식 의미 지도의 시각화

한계 및 남은 과제

가장 큰 한계는 파이프라인이 현재 녹화된 데이터에서 오프라인으로 실행된다는 점입니다. 실시간 운용을 위해서는 새 객체가 나타나거나, 이동하거나, 사라짐에 따라 지도를 점진적으로 업데이트해야 합니다. 저자는 이를 향후 과제로 인정합니다. 평가도 단일 통제된 테스트 환경에서만 수행되었습니다. 실제 산업 현장의 먼지, 조명 불량, 가림 등 복잡한 환경으로의 일반화는 여전히 해결해야 할 문제입니다.

VLM 추론 단계는 이동 가능성 추정의 주요 병목입니다. Gemini 3.1 Flash Lite는 좋은 성능을 보였지만, 저자는 모델의 추론이 깨지기 쉽다고 지적합니다. 팔레트 트럭과 같이 두 특성을 공유하는 객체에 대해 "이동 가능"과 "이동식"을 혼동하는 경우가 있습니다. 56.82%의 전체 품질은 인스턴스 연관(동일 객체를 프레임 간 그룹화)이 여전히 약점임을 나타냅니다. 마지막으로 시스템은 2D 레이저 데이터만 사용합니다. 3D LiDAR로 확장하면 더 풍부한 기하학적 맥락을 제공하여 추론을 더 견고하게 만들 수 있습니다.

자주 묻는 질문

상황 인식 의미 지도란 무엇인가요? 점유 격자와 같은 기하 지도에 각 점에 객체 클래스, 이동 가능성 상태와 같은 의미 속성을 첨부하여 로봇이 객체의 위치뿐만 아니라 무엇인지, 어떻게 행동하는지 이해할 수 있게 합니다.

연구진은 어떤 비전-언어 모델을 사용했나요? 최상의 결과는 직접 JSON 프롬프팅 전략을 사용한 Gemini 3.1 Flash Lite에서 나왔습니다. 그러나 파이프라인은 모델에 구애받지 않으며 다른 VLM을 사용할 수 있습니다.

시스템은 이전에 본 적 없는 객체를 어떻게 처리하나요? 제로샷, 오픈 보캐블러리 접근 방식을 사용합니다. VLM은 사전 정의된 범주 목록이나 작업별 훈련 데이터 없이도 모든 객체를 분류하고 이동 가능성을 추론할 수 있습니다.

이 시스템을 실시간으로 실행할 수 있나요? 현재는 사전 녹화된 데이터에서 오프라인으로 실행됩니다. 온라인 증분 지도 업데이트를 활성화하는 것은 향후 과제로 표시되었습니다.

결론

기하 SLAM, SAM 분할, 비전-언어 모델 추론을 결합하여 연구진은 창고 로봇에 훈련 데이터 없이도 고정 설비와 이동 가능 또는 이동식 객체를 구별하는 풍부한 상황 이해를 제공하는 파이프라인을 구축했습니다. 98.93%의 의미 정확도와 제로샷 유연성은 이 기술을 진정한 적응형 물류 자동화를 위한 유망한 단계로 만듭니다.