멀티뷰 3D 기반 VLM 추론을 활용한 제로샷 장기 정밀 조작 (2026)

로봇 분야의 오랜 목표는 고수준 언어 명령으로부터 장기 조작을 수행할 수 있는 범용 시스템을 구축하는 것입니다. 객체 인식을 넘어, 이러한 시스템은 명령을 작업 관련 3D 기하학에 기반하여 이해해야 합니다. 즉, 물체를 어디에 놓을지, 어떤 부분을 접촉할지, 실행 중 도구를 어떻게 방향을 정하고 움직일지 등을 파악해야 합니다. 특히 정밀 손의 경우, 작은 3D 기반 오류라도 불안정한 파지, 충돌, 역기구학 실패, 또는 도구의 잘못된 기능 영역 접촉을 초래할 수 있기 때문에 요구 사항이 더욱 엄격합니다.

추론된 3D 기반은 재사용 가능한 원자적 기본 동작 라이브러리와 결합됩니다. 도구 사용 동작은 상호작용 유형별로 인덱싱된 짧은 6D 객체 궤적 라이브러리인 원자적 동작 집합(Bag of Atomic Actions)으로 표현됩니다. 새로운 장면에 대해 적절한 기본 동작이 검색되어 기반이 된 작업 기하학에 정렬됩니다. 정밀 손 실행을 지원하기 위해 동일한 멀티뷰 기반을 적용하여 기능적 접촉 영역을 추정하고, 해당 영역에 대한 후보 파지를 생성하며, 역기구학 및 충돌 가능성을 전체 도구 사용 궤적에 걸쳐 필터링합니다. 장기 작업의 경우 폐루프 검증 및 재시도를 통해 실행 실패 후 시스템이 다시 기반을 설정하거나 재계획할 수 있습니다.

실험

로봇 팔과 정밀 손이 여러 단계의 도구 작업을 수행하는 장기 조작 시퀀스

이 프레임워크는 실제 탁상 환경에서 제로샷 로봇 조작에 대해 평가되며, 단순 작업에서 장기 시나리오로의 확장성을 평가합니다. 평가는 네 가지 주요 능력을 다룹니다: (1) 방해물 속에서 대상 기반 설정 및 충돌 견고성 (예: 추론된 쓰레기를 바구니에 넣기), (2) 공간 관계 추론 (예: 도구를 스토브 위에 놓기), (3) 기능 기반 도구 사용 (예: 빗자루로 물건 쓸기), (4) 장기 시퀀싱 (예: 3-4개 물체 요리 및 정리). 추가 도구 사용 시나리오는 보충 자료에 제공됩니다.

하드웨어 구성

시스템은 Inspire 정밀 손이 장착된 xArm을 특징으로 합니다. 탁상 환경은 스테레오 쌍을 포함한 여러 보정된 RGB 카메라로 모니터링됩니다. FoundationStereo는 스테레오 깊이 추정에, FoundationPose는 다중 객체 6D 자세 추정에 사용됩니다.

기준선

제로샷 프레임워크는 RGB-D 기반 기준선과 두 가지 Vision-Language-Action (VLA) 모델과 비교됩니다. RGB-D 기준선은 단일 뷰에서 2D 키포인트를 예측하고 정렬된 깊이 맵을 사용하여 3D로 변환합니다. VLA 모델의 경우, 사전 학습된 모델을 작업별 30회의 원격 조작 데모를 사용하여 미세 조정하는 반면, 우리의 방법은 VLM 추론에만 의존하여 3D 기반 및 조작을 완전히 제로샷으로 수행합니다.

지표

성공률. 텍스트 명령에 따라 로봇이 작업을 완료하면 시도가 성공한 것으로 간주됩니다. 지정된 대상 물체나 위치가 있는 작업의 경우, 실행 후 대상 물체가 원하는 위치에 배치되었는지 확인합니다.

충돌 오차. 예측된 웨이포인트나 배치 기반이 조작된 물체를 해당 위치에 놓을 때 충돌을 일으키는지 평가합니다. 지표는 조작된 물체와 주변 환경 간의 평균 최대 침투 깊이를 보고합니다.

장기 성공률. 순차 작업의 경우, 모든 필수 단계가 올바른 순서로 완료된 경우에만 시도가 성공한 것으로 간주됩니다. 장기 실제 로봇 시험은 시간이 많이 소요되므로 작업별로 시험 횟수가 다를 수 있습니다. 시험 횟수와 성공률을 모두 보고합니다. 재시도를 사용하는 경우, 재시도 예산 내에서 작업이 완료되면 시도를 성공으로 간주합니다.

논의

도구 사용 기본 동작이 작업 기하학에 매칭되는 원자적 동작 집합 정렬 다이어그램

우리는 멀티뷰 3D 기반을 통해 VLM 추론과 물리적 실행을 연결하는 제로샷 장기 조작 프레임워크를 제시합니다. 언어 명령을 3D 기반 조작 기본 동작의 시퀀스로 분해함으로써, 시스템은 객체 중심의 원자적 동작을 대상 장면에 공간적으로 정렬하여 표준 집어넣기와 복잡한 도구 사용 작업을 모두 원활하게 지원합니다. 실험 결과는 멀티뷰 융합 전략이 공간 정확도와 폐색에 대한 견고성에서 단일 뷰 RGB-D 기준선을 크게 능가함을 보여줍니다. 또한, 기본 동작 수준의 공식은 자연스럽게 폐루프 실행을 가능하게 하여 시스템이 작업 진행 상황을 확인하고 장기 작업 중 중간 실패로부터 동적으로 복구할 수 있게 합니다.

3D 기반 방법 비교

우리는 또한 혼잡한 실제 장면에서 단일 뷰 RGB-D 기반 기준선과 멀티뷰 기반 접근 방식의 동작을 분석합니다. 단일 관찰에 의존하기 때문에 RGB-D 기준선은 폐색과 불완전한 기하학에 민감하여 종종 잘못된 3D 대상을 초래합니다. 대조적으로, 멀티뷰 접근 방식은 여러 뷰에서 의미론적 기반 단서를 통합하여 혼잡한 환경에서 더 일관된 작업 관련 3D 추정을 생성합니다.

원통형 템플릿 기반 파지 생성

도구 사용 작업의 경우, 성공적인 도구 사용은 실행 중 안정적이고 동작과 일관된 파지를 필요로 하므로 손끝 접촉을 직접 최적화하는 것만으로는 부족할 수 있습니다. 많은 가정용 도구는 빗자루 손잡이, 병, 냄비 손잡이와 같이 대략 원통형의 파지 기능 영역을 포함합니다. 추정된 기능 영역이 이러한 원통형 영역에 해당할 때, 이 구조적 사전 정보를 사용하여 손바닥 자세를 초기화합니다.

영역 중심 근처에서 표면 정점을 샘플링하고, 외부 표면 법선을 사용하여 손바닥 자세 앵커(손바닥 기준점, 원하는 손바닥 법선, 손바닥-표면 오프셋 제어)를 정의합니다. 다양한 파지 스타일을 위해 법선 정렬을 유지하면서 접근 방향 주변에서 다른 손바닥 방향을 샘플링합니다. 각 샘플링된 손바닥 자세에 대해 시뮬레이션 기반 파지 개선을 통해 손가락 닫힘을 최적화합니다. 결과 후보는 모든 6축을 따라 외부 힘과 토크를 가하여 파지 안정성을 평가함으로써 시뮬레이션에서 검증됩니다.

구현 세부 사항

모든 실험에서 다음 하이퍼파라미터가 사용됩니다.

자주 묻는 질문

시스템은 3D 기반 설정 중 폐색을 어떻게 처리하나요? 멀티뷰 융합 전략은 여러 보정된 RGB 카메라의 의미론적 단서를 통합하여 혼잡한 환경에서 공간 정확도와 폐색에 대한 견고성에서 단일 뷰 RGB-D 기준선을 크게 능가합니다.

프레임워크는 어떤 유형의 도구 사용 작업을 수행할 수 있나요? 시스템은 바구니에 물체 넣기, 스토브 위에 도구 배치하기, 빗자루로 쓸기, 여러 물체 요리 및 정리와 같은 장기 시퀀스 등 다양한 작업을 지원합니다.

정밀 도구 조작을 위한 파지는 어떻게 생성되나요? 시스템은 가정용 도구의 구조적 사전 정보를 활용하는 원통형 템플릿 기반 접근 방식을 사용한 후, 시뮬레이션 기반 손가락 닫힘 최적화와 외부 힘 하에서 안정성 검증을 수행합니다.

시스템은 실행 중 실패로부터 복구할 수 있나요? 네, 기본 동작 수준의 공식은 검증 및 재시도 메커니즘을 통한 폐루프 실행을 가능하게 하여 시스템이 재시도 예산 내에서 중간 실패 후 다시 기반을 설정하거나 재계획할 수 있습니다.