로봇에게 새로운 조작 기술을 가르치는 것은 비용이 많이 듭니다. 인간의 시연을 수집하고 정책을 미세 조정하려면 새로운 작업마다 상당한 인간의 노력이 필요합니다. 시각-언어-행동(VLA) 모델은 범용 조작을 향해 진전을 이루었지만, 그 능력은 학습 데이터에 포함된 기술에 제한됩니다. 이 과정은 인간이 새로운 상황에 직면했을 때와 유사합니다. 우리는 이미 수행할 수 있는 기술을 이해하고, 현재 기술로는 부족함을 인식합니다. 그런 다음 어떤 새로운 능력이 그 격차를 메울 수 있을지 추론하고, 목표 지향적 연습을 통해 학습합니다. 습득한 기술은 이후 작업을 위해 재사용 가능한 능력으로 저장되어 지속적이고 평생 학습을 가능하게 합니다.
우리는 조정 가능한 VLA를 통한 개방형 기술 습득 프레임워크인 InSight를 제안합니다. VLA를 조작 가능한 기본 동작 수준에서 조정 가능하게 만든 후, 새로운 작업에 누락된 기본 동작이 필요할 때 자율적으로 확장하는 방법을 보여줍니다.
시연에서 기본 동작 분할
자동 기본 동작 분할 파이프라인은 수동 주석 없이 원격 조작 시연을 레이블된 기본 동작으로 분해하여 기본 동작 수준의 VLA 조정 가능성을 제공합니다. 시연은 세 단계로 오프라인 분할됩니다. 첫째, VLM이 작업 명령을 순서화된 기본 동작 시퀀스로 분해합니다. 둘째, 서브샘플링된 비디오를 프레임별로 전달하고 각 프레임을 계획 기본 동작에 할당하며, 프레임별 엔드이펙터 모션 캡션(지배적인 병진/회전 축을 보고함)과 이미지를 교차 확인한 후 연속 기본 동작 사이의 경계 프레임을 반환합니다. 셋째, 각 경계는 엔드이펙터 델타 변화점을 가장 이른 시각적으로 명확한 프레임과 조정하는 지역화된 패스로 정제됩니다. 결과는 연속적이고 기본 동작 레이블이 지정된 세그먼트 집합이며, 각 세그먼트는 하나의 훈련 에피소드가 됩니다.

조정 가능한 기본 동작을 가진 VLA
우리는 기술을 언어 명령으로 설명된 목표 능력(예: "병뚜껑을 풀고 내용물을 그릇에 붓는다")으로 정의합니다. 계획은 VLM 플래너가 기술을 완료하기 위해 생성하는 기본 동작의 시퀀스입니다.

VLM 기반 기술 습득
기본 동작 기본 세트로 훈련된 조정 가능한 VLA가 주어지면, InSight는 누락된 기본 동작이 필요한 새로운 작업이 제시될 때 자율적으로 기술 세트를 확장합니다. 첫째, VLM이 작업을 기본 동작 시퀀스로 분해하고 알려진 기본 동작 어휘와 비교합니다. 어휘에 없는 기본 동작은 기본 동작 격차로 플래그 지정됩니다. 플래너는 각 기본 동작 격차에 대해 하나의 단일 축 동작만 반환하도록 제약됩니다. 따라서 여러 개의 뚜렷한 동작이 필요한 작업(예: 앞으로 기울인 후 뒤로 기울이기)은 단일 복합 기본 동작 대신 여러 기본 동작 격차를 생성합니다.
VLM 기반 기본 동작 습득 루프는 새로운 작업에 대한 누락된 기본 동작을 식별하고, VLM 도출 매개변수로 실행하며, 자율적으로 생성된 시연으로 VLA를 재훈련하여 새로운 기술을 달성합니다.
시뮬레이션 결과: 집어-놓기 시연에서 블록 뒤집기
우리는 시뮬레이션과 실제 조작 작업에서 InSight를 평가합니다. 시뮬레이션에서는 LIBERO 환경에서 7자유도 Franka Panda를 사용하여 집어-놓기 시연에서 블록 뒤집기를 연구합니다. 로봇은 블록 집어-놓기의 인간 시연만 주어졌을 때, 블록의 핀이 위쪽을 향하도록 레고 블록을 뒤집도록 요청받습니다. 우리는 블록이 옆으로 놓인 상태에서 150개의 인간 원격 조작 집어-놓기 시연을 수집합니다. 이 시연을 자동으로 7가지 기본 동작 유형에 걸쳐 700개 이상의 기본 동작 에피소드로 분할합니다. 블록 뒤집기 작업은 집어-놓기 시연에 없는 회전-블록 기본 동작을 필요로 하며, VLM이 이를 기본 동작 격차로 식별합니다.
여러 작업에 걸친 하드웨어 검증
하드웨어에서는 6자유도 UFactory xArm을 사용하여 병 비틀기와 따르기 작업을 평가하여 코드-정책 스타일의 제로샷 기준선과 비교한 후, 개별적으로 습득한 비틀기와 따르기 기본 동작을 기본 집어-놓기 기술과 함께 장기 비틀기-후-따르기 작업으로 구성합니다. 우리는 새 기본 동작이 추가된 후 통합 정책이 원래의 집어-놓기 기술을 유지하는지 측정합니다. 마지막으로, InSight가 접촉이 많은 비파지 동작으로 확장되는지 평가하기 위해 퍼내기 시연에서 쓸기 기본 동작을 습득합니다.

주요 결과
우리는 시뮬레이션과 하드웨어에서 5가지 작업(블록 뒤집기, 서랍 닫기, 쓸기, 비틀기, 따르기)에 걸쳐 InSight를 검증합니다. 이 프레임워크는 목표 기술에 대한 인간 시연 없이 자율적인 기술 습득을 가능하게 하며, 따르기 작업에서 최대 96%의 성공률, 복잡한 14-기본 동작 장기 작업에서 80%의 성공률을 달성하면서 원래 기본 기술에 대한 완전한 성능을 유지합니다.
결론, 한계 및 향후 작업
우리는 VLM 기반 기본 동작 격차 발견 및 실행을 통해 VLA에서 자율적인 기술 습득 방법인 InSight를 제시합니다. 자율적으로 분할된 기본 동작으로 훈련하고, VLM 추론을 통해 기본 동작 격차를 식별하며, VLM 기반 저수준 제어를 통해 훈련 데이터를 생성함으로써, InSight는 로봇이 추가적인 인간 시연 없이 새로운 기술을 습득할 수 있게 합니다.
자주 묻는 질문
InSight는 새로운 작업에 어떤 기본 동작이 누락되었는지 어떻게 식별하나요? VLM이 작업을 기본 동작 시퀀스로 분해하고 각 기본 동작을 알려진 어휘와 비교합니다. 어휘에 없는 기본 동작은 습득이 필요한 기본 동작 격차로 플래그 지정됩니다.
InSight는 습득 중인 새로운 기술에 대해 인간의 시연이 필요하나요? 아니요. InSight는 목표 기술에 대한 인간 시연 없이 제로샷 기술 습득을 달성하며, VLM 기반 저수준 제어를 통해 모든 훈련 데이터를 자율적으로 생성합니다.
InSight는 이전에 학습한 기술을 잊지 않고 새로운 기본 동작을 추가할 수 있나요? 예. 실험 결과, 새 기본 동작이 추가되고 훈련된 후에도 통합 정책이 원래 기본 기술에 대한 완전한 성능을 유지합니다.
InSight는 복잡한 장기 작업에서 몇 가지 기본 동작 유형을 처리할 수 있나요? InSight는 복잡한 14-기본 동작 장기 작업에서 80%의 성공률을 달성하여 확장된 조작 시퀀스에 대한 확장성을 입증했습니다.
