LIBERO-Safety 벤치마크, 시각-언어-행동 로봇의 물리적·의미론적 안전성 평가 (2026)

연구진은 40가지 작업에서 시각-언어-행동(VLA) 모델이 물리적 안전 위험과 의미론적 안전 추론을 얼마나 잘 처리하는지 체계적으로 평가하는 종합 벤치마크인 LIBERO-Safety를 발표했다. 19,664개의 충돌 없는 시연을 생성하고 8개의 최신 VLA 모델을 테스트한 결과, 이 연구는 이전 벤치마크에서 간과되었던 일반화와 안전 사이의 중요한 긴장 관계를 드러냈다.

연구진이 구축한 것

LIBERO-Safety는 단순한 또 다른 로봇 벤치마크가 아니다. 물리적 위험(잡동사니, 인간 근접, 움직이는 장애물)과 의미론적 위험(“칼을 사람 가까이 두세요”와 “칼을 사람에게서 멀리 두세요” 같은 명령 이해)을 모두 다루는 VLA 모델 최초의 전용 안전 평가 프레임워크이다. 연구팀은 이 두 가지 측면을 분리하는 5차원 안전 커리큘럼을 설계했다:

물리적 안전: 정적 공간 잡동사니, 테이블 위 공간 인식, 인간-로봇 상호작용, 전체 장면 손-물체 인식.
의미론적 추론: “깨지기 쉬운 물체를 가장자리 근처에 두지 마세요”와 같이 맥락 이해가 필요한 작업.

대규모 학습 데이터 생성을 위해 희소한 인간 주석(중요 자세 정의)과 최적화 기반 동작 계획기(CuRobo)를 결합한 키포즈 기반 파이프라인을 구축했다. 이 접근 방식은 전체 인간 원격 조작의 병목 현상 없이 운동학적으로 가능하고 충돌이 없는 대규모 궤적을 생성한다. 최종 데이터셋은 40개 작업에 걸쳐 인간 검증을 거친 19,664개의 시연을 포함하며, 강력한 시각적 및 물리적 도메인 무작위화를 적용하여 모델이 안전을 고려한 강인한 조작 기술을 학습하도록 강제한다.

인간 입력과 동작 계획을 포함한 키포즈 기반 데이터 생성 파이프라인 다이어그램

주요 결과

8개의 대표적인 VLA 모델을 미세 조정하고 평가한 후, 연구는 몇 가지 놀라운 사실을 발견했다:

다양성이 높은 학습은 안전성을 높이지만 작업 성공률을 낮춘다. 다양한 무작위 장면에서 학습된 모델은 더 안전한 궤적(충돌 감소)을 생성했지만 작업 완료율은 낮았다. 다양성이 더 어려운 경계 사례를 노출했기 때문이다.
의미론적 안전이 가장 약한 고리다. 모든 모델이 미묘한 이해를 요구하는 작업(예: “머그잔을 천 위가 아닌 코스터 위에 두세요”)에 어려움을 겪었다. 최고 VLA 모델은 의미론적 추론 작업에서 약 60%의 성공률을 기록한 반면, 단순한 물리적 안전 작업은 80% 이상이었다.
실패 모드는 명확히 구분된다. 작업 실패는 물리적 충돌보다는 차선의 궤적 합성(로봇이 충돌은 피했지만 목표를 놓치는 긴 비효율적 경로)과 미세 의미론적 불일치(로봇이 모호하거나 맥락 의존적인 지침을 잘못 해석)에서 비롯되었다.

이러한 결과는 현재 VLA 모델이 물리적 제약과 언어 의미에 대한 강건한 공동 이해가 부족함을 확인시켜 준다. 즉, 장애물을 피하거나 지시를 따를 수는 있지만, 항상 둘 다 할 수는 없다.

작동 방식

LIBERO-Safety의 핵심 혁신은 통합 행동 도메인 정의 언어(UBDDL) 로, 연구자가 제어 가능한 매개변수로 안전 중심 작업을 절차적으로 생성할 수 있게 한다. UBDDL은 원래 BDDL(행동 도메인 정의 언어)을 확장하여 명시적 안전 제약과 환경적 무작위성을 추가한다.

평가 프레임워크는 세 가지 난이도 수준을 정의한다:

수준	설명	예시
L0	정적 물체가 있는 기본 물리적 안전	컵을 가장자리에서 멀리 두세요
L1	중간 물리적 위험 + 단순 의미 단서	움직이는 장애물을 피하면서 상자를 집으세요
L2	분포 외 물리적 위험 + 복잡한 의미 추론	“칼을 사람 가까이 두세요” – 모델이 맥락을 추론해야 함

학습 데이터는 의미론적 추론을 완전히 제외한 L0 및 L1 물리적 안전 작업에 대해서만 생성되어 인지 능력의 제로샷 평가를 만든다. L2 작업은 일반화를 테스트하기 위해 완전히 보류되었다.

데이터 생성 중에 연산자는 키포즈(예: 잡을 때 그리퍼 방향, 장애물을 피하기 위한 경유점)를 지정한다. CuRobo는 최적화를 사용하여 키포즈 사이의 동작을 채워 운동학적 실현 가능성과 충돌 자유를 보장한다. 그런 다음 파이프라인은 무작위 질감, 조명, 카메라 시점, 물체 포즈, 심지어 로봇 시작 위치까지 적극적인 도메인 무작위화를 적용한다.

로봇 공학에 중요한 이유

LIBERO-Safety는 범용 로봇을 향한 경쟁에서 사각지대를 직접 해결한다. VLA 모델이 휴머노이드 로봇과 창고 로봇을 점점 더 많이 구동함에 따라 동적 환경에서의 안전 실패는 손상이나 부상을 초래할 수 있다. 이 벤치마크는 로봇이 배치 전에 물리적 위험과 모호한 인간 명령을 모두 처리할 수 있음을 인증하는 표준화된 방법을 제공한다.

중고 협동 로봇 또는 중고 산업용 로봇을 평가하는 운영 관리자에게 LIBERO-Safety는 로봇의 안전 추론 능력을 평가하는 템플릿을 제공한다. 단순한 집어넣기 정확도가 아니라 의미론적 안전이 더 큰 병목이라는 발견은 향후 VLA 훈련이 자연어 이해를 저수준 동작 계획과 훨씬 더 긴밀하게 통합해야 함을 시사한다.

이 연구는 또한 실용적인 절충점을 강조한다: 고도로 무작위화된 데이터로 훈련하면 안전성은 향상되지만 작업 성공률은 낮아진다. 로봇 구매자는 일반 목적 사전 학습에만 의존하기보다 도메인별 안전 시나리오에 맞게 미세 조정된 모델을 찾아야 한다.

한계 및 미해결 질문

LIBERO-Safety는 시뮬레이션 기반 벤치마크이다. 실제 안전은 센서 잡음, 물리적 마모, 예측 불가능한 인간 행동과 같은 추가적인 도전을 제기한다. 데이터셋은 또한 훈련에서 의미론적 추론을 제외하므로 모델이 언어 기반 안전 단서를 처리하도록 명시적으로 가르쳐지지 않았다. 이는 의미론적 추론 결과가 고유 능력에 대한 테스트이지만 적절한 훈련으로 달성 가능한 것을 반영하지는 않는다.

또 다른 미해결 질문은 키포즈 기반 파이프라인이 모든 안전 관련 시나리오를 적절히 다루는지 여부이다. 현재 40개 작업은 다양하지만 실제 환경의 무한한 가능성에 비해 여전히 제한적이다. 마지막으로, 이 벤치마크는 아직 창고 및 공장 배치에 중요한 다중 로봇 조정을 평가하지 않는다.

자주 묻는 질문

VLA 모델이란 무엇인가? 시각-언어-행동 모델은 이미지와 텍스트 명령을 입력으로 받아 로봇 동작을 직접 출력한다. 즉, 시각적 이해, 언어 이해, 운동 제어를 하나의 신경망에 결합한다.

LIBERO-Safety는 기존 벤치마크(LIBERO 등)와 어떻게 다른가? LIBERO는 특정 안전 제약 없이 작업 완료와 일반화에 초점을 맞추었다. LIBERO-Safety는 명시적 물리적 위험, 인간 상호작용 시나리오, 안전 행동과 안전하지 않은 행동에 대한 이해를 요구하는 의미론적 추론을 추가한다.

결과가 현재 VLA 로봇이 안전하지 않다는 것을 의미하는가? 정확히는 아니다. 단순한 작업(낮은 충돌률)에서는 일반적으로 안전하지만 명령이 모호하거나 인간 근접이 관련될 때는 신뢰할 수 없다. 이 벤치마크는 “작업을 수행할 수 있음”과 “맥락에서 안전하게 작업을 수행할 수 있음” 사이의 격차를 드러낸다.

LIBERO-Safety 데이터셋을 내 로봇 훈련에 사용할 수 있는가? 그렇다. 19,664개의 시연 데이터셋은 공개되어 있으며 VLA 모델 미세 조정용으로 설계되었다. 단, 보류된 L2 작업은 벤치마크 무결성을 유지하기 위해 평가에만 사용해야 한다.

결론

LIBERO-Safety는 VLA 모델이 작업 완료와 물리적·의미론적 안전 사이에서 어떻게 균형을 이루는지 체계적으로 테스트함으로써 중요한 격차를 메운다. 연구 결과는 훈련 데이터의 다양성이 궤적을 더 안전하게 만들지만 언어 이해가 여전히 약한 고리임을 보여준다. 미래의 로봇 공학 연구는 범용 로봇이 인간과 함께 안정적으로 작동할 수 있도록 이 격차를 해소해야 한다.