GroundControl: 궤적 일관성 불확실성을 활용한 비전-언어 에이전트의 내비게이션 실패 예측 (2026)

신뢰할 수 있는 배포를 위해 내비게이션 시스템은 현재 궤적이 성공적인 목표 지향 실행에서 벗어나고 있는지를 나타내는 불확실성 신호가 필요하다. 그러나 기존의 불확실성 근사치는 이러한 설정에 적합하지 않다. 대부분은 행동 분포에 대한 예측 엔트로피나 토큰 수준의 신뢰도와 같은 순간적인 신호에 의존한다. 이러한 측정치는 개별 결정의 모호성을 포착하지만 결과 궤적이 목표를 향한 기하학적 진행과 일관성을 유지하는지는 반영하지 못한다. 따라서 에이전트가 진동, 정체 또는 비효율적인 우회로 이어지는 행동을 반복적으로 수행하면서도 단계별 신뢰도를 높게 유지할 수 있다.

이는 내비게이션에서의 불확실성이 목표 지향 역학의 궤적 수준 일관성을 반영해야 함을 시사한다. 성공적인 에피소드에서는 목표까지의 거리 신호가 일반적으로 지속적인 진행과 제한된 변동을 특징으로 하는 구조적 변화를 따른다. 진동, 정체, 발산 또는 변위 대비 낮은 경로 효율성과 같은 이러한 구조의 체계적 위반은 실행이 의도된 내비게이션 목표에서 벗어나고 있다는 정량적 증거를 제공한다. 이러한 관점에서 불확실성 추정은 예상되는 목표 지향 운동에서 통계적으로 유의미한 이탈을 감지하는 문제가 된다.

선택적 위험-커버리지 내비게이션 프로토콜

원시 작업 성공과 무관하게 불확실성을 평가하기 위해, 우리는 궤적 수준의 불확실성 신호를 평가하는 선택적 위험-커버리지 내비게이션(SRCN) 프로토콜을 도입한다. 이 프로토콜은 위험-커버리지 곡선과 AURC 및 초과 AURC를 포함한 요약 지표를 사용하여 불확실성 점수가 실패를 기준으로 내비게이션 에피소드를 얼마나 효과적으로 순위화하는지 측정한다. 이 공식화는 기본 내비게이션 정책을 수정하지 않고 순위화 품질을 분리하며 엔트로피 및 행동 추정기 간의 비교를 가능하게 한다.

기여 사항

우리는 VLN 기반 내비게이션에서 불확실성 추정의 기초로서 목표까지의 거리 역학의 궤적 수준 일관성을 공식화한다.

우리는 명목상의 목표 지향 운동에서 통계적으로 유의미한 이탈을 감지하는 경량 궤적 일관성 추정기인 GroundControl을 도입한다.

다섯 개의 EB-Navigation 분할(대규모 내비게이션 에피소드 데이터셋)에 걸쳐, 우리의 궤적 일관성 불확실성은 성공 기반 선택적 위험에서 가중 평균 위험-커버리지 곡선 아래 면적에서 오라클에 가까운 순서를 달성하며, 엔트로피, 컨포멀 및 휴리스틱 기준선을 능가하고 SPL 기반 선택적 평가에서도 경쟁력을 유지한다.

작업 설정 및 표준 내비게이션 지표

에이전트가 거리 임계값 epsilon 내에서 목표에 도달하면 에피소드는 성공으로 간주되며, 성공 지표로 표시된다. 성공률 외에도 경로 길이로 가중된 성공(SPL)을 보고한다.

각 에피소드 i에 대해 불확실성 추정기는 스칼라 점수 u_i를 생성하며, 값이 낮을수록 신뢰도가 높음을 나타낸다. 점수는 사후 공분산 또는 혁신 에너지와 같은 내부 상태 통계, 주의 엔트로피 또는 신념 분산과 같은 모델 내부 신호, 또는 행동 엔트로피, 계획 불안정성, 무효 행동 비율 또는 컨포멀 비적합성과 같은 사후 행동 측정에서 비롯될 수 있다.

이 추상화는 이질적인 불확실성 추정기를 공통 프레임워크 내에서 평가하면서 에피소드 수준 순위화의 품질을 분리할 수 있게 한다. 특히, 이후에 도입되는 SRCN 평가는 임계값을 통해 u_i에 의해 유도된 순서에만 의존한다.

기준 불확실성 추정기

우리는 컨포멀, 엔트로피 기반, 궤적 기반 및 휴리스틱 신호를 포함하는 7개의 대표적인 불확실성 기준선과 비교한다. 각 기준선은 SRCN 프로토콜 하에 평가되는 에피소드 수준 점수 u_i를 생성한다.

예측 엔트로피. 행동 사용의 분산을 측정하는 에피소드 행동 히스토그램의 정규화된 섀넌 엔트로피 H.

자기 일관성. 계획 불안정성은 1에서 평균 자카드 유사도를 뺀 값으로 측정되며, 여기서 자카드 유사도는 VLM 추론에서 추출된 연속 실행 가능 계획 간의 평균 자카드 유사도이다.

무효 행동 비율. 실행된 행동이 환경에 의해 거부된 단계의 비율.

무작위. 하한선으로 무작위 불확실성 점수 Uniform(0,1).

실험 프로토콜 및 결과

표 I은 세 가지 LLM 백본(GPT-4o, GPT-5-mini, Gemini-1.5-Flash)에 대한 기준 내비게이션 성능을 제시한다. GPT-4o의 경우 성공률이 네 개 분할에서 53%를 초과하지만 long_horizon에서는 16.7%로 급격히 떨어지는데, 이는 긴 실행 체인이 오류를 누적시키기 때문이다. GPT-5-mini를 사용하면 네 개 분할에서 성공률이 65%를 초과하지만 long_horizon의 성공률은 개선되지 않는다. 결과적인 성공률과 SPL의 저하는 이 분할을 궤적 수준 불확실성 순위화의 엄격한 시험으로 만든다.

LLM 백본	Base SR	Common Sense SR	Complex Instr. SR	Long Horizon SR	평균 SR	평균 SPL
GPT-4o	53.4%	56.7%	56.7%	16.7%	48.3%	0.33
GPT-5-mini	65.6%	68.9%	65.6%	18.9%	56.1%	0.40
Gemini-1.5-Flash	50.0%	47.8%	38.9%	14.4%	38.3%	0.25

위험-커버리지 곡선 및 진단 플롯

기본 내비게이션 분할에서 다양한 불확실성 추정기에 대한 커버리지에 따른 성공률을 보여주는 위험-커버리지 곡선

그림 4는 SPL 기반 손실 하의 위험-커버리지 곡선을 보여주며, 이는 완전한 실패 외에도 비효율적인 궤적에 패널티를 부과한다. 궤적 일관성 불확실성은 커버리지 수준 전반에 걸쳐 낮은 선택적 위험을 유지하며, 이는 단순한 종단 실패보다는 내비게이션 효율성의 점진적 저하에 대한 민감성을 나타낸다. 이러한 행동은 비효율적인 배회, 진동 운동 또는 반복적인 후진이 종종 실패에 선행하고 제한된 실행 시간이나 에너지를 소비하는 로봇 내비게이션에서 특히 중요하다.

자주 묻는 질문

GroundControl이 기존 불확실성 방법과 다른 점은 무엇인가? GroundControl은 순간적인 행동 수준 신호보다는 목표까지의 거리 역학의 궤적 수준 일관성에 초점을 맞추어 단계별 신뢰도 측정이 놓치는 진동이나 정체와 같은 체계적 이탈을 감지할 수 있다.

SRCN 프로토콜은 내비게이션 정책과 무관하게 불확실성 품질을 어떻게 평가하는가? SRCN은 위험-커버리지 곡선과 요약 지표(AURC, 초과 AURC)를 사용하여 기본 내비게이션 정책을 수정하지 않고 불확실성 점수가 실패를 기준으로 에피소드를 얼마나 효과적으로 순위화하는지 측정한다.

실험에서 GroundControl이 능가하는 기준선은 무엇인가? GroundControl은 성공 기반 선택적 위험에서 오라클에 가까운 순서를 달성하며, 다섯 개의 EB-Navigation 분할 전체에서 예측 엔트로피, 자기 일관성, 무효 행동 비율, 무작위 기준선 및 컨포멀 방법을 능가한다.

long_horizon 분할이 불확실성 추정에 특히 어려운 이유는 무엇인가? long_horizon 분할은 긴 실행 체인에서 오류가 누적되어 성공률이 급격히 낮아지며(GPT-4o에서 16.7%, GPT-5-mini에서 18.9%), 궤적 수준 불확실성 순위화의 엄격한 시험이 된다.