GroundControl: Anticipando Fallos de Navegación en Agentes Visión-Lenguaje mediante Incertidumbre Consistente con la Trayectoria (2026)

Para un despliegue fiable, los sistemas de navegación requieren una señal de incertidumbre que indique si una trayectoria en curso se está desviando de una ejecución exitosa dirigida al objetivo. Sin embargo, las aproximaciones de incertidumbre existentes no son adecuadas para este contexto. La mayoría se basan en señales instantáneas como la entropía predictiva sobre distribuciones de acciones o la confianza a nivel de token. Estas medidas capturan la ambigüedad en decisiones individuales, pero no reflejan si la trayectoria resultante sigue siendo consistente con el progreso geométrico hacia el objetivo. Por lo tanto, un agente puede mantener una alta confianza paso a paso mientras ejecuta repetidamente acciones que llevan a oscilación, estancamiento o desvíos ineficientes.

Esto sugiere que la incertidumbre en la navegación encarnada debería reflejar la consistencia a nivel de trayectoria de las dinámicas dirigidas al objetivo. En episodios exitosos, la señal de distancia al objetivo suele seguir una evolución estructurada caracterizada por un progreso sostenido con variación acotada. Las violaciones sistemáticas de esta estructura, como oscilación, estancamiento, divergencia o baja eficiencia de la ruta en relación con el desplazamiento, proporcionan evidencia cuantitativa de que la ejecución se está desviando del objetivo de navegación previsto. Bajo esta visión, la estimación de incertidumbre se convierte en el problema de detectar desviaciones estadísticamente significativas del movimiento esperado dirigido al objetivo.

Protocolo de Navegación con Riesgo-Cobertura Selectivo

Para evaluar la incertidumbre independientemente del éxito bruto de la tarea, introducimos el Protocolo de Navegación con Riesgo-Cobertura Selectivo (SRCN), un protocolo para señales de incertidumbre a nivel de trayectoria que mide cómo de efectivamente una puntuación de incertidumbre ordena los episodios de navegación por fallo utilizando curvas de riesgo-cobertura y métricas resumen incluyendo AURC y exceso-AURC. Esta formulación aísla la calidad del ordenamiento sin modificar la política de navegación subyacente y permite la comparación entre estimadores de entropía y de comportamiento.

Contribuciones

Formalizamos la consistencia a nivel de trayectoria de las dinámicas de distancia al objetivo como fundamento para la estimación de incertidumbre en la navegación encarnada basada en VLN.

Introducimos GroundControl, un estimador ligero y consistente con la trayectoria que detecta desviaciones estadísticamente significativas del movimiento nominal dirigido al objetivo.

Comparación de trayectorias exitosas frente a fallidas bajo instrucciones complejas

En cinco divisiones de EB-Navigation (un gran conjunto de datos de episodios de navegación), nuestra incertidumbre consistente con la trayectoria logra un ordenamiento casi óptimo bajo riesgo selectivo basado en éxito con el área bajo la curva de riesgo-cobertura promedio ponderada, superando a las líneas base de entropía, conformales y heurísticas, mientras se mantiene competitiva bajo evaluación selectiva basada en SPL.

Configuración de la Tarea y Métricas de Navegación Estándar

Un episodio se considera exitoso si el agente alcanza el objetivo dentro de un umbral de distancia epsilon, denotado por indicador de éxito. Además de la Tasa de Éxito, reportamos el Éxito Ponderado por Longitud de Trayectoria (SPL).

Para cada episodio i, un estimador de incertidumbre produce una puntuación escalar u_i, donde valores más bajos indican mayor confianza. La puntuación puede originarse de estadísticas de estado interno, como covarianza posterior o energía de innovación, señales internas del modelo, incluyendo entropía de atención o dispersión de creencias, o medidas conductuales posteriores como entropía de acciones, inestabilidad del plan, tasas de acciones inválidas o inconformidad conforme.

Esta abstracción permite que estimadores de incertidumbre heterogéneos sean evaluados dentro de un marco común mientras se aísla la calidad de su ordenamiento a nivel de episodio. En particular, la evaluación SRCN introducida posteriormente depende solo del orden inducido por u_i mediante umbralización.

Estimadores de Incertidumbre de Referencia

Comparamos con siete líneas base de incertidumbre representativas que abarcan señales conformales, basadas en entropía, basadas en trayectoria y heurísticas. Cada línea base produce una puntuación a nivel de episodio u_i evaluada bajo el protocolo SRCN.

Entropía Predictiva. Entropía de Shannon normalizada del histograma de acciones del episodio, H, que mide la dispersión en el uso de acciones.

Autoconsistencia. La inestabilidad del plan se mide como 1 menos la similitud media de Jaccard, donde la similitud de Jaccard es la similitud media de Jaccard entre planes ejecutables consecutivos extraídos del razonamiento del VLM.

Tasa de acciones inválidas. Fracción de pasos donde la acción ejecutada es rechazada por el entorno.

Aleatorio. Puntuaciones de incertidumbre aleatorias Uniforme(0,1) como límite inferior.

Protocolo Experimental y Resultados

La Tabla I presenta el rendimiento de navegación de referencia en tres backbones de LLM: GPT-4o, GPT-5-mini y Gemini-1.5-Flash. Para GPT-4o, las tasas de éxito superan el 53% en cuatro divisiones, pero caen bruscamente al 16.7% en long_horizon, donde las cadenas de ejecución largas aumentan los errores compuestos. Usando GPT-5-mini, el éxito supera el 65% en cuatro divisiones, pero la tasa de éxito para long_horizon no mejora. La degradación resultante tanto en la Tasa de Éxito como en SPL convierte a esta división en una prueba exigente para el ordenamiento de incertidumbre a nivel de trayectoria.

Backbone LLM	Base SR	Sentido Común SR	Instrucción Compleja SR	Horizonte Largo SR	SR Promedio	SPL Promedio
GPT-4o	53.4%	56.7%	56.7%	16.7%	48.3%	0.33
GPT-5-mini	65.6%	68.9%	65.6%	18.9%	56.1%	0.40
Gemini-1.5-Flash	50.0%	47.8%	38.9%	14.4%	38.3%	0.25

Curvas de Riesgo-Cobertura y Gráficos de Diagnóstico

Curvas de riesgo-cobertura que muestran la tasa de éxito en función de la cobertura para diferentes estimadores de incertidumbre en la división base de navegación

La Figura 4 muestra curvas de riesgo-cobertura bajo pérdida basada en SPL, que penaliza las trayectorias ineficientes además de los fallos directos. La incertidumbre consistente con la trayectoria mantiene un riesgo selectivo bajo en todos los niveles de cobertura, indicando sensibilidad a la degradación gradual en la eficiencia de navegación en lugar de solo al fallo terminal. Este comportamiento es particularmente relevante para la navegación robótica, donde deambular ineficiente, movimiento oscilatorio o retrocesos repetidos a menudo preceden al fallo y consumen tiempo de ejecución o energía limitados.

Preguntas Frecuentes

¿Qué hace que GroundControl sea diferente de los métodos de incertidumbre existentes para navegación? GroundControl se centra en la consistencia a nivel de trayectoria de las dinámicas de distancia al objetivo en lugar de señales instantáneas a nivel de acción, lo que le permite detectar desviaciones sistemáticas como oscilación o estancamiento que las medidas de confianza paso a paso pasan por alto.

¿Cómo evalúa el protocolo SRCN la calidad de la incertidumbre independientemente de la política de navegación? SRCN utiliza curvas de riesgo-cobertura y métricas resumen (AURC, exceso-AURC) para medir cómo de efectivamente las puntuaciones de incertidumbre ordenan los episodios por fallo, sin modificar la política de navegación subyacente.

¿Qué líneas base supera GroundControl en los experimentos? GroundControl logra un ordenamiento casi óptimo bajo riesgo selectivo basado en éxito, superando a la entropía predictiva, autoconsistencia, tasa de acciones inválidas, líneas base aleatorias y métodos conformales en las cinco divisiones de EB-Navigation.

¿Por qué la división long_horizon plantea un desafío particular para la estimación de incertidumbre? La división long_horizon tiene tasas de éxito marcadamente más bajas (16.7% para GPT-4o, 18.9% para GPT-5-mini) debido a errores compuestos en cadenas de ejecución largas, lo que la convierte en una prueba exigente para el ordenamiento de incertidumbre a nivel de trayectoria.