LIBERO-Safety: un benchmark que pone a prueba la seguridad física y semántica de los robots visión-lenguaje-acción (2026)

Investigadores presentaron LIBERO-Safety, un benchmark exhaustivo que evalúa sistemáticamente cómo los modelos de visión-lenguaje-acción (VLA) manejan peligros físicos y razonamiento semántico de seguridad en 40 tareas distintas. Al generar 19,664 demostraciones libres de colisiones y probar ocho modelos VLA de última generación, el estudio revela una tensión crítica entre generalización y seguridad que ha sido ignorada en gran medida en benchmarks anteriores.

Tabla de contenidos

Lo que construyeron los investigadores
Resultados clave
Cómo funciona
Por qué esto es importante para la robótica
Limitaciones y preguntas abiertas
Preguntas frecuentes
Conclusión

Lo que construyeron los investigadores

LIBERO-Safety no es solo otro benchmark de robótica: es el primer marco de evaluación de seguridad dedicado exclusivamente a modelos VLA que cubre tanto peligros físicos (desorden, proximidad humana, obstáculos móviles) como peligros semánticos (entender comandos como "pon el cuchillo cerca de la persona" vs. "pon el cuchillo lejos de la persona"). El equipo diseñó un plan de estudios de seguridad de cinco dimensiones que desacopla estos dos aspectos:

Seguridad física: desorden espacial estático, conciencia espacial en la superficie, interacción humano-robot y conciencia mano-objeto en toda la escena.
Razonamiento semántico: tareas que requieren comprender el contexto, como "evita colocar objetos frágiles cerca del borde".

Para generar datos de entrenamiento a escala, construyeron un pipeline guiado por poses clave que combina anotación humana dispersa (definiendo poses críticas) con un planificador de movimiento basado en optimización (CuRobo). Este enfoque produce grandes volúmenes de trayectorias cinemáticamente factibles y libres de colisiones sin el cuello de botella de la teleoperación humana completa. El conjunto de datos final contiene 19,664 demostraciones revisadas por humanos en 40 tareas, con una fuerte aleatorización visual y física para forzar a los modelos a aprender habilidades de manipulación robustas y conscientes de la seguridad.

Diagrama del pipeline de generación de datos guiado por poses clave con entrada humana y planificación de movimiento

Resultados clave

Después de ajustar y evaluar ocho modelos VLA representativos, el estudio reveló varios hallazgos sorprendentes:

La alta diversidad en el entrenamiento ayuda a la seguridad, pero perjudica el éxito de la tarea. Los modelos entrenados en escenas diversas y aleatorizadas produjeron trayectorias más seguras (menos colisiones) pero tasas de finalización de tareas más bajas, porque la diversidad los expuso a casos límite más difíciles.
La seguridad semántica es el eslabón más débil. Todos los modelos tuvieron dificultades con tareas que requieren una comprensión matizada (por ejemplo, "coloca la taza en el posavasos, no en el paño"). El mejor modelo VLA logró solo alrededor del 60% de éxito en tareas de razonamiento semántico, en comparación con más del 80% en tareas simples de seguridad física.
Los modos de fallo se dividen claramente. Los fallos en las tareas rara vez se debieron a colisiones físicas. En cambio, provinieron de síntesis de trayectoria subóptima (el robot tomó un camino largo e ineficiente que evitó colisiones pero no alcanzó el objetivo) y desalineación semántica de grano fino (el robot malinterpretó instrucciones ambiguas o dependientes del contexto).

Estos resultados confirman que los modelos VLA actuales carecen de una comprensión conjunta robusta de las restricciones físicas y el significado del lenguaje: pueden evitar un obstáculo o seguir una instrucción, pero no siempre ambas cosas.

Cómo funciona

La innovación central de LIBERO-Safety es el Lenguaje Unificado de Definición de Comportamiento de Dominio (UBDDL), que permite a los investigadores generar procedimentalmente tareas críticas para la seguridad con parámetros controlables. UBDDL extiende el BDDL original añadiendo restricciones de seguridad explícitas y estocasticidad ambiental.

El marco de evaluación define tres niveles de dificultad:

Nivel	Descripción	Ejemplo
L0	Seguridad física básica con objetos estáticos	Coloca la taza lejos del borde
L1	Peligros físicos moderados + señales semánticas simples	Evita el obstáculo móvil mientras recoges la caja
L2	Peligros físicos fuera de distribución + razonamiento semántico complejo	"Pon el cuchillo cerca de la persona" – el modelo debe inferir el contexto

Los datos de entrenamiento se generaron solo para tareas de seguridad física L0 y L1 (excluyendo por completo el razonamiento semántico) para crear una evaluación zero-shot de habilidades cognitivas. Las tareas L2 se reservaron completamente para probar la generalización.

Durante la generación de datos, un operador especifica poses clave (por ejemplo, orientación del gripper al agarrar, puntos de paso para evitar obstáculos). CuRobo completa el movimiento entre las poses clave usando optimización, asegurando factibilidad cinemática y ausencia de colisiones. Luego, el pipeline aplica una aleatorización agresiva del dominio: texturas aleatorias, iluminación, puntos de vista de la cámara, poses de objetos e incluso posiciones iniciales del robot.

Ejemplo de aleatorización de dominio en diferentes configuraciones visuales y físicas en el benchmark

Por qué esto es importante para la robótica

LIBERO-Safety aborda directamente un punto ciego en la carrera hacia robots de propósito general. A medida que los modelos VLA impulsan cada vez más robots humanoides y robots de almacén, los fallos de seguridad en entornos dinámicos podrían causar daños o lesiones. El benchmark proporciona una forma estandarizada de certificar que un robot puede manejar tanto peligros físicos como instrucciones humanas ambiguas antes del despliegue.

Para los gerentes de operaciones que evalúan cobots usados en venta o robots industriales usados, LIBERO-Safety ofrece una plantilla de cómo evaluar el razonamiento de seguridad de un robot, no solo su precisión de pick-and-place. El hallazgo de que la seguridad semántica es el mayor cuello de botella sugiere que el entrenamiento futuro de VLA debe integrar la comprensión del lenguaje natural mucho más estrechamente con la planificación de movimiento de bajo nivel.

El estudio también destaca una compensación práctica: entrenar con datos altamente aleatorizados mejora la seguridad pero reduce el éxito de la tarea. Los compradores de robots deberían buscar modelos ajustados en escenarios de seguridad específicos del dominio en lugar de depender solo del preentrenamiento de propósito general.

Limitaciones y preguntas abiertas

LIBERO-Safety es un benchmark simulado: la seguridad en el mundo real introduce desafíos adicionales como ruido de sensores, desgaste físico y comportamiento humano impredecible. El conjunto de datos también excluye el razonamiento semántico del entrenamiento, lo que significa que los modelos nunca fueron enseñados explícitamente a manejar señales de seguridad basadas en lenguaje. Esto convierte los resultados de razonamiento semántico en una prueba de capacidad inherente, pero no un reflejo de lo que se puede lograr con un entrenamiento adecuado.

Otra pregunta abierta es si el pipeline guiado por poses clave cubre adecuadamente todos los escenarios relevantes para la seguridad. Las 40 tareas actuales son diversas pero aún limitadas en comparación con las infinitas posibilidades en entornos reales. Finalmente, el benchmark aún no evalúa la coordinación multi-robot, que es crítica para despliegues en almacenes y fábricas.

Preguntas frecuentes

¿Qué es un modelo VLA? Un modelo de visión-lenguaje-acción toma una imagen y una instrucción de texto como entrada y genera directamente acciones del robot: combina comprensión visual, comprensión del lenguaje y control motor en una sola red neuronal.

¿En qué se diferencia LIBERO-Safety de benchmarks existentes como LIBERO? LIBERO se centró en la finalización de tareas y la generalización sin restricciones de seguridad específicas. LIBERO-Safety añade peligros físicos explícitos, escenarios de interacción humana y razonamiento semántico que requiere entender comportamientos seguros vs. inseguros.

¿Significan los resultados que los robots VLA actuales son inseguros? No exactamente: son generalmente seguros para tareas simples (bajas tasas de colisión) pero poco fiables cuando las instrucciones son ambiguas o hay proximidad humana. El benchmark expone la brecha entre "puede hacer la tarea" y "puede hacer la tarea de forma segura en contexto".

¿Puedo usar el conjunto de datos de LIBERO-Safety para entrenar mi propio robot? Sí, el conjunto de datos de 19,664 demostraciones está disponible públicamente y diseñado para ajustar modelos VLA. Sin embargo, las tareas L2 reservadas deben usarse solo para evaluación para mantener la integridad del benchmark.

Conclusión

LIBERO-Safety llena un vacío crítico al probar sistemáticamente cómo los modelos VLA equilibran la finalización de tareas con la seguridad física y semántica. Los hallazgos muestran que, si bien la diversidad en los datos de entrenamiento hace que las trayectorias sean más seguras, la comprensión del lenguaje sigue siendo el eslabón débil. La investigación futura en robótica debe cerrar esta brecha antes de que los robots de propósito general puedan operar de manera confiable junto a los humanos.