Nuevo algoritmo UBP2 usa la incertidumbre para aprender recompensas robóticas a partir de preferencias (2026)

Investigadores han desarrollado UBP2, un método de aprendizaje por refuerzo basado en preferencias que guía activamente la exploración equilibrando la recompensa esperada con la incertidumbre del modelo. Este enfoque permite a los robots aprender tareas de manipulación a partir de retroalimentación humana limitada de preferencias de manera más eficiente que los métodos existentes sin modelo y los basados en modelos no optimistas.

Tabla de Contenidos

Lo que construyeron los investigadores
Resultados clave
Cómo funciona
Por qué esto es importante para la robótica
Limitaciones y preguntas abiertas
Preguntas frecuentes

Lo que construyeron los investigadores

UBP2 (Planificación de Preferencias Balanceada por Incertidumbre) es un algoritmo de aprendizaje por refuerzo basado en modelos diseñado para aprender comportamientos robóticos a partir de comparaciones por pares de preferencias, en lugar de recompensas numéricas explícitas. El método aborda un cuello de botella crítico en el RL basado en preferencias: cómo recopilar los datos más informativos cuando el número de consultas que un humano puede responder es limitado.

La innovación central es una estrategia de exploración optimista que utiliza tres conjuntos de modelos profundos separados: uno para la dinámica (predicción de estados siguientes), otro para la función de recompensa (inferida a partir de preferencias) y otro para la función de valor. Durante la fase de retroalimentación, UBP2 planifica trayectorias utilizando una puntuación unificada que combina el retorno acumulado esperado con una bonificación de incertidumbre derivada de los tres conjuntos. Esto alienta al robot a visitar estados donde es incierto sobre la dinámica, la recompensa o el valor final, recopilando así los datos más útiles para el aprendizaje.

Una vez agotado el presupuesto de preferencias, el sistema cambia a una política aprendida estándar que ejecuta acciones rápidamente sin más planificación. UBP2 también incluye una estrategia de selección de consultas optimista: muestra a los entrenadores humanos pares de segmentos que tienen tanto una alta recompensa predicha como una alta incertidumbre en el modelo de recompensa, asegurando que cada consulta resuelva ambigüedades clave.

Pseudocódigo del algoritmo UBP2 mostrando el bucle de interacción con pasos de planificación y aprendizaje

Resultados clave

En un conjunto de cinco tareas de manipulación de Meta-World (incluyendo abrir puerta, presionar botón y ensamblaje) utilizando solo observaciones propioceptivas, UBP2 igualó o superó consistentemente las tasas de éxito de las líneas base de RL basadas en preferencias tanto sin modelo como basadas en modelos no optimistas, requiriendo menos interacciones con el entorno. El método logró un éxito en la tarea más temprano que PEBBLE (sin modelo) y MBP (basado en modelos no optimista) en las cinco tareas.

El análisis teórico establece cotas de arrepentimiento de horizonte finito que crecen sublinealmente en el número de episodios, con dependencia explícita de la ganancia máxima de información de los modelos de dinámica y recompensa aprendidos. Esto significa que la eficiencia de exploración de UBP2 es demostrablemente casi óptima bajo supuestos estándar de suavidad.

Cuando se extendió a observaciones visuales de alta dimensión (usando codificaciones DinoV2), UBP2 superó a la línea base basada en modelos no optimista tanto en las tareas de Walker Walk como de Cheetah Run, mientras igualó o superó a los métodos sin modelo en Walker Walk. En Cheetah Run, los métodos sin modelo siguieron siendo los mejores, lo que sugiere que los modelos de dinámica basados en visión siguen siendo un desafío.

Cómo funciona

UBP2 opera en dos fases: una fase de planificación con retroalimentación disponible y una fase de ejecución con retroalimentación agotada. Durante la primera fase, cada selección de acción implica resolver un problema de control predictivo de modelo de horizonte corto. El planificador evalúa secuencias de acción candidatas simulando trayectorias a través del modelo de dinámica aprendido y calculando una puntuación que es la suma de las recompensas predichas más una penalización por incertidumbre de los tres conjuntos:

Objetivo del Planificador = Recompensa Acumulada Predicha + α × (Incertidumbre de Dinámica + Incertidumbre de Recompensa + Incertidumbre de Valor)

La incertidumbre se mide como la varianza entre los miembros del conjunto. Al planificar de forma optimista—recompensando acciones que llevan a regiones de alta incertidumbre—UBP2 equilibra automáticamente la explotación (ir a estados de alta recompensa conocidos) con la exploración (recopilar datos en partes inciertas del espacio de estados).

Las consultas de preferencia se generan comparando pares de segmentos de trayectoria. En lugar de pares aleatorios, UBP2 selecciona pares que son tanto altos en recompensa predicha como altos en incertidumbre del modelo de recompensa. Esto asegura que cada consulta humana apunte a las comparaciones más informativas, acelerando el aprendizaje de la recompensa.

El modelo de dinámica utiliza un conjunto de redes neuronales probabilísticas, cada una prediciendo la distribución del siguiente estado. El modelo de recompensa es similar pero entrenado directamente en comparaciones de preferencia mediante una pérdida de Bradley-Terry. El modelo de valor es un conjunto de redes Q profundas aprendidas a partir de rollouts imaginados bajo la recompensa predicha.

Después de agotar el presupuesto de consultas, el componente de planificación se desactiva. El agente sigue entonces la función de valor aprendida de manera voraz, utilizando solo los modelos de recompensa y dinámica para guiar las acciones sin más planificación costosa.

Componente	Tipo de Modelo	Fuente de Incertidumbre	Señal de Entrenamiento
Dinámica	Conjunto profundo (probabilístico)	Varianza entre conjunto	Transiciones de estado reales
Recompensa	Conjunto profundo (probabilístico)	Varianza entre conjunto	Comparaciones de preferencia
Valor	Conjunto profundo (función Q)	Varianza entre conjunto	Rollouts bajo recompensa aprendida

Comparación de tasas de éxito entre tareas para UBP2 y líneas base

Por qué esto es importante para la robótica

El RL basado en preferencias es un ajuste natural para la robótica porque muchas tareas tienen funciones de recompensa difíciles de especificar. En lugar de diseñar una recompensa compleja—o requerir que los usuarios den puntuaciones numéricas—un entrenador puede simplemente decir "Prefiero la trayectoria de la izquierda". La selección de consultas impulsada por incertidumbre de UBP2 reduce el número de comparaciones necesarias, haciéndolo práctico para el despliegue en el mundo real.

La capacidad del método de cambiar de planificación a ejecución de política después de agotar las consultas también es práctica: durante el entrenamiento, el robot explora ampliamente; después del entrenamiento, ejecuta una política rápida y reactiva. Esta desvinculación podría adoptarse en almacenes o líneas de ensamblaje donde las demostraciones humanas iniciales son costosas pero la ejecución final debe ser rápida.

El uso de UBP2 de tres estimaciones de incertidumbre separadas es notable. La mayoría de los trabajos anteriores consideran la incertidumbre solo en la recompensa o solo en la dinámica; incluir las tres fuentes conduce a una exploración más dirigida. Para brazos robóticos aprendiendo tareas de pick-and-place o apertura de puertas, esto podría reducir a la mitad el número de consultas requeridas en comparación con los métodos de línea base actuales.

Explore robots relacionados en BotMarket: navegue por robots humanoides en BotMarket | cobots usados en venta | robots industriales usados

Limitaciones y preguntas abiertas

El análisis teórico asume que los modelos de dinámica y recompensa son procesos Gaussianos bien calibrados, pero en la práctica UBP2 usa conjuntos profundos. Aunque los conjuntos profundos a menudo producen estimaciones de incertidumbre confiables, no están tan fundamentados teóricamente como los GP. Los autores señalan que el error de aprendizaje de preferencias no está completamente caracterizado en la cota de arrepentimiento, lo que dificulta garantizar cuántas consultas son realmente necesarias.

En dominios visuales, el rendimiento de UBP2 quedó por detrás de los métodos sin modelo en la tarea de Cheetah Run, lo que sugiere que los modelos de dinámica aprendidos basados en visión siguen siendo un punto débil. El trabajo futuro puede necesitar incorporar mejores representaciones latentes o codificadores visuales preentrenados.

Preguntas frecuentes

¿Qué es exactamente el aprendizaje por refuerzo basado en preferencias? En lugar de dar al robot una señal de recompensa numérica, un humano compara dos clips de video cortos del comportamiento del robot e indica cuál es preferible. El algoritmo infiere una función de recompensa a partir de estas comparaciones.

¿Cómo usa UBP2 la incertidumbre para planificar mejor? UBP2 añade una bonificación de incertidumbre al retorno predicho durante la planificación. Esto alienta al robot a visitar estados donde es incierto sobre la dinámica, la recompensa o el valor, recopilando datos que más reducen la incertidumbre general.

¿Qué tipos de robots o tareas pueden aplicarse a UBP2? El método fue probado en tareas de manipulación simuladas como abrir puertas y presionar botones, y funciona tanto con sensores propioceptivos como con imágenes de cámara. Podría adaptarse a brazos robóticos reales, manipuladores móviles o cualquier tarea de control donde un humano pueda comparar dos comportamientos.

¿Cómo se compara UBP2 con métodos basados en preferencias más simples como PEBBLE? UBP2 logró consistentemente tasas de éxito más altas y requirió menos interacciones con el entorno en cinco tareas de Meta-World. Su planificación guiada por incertidumbre es la ventaja clave sobre las líneas base no optimistas como MBP y los métodos sin modelo como PEBBLE.

Conclusión

UBP2 introduce una forma fundamentada de combinar la incertidumbre de los modelos de dinámica, recompensa y valor en un único objetivo de planificación para el RL basado en preferencias. Al buscar activamente datos informativos durante la fase de retroalimentación y cambiar a ejecución rápida después, ofrece un camino práctico hacia el aprendizaje robótico eficiente en muestras a partir de preferencias humanas.