InSight: Cómo los robots aprenden nuevas habilidades sin ayuda humana (2026)

Enseñar a los robots nuevas habilidades de manipulación es costoso. Recopilar demostraciones humanas y ajustar una política requiere un esfuerzo humano considerable para cada nueva tarea. Los modelos visión-lenguaje-acción (VLA) han avanzado hacia la manipulación de propósito general, pero sus capacidades siguen limitadas por las habilidades presentes en sus datos de entrenamiento. Este proceso es análogo a cómo los humanos enfrentamos una situación novedosa: entendemos qué habilidades ya podemos realizar y, por lo tanto, reconocemos cuándo las habilidades actuales son insuficientes. Luego razonamos sobre qué nueva capacidad cerraría la brecha y aprendemos mediante práctica dirigida. La habilidad adquirida puede almacenarse como una capacidad reutilizable para tareas futuras, permitiendo así un aprendizaje continuo y permanente.

Proponemos InSight, un marco para la adquisición de habilidades en el mundo abierto mediante VLA dirigibles. Mostramos cómo un VLA puede hacerse dirigible a nivel de primitivas de manipulación componibles y luego extenderse de forma autónoma cuando una tarea novedosa requiere una primitiva faltante.

Segmentación de primitivas a partir de demostraciones

Un pipeline automático de segmentación de primitivas descompone las demostraciones teleoperadas en segmentos etiquetados sin anotación manual, permitiendo la dirigibilidad del VLA a nivel de primitivas. Las demostraciones se segmentan fuera de línea en tres etapas. Primero, el VLM descompone la instrucción de la tarea en una secuencia ordenada de primitivas. Segundo, el video submuestreado se procesa fotograma a fotograma y cada fotograma se asigna a una primitiva del plan, cotejando la imagen con un subtítulo de movimiento del efector final por fotograma que reporta el eje de traslación/rotación dominante, y luego se devuelven los fotogramas límite entre primitivas consecutivas. Tercero, cada límite se refina mediante un paso localizado que reconcilia el punto de cambio del efector final con el primer fotograma visualmente inequívoco. El resultado es un conjunto de segmentos contiguos etiquetados con primitivas, cada uno de los cuales se convierte en un episodio de entrenamiento.

Visualización de los límites de segmentación de demostraciones y etiquetado de primitivas

VLA con primitivas dirigibles

Definimos una habilidad como una capacidad objetivo descrita por una instrucción en lenguaje (por ejemplo, "destapar la botella y verter el contenido en el bol"). Un plan es la secuencia de primitivas que el planificador VLM genera para completar una habilidad.

Comparación del proceso de identificación y adquisición de brechas de primitivas

Adquisición de habilidades guiada por VLM

Dado un VLA dirigible entrenado en un conjunto base de primitivas, InSight expande autónomamente el conjunto de habilidades cuando se presenta una tarea novedosa que requiere primitivas faltantes. Primero, el VLM descompone la tarea en una secuencia de primitivas y la compara con el vocabulario de primitivas conocido. Las primitivas que no están en el vocabulario se marcan como brechas de primitivas. El planificador está restringido a devolver un solo movimiento de un eje por brecha de primitiva. Por lo tanto, las tareas que requieren múltiples movimientos distintos (por ejemplo, inclinar hacia adelante y luego inclinar hacia atrás) producen múltiples brechas de primitivas en lugar de una única primitiva compuesta.

Un bucle de adquisición de primitivas guiado por VLM identifica las primitivas faltantes para tareas novedosas, las ejecuta con parámetros derivados del VLM y reentrena el VLA en demostraciones generadas autónomamente para lograr nuevas habilidades.

Resultados de simulación: Volteo de bloques a partir de demostraciones de recoger y colocar

Evaluamos InSight en tareas de manipulación tanto en simulación como en el mundo real. En simulación, usamos un Franka Panda de 7 GDL en el entorno LIBERO para estudiar el volteo de bloques a partir de demostraciones de recoger y colocar. Se le pide al robot que voltee un bloque Lego de modo que la clavija quede hacia arriba, dadas solo demostraciones humanas de recoger y colocar el bloque. Recopilamos 150 demostraciones teleoperadas de recoger y colocar, donde el bloque está de lado. Segmentamos automáticamente estas demostraciones en más de 700 episodios de primitivas de siete tipos. La tarea de volteo requiere una primitiva de girar bloque que no está presente en las demostraciones de recoger y colocar, y el VLM la identifica como una brecha de primitiva.

Validación en hardware en múltiples tareas

En hardware, usamos un UFactory xArm de 6 GDL para evaluar el giro y vertido de botellas y comparar con una línea base de código como políticas de disparo cero, y luego componemos las primitivas de giro y vertido adquiridas individualmente junto con las habilidades base de recoger y colocar en una tarea de horizonte largo de girar y luego verter. Medimos si la política unificada retiene sus habilidades originales de recoger y colocar después de agregar nuevas primitivas. Finalmente, evaluamos si InSight se extiende a movimientos no prensiles y ricos en contacto adquiriendo una primitiva de barrer a partir de demostraciones de sacar.

Configuración de hardware para tareas de vertido y giro en el UFactory xArm

Resultados clave

Validamos InSight en cinco tareas en simulación y en hardware, incluyendo volteo de bloques, cierre de cajones, barrido, giro y vertido. El marco permite la adquisición autónoma de habilidades con cero demostraciones humanas de la habilidad objetivo, logrando hasta un 96% de éxito en tareas como el vertido y un 80% de éxito en una tarea compleja de horizonte largo con 14 primitivas, manteniendo al mismo tiempo el rendimiento completo en las habilidades base originales.

Conclusión, limitaciones y trabajo futuro

Presentamos InSight, un método para la adquisición autónoma de habilidades en VLAs mediante el descubrimiento y ejecución de brechas de primitivas guiadas por VLM. Al entrenar en primitivas segmentadas autónomamente, identificar brechas de primitivas mediante razonamiento VLM y generar datos de entrenamiento a través de control de bajo nivel guiado por VLM, InSight permite que los robots adquieran nuevas habilidades sin demostraciones humanas adicionales.

Preguntas frecuentes

¿Cómo identifica InSight qué primitivas faltan para una tarea novedosa? El VLM descompone la tarea en una secuencia de primitivas y compara cada primitiva con el vocabulario conocido. Cualquier primitiva que no esté ya en el vocabulario se marca como una brecha de primitiva que requiere adquisición.

¿Requiere InSight demostraciones humanas para la nueva habilidad que se está adquiriendo? No. InSight logra la adquisición de habilidades con cero disparos y cero demostraciones humanas de la habilidad objetivo, generando todos los datos de entrenamiento de forma autónoma mediante control de bajo nivel guiado por VLM.

¿Puede InSight agregar nuevas primitivas sin olvidar habilidades previamente aprendidas? Sí. Los experimentos muestran que la política unificada mantiene el rendimiento completo en las habilidades base originales después de agregar y entrenar nuevas primitivas.

¿Cuántos tipos de primitivas puede manejar InSight en una tarea compleja de horizonte largo? InSight logró un 80% de éxito en una tarea compleja de horizonte largo con 14 primitivas, demostrando escalabilidad a secuencias de manipulación extendidas.