Gill Pratt, arquitecto del DARPA Robotics Challenge y actual consejero delegado del Toyota Research Institute, sostiene que el avance en robots humanoides que llevábamos décadas esperando ya es una realidad. Y el catalizador no han sido motores más potentes ni articulaciones más resistentes, sino la inteligencia artificial. Concretamente, el salto desde comportamientos robóticos programados a mano hacia el aprendizaje por imitación y los modelos de política de difusión, que permiten a los robots aprender observando demostraciones en vez de seguir instrucciones codificadas.
Tabla de contenidos
- El problema cerebro versus cuerpo en robótica humanoide
- Por qué la IA del Sistema 1 no basta y qué viene después
- Cómo la política de difusión de TRI rompió el cuello de botella del aprendizaje
- El problema del hype: por qué los humanoides en fábricas planas no tienen sentido
- Qué significa esto para los compradores de robótica
- Preguntas frecuentes
El problema cerebro versus cuerpo en robótica humanoide
El hardware nunca fue el verdadero obstáculo. Desde hace más de una década existen mecanismos humanoides capaces de proezas físicas impresionantes: el Boston Dynamics Atlas se presentó en 2013, y los humanoides de investigación lo habían precedido por varios años. Lo que se quedó trágicamente rezagado fue el cerebro: el software, las arquitecturas de aprendizaje y los sistemas de razonamiento necesarios para que esos cuerpos resultaran realmente útiles.
Pratt lo expresó con claridad en una reciente entrevista para IEEE Spectrum: «Lo que ha cambiado ahora no es el cuerpo, sino el cerebro. En robótica siempre hemos tenido esta brecha: los mecanismos que construíamos eran extraordinariamente capaces, pero no contábamos con la forma de que la utilidad del robot estuviera a la altura de su potencial».
Esa brecha se está cerrando, no porque los actuadores se hayan abaratado —aunque lo han hecho—, sino porque la investigación en IA ha aportado una manera completamente nueva de programar comportamientos robóticos. En lugar de que los ingenieros escriban código explícito para cada tarea, los robots pueden ahora aprender observando a humanos que les muestran qué hacer. Este paradigma de aprendizaje por imitación, unido a los modelos de comportamiento grandes (LBM) entrenados simultáneamente en múltiples tareas, constituye el núcleo de lo que Pratt considera el momento decisivo actual.
El paralelismo con la conducción autónoma es revelador. El DARPA Grand Challenge de 2004 y el Urban Challenge de 2007 no dieron lugar directamente a vehículos autónomos comerciales, pero demostraron el concepto, atrajeron talento y marcaron la trayectoria. Pratt diseñó el DARPA Robotics Challenge de 2012-2015 con exactamente esa misma lógica aplicada a los humanoides. Una década después, cree que el efecto acumulativo de aquel trabajo fundacional, ahora impulsado por la IA moderna, está empezando a dar sus frutos.
Por qué la IA del Sistema 1 no basta y qué viene después
La IA actual —incluidos los grandes modelos de lenguaje que alimentan los cerebros robóticos más avanzados— opera casi por completo en lo que los psicólogos llaman pensamiento del Sistema 1: rápido, basado en patrones y de respuesta refleja. Ante este patrón de entrada, genera aquella acción de salida. Funciona sorprendentemente bien… hasta que deja de hacerlo.
Falta el pensamiento del Sistema 2: razonamiento lento y deliberado que construye modelos internos del mundo, imagina escenarios hipotéticos y planifica secuencias de acciones orientadas a objetivos. La analogía de Pratt es directa: intentar que una IA del Sistema 1 se comporte como si tuviera Sistema 2 «es como apretar un globo lleno de agua; lo aprietas por un lado y la presión sale por el otro». Arreglas un modo de fallo y aparece otro en otra parte. La mejora neta es marginal.
Esto refleja exactamente el debate que divide a la comunidad investigadora de IA. Un bando, el de los defensores del escalado, cree que las arquitecturas transformer actuales se pueden refinar hasta conseguir razonamiento general. El otro —encabezado por Yann LeCun, científico jefe de IA de Meta— sostiene que la predicción autorregresiva (adivinar el siguiente token a partir de los anteriores) es incapaz de razonamiento verdadero, por mucho que se escale. Pratt se alinea con LeCun: los robots necesitan modelos del mundo, no meros emparejadores de patrones más grandes.
La consecuencia práctica para los humanoides actuales es importante. Todas las demostraciones impresionantes que hemos visto en los últimos dos años —tareas de manipulación, quehaceres domésticos, pick-and-place en almacenes— se basan en políticas de difusión del Sistema 1. Estos robots reaccionan, no razonan. Fallan en casos novedosos porque nunca han imaginado el escenario; solo han visto ejemplos parecidos en los datos de entrenamiento.
Cómo la política de difusión de TRI rompió el cuello de botella del aprendizaje
Hace dos años, el Toyota Research Institute publicó su trabajo sobre política de difusión: un enfoque que toma el mecanismo generativo de los modelos de síntesis de imágenes y lo aplica a la generación de acciones robóticas. En vez de producir píxeles, el modelo genera comandos motores. Los resultados fueron tan llamativos que, como dice Pratt, «prácticamente todas las demostraciones robóticas que hemos visto utilizan alguna variante de política de difusión».
TRI llevó luego esta idea a los modelos de comportamiento grandes (LBM): un único modelo entrenado al mismo tiempo en muchas tareas distintas, en lugar de un modelo por tarea. El hallazgo clave fue la transferencia positiva: añadir nuevas tareas al conjunto de entrenamiento mejoraba el rendimiento en las tareas ya aprendidas y reducía la cantidad total de datos necesarios para alcanzar competencia. Esto ataca directamente el cuello de botella de datos que antes hacía inviable el aprendizaje robótico a escala comercial.
El desafío de los datos sigue siendo real. A diferencia de los LLM, entrenados con prácticamente todo el texto de internet, los robots necesitan datos de interacción física —demostraciones, trayectorias, lecturas de sensores— recogidos en el mundo real. Ese proceso es lento y costoso. Los LBM reducen la cantidad de datos por tarea, pero la pregunta de cuántos datos son «suficientes» para un despliegue fiable en el mundo real sigue sin respuesta clara.
La solución provisional de Pratt sigue la misma hoja de ruta que acabó haciendo viables los vehículos autónomos: autonomía supervisada. La mayor parte del tiempo el robot realiza las tareas de forma independiente mediante inferencia del Sistema 1. Cuando se enfrenta a una situación verdaderamente nueva —el equivalente a un coche mal aparcado bloqueando un robotaxi—, levanta la mano y pide ayuda a un operador humano remoto. El humano aporta la decisión del Sistema 2; el robot la ejecuta. Este modelo híbrido evita el problema aún no resuelto de los modelos del mundo mientras ofrece utilidad comercial real desde hoy.
El problema del hype: por qué los humanoides en fábricas planas no tienen sentido
No todo en el análisis de Pratt es optimista. Ofrece una crítica directa sobre hacia dónde se está dirigiendo actualmente la inversión en humanoides: los suelos de fábrica.
La forma humanoide existe por una razón fundamental: el mundo construido por humanos está optimizado para cuerpos humanos. Pomos de puertas, escaleras, interiores de vehículos, habitaciones de hospital… estos entornos recompensan la locomoción bípeda y la manipulación diestra. Las piernas superan claramente a las ruedas en espacios abarrotados, irregulares y llenos de obstáculos, porque un bípedo puede pasar por encima en lugar de rodearlos.
Pero las fábricas modernas son planas, sin obstáculos y diseñadas específicamente para la automatización. En esos entornos, las ruedas son mecánicamente más simples, baratas, eficientes energéticamente y fiables que las piernas. La prima humanoide —la complejidad añadida, el coste y el riesgo de fallo mecánico de las piernas— no aporta ninguna ventaja en un suelo de almacén diseñado para carretillas y AGV.
«Resulta muy extraño ver tanta atención puesta en robots con piernas para fábricas, que son entornos planos perfectamente adaptados a las ruedas», señaló Pratt sin rodeos.
Esto es relevante para los compradores que evalúan la actual oleada de productos humanoides. La prima por el factor de forma es real, y en muchos de los entornos que anuncian a bombo y platillo las empresas más ruidosas, no está justificada por las necesidades operativas reales. El propio enfoque de Pratt en TRI se centra en entornos donde los humanoides justifican su complejidad: cuidados de ancianos, asistencia doméstica y otros espacios humanos no estructurados donde la ventaja de la forma es genuina.
Qué significa esto para los compradores de robótica
La tesis de Pratt tiene implicaciones directas a la hora de comprar. El nivel de capacidad de IA de una plataforma humanoide importa ahora más que sus especificaciones mecánicas. Un robot con integración estándar de política de difusión y aprendizaje basado en LBM es categóricamente más capaz que otro que dependa de árboles de comportamiento codificados tradicionalmente, aunque ambos tengan especificaciones físicas parecidas sobre el papel.
Aquí tienes una comparación práctica de plataformas humanoides y cobots actuales según su nivel de capacidad de IA:
| Platform | AI Tier | Learning Method | Teleoperation Fallback | Best Use Environment |
|---|---|---|---|---|
| Boston Dynamics Spot (with AI add-ons) | Sistema 1+ | Política de difusión / clonación de comportamiento | Sí (operaciones remotas) | Inspección industrial, exteriores no estructurados |
| Figure 02 / 1X NEO | Sistema 1 | Aprendizaje por imitación, integración de LLM | Parcial | Manufactura estructurada (limitada) |
| Unitree H1 / G1 | Sistema 1 | Variantes de política de difusión | Limitado | Investigación, prueba de concepto |
| Agility Robotics Digit | Sistema 1 | Clonación de comportamiento | Sí (operaciones en almacén) | Almacenes planos — las ruedas son probablemente superiores |
| Traditional cobots (UR, Fanuc) | Pre-IA | Programático / teach pendant | N/A | Tareas industriales estructuradas y repetitivas |
Consejos prácticos para compradores:
- No compres el cuerpo, compra la pila de aprendizaje. Evalúa qué canal de datos de entrenamiento ofrece, con qué rapidez el robot adquiere nuevas tareas y si el fabricante soporta fallback de autonomía supervisada.
- Alinea el factor de forma con el entorno real. Los humanoides con piernas tienen sentido en espacios humanos no estructurados. En entornos planos y estructurados, considera primero cobots de segunda mano o plataformas con ruedas antes de pagar la prima humanoide.
- El foso de datos es real. Los fabricantes con más datos de demostración —especialmente TRI, Figure y 1X— tienen ventajas estructurales que se irán acumulando. Evalúa la estrategia de datos del proveedor, no solo el rendimiento de las demos actuales.
- La autonomía supervisada es la mejor práctica actual. Las plataformas que permiten fallback a operador remoto son más desplegables hoy que los sistemas completamente autónomos que fallarán ante casos límite.
Si quieres explorar toda la gama de plataformas disponibles, explora robots humanoides en Botmarket para comparar las opciones actuales según sus niveles de capacidad.
Preguntas frecuentes
¿Por qué son viables ahora los robots humanoides si no lo eran hace 10 años?
El hardware no ha cambiado de forma fundamental: los mecanismos bípedos capaces de tareas físicas impresionantes existían ya antes de la final del DARPA Robotics Challenge de 2015. Lo que cambió es la pila de aprendizaje de IA. Las políticas de difusión y los modelos de comportamiento grandes permiten ahora que los robots adquieran nuevas habilidades a partir de datos de demostración humana en lugar de instrucciones codificadas, reduciendo drásticamente la carga de ingeniería por tarea y mejorando el rendimiento en entornos no estructurados.
¿Qué es la política de difusión y por qué importa en robótica?
La política de difusión aplica el mecanismo generativo de la síntesis de imágenes por IA a la generación de acciones robóticas. En lugar de producir píxeles, el modelo genera secuencias de comandos motores. El trabajo del Toyota Research Institute publicado entre 2022 y 2023 demostró que este enfoque superaba a los métodos previos de aprendizaje por imitación en pruebas de manipulación, y desde entonces ha sido adoptado —en distintas formas— por prácticamente todos los grandes desarrolladores comerciales de humanoides.
¿Debería comprar un robot humanoide con piernas para mi almacén o fábrica?
En la mayoría de los casos, no. Gill Pratt señala explícitamente que los entornos de fábrica planos y estructurados están «perfectamente adaptados a las ruedas», y que la complejidad mecánica de la locomoción con piernas añade coste y riesgo de fallo sin ofrecer una ventaja operativa equivalente. Los cobots con ruedas o los manipuladores móviles sobre bases rodantes suelen ser más rentables y fiables para aplicaciones industriales estructuradas. Las piernas humanoides justifican su coste en entornos no estructurados —hogares, hospitales, exteriores— con escalones, obstáculos y elementos a escala humana.
¿Cuál es la diferencia entre IA del Sistema 1 y del Sistema 2 en robótica?
La IA del Sistema 1 (rápida, basada en patrones) es lo que hacen los robots actuales: mapear entradas sensoriales en acciones según los datos de entrenamiento. La del Sistema 2 (razonamiento lento y deliberado) implicaría construir modelos internos del mundo, planificar secuencias de acciones en varios pasos e imaginar escenarios novedosos antes de actuar. Los robots humanoides comerciales operan casi por completo en el Sistema 1. Ninguna plataforma comercial ha logrado un razonamiento robusto de Sistema 2, y este sigue siendo el gran desafío sin resolver del campo.
¿Qué significa la autonomía supervisada para el despliegue de robots?
La autonomía supervisada es un modelo operativo híbrido en el que el robot realiza la mayoría de las tareas de forma independiente pero escala a un operador humano remoto cuando se encuentra con situaciones fuera de su distribución de entrenamiento. Es el mismo modelo que usan los servicios comerciales de robotaxi cuando los vehículos se topan con situaciones límite en la carretera. Para los compradores significa que el despliegue con tecnología actual es viable, pero hay que tener en cuenta el coste de la infraestructura de operaciones remotas y el personal de supervisión.
¿La actual burbuja de inversión en humanoides producirá productos útiles?
La visión de Pratt es cautelosamente positiva: ha ocurrido algo genuinamente distinto, los avances en IA son reales y la inversión está acelerando el desarrollo de capacidades. El riesgo que identifica es la mala asignación de aplicaciones, en concreto el despliegue de factor de forma humanoide en entornos (fábricas planas) donde plataformas más simples rendirían mejor. Las inversiones con más probabilidades de generar valor duradero son las que se dirigen a entornos verdaderamente no estructurados —cuidados geriátricos, asistencia doméstica, respuesta a desastres— donde el factor humanoide ofrece una ventaja irreducible.
La brecha entre cerebro y cuerpo en la robótica humanoide se está cerrando, pero la distancia entre capacidad y despliegue adecuado se está ampliando a la misma velocidad. Las plataformas que se financian ahora definirán qué empresas controlarán la pila de IA encarnada durante la próxima década.
¿Qué pila de aprendizaje de IA de plataforma humanoide te parece más defendible, y la autonomía supervisada resuelve el problema de comercialización o simplemente lo retrasa?
Última actualización: 2025










Únete a la discusión
Is supervised autonomy a real commercialisation path for humanoids, or just a way to mask unsolved AI limitations?