El humanoide LATENT de tenis lidera los hitos humanoideos de esta semana

El humanoide LATENT de tenis lidera los hitos humanoideos de esta semana

El humanoide LATENT aprende tenis a partir de datos humanos imperfectos —además de manos diestras que pelan manzanas, pruebas de campo del KAIST y percepción de puertas de vidrio— en el resumen semanal de IA Física.

12 min de lectura17 abr 2026
Takeshi Yamamoto
Takeshi Yamamoto

Un robot humanoide que aprende a jugar tenis competitivo a partir de datos de movimiento humano imperfectos se lleva el protagonismo en el resumen robótico de esta semana, y apunta a algo más profundo: los sistemas de IA Física ya están adquiriendo habilidades atléticas dinámicas sin necesidad de datos de referencia limpios. Desde manos diestras que pelan manzanas hasta el humanoide de KAIST probado en campo, el avance de la inteligencia encarnada se acelera a ojos vista.

Tabla de contenidos


¿Qué es LATENT y cómo aprende tenis a partir de datos humanos?

LATENT (Learns Athletic humanoid TEnnis skills from imperfect human motioN daTa) es un sistema que entrena a un robot humanoide para disputar rallies competitivos de tenis aprendiendo directamente de datos de movimiento humano ruidosos e imperfectos, sin requerir referencias cinemáticas limpias ni específicas del robot. El resultado es un humanoide capaz de seguir y devolver una pelota a alta velocidad en un partido real contra oponentes humanos.

El reto que resuelve LATENT es más complicado de lo que parece. El movimiento humano en tenis es veloz, extremadamente dinámico y muy contextual: un drive a 80 km/h exige una postura corporal completa coordinada, anticipación en el juego de pies y un timing de swing a escala de milisegundos. Capturar todo eso con la precisión necesaria para el aprendizaje por imitación robótico solía requerir costosos sistemas de captura de movimiento o datos cinemáticos humanos perfectos adaptados a la morfología del robot. LATENT evita por completo ese cuello de botella.

Según la página del proyecto LATENT, el sistema tolera datos de demostración humanos imperfectos y ruidosos, y aun así genera políticas estables y dinámicas en un humanoide de tamaño real. Esa es la gran lección de IA Física que conviene interiorizar: la fragilidad del aprendizaje por imitación ante la calidad de los datos se está erosionando de forma sistemática. A medida que se estrecha la brecha entre los datos humanos desordenados del mundo real y la señal útil para entrenar robots, se amplía enormemente el abanico de habilidades atléticas y diestras que pueden transferirse a humanoides.

Elegir el tenis como banco de pruebas no es casual. Exige percepción de alta velocidad (seguimiento de la trayectoria de la pelota), control reactivo de todo el cuerpo (desplazamientos, mecánica del swing, transferencia de peso) y uso de herramientas (la raqueta como efector extendido). Si un humanoide logra aprender eso desde datos imperfectos, tareas de manipulación industrial con dinámicas parecidas —recogida y colocación rápida, ensamblaje dinámico— se vuelven mucho más alcanzables. Lo atlético no es el fin; lo importante es la capacidad de generalización.

El robot pelador de manzanas de Sharpa y MoDE-VLA

Sharpa afirma ser la primera empresa robótica que demuestra un robot capaz de pelar una manzana con dos manos diestras de apariencia humana, una tarea bimanual de manipulación rica en contactos que supera con creces las capacidades de los grippers industriales convencionales. El sistema subyacente, MoDE-VLA (Mixture of Dexterous Experts — Vision-Language-Action), fusiona visión, lenguaje, fuerza y tacto mediante un equipo de «expertos» de IA especializados que estabilizan el control en espacios de acción de alta dimensionalidad.

Hay que ser honestos: se trata de una demostración controlada. Pelar una manzana es un reto muy poco estructurado: la forma de la fruta varía, la resistencia de la piel cambia y la rotación en la mano exige una coordinación continua de múltiples dedos que ni siquiera la teleoperación logra proporcionar fácilmente. La solución de Sharpa fue una arquitectura de autonomía compartida: en lugar de comandar cada dedo individualmente, un operador activa primitivas de habilidad ya aprendidas (como «rotar objeto») mediante teclado o pedal, mientras el robot se encarga de la coordinación de bajo nivel.

Esa decisión de diseño es clave. La teleoperación dedo a dedo en manos robóticas de alto grado de libertad resulta inviable para la recolección de datos a escala. Al elevar el nivel de entrada del operador a disparadores de habilidades, Sharpa hace viable el entrenamiento a gran escala mediante aprendizaje por refuerzo. El marco MoDE-VLA se ocupa luego de la coordinación real dentro de la mano, fusionando retroalimentación táctil y visual a través de su arquitectura de mezcla de expertos para mantener un contacto estable durante la manipulación continua.

Para quienes evalúan robots humanoides destinados a ensamblaje de precisión o manipulación de alimentos, esta arquitectura merece seguimiento. La manipulación bimanual rica en contactos ha sido uno de los vacíos de capacidad más difíciles de cerrar en robótica comercial. El enfoque de Sharpa ofrece un camino creíble para superarlo, aunque la distancia entre pelar una manzana en una mesa de demostración y pelar diez mil en una línea de producción sigue siendo considerable.

Otros hitos en humanoides y robots con patas esta semana

Varias demostraciones más del resumen de esta semana merecen atención como grupo:

SistemaOrganizaciónCapacidad claveMétodo de entrenamiento
KAIST Humanoid v0.7KAIST DRCD LabPruebas de campo + interacción humanaDeep RL + demostraciones humanas
UMV (Unmanned Mobile Vehicle)Robotics and AI InstituteConducción, saltos y volteretasNVIDIA Isaac Lab RL
LimX Dynamics OliLimX DynamicsDetección de puertas de vidrio + navegaciónVisión por computadora
Tesollo Finger-Tip ChangerTesollo / Hanyang UniversityCambio modular de puntas de dedoDiseño hardware colaborativo
KAIST Humanoid v0.7KAIST DRCD LabActuadores propios, locomoción en campoDeep RL

El KAIST Humanoid v0.7 destaca porque utiliza actuadores desarrollados en el propio laboratorio, una decisión que refleja la ambición de controlar toda la pila, desde el hardware hasta la política. La mayoría de plataformas académicas de humanoides dependen de actuadores comerciales; la integración vertical a nivel de articulaciones permite a los investigadores un control más preciso sobre el ancho de banda de par y la sintonía de compliancia, factores que inciden directamente en la estabilidad de la locomoción.

El UMV del Robotics and AI Institute fue mencionado durante la keynote de NVIDIA en el GTC como una empresa «AI Native», lo que indica que la transferencia sim-to-real de Isaac Lab está generando políticas de locomoción transferibles capaces de comportamientos como volteretas y saltos. Reducir la brecha sim-to-real sigue siendo uno de los problemas comercialmente más importantes de la robótica; cada transferencia exitosa disminuye la carga de recolección de datos para el entrenamiento de políticas.

La percepción de puertas de vidrio de LimX Dynamics es una noticia menor por sí sola, pero representa un hito relevante. Las superficies transparentes han derrotado históricamente a los sensores de profundidad estándar (lidar, luz estructurada) porque reflejan o transmiten el haz en lugar de devolver una señal útil. Resolverlo en la pila de navegación en tiempo real de un robot que camina elimina un obstáculo real de despliegue para robots con patas en edificios comerciales.

Manipulación, percepción y casos límite que vale la pena vigilar

Más allá de los humanoides, dos demostraciones de esta semana ilustran cómo los ingenieros robóticos resuelven problemas que no resultan evidentes hasta que uno está en la planta intentando que algo funcione de verdad.

El robot de Nomagic para manipular cajas de zapatos aborda un problema sorprendentemente específico y realmente difícil: las cajas de cartón con tapa no pueden agarrarse de forma fiable por la tapa porque la fuerza de agarre abre la caja en lugar de levantarla. Nomagic desarrolló hardware especializado para resolverlo, y su sistema ya está desplegado comercialmente: Zalando ha instalado hasta 50 robots Nomagic en sus operaciones logísticas. Esto no es una demo de laboratorio; es una limitación de producción que se está solucionando a escala en un almacén real.

El robot eólico de la Universidad de Cranfield, inspirado en los mecanismos de enlace de Strandbeest, ofrece un tipo de insight diferente. Diseñado para exploración de larga duración en entornos hostiles, funciona con energía eólica —sin baterías ni infraestructura de recarga—. Para aplicaciones de inspección y monitorización ambiental en lugares remotos, esa independencia energética importa más que la velocidad o la precisión.

Mientras tanto, el dron perching «tree-hugging» del BDML de Stanford demuestra agarre aéreo compliante mediante mecanismos de perching estructurados. Su dominio de aplicación es la monitorización ambiental, pero la capacidad subyacente —un robot volador que puede anclarse a superficies naturales irregulares y permanecer estacionario— tiene implicaciones directas para la inspección de infraestructuras (líneas eléctricas, pilones de puentes) sin el coste energético del vuelo estacionario.

Qué significan los vídeos de esta semana para la robótica humanoide

El conjunto de demostraciones de esta semana apunta a tres tendencias que convergen y que tanto compradores como ingenieros deberían seguir de cerca.

Aprender de datos imperfectos se está convirtiendo en la norma. Tanto LATENT como el v0.7 de KAIST usan explícitamente datos ruidosos o derivados de demostraciones. El cuello de botella de los datos limpios —que antes exigía costosos sistemas de mocap o pipelines especializados— está perdiendo fuerza. Esto acelera el calendario para enseñar tareas nuevas a los humanoides.

La destreza se aborda mediante arquitectura, no solo hardware. El enfoque MoDE-VLA de Sharpa fusiona múltiples modalidades sensoriales (visión, tacto, fuerza, lenguaje) usando submodelos especializados. Esto replica el patrón de mezcla de expertos de los grandes modelos de lenguaje, ahora aplicado a la manipulación física. Se trata de un cambio arquitectónico genuino que abandona las políticas de control monolíticas.

Los casos límite que bloquean el despliegue se resuelven uno a uno. Puertas de vidrio. Tapas de cajas de cartón. Puntas de dedo modulares. Ninguno de estos avances es tan glamuroso como un humanoide que juega al tenis, pero el despliegue comercial depende precisamente de estos casos límite. La velocidad con la que el campo genera soluciones específicas para modos de fallo concretos es, por sí misma, una señal de madurez.

Para quienes evalúan robots industriales de segunda mano junto a las nuevas plataformas humanoideas, la conclusión práctica es que las brechas de capacidad que parecían estructurales hace doce meses se están cerrando más rápido de lo que la mayoría de ciclos de compra asumen. Diseñen revisiones que tengan en cuenta estos cambios rápidos de capacidad, especialmente en manipulación y navegación autónoma.

Preguntas frecuentes

¿Qué es LATENT en robótica?

LATENT significa Learns Athletic humanoid TEnnis skills from imperfect human motioN daTa. Es un sistema desarrollado para entrenar a un robot humanoide de tamaño completo en rallies competitivos de tenis, aprendiendo de datos de captura de movimiento humano ruidosos e imperfectos, sin requerir referencias cinemáticas limpias específicas del robot ni demostraciones expertas por teleoperación.

¿Pueden los robots humanoides jugar al tenis contra humanos hoy?

El sistema LATENT muestra a un humanoide disputando rallies competitivos con oponentes humanos, siguiendo y devolviendo pelotas a alta velocidad. Se trata de una demostración de investigación, no de un producto comercial. La capacidad es significativa como banco de pruebas de IA Física, pero los humanoides comerciales con este nivel de control dinámico de todo el cuerpo siguen en fase de investigación o preproducción inicial a mediados de 2025.

¿Para qué se usa MoDE-VLA en robótica?

MoDE-VLA (Mixture of Dexterous Experts — Vision-Language-Action) es una arquitectura de control de IA desarrollada por Sharpa que fusiona visión, lenguaje, fuerza y datos táctiles mediante submodelos especializados para controlar manos robóticas de alto grado de libertad en tareas de manipulación rica en contactos, como la rotación en mano y el pelado de manzanas. Está diseñada para estabilizar el control en espacios de acción de alta dimensionalidad donde fallan las políticas monolíticas.

¿Por qué la detección de puertas de vidrio es un hito para los robots con patas?

Las superficies transparentes como el vidrio reflejan o transmiten las señales de los sensores de profundidad estándar (lidar, luz estructurada), lo que las hace invisibles o las confunde con espacio abierto. Que LimX Dynamics demuestre detección de puertas de vidrio en tiempo real dentro de la pila de navegación de un robot que camina elimina un obstáculo real de despliegue para robots con patas en oficinas y comercios, donde las puertas y divisiones de vidrio son habituales.

¿Cómo funciona la transferencia sim-to-real en el entrenamiento de robots humanoides?

La transferencia sim-to-real (de simulación a realidad) consiste en entrenar políticas de control de robots en simulaciones físicas —como NVIDIA Isaac Lab— y luego desplegarlas en hardware real. El desafío radica en que la física simulada nunca coincide perfectamente con la realidad; la «brecha sim-to-real» hace que las políticas se comporten de forma distinta en robots físicos. Técnicas para cerrar esta brecha incluyen la aleatorización de dominio, donde se varían parámetros de simulación para que las políticas sean robustas ante la variabilidad del mundo real.


El ritmo de progreso de la IA Física que se aprecia en una sola semana de demostraciones de investigación es llamativo, pero la distancia entre una demostración de laboratorio y un sistema listo para producción sigue siendo el gran desafío de la próxima fase de despliegue de humanoides.

¿Cuál de las demos de esta semana —habilidades de tenis, pelado de manzanas o navegación con detección de puertas de vidrio— crees que cierra la brecha de capacidad comercialmente más significativa?

Última actualización: 2025

Artículos relacionados

Únete a la discusión

Which demo closes the most commercially significant gap — tennis skills, apple peeling, or glass door navigation?

Más artículos

🍪 🍪 Preferencias de cookies

Usamos cookies para medir el rendimiento. Política de privacidad