Haz lo que yo hago: Convertir vídeos humanos cotidianos en datos para robots diestros (2026)

Haz lo que yo hago es un algoritmo de dos pasos que reconstruye y reorienta interacciones mano-objeto a partir de vídeos RGB monoculares hacia manos robóticas diestras multiarticuladas.

Nuestro proceso de reconstrucción mano-objeto supera el estado del arte en métricas relevantes y maneja vídeos diversos — ya sean egocéntricos o exocéntricos, desde clips de internet tomados en entornos reales hasta salidas de modelos generativos de vídeo.

Nuestro proceso de reorientación mejora las técnicas existentes de reorientación escalables y conscientes de la dinámica mediante la introducción de nuevos componentes que robustecen las trayectorias de referencia reconstruidas ruidosas.

Los datos robóticos resultantes son ejecutables en una mano y brazo robóticos diestros, completando el primer pipeline que puede ir desde un vídeo de internet hasta despliegues reales en manos diestras.

Método de Reconstrucción

El proceso de reconstrucción toma un vídeo RGB monocular como entrada y produce una trayectoria completa mano-objeto. Funciona en distintos puntos de vista de cámara y niveles de calidad de vídeo, desde grabaciones profesionales hasta clips casuales de smartphone.

Diagrama que muestra el pipeline de Haz lo que yo hago desde el vídeo de entrada hasta la ejecución robótica

Método de Reorientación

El paso de reorientación busca reproducir la trayectoria mano-objeto reconstruida en una mano robótica. Sin embargo, las morfologías humana y robótica difieren, y la información de contacto y las fuerzas están ausentes de la señal cinemática. Trabajos previos abordan esto con solucionadores cinemáticos o heurísticas robóticas, pero no garantizan plausibilidad física o pierden expresividad de propósito general.

Haz lo que yo hago realiza una reorientación consciente de la dinámica, que sigue la referencia mientras asegura realismo dentro de la simulación física. Basándose en el marco MPPI, el método utiliza optimización basada en muestreo con un kernel que se suaviza tanto a través de iteraciones como del horizonte de predicción, pasando de una exploración amplia a un refinamiento local.

Configuración Experimental

En todas las tareas se utiliza la mano Sharpa Wave de 22 grados de libertad. Los resultados de despliegue en el mundo real se demuestran en una configuración bimanual con manos Sharpa Wave y brazos UR3e, ambos comandados a 50 Hz.

Resultados de Reorientación

Sobre datos reconstruidos del mundo real, Haz lo que yo hago alcanza una tasa de éxito del 71%, mejorando significativamente respecto al 25% de la línea base. El principal diferenciador es el calentamiento, que descubre estados iniciales mucho más estables y naturales que el primer fotograma ruidoso, lo que lleva a un seguimiento exitoso en los pasos de tiempo siguientes. La perturbación mejora notablemente los resultados cualitativos (por ejemplo, agarres naturales) a pesar de afectar marginalmente las métricas cuantitativas, y la recompensa de transición fomenta agarres y colocaciones exitosas para trayectorias que de otro modo habrían fallado al contactar el objeto durante pasos de transición críticos.

La validación del método en OakInk2 también muestra una mejora consistente con cada componente, pasando de un 72% base hasta un 81%. Esto demuestra que el enfoque de reorientación, aunque diseñado para referencias reconstruidas imperfectas, produce ganancias efectivas incluso con trayectorias MoCap limpias y escala bien a más de 1000 tareas bimanuales en este benchmark.

Conclusión

Haz lo que yo hago proporciona un marco para reconstruir y reorientar vídeos humanos cotidianos hacia manos robóticas diestras. El método es efectivo en fuentes de vídeo egocéntricas, exocéntricas y en línea, mostrando un camino hacia el escalado de datos robóticos simplemente observando a los humanos.

Limitaciones. El enfoque asume objetos rígidos y predicciones de profundidad métrica semi-precisas a partir de RGB monocular, y puede fallar cuando alguna de estas suposiciones no se cumple. Las observaciones monoculares también sufren de ambigüedad en la distancia real mano-objeto, lo que dificulta distinguir el contacto físico de la mera oclusión visual. El método reconstruye solo la mano y un objeto, en lugar de la escena completa, y no puede razonar sobre restricciones ambientales como obstáculos o articulaciones. Finalmente, los simuladores físicos actuales modelan la dinámica del mundo real solo de forma aproximada, lo que establece un límite superior en el rendimiento alcanzable en el mundo real.

Preguntas Frecuentes

¿Qué tipos de vídeo soporta Haz lo que yo hago? El método maneja vídeos egocéntricos, exocéntricos y de internet tomados en entornos reales, así como salidas de modelos generativos de vídeo.

¿Cómo maneja la reorientación las diferencias entre manos humanas y robóticas? Utiliza reorientación consciente de la dinámica con optimización de muestreo estilo MPPI y componentes novedosos como calentamiento, perturbación y recompensas de transición para manejar referencias reconstruidas ruidosas.

¿Qué hardware se utilizó para la validación en el mundo real? Todos los experimentos utilizaron la mano Sharpa Wave de 22 grados de libertad con brazos UR3e en una configuración bimanual comandada a 50 Hz.

¿Cuáles son las principales limitaciones del enfoque actual? El método asume objetos rígidos, requiere profundidad métrica semi-precis a partir de RGB monocular, y no puede reconstruir escenas completas ni razonar sobre restricciones ambientales.