La IA de MIT que ve a través de paredes resuelve el mayor problema de percepción de los robots de almacén (2026)

Los investigadores del MIT utilizaron modelos de IA generativa especialmente entrenados para crear un sistema que puede completar la forma de objetos 3D ocultos. Crédito: Cortesía de los investigadores.

Los robots que operan en almacenes y hogares inteligentes tienen un punto ciego fundamental: cualquier cosa bloqueada de sus cámaras simplemente no existe para ellos. Investigadores del MIT han empleado IA generativa para solucionar eso, utilizando señales inalámbricas de ondas milimétricas y modelos de IA especialmente entrenados para reconstruir objetos ocultos y habitaciones enteras con una precisión casi un 20% mayor que métodos anteriores, sin una sola cámara.

Por qué la visión robótica basada en cámaras tiene una debilidad estructural
Cómo Wave-Former reconstruye objetos ocultos a través de paredes
RISE: Mapeando habitaciones enteras desde un solo radar
El problema de los datos de entrenamiento — y cómo MIT lo resolvió
Qué significa esto para la robótica de almacenes e industria
Preguntas frecuentes

Por qué la visión robótica basada en cámaras tiene una debilidad estructural

La percepción robótica que depende de cámaras falla en el momento en que un objeto sale de la línea de visión — detrás de empaques, bajo escombros, o al doblar una esquina. Esto no es un caso excepcional; es una realidad operativa diaria en almacenes, centros logísticos y entornos domésticos donde los robots necesitan localizar, identificar y agarrar objetos que no pueden ver directamente.

Las soluciones actuales — múltiples cámaras, luz estructurada, LiDAR — comparten la misma limitación: requieren una trayectoria óptica despejada. En cuanto el cartón, el yeso, el plástico o incluso una tela densa entran en escena, el robot queda efectivamente ciego. Esta limitación provoca errores costosos en operaciones de cumplimiento, incluyendo artículos empaquetados mal identificados y agarres fallidos que detienen las líneas de producción.

El grupo Signal Kinetics del MIT, liderado por el profesor asociado Fadel Adib, ha pasado más de una década construyendo alternativas utilizando señales de radar de ondas milimétricas (mmWave) — la misma banda de frecuencia utilizada en el Wi-Fi moderno — que atraviesan obstrucciones comunes y se reflejan en objetos ocultos. El desafío, hasta ahora, era que esas reflexiones eran demasiado incompletas para ser útiles en manipulaciones precisas.

Cómo Wave-Former reconstruye objetos ocultos a través de paredes

Wave-Former, el nuevo sistema del MIT, combina radar mmWave con un modelo de IA generativa para reconstruir la forma 3D completa de objetos ocultos detrás de obstrucciones — logrando una mejora de precisión cercana al 20% sobre los métodos anteriores más avanzados en aproximadamente 70 objetos cotidianos, incluyendo latas, cajas, utensilios y frutas.

El problema físico central es la especularidad: las señales mmWave se reflejan en las superficies en una sola dirección, como la luz en un espejo. El sensor de radar solo captura las reflexiones dirigidas de vuelta a él, lo que significa que la superficie superior de un objeto oculto es parcialmente visible mientras que sus lados y parte inferior son efectivamente invisibles. Sistemas anteriores intentaban interpretar estas nubes de puntos incompletas usando solo reglas basadas en física — un enfoque fundamentalmente limitado.

El proceso de Wave-Former funciona en tres etapas. Primero, construye una reconstrucción parcial del objeto oculto a partir de las reflexiones mmWave crudas. Segundo, alimenta esa forma parcial a un modelo de IA generativa entrenado para predecir completaciones plausibles. Tercero, refina iterativamente la superficie hasta converger en una reconstrucción 3D completa. El resultado: los robots no solo pueden detectar un objeto oculto, sino entender su geometría lo suficiente como para planificar un agarre confiable.

Según la cobertura de Robohub de la investigación, el sistema fue validado en objetos ocultos detrás o debajo de cartón, madera, yeso, plástico y tela — los mismos materiales presentes en entornos reales de almacenes y logística.

RISE: Mapeando habitaciones enteras desde un solo radar

El segundo sistema del MIT, RISE (Radar-based Indoor Scene Understanding), reconstruye diseños completos de habitaciones — incluyendo la disposición de muebles — utilizando reflexiones de un solo radar mmWave estacionario. Logra aproximadamente el doble de precisión espacial que las técnicas existentes y no requiere una plataforma móvil de sensores.

La mayoría de los enfoques actuales para la reconstrucción inalámbrica de escenas requieren un radar montado en un robot en movimiento para barrer el entorno — una limitación operativa significativa. RISE adopta un enfoque diferente: explota las reflexiones multitrayecto generadas por humanos que se mueven naturalmente por una habitación.

Cuando una persona se mueve, las señales mmWave rebotan en ella, y luego se reflejan nuevamente en paredes y muebles antes de regresar al radar. Estos ecos secundarios — típicamente descartados como ruido bajo la etiqueta de "señales fantasma" — en realidad codifican información espacial sobre la disposición de la habitación. A medida que la persona se mueve, las señales fantasma se desplazan, y sus posiciones cambiantes revelan la geometría de las superficies circundantes.

El sistema RISE reconstruye escenas interiores completas aprovechando las reflexiones de señales inalámbricas en humanos que se mueven en una habitación El equipo también construyó un sistema ampliado que reconstruye completamente escenas interiores aprovechando las reflexiones de señales inalámbricas en humanos que se mueven en una habitación. Crédito: Cortesía de los investigadores.

RISE fue validado en más de 100 trayectorias humanas capturadas por un solo radar estacionario. La implicación para la privacidad también es notable: a diferencia de los sistemas de cámaras, el radar mmWave no captura imágenes visuales de las personas, lo que lo hace desplegable en entornos donde las cámaras enfrentan barreras regulatorias o de consentimiento.

El problema de los datos de entrenamiento — y cómo MIT lo resolvió

El obstáculo fundamental para cualquier modelo de IA en este espacio es la escasez de datos: no hay un conjunto de datos mmWave lo suficientemente grande como para entrenar un modelo generativo desde cero. La solución del MIT fue simular la física mmWave sobre conjuntos de datos de visión por computadora existentes a gran escala — esencialmente enseñando a la IA el lenguaje del radar sin necesidad de datos de entrenamiento específicos de radar.

Entrenar grandes modelos generativos como GPT o Claude requiere conjuntos de datos con millones o miles de millones de ejemplos. Los conjuntos de datos de investigación mmWave son órdenes de magnitud más pequeños. Recopilar suficientes datos de radar del mundo real habría llevado, como explica Maisy Lam, asistente de investigación del MIT, "años".

La solución del equipo fue la adaptación sintética: tomaron grandes conjuntos de datos de visión por computadora existentes y les impusieron computacionalmente las propiedades físicas de las reflexiones mmWave — especularidad, características de ruido, geometría de la señal — sobre los datos de imagen. Esto creó un conjunto de entrenamiento sintético pero físicamente preciso del que el modelo generativo pudo aprender.

Este enfoque representa un patrón más amplio que está surgiendo en la investigación de IA Física: utilizar simulación informada por física para impulsar el entrenamiento de IA donde los datos del mundo real son escasos o costosos de recopilar. El mismo principio subyace a gran parte del progreso en el aprendizaje de manipulación robótica, donde la transferencia de simulación a realidad se ha convertido en un paradigma dominante.

Sistema	Tarea	Fuente de señal	Mejora de precisión	Configuración del sensor
Wave-Former	Reconstrucción 3D de objetos ocultos	Reflexiones mmWave en objetos	~20% sobre el estado del arte	Radar móvil o fijo
RISE	Reconstrucción de escenas completas de habitaciones	Reflexiones mmWave en humanos en movimiento	~2× precisión sobre el estado del arte	Radar estacionario único

Qué significa esto para la robótica de almacenes e industria

Para los compradores e ingenieros de robótica, estos dos sistemas abordan problemas operativos diferentes pero igualmente apremiantes: verificar artículos empaquetados en contenedores sellados y permitir que los robots comprendan entornos dinámicos sin cobertura completa de sensores.

Verificación de cumplimiento y paquetes

Actualmente, los robots de almacén no pueden confirmar qué hay dentro de una caja sellada sin abrirla. La capacidad de Wave-Former para reconstruir la geometría 3D de objetos a través de cartón y plástico aborda directamente la verificación previa al envío, un punto crítico en el cumplimiento del comercio electrónico, donde las tasas de devolución por pedidos mal empaquetados generan costos sustanciales. Un robot equipado con percepción mmWave podría verificar la presencia y geometría aproximada del artículo antes de sellar la caja, sin ralentizar la línea.

Despliegue inteligente para cobots y AMR

La capacidad de mapeo de habitaciones con un solo radar de RISE tiene implicaciones inmediatas para los robots móviles autónomos (AMR) y cobots desplegados en espacios compartidos con humanos. Los enfoques actuales de seguimiento humano requieren una densa cobertura de cámaras (con las preocupaciones de privacidad asociadas) o sensores montados en el propio robot en movimiento. Un radar fijo que construye un modelo espacial en vivo de la habitación — incluyendo ubicaciones humanas — a partir del análisis de señales fantasma podría permitir una operación de cobot más segura y receptiva en entornos dinámicos.

Para los equipos que evalúan robots para estas aplicaciones, vale la pena explorar robots industriales usados y cobots actualmente disponibles en Botmarket mientras se sigue el progreso de sistemas de percepción como Wave-Former hacia la integración comercial.

Cronograma de despliegue

Ambos sistemas están en etapa de investigación, con resultados que se presentarán en la Conferencia IEEE sobre Visión por Computadora y Reconocimiento de Patrones. La investigación cuenta con el apoyo de NSF, el MIT Media Lab y Amazon — este último es una señal significativa de interés comercial. El próximo objetivo declarado del equipo es construir modelos fundacionales para señales inalámbricas, análogos a GPT o Gemini para el lenguaje, lo que representaría un cambio de nivel en la generalización de este enfoque a través de entornos y tipos de objetos.

Preguntas frecuentes

¿Qué es Wave-Former y cómo funciona?

Wave-Former es un sistema desarrollado por el MIT que utiliza señales de radar de ondas milimétricas (mmWave) para reconstruir la forma 3D de objetos ocultos detrás de obstrucciones como cartón, yeso y plástico. Construye una reconstrucción parcial a partir de reflexiones de radar, luego utiliza un modelo de IA generativa para completar la geometría faltante. En pruebas con aproximadamente 70 objetos cotidianos, logró casi un 20% de mejora en precisión sobre los métodos anteriores más avanzados.

¿Cómo reconstruye RISE habitaciones sin cámaras?

RISE utiliza un solo radar mmWave estacionario y explota las "señales fantasma" — reflexiones secundarias que rebotan en humanos que se mueven por una habitación y luego en muebles y paredes circundantes. Al rastrear cómo cambian estas reflexiones multitrayecto a medida que la persona se mueve, un modelo de IA generativa infiere la disposición espacial de toda la habitación. RISE demostró aproximadamente el doble de precisión espacial que las técnicas existentes de reconstrucción inalámbrica de escenas en más de 100 trayectorias de prueba.

¿Qué obstrucciones pueden penetrar las señales mmWave?

Las señales de ondas milimétricas — la misma gama de frecuencias utilizada en Wi-Fi — atraviesan materiales no metálicos comunes, incluyendo cartón, madera, yeso, plástico y tela. No penetran el metal de manera efectiva. Esto las hace adecuadas para entornos de almacén donde las mercancías están empaquetadas en cartón y plástico, pero menos aplicables en recintos industriales fuertemente metálicos.

¿Esta tecnología preserva la privacidad mejor que las cámaras?

Sí. El radar mmWave no captura imágenes visuales de las personas en el entorno — solo detecta reflexiones de señales. La capacidad de mapeo de habitaciones de RISE utiliza el movimiento humano como fuente de señal sin grabar ningún dato visual identificable, lo que le da una ventaja significativa sobre el mapeo espacial basado en cámaras en implementaciones sensibles a la privacidad, como hospitales, hogares o lugares de trabajo regulados.

¿Cuándo estará disponible esta tecnología en robots comerciales?

Tanto Wave-Former como RISE están actualmente en etapa de investigación, con artículos que se presentarán en CVPR. Amazon se encuentra entre los socios financiadores, lo que sugiere un interés comercial activo. El equipo del MIT ha indicado que la construcción de modelos fundacionales de señales inalámbricas es la próxima prioridad de desarrollo. La integración comercial en sistemas de almacén o cobots probablemente esté a años de distancia, pero la trayectoria hacia hardware desplegable es clara.

Esta investigación representa uno de los avances más prácticamente fundamentados en la percepción robótica del último año — no una mejora marginal en benchmarks, sino un cambio arquitectónico genuino en cómo los robots pueden modelar el mundo que los rodea. La IA generativa ya no es solo una herramienta de lenguaje o imagen; se está convirtiendo en el motor de inferencia que permite a los sistemas físicos razonar sobre lo que no pueden observar directamente.

La IA de MIT que ve a través de paredes resuelve el mayor problema de percepción de los robots de almacén