L'IA de MIT qui voit à travers les murs résout le plus gros problème de perception des robots d'entrepôt (2026)

Les chercheurs du MIT ont utilisé des modèles d'IA générative spécialement entraînés pour créer un système capable de compléter la forme d'objets 3D cachés. Crédit : Gracieuseté des chercheurs.

Les robots qui opèrent dans les entrepôts et les maisons intelligentes ont un angle mort fondamental : tout ce qui est bloqué de leurs caméras n'existe tout simplement pas pour eux. Des chercheurs du MIT ont maintenant déployé l'IA générative pour résoudre ce problème, en utilisant des signaux sans fil millimétriques et des modèles d'IA spécialement entraînés pour reconstruire des objets cachés et des pièces entières avec près de 20 % de précision en plus que les méthodes précédentes — sans aucune caméra.

Pourquoi la vision robotique basée sur les caméras a-t-elle une faiblesse structurelle
Comment Wave-Former reconstruit des objets cachés à travers les murs
RISE : cartographier des pièces entières à partir d'un seul radar
Le problème des données d'entraînement — et comment MIT l'a résolu
Ce que cela signifie pour la robotique d'entrepôt et industrielle
Foire aux questions

Pourquoi la vision robotique basée sur les caméras a-t-elle une faiblesse structurelle

La perception robotique dépendante des caméras échoue dès qu'un objet sort de la ligne de vue — derrière un emballage, sous des débris ou autour d'un coin. Ce n'est pas un cas extrême ; c'est une réalité opérationnelle quotidienne dans les entrepôts, les centres logistiques et les environnements domestiques où les robots doivent localiser, identifier et saisir des objets qu'ils ne peuvent pas voir directement.

Les solutions de contournement existantes — caméras multiples, lumière structurée, LiDAR — partagent toutes la même contrainte : elles nécessitent un chemin optique dégagé. Dès que du carton, du placo, du plastique ou même un tissu dense entre en jeu, le robot est effectivement aveugle. Cette limitation entraîne des erreurs coûteuses dans les opérations de préparation de commandes, notamment des articles emballés mal identifiés et des prises échouées qui interrompent les lignes de production.

Le groupe Signal Kinetics du MIT, dirigé par le professeur associé Fadel Adib, a passé plus d'une décennie à développer des alternatives utilisant des signaux radar à ondes millimétriques (mmWave) — la même bande de fréquence utilisée dans le Wi-Fi moderne — qui traversent les obstructions courantes et se réfléchissent sur les objets cachés. Le défi, jusqu'à présent, était que ces réflexions étaient trop incomplètes pour être utiles à une manipulation précise.

Comment Wave-Former reconstruit des objets cachés à travers les murs

Wave-Former, le nouveau système du MIT, combine un radar mmWave avec un modèle d'IA générative pour reconstruire la forme 3D complète d'objets cachés derrière des obstructions — atteignant près de 20 % d'amélioration de la précision par rapport aux méthodes les plus avancées précédentes sur environ 70 objets du quotidien, notamment des canettes, des boîtes, des ustensiles et des fruits.

Le problème physique fondamental est la spécularité : les signaux mmWave se réfléchissent sur les surfaces dans une seule direction, comme la lumière sur un miroir. Le capteur radar ne capte que les réflexions dirigées vers lui, ce qui signifie que la surface supérieure d'un objet caché est partiellement visible tandis que ses côtés et sa face inférieure sont effectivement invisibles. Les systèmes précédents tentaient d'interpréter ces nuages de points incomplets en utilisant uniquement des règles basées sur la physique — une approche fondamentalement limitée.

Le pipeline de Wave-Former fonctionne en trois étapes. D'abord, il construit une reconstruction partielle de l'objet caché à partir des réflexions mmWave brutes. Ensuite, il alimente cette forme partielle à un modèle d'IA générative entraîné à prédire des complétions plausibles. Enfin, il affine itérativement la surface jusqu'à converger vers une reconstruction 3D complète. Le résultat : les robots peuvent non seulement détecter un objet caché, mais aussi comprendre sa géométrie suffisamment pour planifier une prise fiable.

Selon la couverture de Robohub sur cette recherche, le système a été validé sur des objets dissimulés derrière ou sous du carton, du bois, du placo, du plastique et du tissu — les matériaux exacts présents dans les environnements réels d'entrepôt et de logistique.

RISE : cartographier des pièces entières à partir d'un seul radar

Le deuxième système du MIT, RISE (Radar-based Indoor Scene Understanding), reconstruit les agencements complets de pièces — y compris le placement des meubles — en utilisant les réflexions d'un seul radar mmWave stationnaire. Il atteint environ deux fois la précision spatiale des techniques existantes et ne nécessite aucune plateforme de capteur mobile.

La plupart des approches actuelles de reconstruction de scène sans fil nécessitent un radar monté sur un robot en mouvement pour balayer l'environnement — une contrainte opérationnelle importante. RISE adopte une approche différente : il exploite les réflexions multiples générées par les humains se déplaçant naturellement dans une pièce.

Lorsqu'une personne se déplace, les signaux mmWave rebondissent sur elle, puis se réfléchissent à nouveau sur les murs et les meubles avant de revenir au radar. Ces échos secondaires — généralement rejetés comme bruit sous l'étiquette de « signaux fantômes » — encodent en réalité des informations spatiales sur l'agencement de la pièce. Au fur et à mesure que la personne se déplace, les signaux fantômes se déplacent, et leurs positions changeantes révèlent la géométrie des surfaces environnantes.

Le système RISE reconstruit des scènes intérieures complètes en exploitant les réflexions de signaux sans fil sur les humains se déplaçant dans une pièce L'équipe a également construit un système étendu qui reconstruit entièrement des scènes intérieures en exploitant les réflexions de signaux sans fil sur les humains se déplaçant dans une pièce. Crédit : Gracieuseté des chercheurs.

RISE a été validé sur plus de 100 trajectoires humaines capturées par un seul radar stationnaire. L'implication en matière de vie privée est également notable : contrairement aux systèmes de caméras, le radar mmWave ne capture pas d'images visuelles des individus, ce qui le rend déployable dans des environnements où les caméras sont confrontées à des obstacles réglementaires ou de consentement.

Le problème des données d'entraînement — et comment MIT l'a résolu

L'obstacle fondamental pour tout modèle d'IA dans ce domaine est la rareté des données : aucun ensemble de données mmWave n'est assez vaste pour entraîner un modèle génératif à partir de zéro. La solution du MIT a été de simuler la physique mmWave sur des ensembles de données de vision par ordinateur existants à grande échelle — essentiellement enseigner à l'IA le langage du radar sans avoir besoin de données d'entraînement spécifiques au radar.

L'entraînement de grands modèles génératifs comme GPT ou Claude nécessite des ensembles de données avec des millions ou des milliards d'exemples. Les ensembles de données de recherche mmWave sont des ordres de grandeur plus petits. La collecte de données radar réelles suffisantes aurait, comme l'explique Maisy Lam, assistante de recherche au MIT, « pris des années ».

La solution de contournement de l'équipe était l'adaptation synthétique : ils ont pris de grands ensembles de données de vision par ordinateur existants et ont imposé de manière computationnelle les propriétés physiques des réflexions mmWave — spécularité, caractéristiques de bruit, géométrie du signal — sur les données d'image. Cela a créé un ensemble d'entraînement synthétique mais physiquement précis à partir duquel le modèle génératif pouvait apprendre.

L'approche représente un schéma plus large émergeant dans la recherche en IA physique : utiliser la simulation informée par la physique pour amorcer l'entraînement de l'IA là où les données du monde réel sont rares ou coûteuses à collecter. Le même principe sous-tend une grande partie des progrès dans l'apprentissage de la manipulation robotique, où le transfert sim-to-real est devenu un paradigme dominant.

Système	Tâche	Source du signal	Gain de précision	Configuration du capteur
Wave-Former	Reconstruction 3D d'objets cachés	Réflexions mmWave sur les objets	~20 % par rapport à l'état de l'art	Radar mobile ou fixe
RISE	Reconstruction de scène de pièce entière	Réflexions mmWave sur les humains en mouvement	~2× la précision par rapport à l'état de l'art	Radar stationnaire unique

Ce que cela signifie pour la robotique d'entrepôt et industrielle

Pour les acheteurs et ingénieurs en robotique, ces deux systèmes répondent à des problèmes opérationnels différents mais tout aussi pressants : vérifier les articles emballés dans des conteneurs scellés et permettre aux robots de comprendre des environnements dynamiques sans couverture complète de capteurs.

Vérification des colis et des commandes

Les robots d'entrepôt ne peuvent actuellement pas confirmer ce qui se trouve à l'intérieur d'une boîte scellée sans l'ouvrir. La capacité de Wave-Former à reconstruire la géométrie 3D d'objets à travers le carton et le plastique répond directement à la vérification avant expédition — un point douloureux important pour le commerce électronique, où les taux de retour dus aux commandes mal emballées génèrent des coûts substantiels. Un robot équipé de perception mmWave pourrait vérifier la présence et la géométrie approximative d'un article avant qu'une boîte ne soit scellée, sans ralentir la ligne.

Déploiement intelligent pour cobots et AMR

La capacité de cartographie de pièce avec un seul radar de RISE a des implications immédiates pour les robots mobiles autonomes (AMR) et les cobots déployés dans des espaces partagés avec des humains. Les approches actuelles de suivi humain nécessitent soit une couverture dense de caméras (avec des préoccupations associées en matière de vie privée), soit des capteurs montés sur le robot lui-même. Un radar fixe qui construit un modèle spatial en direct de la pièce — y compris les positions humaines — à partir de l'analyse des signaux fantômes pourrait permettre un fonctionnement plus sûr et plus réactif des cobots dans des environnements dynamiques.

Pour les équipes évaluant des robots pour ces applications, il vaut la peine d'explorer les robots industriels d'occasion et les cobots actuellement disponibles sur Botmarket tout en suivant comment les systèmes de perception comme Wave-Former progressent vers l'intégration commerciale.

Calendrier de déploiement

Les deux systèmes sont au stade de la recherche, avec des résultats qui seront présentés à la IEEE Conference on Computer Vision and Pattern Recognition. La recherche est soutenue par la NSF, le MIT Media Lab et Amazon — ce dernier étant un signal significatif d'intérêt commercial. Le prochain objectif déclaré de l'équipe est de construire des modèles fondation pour les signaux sans fil, analogues à GPT ou Gemini pour le langage, ce qui représenterait un changement d'étape dans la généralisabilité de cette approche à travers les environnements et les types d'objets.

Foire aux questions

Qu'est-ce que Wave-Former et comment fonctionne-t-il ?

Wave-Former est un système développé par le MIT qui utilise des signaux radar à ondes millimétriques (mmWave) pour reconstruire la forme 3D d'objets cachés derrière des obstructions comme le carton, le placo et le plastique. Il construit une reconstruction partielle à partir des réflexions radar, puis utilise un modèle d'IA générative pour compléter la géométrie manquante. Lors de tests sur environ 70 objets du quotidien, il a atteint près de 20 % de meilleure précision que les méthodes les plus avancées précédentes.

Comment RISE reconstruit-il des pièces sans caméras ?

RISE utilise un seul radar mmWave stationnaire et exploite les « signaux fantômes » — des réflexions secondaires qui rebondissent sur les humains se déplaçant dans une pièce, puis sur les meubles et les murs environnants. En suivant comment ces réflexions multiples changent au fur et à mesure que la personne se déplace, un modèle d'IA générative déduit l'agencement spatial de toute la pièce. RISE a démontré environ deux fois la précision spatiale des techniques existantes de reconstruction de scène sans fil sur plus de 100 trajectoires de test.

Quelles obstructions les signaux mmWave peuvent-ils pénétrer ?

Les signaux à ondes millimétriques — la même gamme de fréquences utilisée dans le Wi-Fi — traversent les matériaux non métalliques courants, notamment le carton, le bois, le placo, le plastique et le tissu. Ils ne pénètrent pas efficacement le métal. Cela les rend bien adaptés aux environnements d'entrepôt où les marchandises sont emballées dans du carton et du plastique, mais moins applicables dans les enceintes industrielles fortement métalliques.

Cette technologie préserve-t-elle mieux la vie privée que les caméras ?

Oui. Le radar mmWave ne capture pas d'images visuelles des personnes dans l'environnement — il ne détecte que les réflexions de signaux. La capacité de cartographie de pièce de RISE utilise le mouvement humain comme source de signal sans enregistrer de données visuelles identifiables, ce qui lui confère un avantage significatif par rapport à la cartographie spatiale basée sur caméra dans les déploiements sensibles à la vie privée, comme les hôpitaux, les domiciles ou les lieux de travail réglementés.

Quand cette technologie sera-t-elle disponible dans les robots commerciaux ?

Wave-Former et RISE sont actuellement au stade de la recherche, avec des articles présentés à CVPR. Amazon fait partie des partenaires de financement, ce qui suggère un intérêt commercial actif. L'équipe du MIT a indiqué que la construction de modèles fondation pour signaux sans fil est la prochaine priorité de développement. L'intégration commerciale dans les systèmes d'entrepôt ou cobot est probablement dans quelques années, mais la trajectoire vers du matériel déployable est claire.

Cette recherche représente l'une des avancées les plus concrètes et pratiques dans la perception robotique de l'année écoulée — non pas une amélioration marginale de référence, mais un véritable changement architectural dans la façon dont les robots peuvent modéliser le monde qui les entoure. L'IA générative n'est plus seulement un outil de langage ou d'image ; elle devient le moteur d'inférence qui permet aux systèmes physiques de raisonner sur ce qu'ils ne peuvent pas observer directement.

L'IA de MIT qui voit à travers les murs résout le plus gros problème de perception des robots d'entrepôt