MIT's AI die door muren kijkt lost grootste perceptieprobleem van magazijnrobots op (2026)

MIT-onderzoekers gebruikten speciaal getrainde generatieve AI-modellen om een systeem te maken dat de vorm van verborgen 3D-objecten kan completeren. Credit: Courtesy of the researchers.

Robots in magazijnen en slimme huizen hebben een fundamentele blinde vlek: alles wat voor hun camera’s verborgen is, bestaat simpelweg niet voor ze. MIT-onderzoekers hebben nu generatieve AI ingezet om dat te verhelpen, met behulp van millimetergolf-draadloze signalen en speciaal getrainde AI-modellen om verborgen objecten en volledige kamers te reconstrueren met bijna 20% hogere nauwkeurigheid dan eerdere methoden — zonder ook maar één camera.

Waarom cameragebaseerde robotvisie een structurele zwakte heeft
Hoe Wave-Former verborgen objecten door muren heen reconstrueert
RISE: volledige kamers in kaart brengen met één radar
Het trainingsdata-probleem — en hoe MIT het oploste
Wat dit betekent voor magazijn- en industriële robotica
Veelgestelde vragen

Waarom cameragebaseerde robotvisie een structurele zwakte heeft

Cameragebaseerde robotperceptie faalt zodra een object uit het zicht verdwijnt — achter verpakkingen, onder puin of om een hoek. Dit is geen uitzondering; het is een dagelijkse realiteit in magazijnen, logistieke hubs en thuisomgevingen waar robots objecten moeten lokaliseren, identificeren en vastpakken die ze niet direct kunnen zien.

Bestaande tussenoplossingen — meerdere camera’s, gestructureerd licht, LiDAR — delen allemaal dezelfde beperking: ze vereisen een helder optisch pad. Zodra karton, gipsplaat, plastic of zelfs dichte stof in het spel komt, is de robot effectief blind. Deze beperking leidt tot kostbare fouten in fulfilmentoperaties, waaronder verkeerd geïdentificeerde verpakte items en mislukte grepen die productielijnen stilleggen.

De MIT Signal Kinetics-groep, onder leiding van universitair hoofddocent Fadel Adib, werkt al meer dan tien jaar aan alternatieven met millimetergolf (mmWave) radarsignalen — dezelfde frequentieband als modern wifi — die door gangbare obstakels heen dringen en weerkaatsen op verborgen objecten. De uitdaging was tot nu toe dat die reflecties te onvolledig waren om bruikbaar te zijn voor precieze manipulatie.

Hoe Wave-Former verborgen objecten door muren heen reconstrueert

Wave-Former, MIT’s nieuwe systeem, combineert mmWave-radar met een generatief AI-model om de volledige 3D-vorm van objecten die achter obstakels verborgen zijn te reconstrueren — met een nauwkeurigheidsverbetering van bijna 20% ten opzichte van eerdere state-of-the-art methodes, getest op ongeveer 70 alledaagse objecten zoals blikjes, dozen, bestek en fruit.

Het kernprobleem is spiegelreflectie: mmWave-signalen kaatsen in één richting terug van oppervlakken, zoals licht van een spiegel. De radarsensor vangt alleen reflecties op die terugkeren naar de sensor, waardoor het bovenvlak van een verborgen object deels zichtbaar is, maar de zijkanten en onderkant effectief onzichtbaar blijven. Eerdere systemen probeerden deze onvolledige puntenwolken te interpreteren met alleen natuurkundige regels — een fundamenteel beperkte aanpak.

Wave-Former werkt in drie stappen. Eerst maakt het een gedeeltelijke reconstructie van het verborgen object op basis van de ruwe mmWave-reflecties. Vervolgens voert het die gedeeltelijke vorm in bij een generatief AI-model dat getraind is om plausibele aanvullingen te voorspellen. Tot slot verfijnt het iteratief het oppervlak tot het convergeert naar een volledige 3D-reconstructie. Het resultaat: robots kunnen niet alleen een verborgen object detecteren, maar ook de geometrie ervan begrijpen om een betrouwbare greep te plannen.

Volgens de berichtgeving van Robohub over het onderzoek is het systeem gevalideerd op objecten die verborgen waren achter of onder karton, hout, gipsplaat, plastic en stof — precies de materialen die in echte magazijn- en logistieke omgevingen voorkomen.

RISE: volledige kamers in kaart brengen met één radar

MIT’s tweede systeem, RISE (Radar-based Indoor Scene Understanding), reconstrueert complete kamerindelingen — inclusief meubelplaatsing — met behulp van reflecties van één enkele stationaire mmWave-radar. Het bereikt ongeveer twee keer de ruimtelijke precisie van bestaande technieken en heeft geen bewegend sensorplatform nodig.

De meeste huidige benaderingen voor draadloze scènereconstructie vereisen een radar op een bewegende robot om de omgeving te scannen — een aanzienlijke operationele beperking. RISE hanteert een andere aanpak: het maakt gebruik van multipadreflecties die worden gegenereerd door mensen die op natuurlijke wijze door een ruimte bewegen.

Wanneer een persoon beweegt, kaatsen mmWave-signalen van hem af, vervolgens opnieuw van muren en meubels, en keren dan terug naar de radar. Deze secundaire echo’s — normaal gesproken afgedaan als ruis onder de noemer ‘spooksignalen’ — bevatten in feite ruimtelijke informatie over de indeling van de kamer. Terwijl de persoon beweegt, verschuiven de spooksignalen, en hun veranderende posities onthullen de geometrie van omliggende oppervlakken.

Het RISE-systeem reconstrueert volledige binnenruimtes door gebruik te maken van draadloze signaalreflecties van mensen die door een kamer bewegen Het team bouwde ook een uitgebreid systeem dat volledige binnenruimtes reconstrueert door gebruik te maken van draadloze signaalreflecties van mensen die door een kamer bewegen. Credit: Courtesy of the researchers.

RISE is gevalideerd op meer dan 100 menselijke trajecten die zijn vastgelegd met één enkele stationaire radar. Ook de privacy-implicatie is opmerkelijk: in tegenstelling tot camerasystemen legt mmWave-radar geen visuele beelden van personen vast, waardoor het inzetbaar is in omgevingen waar camera’s te maken krijgen met wettelijke of toestemmingsbarrières.

Het trainingsdata-probleem — en hoe MIT het oploste

Het fundamentele obstakel voor elk AI-model in deze ruimte is dataschaarste: geen enkele mmWave-dataset is groot genoeg om een generatief model vanaf nul te trainen. MIT’s oplossing was om mmWave-fysica te simuleren bovenop bestaande grootschalige computer vision-datasets — in wezen de AI de taal van radar leren zonder radarspecifieke trainingsdata.

Het trainen van grote generatieve modellen zoals GPT of Claude vereist datasets met miljoenen of miljarden voorbeelden. mmWave-onderzoeksdatasets zijn orden van grootte kleiner. Voldoende echte radardata verzamelen zou, zoals MIT-onderzoeksassistent Maisy Lam uitlegt, ‘jaren hebben geduurd’.

De workaround van het team was synthetische adaptatie: ze namen bestaande grote computer vision-datasets en legden daar computergestuurd de fysieke eigenschappen van mmWave-reflecties — spiegelreflectie, ruiskarakteristieken, signaalgeometrie — overheen. Dit creëerde een synthetische maar natuurkundig accurate trainingsset waar het generatieve model van kon leren.

De aanpak vertegenwoordigt een breder patroon dat opkomt in Physical AI-onderzoek: het gebruik van fysica-geïnformeerde simulatie om AI-training van de grond te krijgen waar echte data schaars of duur is om te verzamelen. Hetzelfde principe ligt ten grondslag aan een groot deel van de vooruitgang in robotmanipulatie-leren, waar sim-naar-reaal transfer een dominante benadering is geworden.

Systeem	Taak	Signaalbron	Nauwkeurigheidswinst	Sensorconfiguratie
Wave-Former	3D-reconstructie verborgen objecten	mmWave-reflecties van objecten	~20% t.o.v. SOTA	Mobiele of vaste radar
RISE	Volledige kamerreconstructie	mmWave-reflecties van bewegende mensen	~2× precisie t.o.v. SOTA	Enkele stationaire radar

Wat dit betekent voor magazijn- en industriële robotica

Voor roboticalkopers en -ingenieurs lossen deze twee systemen verschillende maar even urgente operationele problemen op: het verifiëren van verpakte items in verzegelde containers, en het vermogen van robots om dynamische omgevingen te begrijpen zonder volledige sensordekking.

Fulfilment en pakketverificatie

Magazijnrobots kunnen momenteel niet bevestigen wat er in een verzegelde doos zit zonder deze te openen. Het vermogen van Wave-Former om 3D-objectgeometrie te reconstrueren door karton en plastic heen, biedt direct een oplossing voor verificatie vóór verzending — een belangrijk pijnpunt in e-commerce-fulfilment, waar retouren door verkeerd verpakte bestellingen aanzienlijke kosten veroorzaken. Een robot uitgerust met mmWave-perceptie zou de aanwezigheid en grove geometrie van items kunnen verifiëren voordat een doos wordt verzegeld, zonder de lijn te vertragen.

Slimme inzet voor cobots en AMR’s

De mogelijkheid van RISE om met één radar een kamer in kaart te brengen, heeft directe implicaties voor autonome mobiele robots (AMR’s) en cobots die worden ingezet in ruimtes die ze delen met mensen. Huidige mensvolgende benaderingen vereisen ofwel dichte cameradekking (met bijbehorende privacyproblemen) of sensoren die op de bewegende robot zelf zijn gemonteerd. Een vaste radar die een live ruimtelijk model van de kamer bouwt — inclusief menselijke locaties — op basis van spooksignaalanalyse, zou veiligere, meer responsieve cobotoperaties in dynamische omgevingen mogelijk kunnen maken.

Voor teams die robots evalueren voor deze toepassingen, is het de moeite waard om gebruikte industriële robots en momenteel beschikbare cobots op Botmarket te bekijken, terwijl ze volgen hoe perceptiesystemen zoals Wave-Former vorderen richting commerciële integratie.

Tijdlijn naar implementatie

Beide systemen bevinden zich nog in de onderzoeksfase, met resultaten die worden gepresenteerd op de IEEE Conference on Computer Vision and Pattern Recognition. Het onderzoek wordt ondersteund door NSF, het MIT Media Lab en Amazon — de laatste een significant signaal van commerciële interesse. De volgende aangekondigde doelstelling van het team is het bouwen van fundamentmodellen voor draadloze signalen, analoog aan GPT of Gemini voor taal, wat een grote sprong voorwaarts zou betekenen in de generaliseerbaarheid van deze aanpak over verschillende omgevingen en objecttypen.

Veelgestelde vragen

Wat is Wave-Former en hoe werkt het?

Wave-Former is een door MIT ontwikkeld systeem dat millimetergolf-radarsignalen (mmWave) gebruikt om de 3D-vorm van objecten te reconstrueren die verborgen zijn achter obstakels zoals karton, gipsplaat en plastic. Het bouwt een gedeeltelijke reconstructie uit radarreflecties en gebruikt vervolgens een generatief AI-model om de ontbrekende geometrie aan te vullen. Bij tests met ongeveer 70 alledaagse objecten behaalde het bijna 20% betere nauwkeurigheid dan eerdere state-of-the-art methodes.

Hoe reconstrueert RISE kamers zonder camera’s?

RISE gebruikt een enkele stationaire mmWave-radar en maakt gebruik van ‘spooksignalen’ — secundaire reflecties die weerkaatsen op mensen die door een kamer bewegen en vervolgens op omringende meubels en muren. Door te volgen hoe deze multipadreflecties veranderen terwijl de persoon beweegt, leidt een generatief AI-model de ruimtelijke indeling van de hele kamer af. RISE heeft ongeveer tweemaal de ruimtelijke precisie van bestaande draadloze scènereconstructietechnieken aangetoond met meer dan 100 testtrajecten.

Welke obstakels kunnen mmWave-signalen doordringen?

Millimetergolfsignalen — dezelfde frequentieband als wifi — dringen door gangbare niet-metalen materialen zoals karton, hout, gipsplaat, plastic en stof. Ze dringen niet effectief door metaal. Dit maakt ze geschikt voor magazijnomgevingen waar goederen zijn verpakt in karton en plastic, maar minder toepasbaar in zwaar metalen industriële omhullingen.

Bewaart deze technologie privacy beter dan camera’s?

Ja. mmWave-radar legt geen visuele beelden van mensen in de omgeving vast — het detecteert alleen signaalreflecties. RISE’s kamerkaartmogelijkheid gebruikt menselijke beweging als signaalbron zonder identificeerbare visuele gegevens vast te leggen, wat het een duidelijk voordeel geeft ten opzichte van cameragebaseerde ruimtelijke kaarten in privacygevoelige toepassingen zoals ziekenhuizen, woningen of gereguleerde werkplekken.

Wanneer is deze technologie beschikbaar in commerciële robots?

Zowel Wave-Former als RISE bevinden zich momenteel in de onderzoeksfase, met papers die worden gepresenteerd op CVPR. Amazon is een van de financieringspartners, wat duidt op actieve commerciële interesse. Het MIT-team heeft aangegeven dat het bouwen van fundamentmodellen voor draadloze signalen de volgende ontwikkelingsprioriteit is. Commerciële integratie in magazijn- of cobotsystemen is waarschijnlijk nog jaren verwijderd, maar de richting naar inzetbare hardware is duidelijk.

Dit onderzoek vertegenwoordigt een van de meest praktisch onderbouwde vooruitgangen in robotperceptie van het afgelopen jaar — geen marginale benchmarkverbetering, maar een echte architecturale verschuiving in hoe robots de wereld om hen heen kunnen modelleren. Generatieve AI is niet langer alleen een taal- of beeldtool; het wordt de inferentiemotor die fysieke systemen in staat stelt te redeneren over wat ze niet direct kunnen waarnemen.

MIT's AI die door muren kijkt lost grootste perceptieprobleem van magazijnrobots op