MIT:s väggseende AI löser lagerrobotars största perceptionsproblem (2026)

MIT-forskare använde specialtränade generativa AI-modeller för att skapa ett system som kan komplettera formen på dolda 3D-objekt. Kredit: Med tillstånd från forskarna.

Robotar som arbetar i lager och smarta hem har en grundläggande blind fläck: allt som inte syns i deras kameror existerar helt enkelt inte för dem. MIT-forskare har nu använt generativ AI för att åtgärda detta, med hjälp av millimetervågssignaler och specialtränade AI-modeller för att rekonstruera dolda objekt och hela rum med nästan 20% högre noggrannhet än tidigare metoder – utan en enda kamera.

Varför kamerabaserad robotvision har en strukturell svaghet
Hur Wave-Former rekonstruerar dolda objekt genom väggar
RISE: Kartläggning av hela rum från en enda radar
Träningsdataproblemet – och hur MIT löste det
Vad detta innebär för lager- och industrirobotik
Vanliga frågor och svar

Varför kamerabaserad robotvision har en strukturell svaghet

Kameraberoende robotperception misslyckas så fort ett objekt hamnar utom synhåll – bakom förpackningar, under bråte eller runt ett hörn. Det är inget undantagsfall; det är en daglig operativ verklighet i lager, logistikcenter och hemmiljöer där robotar behöver lokalisera, identifiera och gripa objekt de inte direkt kan se.

Befintliga lösningar – flera kameror, strukturerat ljus, LiDAR – har alla samma begränsning: de kräver en fri optisk bana. Så fort kartong, gips, plast eller till och med tätt tyg kommer in i ekvationen är roboten i praktiken blind. Denna begränsning orsakar kostsamma fel i plock- och packoperationer, inklusive felidentifierade packade föremål och misslyckade gripningar som stoppar produktionslinjer.

MIT:s Signal Kinetics-grupp, lett av docent Fadel Adib, har under över ett decennium byggt alternativ med millimetervågsradar (mmWave) – samma frekvensband som används i modern Wi-Fi – som passerar genom vanliga hinder och reflekteras mot dolda föremål. Utmaningen, fram till nu, var att dessa reflexioner var för ofullständiga för att vara användbara för precis manipulation.

Hur Wave-Former rekonstruerar dolda objekt genom väggar

Wave-Former, MIT:s nya system, kombinerar mmWave-radar med en generativ AI-modell för att rekonstruera den fulla 3D-formen av objekt som är dolda bakom hinder – och uppnår nästan 20% bättre noggrannhet jämfört med tidigare toppmoderna metoder på cirka 70 vardagliga föremål inklusive burkar, lådor, bestick och frukt.

Det centrala fysikproblemet är spegelreflexion: mmWave-signaler reflekteras från ytor i en enda riktning, som ljus från en spegel. Radarsensorn fångar bara reflexioner som riktas tillbaka till den, vilket innebär att ovansidan av ett dolt objekt är delvis synlig medan sidorna och undersidan är osynliga. Tidigare system försökte tolka dessa ofullständiga punktmoln med enbart fysikbaserade regler – en i grunden begränsad metod.

Wave-Formers pipeline fungerar i tre steg. Först byggs en partiell rekonstruktion av det dolda objektet från råa mmWave-reflexioner. Sedan matas den partiella formen till en generativ AI-modell tränad att förutsäga troliga kompletteringar. Slutligen förfinas ytan iterativt tills en fullständig 3D-rekonstruktion uppnås. Resultatet: robotar kan inte bara upptäcka ett dolt objekt, utan förstå dess geometri tillräckligt bra för att planera ett tillförlitligt grepp.

Enligt Robohubs rapport om forskningen validerades systemet på objekt gömda bakom eller under kartong, trä, gips, plast och tyg – exakt de material som förekommer i verkliga lager- och logistikmiljöer.

RISE: Kartläggning av hela rum från en enda radar

MIT:s andra system, RISE (Radar-based Indoor Scene Understanding), rekonstruerar kompletta rumslayouter – inklusive möblering – med hjälp av reflexioner från en enda stationär mmWave-radar. Det uppnår ungefär dubbelt så hög rumslig precision som befintliga tekniker och kräver ingen rörlig sensorplattform.

De flesta nuvarande metoder för trådlös scenrekonstruktion kräver en radar monterad på en rörlig robot som sveper över miljön – en betydande operativ begränsning. RISE tar en annan väg: det utnyttjar multipath-reflexioner som genereras av människor som rör sig naturligt i ett rum.

När en person rör sig studsar mmWave-signaler mot dem, reflekteras sedan mot väggar och möbler innan de återvänder till radarn. Dessa sekundära ekon – som vanligtvis avfärdas som brus under etiketten ”spöksignaler” – innehåller faktiskt rumslig information om rummets layout. När personen rör sig förskjuts spöksignalerna, och deras föränderliga positioner avslöjar geometrin hos omgivande ytor.

RISE-systemet rekonstruerar hela inomhusscener genom att utnyttja trådlösa signalreflexioner från människor som rör sig i ett rum Teamet byggde också ett utvidgat system som fullständigt rekonstruerar hela inomhusscener genom att utnyttja trådlösa signalreflexioner från människor som rör sig i ett rum. Kredit: Med tillstånd från forskarna.

RISE validerades på mer än 100 mänskliga banor fångade av en enda stationär radar. Integritetsaspekten är också värd att notera: till skillnad från kamerasystem fångar mmWave-radar inga visuella bilder av individer, vilket gör det möjligt att använda i miljöer där kameror möter regulatoriska eller samtyckesrelaterade hinder.

Träningsdataproblemet – och hur MIT löste det

Det grundläggande hindret för alla AI-modeller inom detta område är databrist: ingen mmWave-datamängd är tillräckligt stor för att träna en generativ modell från grunden. MIT:s lösning var att simulera mmWave-fysik ovanpå befintliga storskaliga datorseendedatamängder – i princip lära AI:n radarns språk utan att behöva radarspecifik träningsdata.

Att träna stora generativa modeller som GPT eller Claude kräver datamängder med miljontals eller miljarder exempel. mmWave-forskningsdatamängder är storleksordningar mindre. Att samla in tillräcklig verklig radardata skulle, som MIT:s forskningsassistent Maisy Lam förklarar, ha ”tagit år”.

Teamets lösning var syntetisk anpassning: de tog stora befintliga datorseendedatamängder och lade på mmWave-reflexionernas fysikaliska egenskaper – spegelreflexion, brusegenskaper, signalgeometri – på bilddata. Detta skapade en syntetisk men fysikaliskt korrekt träningsuppsättning som den generativa modellen kunde lära sig från.

Angreppssättet representerar ett bredare mönster som håller på att växa fram inom Physical AI-forskning: att använda fysikbaserad simulering för att starta AI-träning där verklig data är knapp eller dyr att samla in. Samma princip ligger till grund för mycket av framstegen inom robotmanipuleringsinlärning, där sim-to-real-överföring har blivit ett dominerande paradigm.

System	Uppgift	Signalkälla	Noggrannhetsökning	Sensorkonfiguration
Wave-Former	3D-rekonstruktion av dolda objekt	mmWave-reflexioner från objekt	~20% över tidigare bästa	Mobil eller stationär radar
RISE	Fullständig scenrekonstruktion av rum	mmWave-reflexioner från rörliga människor	~2× precision över tidigare bästa	En enda stationär radar

Vad detta innebär för lager- och industrirobotik

För robotikköpare och ingenjörer adresserar dessa två system olika men lika pressande operativa problem: att verifiera packade föremål i förseglade containrar och att göra det möjligt för robotar att förstå dynamiska miljöer utan full sensortäckning.

Plock- och packverifiering

Lagerrobotar kan för närvarande inte bekräfta vad som finns inuti en förseglad låda utan att öppna den. Wave-Formers förmåga att rekonstruera 3D-objektgeometri genom kartong och plast adresserar direkt försändelseverifiering – en betydande smärtpunkt för e-handelslogistik, där returfrekvenser från felpackade beställningar genererar betydande kostnader. En robot utrustad med mmWave-perception skulle kunna verifiera föremålens närvaro och ungefärliga geometri innan en låda förseglas, utan att sakta ner linjen.

Smart utplacering för cobots och AMR:er

RISE:s kartläggningsförmåga med en enda radar har omedelbara konsekvenser för autonoma mobila robotar (AMR) och cobots som används i utrymmen som delas med människor. Nuvarande metoder för människospårning kräver antingen tät kameratäckning (med tillhörande integritetsproblem) eller sensorer monterade på den rörliga roboten själv. En fast radar som bygger en levande rumslig modell av rummet – inklusive mänskliga positioner – från spöksignalanalys skulle kunna möjliggöra säkrare och mer responsiv cobot-drift i dynamiska miljöer.

För team som utvärderar robotar för dessa tillämpningar är det värt att utforska begagnade industrirobotar och kobotar som finns tillgängliga på Botmarket samtidigt som man följer hur perceptionssystem som Wave-Former fortskrider mot kommersiell integration.

Tidslinje till utrullning

Båda systemen är på forskningsstadiet, med resultat som ska presenteras vid IEEE Conference on Computer Vision and Pattern Recognition. Forskningen stöds av NSF, MIT Media Lab och Amazon – det sistnämnda är en betydande signal om kommersiellt intresse. Teamets nästa uttalade mål är att bygga grundmodeller för trådlösa signaler, i stil med GPT eller Gemini för språk, vilket skulle representera ett stegförändring i generaliserbarheten av denna metod över miljöer och objekttyper.

Vanliga frågor och svar

Vad är Wave-Former och hur fungerar det?

Wave-Former är ett MIT-utvecklat system som använder millimetervågsradar (mmWave) för att rekonstruera 3D-formen av objekt dolda bakom hinder som kartong, gips och plast. Det bygger en partiell rekonstruktion från radarreflexioner och använder sedan en generativ AI-modell för att komplettera den saknade geometrin. I tester på cirka 70 vardagliga föremål uppnådde det nästan 20% bättre noggrannhet än tidigare toppmoderna metoder.

Hur rekonstruerar RISE rum utan kameror?

RISE använder en enda stationär mmWave-radar och utnyttjar ”spöksignaler” – sekundära reflexioner som studsar på människor som rör sig i ett rum och sedan på omgivande möbler och väggar. Genom att spåra hur dessa multipath-reflexioner förändras när personen rör sig, kan en generativ AI-modell härleda den rumsliga layouten för hela rummet. RISE uppvisade ungefär dubbelt så hög rumslig precision som befintliga trådlösa scenrekonstruktionstekniker på över 100 testbanor.

Vilka hinder kan mmWave-signaler tränga igenom?

Millimetervågssignaler – samma frekvensområde som används i Wi-Fi – passerar genom vanliga icke-metalliska material som kartong, trä, gips, plast och tyg. De tränger inte effektivt igenom metall. Detta gör dem väl lämpade för lagermiljöer där varor är förpackade i kartong och plast, men mindre användbara i tungt metalliska industriella inhägnader.

Bevarar denna teknik integriteten bättre än kameror?

Ja. mmWave-radar fångar inga visuella bilder av människor i miljön – den upptäcker endast signalreflexioner. RISE:s rumskartläggningsförmåga använder mänsklig rörelse som signalkälla utan att registrera någon identifierbar visuell data, vilket ger den en meningsfull fördel jämfört med kamerabaserad rumslig kartläggning i integritetskänsliga miljöer som sjukhus, hem eller reglerade arbetsplatser.

När kommer denna teknik att finnas tillgänglig i kommersiella robotar?

Både Wave-Former och RISE är för närvarande på forskningsstadiet, med artiklar som ska presenteras på CVPR. Amazon är bland finansiärerna, vilket tyder på ett aktivt kommersiellt intresse. MIT-teamet har angett att bygga grundmodeller för trådlösa signaler är nästa utvecklingsprioritet. Kommersiell integration i lager- eller cobotsystem är troligen år bort, men banan mot utrullningsbar hårdvara är tydlig.

Denna forskning representerar ett av de mest praktiskt förankrade framstegen inom robotperception under det senaste året – inte en marginell benchmarkförbättring, utan ett genuint arkitektoniskt skifte i hur robotar kan modellera världen omkring sig. Generativ AI är inte längre bara ett språk- eller bildverktyg; det håller på att bli den slutledningsmotor som låter fysiska system resonera om vad de inte direkt kan observera.

MIT:s väggseende AI löser lagerrobotars största perceptionsproblem