AI z MIT, která vidí skrz zdi, řeší největší problém vnímání skladových robotů (2026)

Výzkumníci z MIT využili speciálně trénované modely generativní AI k vytvoření systému, který dokáže dotvarovat skryté 3D objekty. Kredit: S laskavým svolením výzkumníků.

Roboti pracující ve skladech a chytrých domech mají zásadní slepé místo: cokoli, co je mimo záběr jejich kamer, pro ně prostě neexistuje. Výzkumníci z MIT nyní nasadili generativní AI, aby to napravili, a to pomocí milimetrových bezdrátových signálů a speciálně trénovaných modelů AI, které rekonstruují skryté objekty a celé místnosti s téměř o 20 % vyšší přesností než předchozí metody – bez jediné kamery.

Proč má robotické vidění založené na kamerách strukturální slabinu
Jak Wave-Former rekonstruuje skryté objekty skrz zdi
RISE: Mapování celých místností z jediného radaru
Problém trénovacích dat – a jak ho MIT vyřešila
Co to znamená pro skladovou a průmyslovou robotiku
Často kladené otázky

Proč má robotické vidění založené na kamerách strukturální slabinu

Percepce robotů závislá na kamerách selhává ve chvíli, kdy se objekt dostane mimo přímý výhled – za obal, pod sutiny nebo za roh. To není okrajový případ; je to každodenní provozní realita ve skladech, logistických centrech a domácích prostředích, kde roboti potřebují lokalizovat, identifikovat a uchopit objekty, které přímo nevidí.

Stávající řešení – více kamer, strukturované světlo, LiDAR – všechna sdílejí stejné omezení: vyžadují jasnou optickou cestu. Jakmile do hry vstoupí karton, sádrokarton, plast nebo i hustá tkanina, robot je prakticky slepý.

Toto omezení vede k nákladným chybám v logistických operacích, včetně nesprávně identifikovaných balených položek a neúspěšných úchopů, které zastavují výrobní linky.

Skupina Signal Kinetics na MIT vedená docentem Fadelem Adibem strávila více než deset let budováním alternativ pomocí milimetrových (mmWave) radarových signálů – stejného frekvenčního pásma, jaké se používá v moderní Wi-Fi – které procházejí běžnými překážkami a odrážejí se od skrytých objektů. Výzvou až dosud bylo, že tyto odrazy byly příliš neúplné na to, aby byly užitečné pro přesnou manipulaci.

Jak Wave-Former rekonstruuje skryté objekty skrz zdi

Wave-Former, nový systém MIT, kombinuje mmWave radar s modelem generativní AI k rekonstrukci celého 3D tvaru objektů skrytých za překážkami – dosahuje téměř 20% zlepšení přesnosti oproti předchozím nejmodernějším metodám na zhruba 70 běžných předmětech včetně plechovek, krabic, nádobí a ovoce.

Základním fyzikálním problémem je zrcadlovost: mmWave signály se odrážejí od povrchů v jednom směru, podobně jako světlo od zrcadla. Radarový senzor zachycuje pouze odrazy směřované zpět k němu, což znamená, že horní povrch skrytého objektu je částečně viditelný, zatímco jeho boky a spodní strana jsou prakticky neviditelné. Dřívější systémy se pokoušely interpretovat tyto neúplné mračna bodů pouze pomocí pravidel založených na fyzice – což byl zásadně omezený přístup.

Pipeline Wave-Formeru funguje ve třech fázích. Nejprve vytvoří částečnou rekonstrukci skrytého objektu z hrubých mmWave odrazů. Poté tuto částečnou geometrii předá modelu generativní AI trénovanému k predikci pravděpodobných doplnění. Nakonec iterativně zpřesňuje povrch, dokud nedosáhne plné 3D rekonstrukce. Výsledkem je, že roboti mohou nejen detekovat skrytý objekt, ale také porozumět jeho geometrii natolik, aby naplánovali spolehlivý úchop.

Podle pokrytí výzkumu na Robohubu byl systém ověřen na objektech skrytých za nebo pod kartonem, dřevem, sádrokartonem, plastem a tkaninou – přesně těmi materiály, které se vyskytují v reálných skladových a logistických prostředích.

RISE: Mapování celých místností z jediného radaru

Druhý systém MIT, RISE (Radar-based Indoor Scene Understanding), rekonstruuje kompletní rozvržení místností – včetně umístění nábytku – pomocí odrazů z jediného stacionárního mmWave radaru. Dosahuje zhruba dvojnásobné prostorové přesnosti oproti stávajícím technikám a nevyžaduje žádnou pohyblivou senzorovou platformu.

Většina současných přístupů k bezdrátové rekonstrukci scény vyžaduje radar namontovaný na pohybujícím se robotu, který projíždí prostředí – což je významné provozní omezení. RISE volí jiný přístup: využívá multipath odrazy generované lidmi, kteří se přirozeně pohybují místností.

Když se osoba pohybuje, mmWave signály se od ní odrážejí, poté se znovu odrážejí od stěn a nábytku, než se vrátí k radaru. Tyto sekundární ozvěny – obvykle zavrhované jako šum pod označením „duchové signály“ – ve skutečnosti kódují prostorovou informaci o uspořádání místnosti. Jak se osoba pohybuje, duchové signály se posouvají a jejich měnící se polohy odhalují geometrii okolních povrchů.

Systém RISE rekonstruuje celé vnitřní scény využitím odrazů bezdrátových signálů od lidí pohybujících se v místnosti Tým také postavil rozšířený systém, který plně rekonstruuje celé vnitřní scény využitím odrazů bezdrátových signálů od lidí pohybujících se v místnosti. Kredit: S laskavým svolením výzkumníků.

RISE byl ověřen na více než 100 trajektoriích lidí zachycených jediným stacionárním radarem. Zajímavý je také důsledek pro soukromí: na rozdíl od kamerových systémů mmWave radar nezachycuje vizuální snímky osob, takže je nasaditelný v prostředích, kde kamery čelí regulatorním nebo souhlasným bariérám.

Problém trénovacích dat – a jak ho MIT vyřešila

Základní překážkou pro jakýkoli model AI v této oblasti je nedostatek dat: žádný mmWave dataset není dostatečně velký na to, aby se z něj dal trénovat generativní model od nuly. Řešení MIT spočívalo v simulaci mmWave fyziky na existujících rozsáhlých počítačových vidění datových sadách – v podstatě se naučit AI jazyk radaru bez potřeby radarově specifických trénovacích dat.

Trénování velkých generativních modelů, jako jsou GPT nebo Claude, vyžaduje datové sady s miliony nebo miliardami příkladů. MmWave výzkumné datové sady jsou o řády menší. Shromáždění dostatečného množství reálných radarových dat by, jak vysvětluje výzkumná asistentka MIT Maisy Lam, „trvalo roky."

Týmovým řešením byla syntetická adaptace: vzali velké existující datové sady počítačového vidění a výpočetně na ně aplikovali fyzikální vlastnosti mmWave odrazů – zrcadlovost, charakteristiky šumu, geometrii signálu – na obrazová data. Tím vznikla syntetická, ale fyzikálně přesná trénovací sada, ze které se mohl generativní model učit.

Tento přístup představuje širší vzorec, který se objevuje ve výzkumu fyzické AI: použití fyzikálně informované simulace k nastartování tréninku AI tam, kde jsou reálná data vzácná nebo nákladná na sběr. Stejný princip je základem velké části pokroku v učení robotické manipulace, kde se sim-to-real přenos stal dominantním paradigmatem.

Systém	Úloha	Zdroj signálu	Zlepšení přesnosti	Konfigurace senzoru
Wave-Former	3D rekonstrukce skrytých objektů	mmWave odrazy od objektů	~20 % oproti SOTA	Mobilní nebo pevný radar
RISE	Rekonstrukce celé místnosti	mmWave odrazy od pohybujících se lidí	~2× přesnost oproti SOTA	Jediný stacionární radar

Co to znamená pro skladovou a průmyslovou robotiku

Pro kupující robotiky a inženýry tyto dva systémy řeší odlišné, ale stejně naléhavé provozní problémy: ověřování balených položek v uzavřených kontejnerech a umožnění robotům porozumět dynamickému prostředí bez plného pokrytí senzory.

Logistika a ověřování balíků

Skladoví roboti v současné době nemohou potvrdit, co je uvnitř utěsněné krabice, aniž by ji otevřeli. Schopnost Wave-Formeru rekonstruovat 3D geometrii objektů skrz karton a plast přímo řeší předodesílací ověřování – významný bolestivý bod pro e-commerce logistiku, kde míra návratnosti z nesprávně zabalených objednávek generuje značné náklady. Robot vybavený mmWave percepcí by mohl ověřit přítomnost položky a hrubou geometrii ještě před zapečetěním krabice, aniž by zpomalil linku.

Chytré nasazení pro coboty a AMR

Schopnost RISE mapovat místnost jediným radarem má okamžité důsledky pro autonomní mobilní roboty (AMR) a coboty nasazené v prostorech sdílených s lidmi. Současné přístupy ke sledování lidí buď vyžadují husté pokrytí kamerami (s přidruženými obavami o soukromí), nebo senzory namontované na samotném pohybujícím se robotu. Pevný radar, který vytváří živý prostorový model místnosti – včetně poloh lidí – z analýzy duchových signálů, by mohl umožnit bezpečnější a citlivější provoz cobotů v dynamickém prostředí.

Pro týmy, které zvažují roboty pro tyto aplikace, stojí za to prozkoumat použité průmyslové roboty a coboty aktuálně dostupné na Botmarketu a zároveň sledovat, jak se percepční systémy jako Wave-Former postupně blíží ke komerční integraci.

Časový harmonogram nasazení

Oba systémy jsou ve výzkumné fázi, s výsledky prezentovanými na IEEE Conference on Computer Vision and Pattern Recognition. Výzkum je podpořen NSF, MIT Media Lab a Amazonem – poslední jmenovaný je významným signálem komerčního zájmu. Dalším uvedeným cílem týmu je vybudovat základní modely pro bezdrátové signály, analogické GPT nebo Gemini pro jazyk, což by představovalo zásadní změnu v obecnosti tohoto přístupu napříč prostředími a typy objektů.

Často kladené otázky

Co je Wave-Former a jak funguje?

Wave-Former je systém vyvinutý na MIT, který využívá milimetrové (mmWave) radarové signály k rekonstrukci 3D tvaru objektů skrytých za překážkami, jako je karton, sádrokarton a plast. Nejprve vytvoří částečnou rekonstrukci z radarových odrazů, poté pomocí modelu generativní AI doplní chybějící geometrii. Při testování na zhruba 70 běžných předmětech dosáhl téměř o 20 % lepší přesnosti než předchozí nejmodernější metody.

Jak RISE rekonstruuje místnosti bez kamer?

RISE používá jediný stacionární mmWave radar a využívá „duchové signály“ – sekundární odrazy, které se odrážejí od lidí pohybujících se místností a poté od okolního nábytku a stěn. Sledováním toho, jak se tyto multipath odrazy mění s pohybem osoby, model generativní AI odvodí prostorové uspořádání celé místnosti. RISE prokázal přibližně dvojnásobnou prostorovou přesnost oproti stávajícím technikám bezdrátové rekonstrukce scény na více než 100 testovacích trajektoriích.

Jaké překážky dokážou mmWave signály proniknout?

Milimetrové signály – stejné frekvenční pásmo používané ve Wi-Fi – procházejí běžnými nekovovými materiály včetně kartonu, dřeva, sádrokartonu, plastu a tkaniny. Kovy účinně nepronikají. Díky tomu se hodí pro skladová prostředí, kde je zboží baleno v kartonu a plastu, ale jsou méně použitelné v silně kovových průmyslových krytech.

Chrání tato technologie soukromí lépe než kamery?

Ano. mmWave radar nezachycuje vizuální snímky osob v prostředí – detekuje pouze odrazy signálů. Schopnost RISE mapovat místnost využívá pohyb lidí jako zdroj signálu, aniž by zaznamenávala jakákoli identifikovatelná vizuální data, což mu dává významnou výhodu oproti kamerovému prostorovému mapování v nasazeních citlivých na soukromí, jako jsou nemocnice, domácnosti nebo regulovaná pracoviště.

Kdy bude tato technologie dostupná v komerčních robotech?

Wave-Former i RISE jsou v současnosti ve výzkumné fázi s články prezentovanými na CVPR. Amazon je mezi partnery financování, což naznačuje aktivní komerční zájem. Tým MIT uvedl, že budování základních modelů pro bezdrátové signály je další prioritou vývoje. Komerční integrace do skladových nebo cobotových systémů je pravděpodobně ještě roky vzdálená, ale trajektorie směrem k nasaditelnému hardwaru je jasná.

Tento výzkum představuje jeden z praktičtěji zaměřených pokroků v robotickém vnímání za poslední rok – nikoli marginální zlepšení benchmarku, ale skutečný architektonický posun v tom, jak mohou roboti modelovat svět kolem sebe. Generativní AI již není jen nástrojem pro jazyk nebo obrazy; stává se inferenčním motorem, který umožňuje fyzickým systémům uvažovat o tom, co nemohou přímo pozorovat.