SI MIT widząca przez ściany rozwiązuje największy problem percepcji robotów magazynowych (2026)

Naukowcy z MIT wykorzystali specjalnie wytrenowane modele generatywnej SI do stworzenia systemu, który może uzupełnić kształt ukrytych obiektów 3D. Źródło: Dzięki uprzejmości naukowców.

Roboty działające w magazynach i inteligentnych domach mają fundamentalną martwą strefę: wszystko, co jest zasłonięte przed ich kamerami, po prostu dla nich nie istnieje. Naukowcy z MIT zastosowali teraz generatywną SI, aby to naprawić, wykorzystując bezprzewodowe sygnały milimetrowe i specjalnie wytrenowane modele AI do rekonstrukcji ukrytych obiektów i całych pomieszczeń z niemal 20% większą dokładnością niż poprzednie metody – bez ani jednej kamery.

Dlaczego wizja oparta na kamerach ma strukturalną słabość
Jak Wave-Former rekonstruuje ukryte obiekty przez ściany
RISE: Mapowanie całych pomieszczeń z pojedynczego radaru
Problem danych treningowych – i jak MIT go rozwiązał
Co to oznacza dla magazynowej i przemysłowej robotyki
Najczęściej zadawane pytania

Dlaczego wizja oparta na kamerach ma strukturalną słabość

Percepcja robotów oparta na kamerach zawodzi w momencie, gdy obiekt znajdzie się poza linią widzenia – za opakowaniem, pod gruzami lub za rogiem. To nie jest przypadek brzegowy; to codzienna rzeczywistość operacyjna w magazynach, centrach logistycznych i domach, gdzie roboty muszą lokalizować, identyfikować i chwytać obiekty, których nie widzą bezpośrednio.

Istniejące rozwiązania – wiele kamer, światło strukturalne, LiDAR – wszystkie mają to samo ograniczenie: wymagają czystej ścieżki optycznej. Gdy w grę wchodzi karton, płyta gipsowo-kartonowa, plastik czy nawet gęsta tkanina, robot jest praktycznie ślepy. To ograniczenie prowadzi do kosztownych błędów w operacjach kompletacji, w tym błędnie zidentyfikowanych spakowanych przedmiotów i nieudanych chwytów, które zatrzymują linie produkcyjne.

Grupa Signal Kinetics z MIT, kierowana przez profesora nadzwyczajnego Fadela Adiba, od ponad dekady buduje alternatywy wykorzystujące sygnały radarowe w paśmie milimetrowym (mmWave) – to samo pasmo częstotliwości używane w nowoczesnym Wi-Fi – które przenikają przez powszechne przeszkody i odbijają się od ukrytych obiektów. Wyzwaniem, do tej pory, było to, że te odbicia były zbyt niekompletne, aby były przydatne do precyzyjnej manipulacji.

Jak Wave-Former rekonstruuje ukryte obiekty przez ściany

Wave-Former, nowy system MIT, łączy radar mmWave z modelem generatywnej SI, aby zrekonstruować pełny kształt 3D obiektów ukrytych za przeszkodami – osiągając prawie 20% poprawę dokładności w porównaniu z poprzednimi najnowocześniejszymi metodami na około 70 przedmiotach codziennego użytku, w tym puszkach, pudełkach, przyborach kuchennych i owocach.

Głównym problemem fizycznym jest spekularność: sygnały mmWave odbijają się od powierzchni w jednym kierunku, jak światło od lustra. Czujnik radaru rejestruje tylko odbicia skierowane z powrotem w jego stronę, co oznacza, że górna powierzchnia ukrytego obiektu jest częściowo widoczna, podczas gdy jego boki i spód są praktycznie niewidoczne. Poprzednie systemy próbowały interpretować te niekompletne chmury punktów wyłącznie za pomocą reguł fizycznych – było to fundamentalnie ograniczone podejście.

Proces Wave-Former działa w trzech etapach. Najpierw tworzy częściową rekonstrukcję ukrytego obiektu z surowych odbić mmWave. Następnie przekazuje ten częściowy kształt do modelu generatywnej SI wytrenowanego do przewidywania prawdopodobnych uzupełnień. W trzecim etapie iteracyjnie udoskonala powierzchnię, aż do uzyskania pełnej rekonstrukcji 3D. Efekt: roboty mogą nie tylko wykryć ukryty obiekt, ale także zrozumieć jego geometrię na tyle, aby zaplanować niezawodny chwyt.

Zgodnie z relacją Robohuba na temat badań, system został zweryfikowany na obiektach ukrytych za lub pod kartonem, drewnem, płytami gipsowo-kartonowymi, plastikiem i tkaniną – dokładnie tych materiałach, które występują w rzeczywistych środowiskach magazynowych i logistycznych.

RISE: Mapowanie całych pomieszczeń z pojedynczego radaru

Drugi system MIT, RISE (Radar-based Indoor Scene Understanding), rekonstruuje pełne układy pomieszczeń – w tym rozmieszczenie mebli – wykorzystując odbicia z pojedynczego stacjonarnego radaru mmWave. Osiąga mniej więcej dwukrotną precyzję przestrzenną w porównaniu z istniejącymi technikami i nie wymaga ruchomej platformy sensorowej.

Większość obecnych podejść do bezprzewodowej rekonstrukcji sceny wymaga radaru zamontowanego na ruchomym robocie, aby przeszukać otoczenie – to istotne ograniczenie operacyjne. RISE stosuje inne podejście: wykorzystuje odbicia wielościeżkowe generowane przez ludzi poruszających się naturalnie po pomieszczeniu.

Gdy osoba się porusza, sygnały mmWave odbijają się od niej, a następnie odbijają się ponownie od ścian i mebli, zanim wrócą do radaru. Te wtórne echa – zazwyczaj odrzucane jako szum pod nazwą „sygnały widmowe” – w rzeczywistości kodują informacje przestrzenne o układzie pomieszczenia. W miarę ruchu osoby sygnały widmowe przesuwają się, a ich zmieniające się położenie ujawnia geometrię otaczających powierzchni.

System RISE rekonstruuje całe sceny wewnętrzne, wykorzystując odbicia sygnałów bezprzewodowych od ludzi poruszających się w pomieszczeniu Zespół zbudował również rozszerzony system, który w pełni rekonstruuje całe sceny wewnętrzne, wykorzystując odbicia sygnałów bezprzewodowych od ludzi poruszających się w pomieszczeniu. Źródło: Dzięki uprzejmości naukowców.

RISE został zweryfikowany na ponad 100 trajektoriach ludzkich zarejestrowanych przez pojedynczy stacjonarny radar. Kwestia prywatności jest również godna uwagi: w przeciwieństwie do systemów kamerowych, radar mmWave nie rejestruje obrazów wizualnych osób, co umożliwia jego wdrożenie w środowiskach, w których kamery napotykają bariery regulacyjne lub związane z zgodą.

Problem danych treningowych – i jak MIT go rozwiązał

Podstawową przeszkodą dla każdego modelu SI w tej dziedzinie jest niedobór danych: żaden zestaw danych mmWave nie jest wystarczająco duży, aby wytrenować model generatywny od podstaw. Rozwiązaniem MIT było symulowanie fizyki mmWave na istniejących, wielkoskalowych zbiorach danych wizji komputerowej – zasadniczo ucząc SI języka radaru bez potrzeby posiadania danych treningowych specyficznych dla radaru.

Trenowanie dużych modeli generatywnych, takich jak GPT czy Claude, wymaga zbiorów danych z milionami lub miliardami przykładów. Zbiory danych badawczych mmWave są o rzędy wielkości mniejsze. Zebranie wystarczających rzeczywistych danych radarowych, jak wyjaśnia asystentka badawcza MIT Maisy Lam, „zajęłoby lata”.

Obejściem zespołu była adaptacja syntetyczna: wzięli duże istniejące zestawy danych wizji komputerowej i nałożyli obliczeniowo właściwości fizyczne odbić mmWave – spekularność, charakterystykę szumów, geometrię sygnału – na dane obrazowe. To stworzyło syntetyczny, ale fizycznie dokładny zestaw treningowy, z którego model generatywny mógł się uczyć.

To podejście reprezentuje szerszy trend pojawiający się w badaniach nad fizyczną SI: wykorzystanie symulacji opartej na fizyce do wspomagania treningu SI w sytuacjach, gdy rzeczywiste dane są rzadkie lub kosztowne w zbieraniu. Ta sama zasada leży u podstaw wielu postępów w uczeniu manipulacji robotów, gdzie transfer z symulacji do rzeczywistości stał się dominującym paradygmatem.

System	Zadanie	Źródło sygnału	Poprawa dokładności	Konfiguracja czujnika
Wave-Former	Rekonstrukcja 3D ukrytych obiektów	Odbicia mmWave od obiektów	~20% względem SOTA	Radar mobilny lub stacjonarny
RISE	Rekonstrukcja całego pomieszczenia	Odbicia mmWave od poruszających się ludzi	~2× precyzja względem SOTA	Pojedynczy radar stacjonarny

Co to oznacza dla magazynowej i przemysłowej robotyki

Dla nabywców i inżynierów robotyki te dwa systemy rozwiązują różne, ale równie palące problemy operacyjne: weryfikację spakowanych przedmiotów w zamkniętych pojemnikach oraz umożliwienie robotom zrozumienia dynamicznych środowisk bez pełnego pokrycia sensorowego.

Kompletacja i weryfikacja opakowań

Obecnie roboty magazynowe nie mogą potwierdzić, co znajduje się w zamkniętym pudełku bez jego otwierania. Zdolność Wave-Former do rekonstrukcji geometrii obiektów 3D przez karton i plastik bezpośrednio odpowiada na potrzebę weryfikacji przed wysyłką – istotny problem w realizacji zamówień e-commerce, gdzie wskaźniki zwrotów z powodu błędnie spakowanych zamówień generują znaczne koszty. Robot wyposażony w percepcję mmWave mógłby zweryfikować obecność i przybliżoną geometrię przedmiotu przed zapieczętowaniem pudełka, nie spowalniając linii.

Inteligentne wdrażanie cobotów i AMR

Zdolność RISE do mapowania pomieszczeń za pomocą pojedynczego radaru ma bezpośrednie implikacje dla autonomicznych robotów mobilnych (AMR) i cobotów wdrażanych w przestrzeniach współdzielonych z ludźmi. Obecne podejścia do śledzenia ludzi wymagają albo gęstego pokrycia kamerami (związanego z problemami prywatności), albo czujników zamontowanych na samym robotie. Stały radar, który buduje na żywo model przestrzenny pomieszczenia – w tym lokalizacje ludzi – na podstawie analizy sygnałów widmowych, mógłby umożliwić bezpieczniejszą i bardziej responsywną pracę cobotów w dynamicznych środowiskach.

Dla zespołów oceniających roboty pod kątem tych zastosowań warto rozważyć używane roboty przemysłowe i coboty dostępne obecnie na Botmarket, jednocześnie śledząc, jak systemy percepcji takie jak Wave-Former postępują w kierunku komercyjnej integracji.

Harmonogram wdrożenia

Oba systemy są na etapie badań, a wyniki zostaną zaprezentowane na IEEE Conference on Computer Vision and Pattern Recognition. Badania są wspierane przez NSF, MIT Media Lab i Amazon – ten ostatni jest znaczącym sygnałem zainteresowania komercyjnego. Kolejnym zadeklarowanym celem zespołu jest budowa modeli fundamentowych dla sygnałów bezprzewodowych, analogicznych do GPT czy Gemini dla języka, co stanowiłoby skokową zmianę w możliwości uogólniania tego podejścia na różne środowiska i typy obiektów.

Najczęściej zadawane pytania

Czym jest Wave-Former i jak działa?

Wave-Former to opracowany przez MIT system, który wykorzystuje sygnały radarowe w paśmie milimetrowym (mmWave) do rekonstrukcji kształtu 3D obiektów ukrytych za przeszkodami, takimi jak karton, płyta gipsowo-kartonowa i plastik. Najpierw tworzy częściową rekonstrukcję z odbić radarowych, a następnie używa modelu generatywnej SI do uzupełnienia brakującej geometrii. W testach na około 70 przedmiotach codziennego użytku osiągnął prawie 20% lepszą dokładność niż poprzednie najnowocześniejsze metody.

Jak RISE rekonstruuje pomieszczenia bez kamer?

RISE wykorzystuje pojedynczy stacjonarny radar mmWave i wykorzystuje „sygnały widmowe” – wtórne odbicia, które odbijają się od ludzi poruszających się po pokoju, a następnie od otaczających mebli i ścian. Śledząc, jak te odbicia wielościeżkowe zmieniają się podczas ruchu osoby, model generatywnej SI wnioskuje o układzie przestrzennym całego pomieszczenia. RISE wykazał około dwukrotną precyzję przestrzenną w porównaniu z istniejącymi technikami bezprzewodowej rekonstrukcji sceny na ponad 100 trajektoriach testowych.

Jakie przeszkody mogą przenikać sygnały mmWave?

Sygnały w paśmie milimetrowym – to samo pasmo częstotliwości używane w Wi-Fi – przenikają przez powszechne materiały niemetalowe, w tym karton, drewno, płytę gipsowo-kartonową, plastik i tkaninę. Nie przenikają skutecznie metalu. To czyni je dobrze dostosowanymi do środowisk magazynowych, gdzie towary są pakowane w karton i plastik, ale mniej przydatnymi w silnie metalicznych obudowach przemysłowych.

Czy ta technologia lepiej chroni prywatność niż kamery?

Tak. Radar mmWave nie rejestruje obrazów wizualnych osób w otoczeniu – wykrywa jedynie odbicia sygnału. Zdolność mapowania pomieszczeń RISE wykorzystuje ruch ludzi jako źródło sygnału bez rejestrowania jakichkolwiek identyfikowalnych danych wizualnych, co daje mu znaczącą przewagę nad mapowaniem przestrzennym opartym na kamerach we wdrożeniach wrażliwych na prywatność, takich jak szpitale, domy czy regulowane miejsca pracy.

Kiedy ta technologia będzie dostępna w komercyjnych robotach?

Zarówno Wave-Former, jak i RISE są obecnie na etapie badań, a artykuły zostaną zaprezentowane na CVPR. Amazon znajduje się wśród partnerów finansujących, co sugeruje aktywne zainteresowanie komercyjne. Zespół MIT wskazał, że budowa modeli fundamentowych dla sygnałów bezprzewodowych jest kolejnym priorytetem rozwojowym. Komercyjna integracja w systemach magazynowych lub cobotowych jest prawdopodobnie oddalona o lata, ale trajektoria w kierunku wdrażalnego sprzętu jest jasna.

Te badania są jednym z bardziej praktycznie ugruntowanych postępów w percepcji robotów w ciągu ostatniego roku – nie marginalną poprawą benchmarków, ale prawdziwą zmianą architektoniczną w tym, jak roboty mogą modelować otaczający je świat. Generatywna SI nie jest już tylko narzędziem językowym czy obrazowym; staje się silnikiem wnioskowania, który pozwala systemom fizycznym rozumować o tym, czego nie mogą bezpośrednio obserwować.

SI MIT widząca przez ściany rozwiązuje największy problem percepcji robotów magazynowych