MITs wandsehende KI löst das größte Wahrnehmungsproblem von Lagerrobotern (2026)

MIT-Forscher nutzten eigens trainierte generative KI-Modelle, um ein System zu entwickeln, das die Form versteckter 3D-Objekte vervollständigen kann. Bildnachweis: Mit freundlicher Genehmigung der Forscher.

Roboter in Lagern und Smart Homes haben eine grundlegende Schwachstelle: Alles, was ihren Kameras verborgen bleibt, existiert für sie schlichtweg nicht. MIT-Forscher haben nun generative KI eingesetzt, um dieses Problem zu beheben – mithilfe von Millimeterwellen-Funksignalen und speziell trainierten KI-Modellen, die versteckte Objekte und ganze Räume mit fast 20% höherer Genauigkeit als bisherige Methoden rekonstruieren – und das ganz ohne Kameras.

Warum kamerabasierte Robotersicht eine strukturelle Schwäche hat
Wie Wave-Former versteckte Objekte durch Wände rekonstruiert
RISE: Komplette Räume mit einem einzigen Radar kartieren
Das Trainingsdatenproblem – und wie das MIT es löste
Was das für Lager- und Industrierobotik bedeutet
Häufig gestellte Fragen

Warum kamerabasierte Robotersicht eine strukturelle Schwäche hat

Die kamerabasierte Wahrnehmung von Robotern versagt in dem Moment, in dem ein Objekt außer Sichtweite gerät – hinter Verpackungen, unter Trümmern oder um eine Ecke. Das ist kein Randfall, sondern eine alltägliche betriebliche Realität in Lagern, Logistikzentren und heimischen Umgebungen, in denen Roboter Objekte lokalisieren, identifizieren und greifen müssen, die sie nicht direkt sehen können.

Bestehende Lösungen – mehrere Kameras, strukturiertes Licht, LiDAR – teilen alle dieselbe Einschränkung: Sie benötigen einen freien optischen Weg. Sobald Pappe, Trockenbau, Kunststoff oder auch nur dichter Stoff ins Spiel kommen, ist der Roboter praktisch blind. Diese Einschränkung führt zu kostspieligen Fehlern in Fulfillment-Betrieben, darunter falsch identifizierte Packstücke und fehlgeschlagene Greifversuche, die Produktionslinien zum Stillstand bringen.

Die MIT Signal Kinetics Group unter der Leitung von Associate Professor Fadel Adib hat über ein Jahrzehnt an Alternativen mit Millimeterwellen-Radarsignalen (mmWave) gearbeitet – dem gleichen Frequenzband, das auch modernes WLAN nutzt – die durch übliche Hindernisse dringen und von verdeckten Objekten reflektiert werden. Die Herausforderung bestand bislang darin, dass diese Reflexionen zu unvollständig waren, um für präzise Manipulationen nutzbar zu sein.

Wie Wave-Former versteckte Objekte durch Wände rekonstruiert

Wave-Former, das neue System des MIT, kombiniert mmWave-Radar mit einem generativen KI-Modell, um die vollständige 3D-Form von Objekten hinter Hindernissen zu rekonstruieren – mit einer Genauigkeitssteigerung von fast 20% gegenüber dem bisherigen Stand der Technik bei rund 70 Alltagsgegenständen wie Dosen, Kartons, Besteck und Obst.

Das grundlegende physikalische Problem ist die Spiegelung: mmWave-Signale werden von Oberflächen in eine einzige Richtung reflektiert, ähnlich wie Licht an einem Spiegel. Das Radar erfasst nur die direkt zu ihm zurückgeworfenen Reflexionen, wodurch die Oberseite eines versteckten Objekts teilweise sichtbar ist, während die Seiten und die Unterseite praktisch unsichtbar bleiben. Bisherige Systeme versuchten, diese unvollständigen Punktwolken mit rein physikbasierten Regeln zu interpretieren – ein grundsätzlich begrenzter Ansatz.

Die Pipeline von Wave-Former arbeitet in drei Schritten. Zunächst erstellt es eine teilweise Rekonstruktion des verdeckten Objekts aus den rohen mmWave-Reflexionen. Dann führt es diese Teilform einem generativen KI-Modell zu, das darauf trainiert ist, plausible Vervollständigungen vorherzusagen. Schließlich verfeinert es iterativ die Oberfläche, bis eine vollständige 3D-Rekonstruktion erreicht ist. Das Ergebnis: Roboter können nicht nur ein verdecktes Objekt erkennen, sondern seine Geometrie so gut verstehen, dass sie einen zuverlässigen Griff planen können.

Laut Robohubs Berichterstattung über die Forschung wurde das System an Objekten getestet, die hinter oder unter Pappe, Holz, Trockenbau, Kunststoff und Stoff verborgen waren – genau die Materialien, die in realen Lager- und Logistikumgebungen vorkommen.

RISE: Komplette Räume mit einem einzigen Radar kartieren

Das zweite System des MIT, RISE (Radar-based Indoor Scene Understanding), rekonstruiert vollständige Raumlayouts – einschließlich Möbelanordnung – unter Verwendung von Reflexionen eines einzigen stationären mmWave-Radars. Es erreicht etwa die doppelte räumliche Präzision bestehender Techniken und benötigt keine mobile Sensorplattform.

Die meisten aktuellen Ansätze zur drahtlosen Szenenrekonstruktion erfordern ein Radar, das auf einem sich bewegenden Roboter montiert ist, um die Umgebung abzutasten – eine erhebliche betriebliche Einschränkung. RISE verfolgt einen anderen Ansatz: Es nutzt Mehrwege-Reflexionen, die von Menschen erzeugt werden, die sich auf natürliche Weise durch einen Raum bewegen.

Wenn sich eine Person bewegt, prallen mmWave-Signale von ihr ab, werden dann erneut von Wänden und Möbeln reflektiert, bevor sie zum Radar zurückkehren. Diese sekundären Echos – normalerweise als Rauschen unter dem Label „Geistersignale" verworfen – enthalten tatsächlich räumliche Informationen über das Raumlayout. Während sich die Person bewegt, verschieben sich die Geistersignale, und ihre sich ändernden Positionen geben die Geometrie der umgebenden Oberflächen preis.

Das RISE-System rekonstruiert vollständige Innenräume, indem es drahtlose Signalreflexionen von sich im Raum bewegenden Menschen nutzt Das Team baute auch ein erweitertes System, das vollständige Innenräume mithilfe von drahtlosen Signalreflexionen von sich im Raum bewegenden Menschen rekonstruiert. Bildnachweis: Mit freundlicher Genehmigung der Forscher.

RISE wurde an mehr als 100 menschlichen Bewegungsmustern validiert, die von einem einzigen stationären Radar erfasst wurden. Auch die Datenschutzimplikation ist bemerkenswert: Im Gegensatz zu Kamerasystemen erfasst mmWave-Radar keine visuellen Bilder von Personen, was es in Umgebungen einsetzbar macht, in denen Kameras auf regulatorische oder einwilligungsbezogene Hindernisse stoßen.

Das Trainingsdatenproblem – und wie das MIT es löste

Das grundlegende Hindernis für jedes KI-Modell in diesem Bereich ist Datenknappheit: Kein mmWave-Datensatz ist groß genug, um ein generatives Modell von Grund auf zu trainieren. Die Lösung des MIT bestand darin, mmWave-Physik auf bestehende groß angelegte Computervisions-Datensätze zu simulieren – im Grunde wurde der KI die Sprache des Radars beigebracht, ohne dass radarspezifische Trainingsdaten nötig waren.

Das Training großer generativer Modelle wie GPT oder Claude erfordert Datensätze mit Millionen oder Milliarden von Beispielen. mmWave-Forschungsdatensätze sind um Größenordnungen kleiner. Ausreichend reale Radardaten zu sammeln hätte, wie MIT-Forschungsassistent Maisy Lam erklärt, „Jahre gedauert".

Der Workaround des Teams war die synthetische Anpassung: Sie nahmen große bestehende Computervisions-Datensätze und überlagerten rechnerisch die physikalischen Eigenschaften von mmWave-Reflexionen – Spiegelung, Rauscheigenschaften, Signalgeometrie – auf die Bilddaten. Dadurch entstand ein synthetischer, aber physikalisch genauer Trainingssatz, von dem das generative Modell lernen konnte.

Der Ansatz stellt ein breiteres Muster dar, das sich in der Physical-AI-Forschung abzeichnet: die Nutzung physik-informierter Simulation, um KI-Training dort zu ermöglichen, wo reale Daten knapp oder teuer zu beschaffen sind. Das gleiche Prinzip liegt einem Großteil der Fortschritte beim Lernen von Roboter-Manipulation zugrunde, wo der Sim-to-Real-Transfer zu einem dominanten Paradigma geworden ist.

System	Aufgabe	Signalquelle	Genauigkeitssteigerung	Sensorkonfiguration
Wave-Former	3D-Rekonstruktion versteckter Objekte	mmWave-Reflexionen von Objekten	~20% über SOTA	Mobiles oder festes Radar
RISE	Vollständige Raum-Szenenrekonstruktion	mmWave-Reflexionen von sich bewegenden Menschen	~2-fache Präzision über SOTA	Einzelnes stationäres Radar

Was das für Lager- und Industrierobotik bedeutet

Für Robotikkäufer und Ingenieure adressieren diese beiden Systeme unterschiedliche, aber gleichermaßen dringende operative Probleme: die Überprüfung verpackter Artikel in versiegelten Behältern und die Befähigung von Robotern, dynamische Umgebungen ohne vollständige Sensorabdeckung zu verstehen.

Fulfillment und Packungsüberprüfung

Lagerroboter können derzeit nicht bestätigen, was sich in einer versiegelten Schachtel befindet, ohne sie zu öffnen. Wave-Formers Fähigkeit, 3D-Objektgeometrie durch Pappe und Kunststoff zu rekonstruieren, adressiert direkt die Vorversandüberprüfung – ein erheblicher Schmerzpunkt im E-Commerce-Fulfillment, wo Retourenquoten aufgrund falsch gepackter Bestellungen erhebliche Kosten verursachen. Ein Roboter mit mmWave-Wahrnehmung könnte das Vorhandensein und die grobe Geometrie von Artikeln überprüfen, bevor eine Schachtel versiegelt wird, ohne die Linie zu verlangsamen.

Intelligente Bereitstellung für Cobots und AMRs

RISE Fähigkeit zur Raumerfassung mit einem einzigen Radar hat unmittelbare Auswirkungen auf autonome mobile Roboter (AMRs) und Cobots, die in Räumen eingesetzt werden, die mit Menschen geteilt werden. Aktuelle Ansätze zur Personenerfassung erfordern entweder eine dichte Kamerabdeckung (mit entsprechenden Datenschutzbedenken) oder am sich bewegenden Roboter selbst montierte Sensoren. Ein fest installiertes Radar, das aus der Analyse von Geistersignalen ein lebendiges räumliches Modell des Raums – einschließlich der Positionen von Menschen – erstellt, könnte einen sichereren und reaktionsschnelleren Cobot-Betrieb in dynamischen Umgebungen ermöglichen.

Für Teams, die Roboter für diese Anwendungen evaluieren, lohnt es sich, gebrauchte Industrieroboter und derzeit auf Botmarket erhältliche Cobots zu erkunden, während sie verfolgen, wie Wahrnehmungssysteme wie Wave-Former zur kommerziellen Integration fortschreiten.

Zeitplan bis zur Bereitstellung

Beide Systeme befinden sich im Forschungsstadium; Ergebnisse werden auf der IEEE Conference on Computer Vision and Pattern Recognition präsentiert. Die Forschung wird von der NSF, dem MIT Media Lab und Amazon unterstützt – letzteres ein bedeutendes Signal für kommerzielles Interesse. Das nächste erklärte Ziel des Teams ist der Aufbau von Foundation-Modellen für drahtlose Signale, analog zu GPT oder Gemini für Sprache, was einen grundlegenden Fortschritt in der Generalisierbarkeit dieses Ansatzes über Umgebungen und Objekttypen hinweg darstellen würde.

Häufig gestellte Fragen

Was ist Wave-Former und wie funktioniert es?

Wave-Former ist ein vom MIT entwickeltes System, das Millimeterwellen-Radarsignale nutzt, um die 3D-Form von Objekten zu rekonstruieren, die hinter Hindernissen wie Pappe, Trockenbau und Kunststoff verborgen sind. Es erstellt eine teilweise Rekonstruktion aus Radarreflexionen und verwendet dann ein generatives KI-Modell, um die fehlende Geometrie zu vervollständigen. In Tests mit rund 70 Alltagsgegenständen erreichte es eine fast 20% bessere Genauigkeit als bisherige Spitzenmethoden.

Wie rekonstruiert RISE Räume ohne Kameras?

RISE verwendet ein einziges stationäres mmWave-Radar und nutzt „Geistersignale" – sekundäre Reflexionen, die von sich durch einen Raum bewegenden Menschen und dann von umgebenden Möbeln und Wänden abprallen. Indem es verfolgt, wie sich diese Mehrwege-Reflexionen mit der Bewegung der Person ändern, leitet ein generatives KI-Modell das räumliche Layout des gesamten Raums ab. RISE demonstrierte etwa die doppelte räumliche Präzision bestehender drahtloser Szenenrekonstruktionstechniken in über 100 Testtrajektorien.

Welche Hindernisse können mmWave-Signale durchdringen?

Millimeterwellen-Signale – der gleiche Frequenzbereich, den auch WLAN nutzt – durchdringen übliche nichtmetallische Materialien wie Pappe, Holz, Trockenbau, Kunststoff und Stoff. Metall durchdringen sie nicht effektiv. Dies macht sie gut geeignet für Lagerumgebungen, in denen Waren in Pappe und Kunststoff verpackt sind, aber weniger anwendbar in stark metallischen Industriegehäusen.

Bietet diese Technologie besseren Datenschutz als Kameras?

Ja. mmWave-Radar erfasst keine visuellen Bilder von Personen in der Umgebung – es erkennt nur Signalreflexionen. Die Raumkartierungsfähigkeit von RISE nutzt menschliche Bewegung als Signalquelle, ohne identifizierbare visuelle Daten aufzuzeichnen, was ihm einen bedeutenden Vorteil gegenüber kamerabasierter räumlicher Kartierung in datenschutzsensiblen Einsätzen wie Krankenhäusern, Wohnungen oder regulierten Arbeitsplätzen verschafft.

Wann wird diese Technologie in kommerziellen Robotern verfügbar sein?

Sowohl Wave-Former als auch RISE befinden sich derzeit im Forschungsstadium; Beiträge werden auf der CVPR präsentiert. Amazon gehört zu den Förderpartnern, was auf aktives kommerzielles Interesse hindeutet. Das MIT-Team hat angekündigt, dass die Entwicklung von Foundation-Modellen für drahtlose Signale die nächste Priorität ist. Eine kommerzielle Integration in Lager- oder Cobot-Systeme ist wahrscheinlich noch Jahre entfernt, aber der Weg zur einsatzbereiten Hardware ist klar.

Diese Forschung stellt einen der praktisch fundiertesten Fortschritte in der Roboterwahrnehmung des letzten Jahres dar – keine marginale Benchmark-Verbesserung, sondern eine echte architektonische Verschiebung darin, wie Roboter ihre Umgebung modellieren können. Generative KI ist nicht länger nur ein Werkzeug für Sprache oder Bilder; sie wird zur Schlussfolgerungsmaschine, die es physischen Systemen ermöglicht, über das zu schließen, was sie nicht direkt beobachten können.

MITs wandsehende KI löst das größte Wahrnehmungsproblem von Lagerrobotern