Исследователи из MIT применили специально обученные генеративные ИИ-модели для создания системы, способной восстанавливать форму скрытых 3D-объектов. Источник: Предоставлено исследователями.
Роботы, работающие на складах и в умных домах, имеют фундаментальную слепую зону: всё, что скрыто от их камер, для них просто не существует. Исследователи из MIT применили генеративный ИИ, чтобы исправить это, используя миллиметроволновые беспроводные сигналы и специально обученные модели ИИ для восстановления скрытых объектов и целых комнат с почти на 20% большей точностью по сравнению с предыдущими методами — и без единой камеры.
- Почему зрение роботов на основе камер имеет структурную слабость
- Как Wave-Former восстанавливает скрытые объекты сквозь стены
- RISE: картографирование целых комнат с помощью одного радара
- Проблема обучающих данных — и как MIT её решил
- Что это значит для складской и промышленной робототехники
- Часто задаваемые вопросы
Почему зрение роботов на основе камер имеет структурную слабость
Восприятие роботов, зависящее от камер, терпит неудачу, как только объект оказывается вне прямой видимости — за упаковкой, под обломками или за углом. Это не единичный случай, а ежедневная операционная реальность на складах, в логистических центрах и домашних средах, где роботам нужно находить, идентифицировать и захватывать объекты, которые они не видят напрямую.
Существующие обходные пути — множественные камеры, структурированный свет, LiDAR — все имеют одно и то же ограничение: требуется чёткий оптический путь. Как только в дело вступают картон, гипсокартон, пластик или даже плотная ткань, робот фактически слепнет. Это ограничение приводит к дорогостоящим ошибкам в операциях по комплектованию заказов, включая неправильно идентифицированные упакованные предметы и неудачные захваты, которые останавливают производственные линии.
Группа Signal Kinetics из MIT под руководством доцента Фаделя Адиба более десяти лет разрабатывает альтернативы, используя миллиметроволновые (mmWave) радиолокационные сигналы — тот же частотный диапазон, что и в современном Wi-Fi — которые проходят через обычные препятствия и отражаются от скрытых объектов. Проблема до сих пор заключалась в том, что эти отражения были слишком неполными для точного манипулирования.
Как Wave-Former восстанавливает скрытые объекты сквозь стены
Wave-Former, новая система MIT, объединяет mmWave-радар с генеративной ИИ-моделью для восстановления полной 3D-формы объектов, скрытых за препятствиями, достигая почти 20% улучшения точности по сравнению с предыдущими методами на примерно 70 повседневных объектах, включая банки, коробки, столовые приборы и фрукты.
Основная физическая проблема — зеркальность: mmWave-сигналы отражаются от поверхностей в одном направлении, как свет от зеркала. Радиолокационный датчик улавливает только отражения, направленные обратно на него, поэтому верхняя поверхность скрытого объекта частично видна, а его бока и нижняя часть фактически невидимы. Предыдущие системы пытались интерпретировать эти неполные облака точек только с помощью физических правил — принципиально ограниченный подход.
Конвейер Wave-Former работает в три этапа. Сначала он строит частичную реконструкцию скрытого объекта по сырым mmWave-отражениям. Затем он подаёт эту частичную форму генеративной ИИ-модели, обученной предсказывать правдоподобные завершения. Наконец, он итеративно уточняет поверхность до тех пор, пока не получится полная 3D-реконструкция. В результате роботы могут не только обнаружить скрытый объект, но и понять его геометрию достаточно хорошо, чтобы спланировать надёжный захват.
Согласно освещению исследования на Robohub, система была проверена на объектах, скрытых за или под картоном, деревом, гипсокартоном, пластиком и тканью — именно те материалы, которые встречаются в реальных складских и логистических средах.
RISE: картографирование целых комнат с помощью одного радара
Вторая система MIT, RISE (Radar-based Indoor Scene Understanding), восстанавливает полную планировку комнат — включая расстановку мебели — используя отражения от одного стационарного mmWave-радара. Она достигает примерно вдвое большей пространственной точности по сравнению с существующими методами и не требует мобильной сенсорной платформы.
Большинство современных подходов к беспроводной реконструкции сцен требуют радара, установленного на движущемся роботе, для сканирования среды — существенное операционное ограничение. RISE использует другой подход: он использует многолучевые отражения, создаваемые людьми, естественно движущимися по комнате.
Когда человек движется, mmWave-сигналы отражаются от него, затем снова отражаются от стен и мебели, прежде чем вернуться на радар. Эти вторичные эхо-сигналы — обычно отбрасываемые как шум под ярлыком «сигналы-призраки» — на самом деле кодируют пространственную информацию о планировке комнаты. Когда человек движется, сигналы-призраки смещаются, и их меняющиеся положения раскрывают геометрию окружающих поверхностей.
Команда также создала расширенную систему, полностью восстанавливающую внутренние сцены, используя отражения беспроводных сигналов от людей, движущихся в комнате. Источник: Предоставлено исследователями.
RISE был проверен на более чем 100 траекториях движения людей, записанных одним стационарным радаром. С точки зрения конфиденциальности: в отличие от камер, mmWave-радар не захватывает визуальные изображения людей, что позволяет развёртывать его в средах, где камеры сталкиваются с нормативными барьерами или требованиями согласия.
Проблема обучающих данных — и как MIT её решил
Основное препятствие для любой ИИ-модели в этой области — нехватка данных: ни один mmWave-набор данных не достаточно велик для обучения генеративной модели с нуля. Решение MIT заключалось в симуляции mmWave-физики на основе существующих крупномасштабных наборов данных компьютерного зрения — то есть, обучение ИИ языку радара без необходимости в специализированных радиолокационных данных.
Обучение больших генеративных моделей, таких как GPT или Claude, требует наборов данных с миллионами или миллиардами примеров. Наборы данных mmWave-исследований на порядки меньше. Сбор достаточного количества реальных радиолокационных данных занял бы, как объясняет научный ассистент MIT Мэйси Лам, «годы».
Обходной путь команды заключался в синтетической адаптации: они взяли существующие крупные наборы данных компьютерного зрения и вычислительно наложили физические свойства mmWave-отражений — зеркальность, шумовые характеристики, геометрию сигнала — на данные изображений. Это создало синтетический, но физически точный обучающий набор, на котором могла учиться генеративная модель.
Этот подход представляет собой более широкую тенденцию, возникающую в исследованиях Physical AI: использование физически обоснованной симуляции для загрузки обучения ИИ, когда реальные данные скудны или дороги в сборе. Тот же принцип лежит в основе многих достижений в обучении манипуляциям роботов, где перенос из симуляции в реальность стал доминирующей парадигмой.
| Система | Задача | Источник сигнала | Повышение точности | Конфигурация датчика |
|---|---|---|---|---|
| Wave-Former | 3D-реконструкция скрытых объектов | mmWave-отражения от объектов | ~20% по сравнению с SOTA | Мобильный или стационарный радар |
| RISE | Полная реконструкция сцены комнаты | mmWave-отражения от движущихся людей | ~2× точность по сравнению с SOTA | Один стационарный радар |
Что это значит для складской и промышленной робототехники
Для покупателей и инженеров в сфере робототехники эти две системы решают разные, но одинаково насущные операционные проблемы: проверка упакованных предметов в запечатанных контейнерах и возможность роботов понимать динамические среды без полного сенсорного покрытия.
Комплектование заказов и проверка упаковки
В настоящее время складские роботы не могут подтвердить, что находится внутри запечатанной коробки, не вскрывая её. Способность Wave-Former восстанавливать 3D-геометрию объектов через картон и пластик напрямую решает задачу предотгрузочной проверки — серьёзную проблему для электронной коммерции, где уровень возвратов из-за неправильно укомплектованных заказов генерирует значительные затраты. Робот, оснащённый mmWave-восприятием, мог бы проверять наличие предмета и его приблизительную геометрию до запечатывания коробки, не замедляя линию.
Умное развёртывание для коботов и AMR
Возможность картографирования комнаты с помощью одного радара системы RISE имеет непосредственное значение для автономных мобильных роботов (AMR) и коботов, развёрнутых в пространствах, где находятся люди. Современные подходы к отслеживанию людей требуют либо плотного покрытия камерами (с соответствующими проблемами конфиденциальности), либо датчиков, установленных на самом движущемся роботе. Стационарный радар, создающий живую пространственную модель комнаты — включая местоположение людей — на основе анализа сигналов-призраков, может обеспечить более безопасное и быстро реагирующее взаимодействие коботов в динамических средах.
Для команд, оценивающих роботов для этих приложений, стоит изучить подержанные промышленные роботы и коботов, доступных в настоящее время на Botmarket, отслеживая, как системы восприятия, подобные Wave-Former, продвигаются к коммерческой интеграции.
Сроки внедрения
Обе системы находятся на стадии исследований, результаты будут представлены на конференции IEEE по компьютерному зрению и распознаванию образов. Исследование финансируется NSF, MIT Media Lab и Amazon — последнее является значительным сигналом коммерческого интереса. Следующая заявленная цель команды — создание фундаментальных моделей для беспроводных сигналов, аналогичных GPT или Gemini для языка, что представляло бы собой качественный скачок в обобщаемости этого подхода для разных сред и типов объектов.
Часто задаваемые вопросы
Что такое Wave-Former и как он работает?
Wave-Former — это разработанная MIT система, которая использует миллиметроволновые (mmWave) радиолокационные сигналы для восстановления 3D-формы объектов, скрытых за препятствиями, такими как картон, гипсокартон и пластик. Она строит частичную реконструкцию по радиолокационным отражениям, а затем использует генеративную ИИ-модель для завершения недостающей геометрии. В тестах на примерно 70 повседневных объектах она достигла точности почти на 20% выше, чем предыдущие передовые методы.
Как RISE восстанавливает комнаты без камер?
RISE использует один стационарный mmWave-радар и использует «сигналы-призраки» — вторичные отражения, которые отражаются от людей, движущихся по комнате, а затем от окружающей мебели и стен. Отслеживая, как эти многолучевые отражения изменяются при движении человека, генеративная ИИ-модель определяет пространственную планировку всей комнаты. RISE продемонстрировал примерно вдвое большую пространственную точность по сравнению с существующими методами беспроводной реконструкции сцены на более чем 100 тестовых траекториях.
Через какие препятствия могут проникать mmWave-сигналы?
Миллиметроволновые сигналы — тот же частотный диапазон, что используется в Wi-Fi — проходят через обычные неметаллические материалы, включая картон, дерево, гипсокартон, пластик и ткань. Они не проникают через металл. Это делает их хорошо подходящими для складских сред, где товары упакованы в картон и пластик, но менее применимыми в сильно металлизированных промышленных корпусах.
Сохраняет ли эта технология конфиденциальность лучше, чем камеры?
Да. mmWave-радар не захватывает визуальные изображения людей в окружающей среде — он только обнаруживает отражения сигналов. Возможность картографирования комнат в RISE использует движения людей как источник сигнала без записи каких-либо идентифицируемых визуальных данных, что даёт ему значительное преимущество перед пространственным картографированием на основе камер в средах, чувствительных к конфиденциальности, таких как больницы, дома или регулируемые рабочие места.
Когда эта технология будет доступна в коммерческих роботах?
И Wave-Former, и RISE находятся на стадии исследований, статьи будут представлены на CVPR. Amazon входит в число спонсоров, что указывает на активный коммерческий интерес. Команда MIT указала, что следующей задачей является создание фундаментальных моделей беспроводных сигналов. Коммерческая интеграция в складские системы или коботы, вероятно, займёт годы, но траектория к развёртываемому оборудованию ясна.
Это исследование представляет собой один из наиболее практичных прорывов в восприятии роботов за последний год — не просто улучшение бенчмарка, а реальный архитектурный сдвиг в том, как роботы могут моделировать окружающий мир. Генеративный ИИ больше не является только инструментом для языка или изображений; он становится движком вывода, который позволяет физическим системам рассуждать о том, что они не могут непосредственно наблюдать.










Присоединяйтесь к обсуждению
Would single-radar room awareness change how you deploy cobots or AMRs in your facility?