Дослідники MIT використали спеціально навчені моделі генеративного ШІ, щоб створити систему, яка може завершувати форму прихованих 3D-об'єктів. Авторство: люб'язно надано дослідниками.
Роботи, що працюють на складах та в розумних будинках, мають фундаментальну сліпу зону: все, що заблоковано від їхніх камер, для них просто не існує. Дослідники MIT застосували генеративний ШІ, щоб виправити це, використовуючи міліметрові бездротові сигнали та спеціально навчені моделі ШІ для реконструкції прихованих об'єктів і цілих кімнат з майже на 20% вищою точністю, ніж попередні методи — без жодної камери.
- Чому зір на основі камер має структурну слабкість
- Як Wave-Former реконструює приховані об'єкти крізь стіни
- RISE: картографування цілих кімнат з одного радара
- Проблема навчальних даних — і як MIT її вирішив
- Що це означає для складської та промислової робототехніки
- Часті запитання
Чому зір на основі камер має структурну слабкість
Сприйняття роботів, що залежить від камер, виходить з ладу, щойно об'єкт опиняється поза лінією видимості — за упаковкою, під сміттям або за рогом. Це не крайній випадок; це щоденна операційна реальність на складах, у логістичних центрах та домашніх середовищах, де роботам потрібно знаходити, ідентифікувати та захоплювати об'єкти, які вони не можуть безпосередньо бачити.
Існуючі обхідні рішення — кілька камер, структуроване світло, LiDAR — усі мають те саме обмеження: вони потребують чіткого оптичного шляху. Щойно до рівняння потрапляє картон, гіпсокартон, пластик або навіть щільна тканина, робот фактично сліпне. Це обмеження призводить до дорогих помилок у виконанні замовлень, включаючи неправильно ідентифіковані упаковані предмети та невдалі захоплення, які зупиняють виробничі лінії.
Група Signal Kinetics з MIT під керівництвом доцента Фаделя Адіба провела понад десятиліття, створюючи альтернативи з використанням міліметрових (mmWave) радарних сигналів — того ж діапазону частот, що використовується в сучасному Wi-Fi, — які проходять крізь звичайні перешкоди та відбиваються від прихованих об'єктів. Виклик, дотепер, полягав у тому, що ці відбиття були надто неповними, щоб бути корисними для точного маніпулювання.
Як Wave-Former реконструює приховані об'єкти крізь стіни
Wave-Former, нова система MIT, поєднує mmWave радар з моделлю генеративного ШІ для реконструкції повної 3D-форми об'єктів, прихованих за перешкодами, досягаючи майже 20% покращення точності порівняно з попередніми найсучаснішими методами на приблизно 70 повсякденних об'єктах, включаючи банки, коробки, столові прибори та фрукти.
Основна фізична проблема — спекулярність: сигнали mmWave відбиваються від поверхонь в одному напрямку, як світло від дзеркала. Радарний сенсор реєструє лише відбиття, спрямовані назад до нього, тому верхня поверхня прихованого об'єкта частково видима, а боки і нижня сторона фактично невидимі. Попередні системи намагалися інтерпретувати ці неповні хмари точок, використовуючи лише фізичні правила — принципово обмежений підхід.
Конвеєр Wave-Former працює в три етапи. По-перше, він будує часткову реконструкцію прихованого об'єкта з сирих відбитків mmWave. По-друге, він подає цю часткову форму генеративній моделі ШІ, навченій передбачати ймовірні завершення. По-третє, він ітеративно уточнює поверхню, поки вона не зійдеться до повної 3D-реконструкції. Результат: роботи можуть не тільки виявити прихований об'єкт, але й зрозуміти його геометрію достатньо, щоб спланувати надійне захоплення.
Згідно з висвітленням дослідження на Robohub, система була перевірена на об'єктах, прихованих за або під картоном, деревом, гіпсокартоном, пластиком та тканиною — саме тими матеріалами, які присутні в реальних складських і логістичних середовищах.
RISE: картографування цілих кімнат з одного радара
Друга система MIT, RISE (Radar-based Indoor Scene Understanding), реконструює повні планування кімнат — включно з розташуванням меблів — використовуючи відбиття від одного стаціонарного mmWave радара. Вона досягає приблизно вдвічі вищої просторової точності, ніж існуючі методи, і не потребує мобільної сенсорної платформи.
Більшість сучасних підходів до бездротової реконструкції сцени вимагають радара, встановленого на рухомому роботі, щоб сканувати середовище — це значне операційне обмеження. RISE використовує інший підхід: він використовує багатошляхові відбиття, створювані людьми, які природним чином рухаються в кімнаті.
Коли людина рухається, сигнали mmWave відбиваються від неї, а потім знову відбиваються від стін та меблів, перш ніж повернутися до радара. Ці вторинні відлуння — зазвичай відкидаються як шум під міткою "примарні сигнали" — насправді кодують просторову інформацію про планування кімнати. Коли людина рухається, примарні сигнали зміщуються, і їх зміна позицій розкриває геометрію навколишніх поверхонь.
Команда також створила розширену систему, яка повністю реконструює цілі внутрішні сцени, використовуючи відбиття бездротових сигналів від людей, що рухаються в кімнаті. Авторство: люб'язно надано дослідниками.
RISE було перевірено на більш ніж 100 людських траєкторіях, зібраних одним стаціонарним радаром. Наслідки для приватності також помітні: на відміну від камерних систем, mmWave радар не фіксує візуальне зображення людей, що робить його застосовним у середовищах, де камери стикаються з регуляторними бар'єрами або перешкодами щодо згоди.
Проблема навчальних даних — і як MIT її вирішив
Основною перешкодою для будь-якої моделі ШІ в цій області є нестача даних: жоден набір даних mmWave не є достатньо великим для навчання генеративної моделі з нуля. Рішенням MIT стало моделювання фізики mmWave поверх існуючих великих наборів даних комп'ютерного зору — фактично навчання ШІ мови радара без потреби в навчальних даних, специфічних для радара.
Навчання великих генеративних моделей, таких як GPT або Claude, вимагає наборів даних з мільйонами або мільярдами прикладів. Набори дослідницьких даних mmWave на порядки менші. Збір достатньої кількості реальних радарних даних, як пояснює дослідницький асистент MIT Мейсі Лам, "зайняв би роки".
Обхідним шляхом команди стала синтетична адаптація: вони взяли великі існуючі набори даних комп'ютерного зору та обчислювально наклали фізичні властивості відбиттів mmWave — спекулярність, характеристики шуму, геометрія сигналу — на дані зображень. Це створило синтетичний, але фізично точний навчальний набір, з якого генеративна модель могла навчатися.
Цей підхід представляє ширший шаблон, що виникає в дослідженнях Фізичного ШІ: використання фізично-інформованого моделювання для завантаження навчання ШІ там, де реальних даних мало або їх збір дорогий. Той самий принцип лежить в основі значної частини прогресу в навчанні маніпуляцій роботів, де передача "сим-до-реалу" стала домінуючою парадигмою.
| Система | Завдання | Джерело сигналу | Підвищення точності | Конфігурація датчика |
|---|---|---|---|---|
| Wave-Former | 3D-реконструкція прихованих об'єктів | Відбиття mmWave від об'єктів | ~20% над SOTA | Мобільний або стаціонарний радар |
| RISE | Реконструкція сцени кімнати | Відбиття mmWave від людей, що рухаються | ~2× точність над SOTA | Один стаціонарний радар |
Що це означає для складської та промислової робототехніки
Для покупців робототехніки та інженерів ці дві системи вирішують різні, але однаково нагальні операційні проблеми: перевірку упакованих предметів у запечатаних контейнерах та надання роботам можливості розуміти динамічні середовища без повного покриття сенсорами.
Виконання замовлень та перевірка упаковки
Наразі складські роботи не можуть підтвердити, що знаходиться всередині запечатаної коробки, не відкриваючи її. Здатність Wave-Former реконструювати 3D-геометрію об'єктів через картон та пластик безпосередньо вирішує проблему передвідвантажувальної перевірки — значне больове місце для електронної комерції, де рівень повернень через неправильно упаковані замовлення призводить до великих витрат. Робот, оснащений mmWave сприйняттям, міг би перевірити наявність та приблизну геометрію предмета, перш ніж коробка буде запечатана, не сповільнюючи лінію.
Розумне розгортання для коботів та AMR
Можливість картографування кімнати з одного радара RISE має безпосередні наслідки для автономних мобільних роботів (AMR) та коботів, розгорнутих у просторах, де вони ділять робочий простір з людьми. Поточні підходи до відстеження людини або вимагають щільного покриття камерами (з пов'язаними проблемами приватності), або сенсорів, встановлених на самому рухомому роботі. Фіксований радар, який будує живу просторову модель кімнати — включаючи розташування людей — з аналізу примарних сигналів, міг би забезпечити безпечнішу та більш чутливу роботу коботів у динамічних середовищах.
Для команд, які оцінюють роботів для цих застосувань, варто досліджувати [вживаних промислових роботів] (https://botmarket24.com/en/industrial-robots/) та [коботів, доступних на Botmarket] (https://botmarket24.com/en/cobots/), одночасно відстежуючи, як системи сприйняття, такі як Wave-Former, просуваються до комерційної інтеграції.
Часовий горизонт до впровадження
Обидві системи перебувають на стадії дослідження, результати будуть представлені на IEEE Conference on Computer Vision and Pattern Recognition. Дослідження підтримується NSF, MIT Media Lab та Amazon — останній є значним сигналом комерційного інтересу. Наступною заявленою метою команди є створення фундаментальних моделей для бездротових сигналів, аналогічних GPT або Gemini для мови, що являло б собою якісний стрибок у здатності цього підходу до узагальнення на різні середовища та типи об'єктів.
Часті запитання
Що таке Wave-Former і як він працює?
Wave-Former — це розроблена MIT система, яка використовує сигнали міліметрового (mmWave) радара для реконструкції 3D-форми об'єктів, прихованих за перешкодами, такими як картон, гіпсокартон та пластик. Вона будує часткову реконструкцію з відбиттів радара, а потім використовує модель генеративного ШІ для завершення відсутньої геометрії. У тестуванні на приблизно 70 повсякденних об'єктах він досяг майже 20% кращої точності, ніж попередні найсучасніші методи.
Як RISE реконструює кімнати без камер?
RISE використовує один стаціонарний mmWave радар і використовує "примарні сигнали" — вторинні відбиття, які відбиваються від людей, що рухаються в кімнаті, а потім від навколишніх меблів та стін. Відстежуючи, як ці багатошляхові відбиття змінюються під час руху людини, модель генеративного ШІ визначає просторове планування всієї кімнати. RISE продемонстрував приблизно вдвічі вищу просторову точність, ніж існуючі методи бездротової реконструкції сцен на понад 100 тестових траєкторіях.
Через які перешкоди проникають сигнали mmWave?
Сигнали міліметрового діапазону — той самий частотний діапазон, що використовується в Wi-Fi, — проходять крізь звичайні неметалеві матеріали, включаючи картон, дерево, гіпсокартон, пластик та тканину. Вони ефективно не проникають через метал. Це робить їх добре придатними для складських середовищ, де товари упаковані в картон та пластик, але менш застосовними у сильно металевих промислових кожухах.
Чи зберігає ця технологія приватність краще, ніж камери?
Так. mmWave радар не фіксує візуальне зображення людей в середовищі — він лише виявляє відбиття сигналів. Можливість картографування кімнати RISE використовує рух людини як джерело сигналу без запису будь-яких ідентифікованих візуальних даних, що дає йому значну перевагу над камерною просторовою картографією в середовищах, чутливих до приватності, таких як лікарні, будинки або регульовані робочі місця.
Коли ця технологія буде доступна в комерційних роботах?
Як Wave-Former, так і RISE зараз перебувають на стадії дослідження, статті будуть представлені на CVPR. Amazon є серед партнерів-фінансистів, що свідчить про активний комерційний інтерес. Команда MIT повідомила, що наступним пріоритетом розвитку є створення фундаментальних моделей бездротових сигналів. Комерційна інтеграція в складські або коботні системи, ймовірно, відбудеться через роки, але траєкторія до розгортання обладнання зрозуміла.
Це дослідження є одним із найбільш практично обґрунтованих досягнень у сприйнятті роботів за останній рік — не маргінальне покращення контрольних показників, а справжня архітектурна зміна в тому, як роботи можуть моделювати світ навколо себе. Генеративний ШІ більше не є лише інструментом для мови чи зображень; він стає двигуном умовиводів, який дозволяє фізичним системам міркувати про те, що вони не можуть безпосередньо спостерігати.










Приєднуйтесь до обговорення
Would single-radar room awareness change how you deploy cobots or AMRs in your facility?