Автономные автомобили и роботы генерируют гораздо больше сенсорных данных, чем большинство организаций способно использовать. Nomadic привлек $8.4 миллиона начального финансирования, чтобы это исправить — создать инфраструктурный слой, который преобразует сырые видео- и сенсорные данные в структурированные, доступные для поиска наборы данных с помощью глубокого обучения. Это решает проблему «узкого горлышка», которая незаметно ограничивает темпы развития автономных систем по всей отрасли.
Содержание
- Что именно делает Nomadic?
- Почему данными AV и роботов так трудно управлять?
- Как работает подход глубокого обучения Nomadic?
- Что это значит для робототехники и автоматизации?
- Часто задаваемые вопросы
Что именно делает Nomadic?
Nomadic строит платформу инфраструктуры данных, которая преобразует сырые видео- и сенсорные записи, полученные от автономных автомобилей и роботов, в структурированные, доступные для запросов наборы данных. Вместо того чтобы хранить сырые материалы — дорого и практически невозможно искать, — система Nomadic использует модели глубокого обучения для тегирования, классификации и индексации данных, чтобы инженеры могли легко находить нужное.
Согласно TechCrunch, посевной раунд в $8.4 миллиона позиционирует Nomadic как инфраструктуру для всего стека Physical AI — не только для программ AV, но и для любых роботизированных систем, генерирующих непрерывные потоки сенсорных данных, которые необходимо превращать в обучающий сигнал.
Представьте себе разницу между складом с немаркированными коробками и полностью проиндексированной системой инвентаризации. Футаж существует в обоих случаях, но только один вариант оперативно полезен. Эта аналогия теряет силу в масштабе: проблема с данными AV — не только маркировка, но и огромный объём в сочетании с дороговизной человеческой аннотации и редкостью критических для безопасности крайних случаев, погребённых в часах рутинных записей.
Почему данными AV и роботов так трудно управлять?
Один автономный автомобиль может генерировать от 1 до 40 терабайт сырых сенсорных данных в день в зависимости от набора датчиков — камер, LiDAR, радаров, IMU. Небольшой парк из десяти машин, работающих непрерывно, производит больше данных в неделю, чем большинство корпоративных пайплайнов способны обработать.
Проблема усугубляется в двух направлениях. Во-первых, затраты на хранение быстро растут, когда данные на уровне петабайт должны сохраняться для обучения моделей, аудита безопасности и регуляторных проверок. Во-вторых, и это важнее, большая часть этих данных операционно инертна — их нельзя запрашивать, фильтровать или извлекать без значительных ручных усилий по разметке.
Для команд робототехников это создаёт болезненную обратную связь:
- Развертывание роботов в полевых условиях
- Сбор огромных объёмов сенсорных данных
- Трудности с извлечением конкретных сценариев отказов, крайних случаев или специфических событий, необходимых для улучшения модели
- Замедление итераций обучения
- Стагнация производительности развертывания
Традиционные рабочие процессы с ручной аннотацией экономически не масштабируются. Затраты на разметку для наборов данных автономного вождения исторически составляли от $0.05 до $0.50 за кадр, а один час видео при 30 кадрах в секунду содержит 108 000 кадров. Экономика активно discourages команды от использования полного потока данных своих парков.
Как работает подход глубокого обучения Nomadic?
Основная система Nomadic применяет модели глубокого обучения к сырым записям для автоматического извлечения семантической структуры из сенсорных потоков. Вместо того чтобы требовать от инженеров ручной разметки футажа перед тем, как он станет доступен для поиска, платформа определяет, что происходит в сцене, отмечает события и объекты и организует результат в форму, доступную для запросов.
Практическое значение значительно: команды робототехники и AV могут отправлять запросы на естественном языке или структурированные — «покажи все случаи, когда автомобиль приближался к пешеходу на расстояние менее 2 метров в дождь» — и извлекать соответствующие клипы из миллионов часов записей без ручного просмотра.
Этот подход отражает то, что современные векторные базы данных делают для неструктурированного текста, но применён к мультимодальным сенсорным данным, включая видео, облака точек и потоки IMU. Модель глубокого обучения выступает в качестве автоматического слоя аннотации, значительно снижая стоимость размеченного примера и увеличивая плотность извлекаемого сигнала из существующих данных.
Nomadic против традиционных подходов к пайплайнам данных
| Подход | Стоимость аннотации | Скорость запроса | Масштабируемость | Обнаружение крайних случаев |
|---|---|---|---|---|
| Ручная разметка | Высокая ($0.05–$0.50/кадр) | Низкая | Плохая | Зависит от рецензента |
| Автоматическая тегировка на основе правил | Низкая | Высокая | Умеренная | Пропускает новые события |
| Глубокое обучение Nomadic | Низкая–Средняя | Высокая | Высокая | Хорошая для обученных категорий |
| Без пайплайна (сырое хранение) | Нет | Нет | Высокая (затратно) | Ноль |
Важное замечание: аннотация на основе глубокого обучения наследует любые слепые зоны, существующие в распределении обучающих данных модели. Для редких, критически важных для безопасности крайних случаев — именно тех событий, которые наиболее ценны для обучения — модель, не видевшая достаточно примеров, может не надёжно их выявлять. Долгосрочное ценностное предложение Nomadic, вероятно, зависит от того, насколько хорошо их модели обобщаются на различные развертывания роботов и автомобилей.
Что это значит для робототехники и автоматизации
«Узкое горлышко» данных, которое атакует Nomadic, не уникально для автономных автомобилей. Это та же проблема, с которой сталкиваются складские AMR (автономные мобильные роботы), промышленные инспекционные роботы, системы сельскохозяйственной автоматизации и программы гуманоидных роботов — любые воплощённые AI-системы, генерирующие непрерывные перцептивные данные в реальном мире.
Для команд, эксплуатирующих или закупающих парки роботов, это имеет значение в двух конкретных аспектах.
Скорость обучения: Темп, с которым улучшается роботизированная система, напрямую ограничен тем, как быстро команды могут извлекать значимый обучающий сигнал из данных развертывания. Инфраструктура, ускоряющая этот цикл — даже в 2–3 раза — пропорционально сжимает временную шкалу улучшений.
Интеллект парка в масштабе: По мере роста парков роботов операционная ценность сенсорных данных выходит за рамки обучения моделей. Структурированные данные открывают возможность обнаружения аномалий, сигналов прогнозируемого обслуживания и сравнительного анализа производительности между устройствами — превращая сам парк роботов в непрерывно само-документирующуюся систему.
Для операторов, рассматривающих развертывание подержанных или восстановленных роботов — где конфигурации датчиков могут различаться, а существующие наборы данных менее курированы — такие платформы, как Nomadic, становятся особенно актуальными. Подача полевых данных от подержанных промышленных роботов обратно в структурированные обучающие пайплайны исторически была ручным, дорогим процессом. Автоматизированная инфраструктура структурирования меняет эту экономику.
Сумма посевного раунда в $8.4 миллиона также сигнализирует о том, куда направляются инвестиции в инфраструктуру в стеке Physical AI. Аппаратное обеспечение — сами роботы — привлекает внимание. Но слой данных между развертыванием и улучшением модели становится всё более важным для конкурентного преимущества, и капитал начинает концентрироваться именно там.
Операторы, оценивающие подержанные коботы в продаже или создающие программы маломасштабной автоматизации, должны учитывать затраты на пайплайны данных в общей стоимости развертывания — вопрос, на который Nomadic напрямую нацеливается ответить.
Часто задаваемые вопросы
Nomadic — это компания по инфраструктуре данных, которая использует глубокое обучение для преобразования сырых сенсорных записей от автономных автомобилей и роботов в структурированные, доступные для поиска наборы данных. Она решает проблему масштабирования данных автономных систем — когда огромные объёмы записей генерируются в полевых условиях, но остаются операционно непригодными без дорогой ручной аннотации.
Сколько данных генерирует автономный автомобиль в день?
Один автономный автомобиль обычно генерирует от 1 до 40 терабайт сырых сенсорных данных в день в зависимости от конфигурации камер, LiDAR и радаров. Парк из десяти машин может накапливать сотни терабайт еженедельно, делая ручную обработку экономически нецелесообразной в масштабе.
Чем подход глубокого обучения Nomadic отличается от ручной разметки?
Ручная разметка стоит от $0.05 до $0.50 за кадр, что делает её prohibitively дорогой в масштабе парка. Nomadic применяет модели глубокого обучения для автоматического тегирования и индексации записей, позволяя инженерам выполнять запросы по большим наборам данных без покадрового ручного просмотра — значительно сокращая затраты на аннотацию и время получения инсайтов.
Влияет ли проблема «узкого горлышка» данных на роботов, отличных от автономных автомобилей?
Да. Любая воплощённая AI-система — складские AMR, инспекционные роботы, сельскохозяйственная автоматизация, гуманоидные платформы — генерирует непрерывные сенсорные данные, которые сталкиваются с теми же проблемами структурирования и извлечения. Проблема масштабируется с размером парка и временем работы независимо от конкретного применения робота.
Что значит это финансирование для более широкой экосистемы Physical AI?
Посевной раунд в $8.4 миллиона сигнализирует о растущем признании инвесторами того, что слой инфраструктуры данных — а не только аппаратное обеспечение или основные AI-модели — является критическим «узким горлышком» в разработке автономных систем. Инвестиции в инфраструктуру пайплайнов данных — опережающий индикатор созревания программ развертывания Physical AI.
Поток данных от автономных систем всегда был огромным. Недостающим элементом была инфраструктура для превращения их в полезный сигнал. Подход Nomadic — применение глубокого обучения в качестве автоматического слоя структурирования — решает ограничение, которое затрагивает каждую организацию, развертывающую роботов или автомобили в масштабе. Посевное финансирование не решит проблему за один день, но оно отмечает чёткую направленную ставку на то, что слой данных — это следующее конкурентное преимущество в Physical AI.
Является ли инфраструктура пайплайна данных «узким горлышком», ограничивающим улучшение вашего парка роботов — или аппаратное обеспечение всё ещё является ограничением?










Присоединяйтесь к обсуждению
Is data pipeline infrastructure the bottleneck limiting your robot fleet — or is hardware still the constraint?