Инвесторы вложили $6,1 млрд в человекоподобных роботов всего за один недавний год — в четыре раза больше, чем в предыдущем. Этот всплеск капитала произошел не благодаря улучшенным моторам или более дешевым приводам. Его вызвал фундаментальный прорыв в том, как роботы учатся, — прорыв, который незаметно накапливался с 2015 года и теперь превратил научно-фантастического робота в реальную инженерную цель.
- Почему обучение роботов изменило всё после 2015 года
- От правил к подкреплению: эпоха симуляции
- Как фундаментальные модели дали роботам здравый смысл
- Ограничения, которые всё ещё сдерживают индустрию
- Что это значит для покупателей роботов и рынка оборудования
- Часто задаваемые вопросы
Почему обучение роботов изменило всё после 2015 года
На протяжении большей части истории робототехники интеллект означал правила — тысячи инструкций, написанных вручную инженерами, чтобы охватить каждую предвидимую ситуацию. Рука робота, складывающая белье, нуждалась в явной логике для ориентации рукава, жесткости ткани, обнаружения воротника и десятков граничных случаев. Набор правил разрастался до чудовищной сложности, так и не став надежным.
Такой подход давал надежных промышленных роботов для структурированных сред — сварочных линий, ячеек pick-and-place, конвейерных систем, — но не мог адаптироваться. Переместите ту же руку в другой контекст, измените освещение, добавьте новую форму объекта — и производительность мгновенно падала.
Разрыв между тем, что роботы могли делать, и тем, о чем мечтали исследователи, оставался упрямо широким. Затем, около 2015 года, методология изменилась.
Согласно глубокому анализу современной истории обучения роботов от MIT Technology Review, ключевым изменением стал переход от кодирования правил к обучению на основе данных методом проб и ошибок, а после 2022 года — к фундаментальным моделям ИИ, обучавшимся на данных интернет-масштаба, а не только на созданных вручную симуляциях.
От правил к подкреплению: эпоха симуляции
Около 2015 года ведущие лаборатории робототехники начали заменять написанные вручную правила обучением с подкреплением (RL) — методом обучения, при котором агент ИИ получает сигналы вознаграждения за успешные действия и штрафы за неудачи, а затем повторяет миллионы раз, чтобы открыть собственные стратегии.
Проект Dactyl от OpenAI — пятипалая роботизированная рука, обученная исключительно в симуляции, — продемонстрировал как мощь, так и ключевое ограничение этого подхода. Dactyl научился манипулировать маленькими кубиками, тренируясь в цифровых средах (по сути, виртуальном физическом движке), прежде чем был развернут на реальном оборудовании. Проблема: даже незначительные расхождения между смоделированным миром и физической реальностью приводили к резкому ухудшению производительности.
Инженерным решением стала рандомизация окружения (domain randomisation) — намеренное внесение случайных вариаций в миллионы тренировочных симуляций. Коэффициенты трения, условия освещения, цвета объектов и текстуры поверхностей менялись случайным образом, чтобы обученная политика была достаточно устойчивой к хаосу реального мира. Техника сработала достаточно хорошо, чтобы Dactyl в итоге научился собирать кубик Рубика — хотя лишь в 60% случаев на стандартных перемешиваниях, падая до 20% на более сложных конфигурациях.
Эти цифры важны для понимания того, где находилась область в то время. Симуляционное RL дало впечатляющую ловкость, но надежность была недостаточной для коммерческого развертывания. OpenAI закрыла свое подразделение робототехники в 2021 году, что отражает потолок, которого достигла техника.
Ключевые технические проблемы разрыва между симуляцией и реальностью
| Проблема | Описание | Используемое смягчение |
|---|---|---|
| Визуальное несоответствие | Цвета и текстуры отличаются от симуляции | Рандомизация окружения |
| Физические свойства | Трение, деформация не идеально смоделированы | Случайные физические параметры |
| Шум сенсоров | Реальные сенсоры вносят задержки и ошибки | Добавление шума в обучение |
| Механический износ | Приводы со временем деградируют | Не решается одним переносом из симуляции |
Как фундаментальные модели дали роботам здравый смысл
Появление больших языковых моделей изменило робототехнику глубже, чем любой аппаратный прорыв за последнее десятилетие. Ключевая идея была архитектурной: LLM учатся, предсказывая, какой токен (слово, подслово или символ) будет следующим в последовательности, поглощая огромные корпуса текста для построения богатых внутренних представлений языка и знаний о мире. Робототехники задали очевидный, но преобразующий вопрос: может ли та же архитектура работать, если токенами будут показания сенсоров, кадры камеры и положения суставов вместо слов?
Ответ Google DeepMind — RT-1 и его преемник RT-2 (Robotic Transformer). RT-1 обучался на 17 месяцах данных телеоперации, охватывающих 700 различных задач, получая на вход изображения с камер робота и состояния суставов руки, а на выходе генерируя команды двигателям. На задачах, которые он видел во время обучения, он достиг 97% успеха. На полностью новых инструкциях он всё еще показывал 76% — огромное улучшение по сравнению с тем, чего добивались подходы на основе только симуляции.
RT-2 пошел дальше, включив данные изображений и текста интернет-масштаба, что дало роботу форму здравого смысла, основанную на более широком визуальном мире, а не только на лаборатории робототехники. Это ключевой концептуальный скачок: вместо того чтобы программировать роботов правилами или обучать их исключительно на специфических для роботов данных, исследователи обнаружили, что общие знания о мире — те, что запекаются в модели зрения и языка при предварительном обучении на веб-масштабе, — удивительно хорошо переносятся на задачи физической манипуляции.
Практическое следствие значительно. Робот, который видел миллионы изображений кухонь, ящиков и чашек во время предварительного обучения, приходит с контекстуальным пониманием, которого системы на правилах никогда не могли приобрести. Он не уверен, какую чашку хочет человек, но у него есть разумное априорное предположение. Это априорное знание резко сокращает объем специфических данных для обучения робота, необходимых для достижения полезного уровня производительности.
Ограничения, которые всё ещё сдерживают индустрию
Текущий ажиотаж реален, но стоит отметить, что остаётся по-настоящему нерешённым. Фундаментальные модели для робототехники сталкиваются с проблемой данных, которая не существует для языковых моделей в той же форме. Текстовые данные обильны, дёшевы и легко собираются из интернета. Высококачественные демонстрационные данные для роботов — разнообразные, физически обоснованные и точно размеченные — дорого собирать, они зависят от оборудования и их трудно переносить между разными типами роботов.
Ранние социальные роботы иллюстрируют другое ограничение: способность без надёжности. Jibo, домашний социальный робот, разработанный MIT, собравший $3,7 млн на краудфандинге и продававшийся по цене $749, имел убедительное видение, но в конечном итоге был подорван до-LLM языковой технологией своей эпохи. Его разговоры основывались на скриптованных фрагментах ответов, которые быстро становились повторяющимися и поверхностными. Сегодняшний голосовой ИИ преобразил бы то, чем мог бы быть Jibo, — но новое поколение игрушек на базе ИИ несёт противоположный риск. Скриптованные системы не могли выйти за рамки; генеративные системы ИИ могут и выходят, о чём свидетельствуют задокументированные случаи, когда ИИ-компаньоны давали детям опасные советы.
Область обменяла один набор ограничений (жесткость, хрупкость) на другой (непредсказуемость, неопределенность безопасности). Ни одна проблема не решена полностью. Что изменилось — так это то, что траектория улучшения теперь измеримо круче.
Что это значит для покупателей роботов и рынка оборудования
Революция в обучении ИИ — это не просто академическая история. Она уже меняет оценки стоимости оборудования способами, которые важны для покупателей и операторов прямо сейчас.
Роботы, чьи возможности были привязаны к их оригинальному программированию, быстро обесцениваются на текущем рынке. Промышленные руки второго поколения с фиксированными программами движений имеют снижающуюся остаточную стоимость, поскольку покупатели всё больше ожидают адаптивности. В то же время аппаратные платформы, спроектированные для работы с обучаемым ПО — с доступными вычислениями, открытыми API и достаточной сенсорной нагрузкой, — удерживают стоимость более устойчиво.
Для покупателей, оценивающих покупки сегодня, выделяется несколько следствий:
- Расширяемость платформы важна не меньше, чем текущие возможности. Кобот, который запускает современный ML-инференс локально, будет иметь более длительный срок службы, чем тот, что привязан к вендорским средам программирования.
- Цены на подержанное оборудование отражают готовность к ИИ. Роботы с платформ, получивших крупные обновления ПО на базе обучения, сохраняют стоимость; те, от которых производители отказались, значительно уцениваются.
- Инфраструктура данных — новый фактор дифференциации. Покупателям, развертывающим несколько единиц, следует планировать сбор данных телеоперации с первого дня — эти демонстрационные данные станут обучающим корпусом для улучшения производительности.
Для операторов, рассматривающих начальное развертывание, текущий рынок подержанных промышленных роботов предлагает доступ к способному оборудованию по сниженной цене, хотя покупателям следует тщательно оценивать дорожные карты обновления ПО. Аналогично, растущая категория коботов особенно хорошо позиционирована для выгоды от развертывания фундаментальных моделей, учитывая их изначально гибкий, ориентированный на взаимодействие с человеком контекст работы.
Часто задаваемые вопросы
Основным драйвером стало созревание фундаментальных моделей ИИ — в частности, открытие того, что модели зрения и языка, обученные на данных интернет-масштаба, могут быть адаптированы для генерации команд моторами роботов с гораздо большей способностью к обобщению, чем предыдущие подходы на правилах или только симуляции. Инвестиции резко выросли после того, как исследования показали, что такие модели, как RT-2, могут выполнять новые задачи без специального обучения, открывая реальный путь к роботам общего назначения. Последние цифры показывают, что инвестиции увеличились в четыре раза по сравнению с предыдущим годом, достигнув $6,1 млрд.
Что такое рандомизация окружения в робототехнике и почему она важна?
Рандомизация окружения — это техника симуляционного обучения, при которой во время тренировки генерируются тысячи слегка различающихся виртуальных сред — случайно варьируются освещение, трение, цвета объектов и физические параметры. Она решает проблему разрыва между симуляцией и реальностью (ухудшение производительности при переносе обученных в симуляции политик на физическое оборудование), заставляя обученную политику быть устойчивой ко множеству возможных конфигураций мира. Проект Dactyl от OpenAI использовал этот подход для сборки кубика Рубика роботизированной рукой, хотя уровень успеха остановился на 60% для стандартной сложности.
Чем фундаментальные модели для робототехники отличаются от стандартных LLM?
Стандартные большие языковые модели обрабатывают текстовые токены как на входе, так и на выходе. Фундаментальные модели для робототехники расширяют эту архитектуру, используя кадры камеры, данные глубинных сенсоров и положения суставов робота как дополнительные входные токены, а команды скорости моторов — как выходные. Основная задача предсказания — «что будет дальше, учитывая предыдущий контекст?» — остается структурно схожей. Критическое преимущество в том, что предварительное обучение на визуальных и текстовых данных интернет-масштаба дает этим моделям знания о мире и здравый смысл, которые чисто роботизированные демонстрационные данные не могут эффективно предоставить.
Сделают ли ИИ-адаптивные роботы старые роботы с фиксированными программами быстро устаревшими?
Не сразу. Промышленные роботы с фиксированными программами остаются очень экономически эффективными для высокообъемных, низковариативных задач, таких как сварка и штамповка, где адаптивность не дает преимуществ. Давление устаревания наиболее высоко в логистике со смешанным SKU, легкой сборке и сервисных средах, где изменчивость задач присуща. Покупателям следует оценивать, выигрывает ли их конкретный профиль задач от адаптивности, прежде чем предполагать, что более новые ИИ-способные платформы оправдывают ценовую премию над проверенным старым оборудованием.
Каковы основные нерешенные проблемы в обучении роботов сегодня?
Три проблемы остаются значительными: (1) высокая стоимость и ограниченная доступность разнообразных демонстрационных данных для роботов по сравнению с текстовыми данными для языковых моделей; (2) непредсказуемость безопасности генеративных систем ИИ, развернутых в физических средах, особенно взаимодействующих с уязвимыми группами населения; и (3) надежная ловкая манипуляция — задачи мелкой моторики, такие как продевание кабелей или работа с деформируемыми материалами, всё еще побеждают большинство текущих систем в реальных условиях, а не в контролируемых лабораторных условиях.
Революция в обучении роботов реальна, но она не завершена. Фундаментальные модели разрушили потолок, который устанавливали системы на правилах, и цифры инвестиций отражают реальный технологический прогресс, а не чистые спекуляции. Разрыв между научно-фантастическими роботами и развертываемым оборудованием сократился больше за последние три года, чем за предыдущие три десятилетия.
Следующее ограничение — не алгоритмическое. Это данные, валидация безопасности и надежность оборудования в масштабе — те сложные инженерные проблемы, которые одни лишь финансирование не может ускорить сверх определенного темпа.
Какой подход к обучению роботов — обучение с подкреплением, фундаментальные модели или данные телеоперации —, по вашему мнению, определит, кто выиграет гонку человекоподобных роботов?










Присоединяйтесь к обсуждению
Which robot learning approach — RL, foundation models, or teleoperation data — will determine who wins the humanoid race?