휴머노이드 붐을 이끄는 AI 학습 혁명

휴머노이드 붐을 이끄는 AI 학습 혁명

시뮬레이션 훈련된 강화학습부터 인터넷 규모의 기초 모델까지 — AI 학습의 진화가 어떻게 61억 달러 투자 붐을 일으켰는지 그 전체 기술사를 살펴본다.

8 min readApr 24, 2026

투자자들은 단일 연도에 휴머노이드 로봇에 61억 달러를 쏟아부었다. 이는 전년 대비 4배 증가한 규모다. 이 자본 급증은 더 나은 모터나 저렴한 액추에이터 덕분이 아니다. 그 원천은 로봇이 학습하는 방식의 근본적인 돌파구에 있으며, 이는 2015년 이후 조용히 발전해 왔고, 이제 SF 로봇을 실현 가능한 엔지니어링 목표로 만들었다.



2015년 이후 로봇 학습이 모든 것을 바꾼 이유

로봇 역사의 대부분에서 지능은 규칙을 의미했다. 엔지니어가 예측 가능한 모든 상황을 다루기 위해 수천 줄의 수작업 코드를 작성하는 방식이었다. 옷을 접는 로봇 팔은 소매 방향, 천의 강성, 칼라 감지 및 수십 가지 예외 상황에 대한 명시적 로직이 필요했다. 규칙 집합은 신뢰할 수 있게 되기 전에 이미 복잡성이 폭발했다.

이 접근 방식은 구조화된 환경(용접 라인, 픽 앤 플레이스 셀, 컨베이어 시스템)에서 신뢰할 수 있는 산업용 로봇을 생산했지만 일반화할 수 없었다. 동일한 팔을 다른 환경으로 옮기고, 조명을 바꾸고, 새로운 물체 모양을 도입하면 성능이 즉시 붕괴되었다.

로봇이 할 수 있는 것과 연구자들이 꿈꾸는 것 사이의 격차는 여전히 크게 벌어져 있었다. 그러다 2015년 즈음 방법론이 전환되었다.

MIT Technology Review의 로봇 학습 현대사에 대한 심층 분석에 따르면, 중요한 변화는 규칙 코딩에서 데이터 기반 시행착오로 이동한 것이며, 2022년 이후에는 수작업 시뮬레이션만이 아닌 인터넷 규모의 데이터에서 학습하는 AI 기초 모델로 전환된 것이다.


규칙에서 강화학습으로: 시뮬레이션 시대

2015년 즈음, 주요 로봇 연구실은 수작업 규칙을 강화학습(RL) 으로 대체하기 시작했다. 이는 AI 에이전트가 성공적인 행동에 보상 신호를 받고 실패에 패널티 신호를 받은 후 수백만 번 반복하여 자체 전략을 발견하는 훈련 방법이다.

OpenAI의 Dactyl 프로젝트는 다섯 손가락 로봇 손으로 완전히 시뮬레이션에서 훈련된 사례인데, 이 접근법의 강점과 핵심 한계를 모두 보여주었다. Dactyl은 디지털 환경(사실상 가상 물리 엔진) 내에서 훈련하여 작은 큐브를 조작하는 법을 배운 후 실제 하드웨어에 배포되었다. 문제는 시뮬레이션 세계와 물리적 현실 사이의 사소한 불일치도 성능을 급격히 저하시킨다는 점이었다.

엔지니어링 해결책은 도메인 무작위화(domain randomisation) 였다. 수백만 개의 시뮬레이션 훈련 환경에 의도적으로 무작위 변형을 도입하는 것이다. 마찰 계수, 조명 조건, 물체 색상, 표면 질감을 모두 무작위로 변화시켜 훈련된 정책이 실제 세계의 혼란을 처리할 수 있을 만큼 강건하도록 했다. 이 기술은 Dactyl이 결국 루빅스 큐브를 풀 수 있을 정도로 효과적이었지만, 표준 스크램블에서 60%의 성공률, 더 어려운 구성에서는 20% 로 떨어졌다.

이 수치는 당시 해당 분야가 어디쯤 있었는지 이해하는 데 중요하다. 시뮬레이션 훈련된 RL은 인상적인 손재주를 만들어냈지만, 상업적 배포에는 신뢰성이 부족했다. OpenAI는 2021년 로봇 사업부를 폐쇄했으며, 이는 이 기술이 도달한 한계를 반영한다.

시뮬레이션-현실 격차: 주요 기술적 과제

과제설명사용된 완화 방법
시각적 불일치색상과 질감이 시뮬레이션과 다름도메인 무작위화
물리적 특성마찰, 변형이 완벽하게 모델링되지 않음무작위화된 물리 파라미터
센서 잡음실제 센서는 지연과 오류를 유발훈련 시 잡음 주입
기계적 마모액추에이터가 시간이 지나면 성능 저하시뮬레이션-현실 전이만으로 해결되지 않음

기초 모델이 로봇에 상식을 부여한 방법

대규모 언어 모델(LLM)의 등장은 지난 10년간의 어떤 하드웨어 발전보다 로봇 공학에 더 깊은 영향을 미쳤다. 핵심 통찰은 구조적이었다. LLM은 시퀀스에서 다음 토큰(단어, 하위 단어, 문자)이 무엇인지 예측함으로써 학습하며, 방대한 텍스트 말뭉치를 섭취하여 언어와 세계 지식의 풍부한 내부 표현을 구축한다. 로봇 공학자들은 분명하지만 혁신적인 질문을 던졌다. 동일한 구조가 토큰이 단어 대신 센서 판독값, 카메라 프레임, 관절 위치라면 작동할 수 있을까?

Google DeepMind의 답변은 RT-1과 그 후속 RT-2(Robotic Transformer)였다. RT-1은 17개월 분량의 원격 조작 데이터700개의 고유 작업을 다루며 훈련되었다. 로봇 카메라 뷰와 팔 관절 상태를 입력으로 받고 모터 명령을 출력으로 생성했다. 훈련 중 본 작업에서는 97%의 성공률을 달성했고, 완전히 새로운 명령에 대해서도 76% 의 성공률을 보였다. 이는 시뮬레이션 전용 접근법이 달성한 어떤 것보다 극적인 개선이었다.

RT-2는 더 나아가 인터넷 규모의 이미지와 텍스트 데이터를 통합하여 로봇에게 로봇 연구실이 아닌 더 넓은 시각적 세계에 기반한 상식의 한 형태를 부여했다. 이것이 개념적 도약이다. 규칙을 프로그래밍하거나 로봇 전용 데이터로만 훈련하는 대신, 연구자들은 웹 규모 사전 훈련 중에 시각-언어 모델에 내장된 일반적인 세계 지식이 물리적 조작 작업에 놀라울 정도로 잘 전이된다는 사실을 발견했다.

실용적 의미는 중요하다. 사전 훈련 중 수백만 개의 주방, 서랍, 컵 이미지를 본 로봇은 규칙 기반 시스템이 절대 획득할 수 없는 맥락적 이해를 가지고 도착한다. 인간이 어떤 컵을 원하는지 확실하지는 않지만 합리적인 사전 지식을 가지고 있다. 이 사전 지식은 유용한 성능 수준에 도달하는 데 필요한 로봇 전용 훈련 데이터의 양을 극적으로 줄여준다.


여전히 업계를 가로막는 한계

현재의 열기는 실제이지만, 여전히 해결되지 않은 것이 무엇인지 파악할 가치가 있다. 로봇 공학을 위한 기초 모델은 언어 모델에는 존재하지 않는 데이터 문제에 직면한다. 텍스트 데이터는 풍부하고 저렴하며 웹에서 쉽게 긁어올 수 있다. 고품질의 로봇 시연 데이터(다양하고 물리적으로 기반하며 정확하게 레이블링된)는 수집 비용이 많이 들고 하드웨어에 의존적이며 로봇 형태 간 전이가 어렵다.

초기 소셜 로봇은 다른 한계를 보여준다. 기능은 있지만 신뢰성은 없는 경우다. MIT에서 개발한 홈 소셜 로봇 Jibo는 크라우드펀딩으로 370만 달러를 모금하고 749달러에 판매되었지만, 당대의 LLM 이전 언어 기술로 인해 결국 실패했다. 대화는 스크립트된 응답 조각에 의존했고, 이는 빠르게 반복적이고 피상적으로 느껴졌다. 오늘날의 음성 AI는 Jibo가 될 수 있었던 것을 변화시켰을 것이다. 그러나 새로운 세대의 AI 기반 장난감은 반대의 위험을 도입한다. 스크립트 시스템은 예상치 못한 방향으로 갈 수 없었지만, 생성형 AI 시스템은 그럴 수 있으며, AI 동반자가 어린이에게 위험한 지침을 제공한 문서화된 사례가 이를 증명한다.

이 분야는 한 세트의 한계(경직성, 취약성)를 다른 세트(예측 불가능성, 안전 불확실성)로 교환했다. 어느 문제도 완전히 해결되지 않았다. 변화된 것은 개선의 궤적이 이제 측정 가능하게 더 가파르다는 점이다.


로봇 구매자와 하드웨어 시장에 미치는 의미

AI 학습 혁명은 단순한 학술적 이야기가 아니다. 이는 이미 지금 구매자와 운영자에게 중요한 방식으로 하드웨어 가치 평가를 재구성하고 있다.

원래 프로그래밍에 고정된 기능을 가진 로봇은 현재 시장에서 빠르게 감가상각된다. 고정된 모션 프로그램을 가진 2세대 산업용 팔은 구매자들이 점점 더 적응성을 기대함에 따라 재판매 가치가 하락하고 있다. 반면, 학습 기반 소프트웨어를 실행하도록 설계된 하드웨어 플랫폼(접근 가능한 컴퓨팅, 개방형 API, 충분한 센서 페이로드)은 가치를 더 견고하게 유지하고 있다.

오늘날 구매를 평가하는 구매자에게 몇 가지 시사점이 있다.

  • 플랫폼 확장성은 현재 기능만큼 중요하다. 최신 ML 추론을 로컬에서 실행하는 협동 로봇은 벤더별 프로그래밍 환경에 고정된 로봇보다 더 긴 수명을 가질 것이다.
  • 중고 하드웨어 가격은 AI 준비 상태를 반영한다. 주요 학습 기반 소프트웨어 업데이트를 받은 플랫폼의 로봇은 가치를 유지하는 반면, 제조업체가 뒤처진 로봇은 크게 할인되고 있다.
  • 데이터 인프라는 새로운 차별화 요소다. 여러 유닛을 배포하는 구매자는 첫날부터 원격 조작 데이터 수집을 계획해야 한다. 그 시연 데이터는 성능 향상을 위한 훈련 코퍼스가 된다.

초급 배포를 고려하는 운영자에게 현재 중고 산업용 로봇 시장은 저렴한 비용으로 유능한 하드웨어에 대한 접근을 제공하지만, 소프트웨어 업데이트 로드맵을 신중히 평가해야 한다. 마찬가지로 성장하는 협동 로봇 카테고리는 특히 기초 모델 배포의 혜택을 받을 위치에 있으며, 협동 로봇의 본질적으로 유연하고 인간과 인접한 운영 환경을 고려할 때 더욱 그렇다.


자주 묻는 질문

주요 동인은 AI 기초 모델의 성숙이었다. 구체적으로는 인터넷 규모 데이터로 훈련된 시각-언어 모델이 이전의 규칙 기반 또는 시뮬레이션 전용 접근법보다 훨씬 더 큰 일반화로 로봇 모터 명령을 생성하도록 적응될 수 있다는 발견이다. 투자는 RT-2와 같은 모델이 작업별 훈련 없이 새로운 작업을 수행할 수 있어 범용 로봇에 대한 신뢰할 수 있는 경로를 열어준다는 연구 결과가 나온 후 급증했다. 최근 수치는 투자가 전년 대비 4배 증가하여 61억 달러에 도달했음을 보여준다.

로봇 공학에서 도메인 무작위화란 무엇이며 왜 중요한가?

도메인 무작위화는 시뮬레이션 훈련 기술로, 훈련 중에 수천 개의 약간 다른 가상 환경(조명, 마찰, 물체 색상, 물리 파라미터를 무작위로 변화)을 생성한다. 이는 시뮬레이션-현실 격차(시뮬레이션에서 훈련된 정책이 실제 하드웨어에서 실행될 때 성능 저하)를 해결하기 위해 학습된 정책이 가능한 많은 세계 구성에 걸쳐 강건하도록 강제한다. OpenAI의 Dactyl은 이 접근법을 사용하여 로봇 손으로 루빅스 큐브를 풀었지만, 표준 난이도에서 성공률은 60%에서 정체되었다.

로봇 공학용 기초 모델은 표준 LLM과 어떻게 다른가?

표준 대규모 언어 모델은 텍스트 토큰을 입력과 출력으로 처리한다. 로봇 공학 기초 모델은 이 구조를 확장하여 카메라 프레임, 깊이 센서 판독값, 로봇 관절 위치를 추가 입력 토큰으로, 모터 속도 명령을 출력 토큰으로 처리한다. 핵심 예측 작업인 "이전 맥락이 주어졌을 때 다음에 무엇이 오는가?"는 구조적으로 유사하다. 중요한 이점은 인터넷 규모의 시각 및 언어 데이터에 대한 사전 훈련이 이 모델들에게 순수 로봇 시연 데이터가 효율적으로 제공할 수 없는 세계 지식과 상식을 부여한다는 점이다.

AI 적응형 로봇이 구형 고정 프로그램 로봇을 빠르게 쓸모없게 만들 것인가?

즉시 그렇지는 않다. 고정 프로그램 산업용 로봇은 용접이나 스탬핑과 같이 적응성이 가치를 제공하지 않는 고볼륨, 저변이 작업에 여전히 매우 비용 효율적이다. 노후화 압력은 작업 변동성이 내재된 혼합 SKU 물류, 경량 조립 및 서비스 환경에서 가장 높다. 구매자는 자신의 특정 작업 프로필이 실제로 적응성의 혜택을 받는지 평가한 후 새로운 AI 가능 플랫폼이 검증된 레거시 하드웨어보다 가격 프리미엄을 정당화하는지 판단해야 한다.

오늘날 로봇 학습의 주요 미해결 문제는 무엇인가?

세 가지 과제가 여전히 중요하다. (1) 언어 모델의 텍스트 데이터에 비해 다양한 로봇 시연 데이터의 높은 비용과 제한된 가용성; (2) 물리적 환경에 배포된 생성형 AI 시스템, 특히 취약 계층과 상호작용하는 시스템의 안전 예측 불가능성; (3) 신뢰할 수 있는 정밀 조작 — 케이블 연결이나 변형 가능한 재료 처리와 같은 미세 모터 작업은 통제된 실험실 환경이 아닌 실제 조건에서 여전히 대부분의 현재 시스템을 어렵게 만든다.


로봇 학습 혁명은 실제이지만 완료되지 않았다. 기초 모델은 규칙 기반 시스템이 부과한 한계를 깨뜨렸으며, 투자 수치는 순수한 투기가 아닌 진정한 기술 발전을 반영한다. SF 로봇과 배포 가능한 하드웨어 사이의 격차는 지난 30년보다 지난 3년 동안 더 많이 좁혀졌다.

다음 제약은 알고리즘이 아니다. 그것은 데이터, 안전 검증, 그리고 규모에서의 하드웨어 신뢰성이다. 자금만으로는 특정 속도 이상으로 가속할 수 없는 어려운 엔지니어링 문제들이다.

강화학습, 기초 모델, 원격 조작 데이터 중 어떤 로봇 학습 접근법이 휴머노이드 경쟁에서 승자를 결정할 것이라고 생각하는가?

관련 기사

토론에 참여하기

Which robot learning approach — RL, foundation models, or teleoperation data — will determine who wins the humanoid race?

더 많은 기사

🍪 🍪 쿠키 환경설정

성능 측정을 위해 쿠키를 사용합니다. 개인정보 처리방침