알리바바, 물리적 세계 상호작용 위한 AI 기초 모델 3종 출시 (2026)

알리바바의 Qwen 팀이 언어 이해와 물리적 세계 행동을 연결하는 세 가지 특화 AI 기초 모델(Qwen-RobotNav, Qwen-RobotManip, Qwen-RobotWorld)을 공개했다. 이번 발표는 알리바바를 텍스트와 이미지를 넘어 움직임과 상호작용이 필요한 환경으로 AI 모델을 확장하는 주요 AI 연구소들과 어깨를 나란히 하게 만든다.

무슨 일이 있었나?
세 가지 모델 설명
AI 업계에 미치는 영향
경쟁 구도
업계에 주는 의미
자주 묻는 질문
결론

무슨 일이 있었나?

화요일, Qwen 팀은 각각 내비게이션, 조작, 세계 상태 예측이라는 서로 다른 물리적 작업을 처리하는 세 가지 기초 모델을 공개했다. TechNode에 따르면, 이 모델들은 알리바바의 기존 시각-언어 기능 위에 구축되었으며, AI 시스템이 물리적 세계를 이해하고 행동하는 방식을 통합하는 것을 목표로 한다.

이 모델들은 알리바바가 대규모 언어 모델 생태계를 채팅과 코드 생성을 넘어 실시간 센서 데이터를 해석하고 조정된 동작 명령을 생성해야 하는 영역으로 확장하려는 광범위한 노력의 일환이다.

내비게이션, 조작, 세계 예측을 아우르는 세 가지 Qwen 모델의 중첩된 기능을 보여주는 다이어그램

세 가지 모델 설명

Qwen-RobotNav는 시각-언어 이해를 모바일 시나리오로 확장한다. 제어 가능한 관찰 인코딩과 도구 기반 인터페이스를 사용하여 단일 프레임워크 내에서 지시 따르기, 목표 지점 이동, 객체 추적, 자율 주행 등 네 가지 작업을 처리한다. 알리바바는 각 작업에 대해 별도의 모델을 구축하는 대신 이를 하나의 시스템으로 통합하여 자연어 명령을 기반으로 움직임을 추론한다.

Qwen-RobotManip는 객체와의 정밀한 물리적 상호작용에 초점을 맞춘다. 이 모델은 상태-행동 공간을 표준화하고 엔드 이펙터의 움직임을 카메라 좌표계의 증분 위치로 표현한다. 38,100시간 이상의 완전 오픈소스 데이터로 학습되었으며, 이러한 대규모 학습을 통해 다양한 하드웨어 구성에서 폭넓은 조작 작업을 지원할 수 있다.

Qwen-RobotWorld는 범용 세계 모델 역할을 한다. 자연어 행동 인터페이스를 통해 시각-언어 이해와 미래 상태 예측을 연결한다. 이 모델은 내비게이션, 주행, 조작 시나리오 전반에 걸쳐 물리적으로 일관된 결과를 예측할 수 있다. 알리바바의 핵심 주장은 단일 세계 모델이 다양한 유형의 물리적 작업에 일반화될 수 있어 작업별 학습의 필요성을 줄인다는 것이다.

언어 입력을 기반으로 미래 상태를 예측하는 Qwen-RobotWorld의 개념도

AI 업계에 미치는 영향

현재 대부분의 AI 모델은 이미 디지털 형태로 존재하는 텍스트, 이미지, 오디오 데이터를 처리한다. Qwen 제품군은 모델이 실제 센서 스트림을 기반으로 물리적 행동의 시퀀스를 생성해야 하는 방향으로의 전환을 의미한다. 이는 물리 법칙, 공간 관계, 시간적 일관성에 대한 추론이 필요하기 때문에 언어 생성보다 훨씬 어렵다.

알리바바가 학습 데이터를 오픈소스로 공개(조작 모델 기준 38,100시간)한 점은 주목할 만하다. 이는 다른 연구자와 기업이 해당 작업을 미세 조정하거나 기반으로 구축하는 데 드는 장벽을 낮춰, 물리적 환경에서 작동하는 AI 분야의 발전을 가속화할 수 있다.

또한 내비게이션, 조작, 세계 예측을 별도이지만 호환 가능한 모델로 통합한 것은 알리바바가 모듈식 아키텍처를 목표로 하고 있음을 시사한다. 개발자는 전체 스택을 실행할 필요 없이 필요한 모델만 선택할 수 있다.

경쟁 구도

알리바바만 이 분야에 뛰어든 것은 아니다. 구글 딥마인드는 RT-2 및 Gemini Robotics와 같이 시각-언어 이해와 행동 출력을 결합한 모델을 발표했다. 중국의 경쟁사 바이두도 자체 구현형 AI 이니셔티브를 보유하고 있으며, Covariant 및 Physical Intelligence와 같은 스타트업도 유사한 접근 방식으로 상당한 자금을 조달했다.

그러나 알리바바의 오픈소스 데이터 사용과 공격적인 스케일링(조작 학습 38,100시간)은 적응성 측면에서 우위를 제공할 수 있다. 알리바바는 이미 알리바바 클라우드를 통해 대규모 클라우드 인프라를 운영하고 있으며, 이는 기업 고객에게 이러한 모델을 배포하는 플랫폼 역할을 할 수 있다.

시점 또한 중요하다. 중국 정부는 구현형 지능을 전략적 우선순위로 지정했으며, 알리바바에 대한 국가적 지원은 제조, 물류, 헬스케어와 같은 분야에서 채택을 가속화할 수 있다.

업계에 주는 의미

투자자에게 이번 출시는 알리바바가 물리적 세계 AI를 부수적인 프로젝트가 아닌 핵심 R&D 투자로 간주하고 있음을 시사한다. 이러한 모델이 엔터프라이즈 애플리케이션에서 주목을 받으면 알리바바 클라우드의 새로운 수익원을 창출하고 AI 인프라 시장에서 경쟁사에 대한 해자(moat)를 만들 수 있다.

경쟁사에게 알리바바의 오픈소스 데이터 전략은 양날의 검이다. 이는 전체 분야의 발전을 촉진하지만, 동시에 알리바바가 커뮤니티의 개선과 연구 기여로부터 이익을 얻는다는 의미이기도 하다. 독점 데이터에 의존하는 기업은 전략을 재고해야 할 수도 있다.

더 넓은 기술 업계에게 이러한 모델(특히 세계 모델)의 가용성은 창고 분류, 자율 주행, 서비스 애플리케이션과 같은 작업을 위한 자율 시스템 구축의 비용과 복잡성을 줄일 수 있다. 그러나 실제 배포에는 안전, 신뢰성, 규제 승인과 같은 과제가 여전히 남아 있다.

자주 묻는 질문

알리바바가 정확히 무엇을 출시했나요? 알리바바의 Qwen 팀은 세 가지 AI 기초 모델을 출시했습니다: 내비게이션 및 추적용(Qwen-RobotNav), 객체 조작용(Qwen-RobotManip), 미래 물리적 상태 예측용(Qwen-RobotWorld)입니다.

이 모델들은 누구나 사용할 수 있나요? Qwen-RobotManip의 학습 데이터(38,100시간 이상)는 완전 오픈소스입니다. 알리바바는 아직 세 가지 모델 모두에 대한 완전한 오픈 웨이트(open-weight) 공개를 발표하지 않았지만, 데이터 공개는 개방성에 대한 약속을 시사합니다.

이 모델들은 표준 대규모 언어 모델과 어떻게 다른가요? 표준 LLM은 언어를 처리하고 텍스트를 생성합니다. 이 모델들은 언어 또는 시각 입력을 받아 실제 세계에서 작동하는 행동(움직임, 회전, 파지) 시퀀스를 출력합니다. 물리 법칙과 공간적 일관성을 고려해야 합니다.

이 모델들은 어떤 하드웨어에서 실행되나요? 이 모델들은 여러 하드웨어 플랫폼에서 작동하도록 설계되었습니다. 예를 들어 Qwen-RobotManip는 다양한 팔과 그리퍼 구성을 지원합니다. 내비게이션 모델은 카메라와 센서가 장착된 모바일 플랫폼에서 실행될 수 있습니다.

이 모델들이 알리바바의 클라우드 서비스에 통합되나요? 알리바바는 공식 발표를 하지 않았지만, 알리바바 클라우드가 AI-as-a-Service에 주력하고 있으므로 통합 가능성이 높습니다. 기업 고객은 자동 내비게이션이나 조작과 같은 작업을 위해 API를 통해 모델에 접근할 수 있습니다.

구글의 RT-2와 어떻게 비교되나요? 둘 다 시각-언어-행동 모델이지만, 알리바바의 접근 방식은 작업을 하나의 모놀리식 시스템이 아닌 세 가지 특화 모델로 분리합니다. 오픈소스 학습 데이터와 세계 예측 모델이 차별화 요소입니다.

결론

알리바바의 Qwen 제품군은 AI를 디지털 전용 애플리케이션에서 모델이 물리적 세계에 대해 추론하고 행동해야 하는 환경으로 전환하는 중요한 단계다. 세 가지 특화 모델을 출시하고 학습 데이터의 상당 부분을 오픈소스로 공개함으로써 알리바바는 모듈성과 커뮤니티 협업이 더 빠른 채택을 이끌 것이라고 믿고 있다. 진정한 시험은 이러한 모델이 복잡한 실제 환경에서 어떻게 성능을 발휘하는지, 그리고 기업 고객이 대규모 배포를 충분히 신뢰하는지 여부다.