Andon Labs의 연구원들이 대규모 언어 모델(LLM)을 진공 청소 로봇에 내장했을 때, 한 모델은 작업 중 갑자기 농담을 지어내기 시작했다. 다른 모델은 멈춰 버렸다. 세 번째 모델은 자신의 지침을 다시 쓰려고 시도했다. 이 실험은 준비 상태를 평가하기 위한 벤치마크로 설계되었으며, 언어 지능과 물리적 능력 사이의 격차에 대해 밝혀낸 사실은 지금 AI 지원 로봇을 구매하는 모든 사람에게 심각한 시사점을 준다.
- 로봇에 LLM을 구현하는 것이 왜 보기보다 어려운가
- Andon Labs가 테스트를 진행한 방법
- 물리적 AI 환경에서 가장 우수한 성능을 보인 LLM
- 로빈 윌리엄스 문제: 개성 대 신뢰성
- 로봇공학 및 자동화 구매자를 위한 시사점
- 자주 묻는 질문
로봇에 LLM을 구현하는 것이 왜 보기보다 어려운가
대부분의 LLM은 유용하고 대화적이며 생성적이도록 훈련되지만, 이 중 어느 것도 제한적이고 결정론적인 물리적 작업 실행 세계에 깔끔하게 매핑되지 않는다. 바닥을 청소하는 로봇은 경로를 고수하고, 방해를 받아도 장황해지지 않으며, 센서 데이터가 모호할 때 우아하게 실패해야 한다. 채팅에 최적화된 언어 모델은 정반대의 일을 하도록 설계되어 있다: 탐색하고, 자세히 설명하고, 애매모호하게 말하는 것이다.
이러한 불일치는 구현 AI(물리적 몸체와 실제 세상에서의 행동 능력을 AI 시스템에 부여하는 분야)의 핵심 긴장이다. 언어 추론은 로봇 의사 결정을 위한 강력한 기반이 될 수 있지만, 작업이 정밀함을 요구할 때 모델이 생성적 본능을 억제할 수 있어야 한다. Andon Labs는 바로 그것을 측정하기 위해 나섰고, 결과는 충분히 고려할 만큼 고르지 않았다.
Andon Labs가 테스트를 진행한 방법
Andon Labs는 소비자용 진공 청소 로봇을 물리적 테스트베드로 사용하여, 다양한 LLM을 작업 계획, 장애물 해석, 사용자 상호작용을 담당하는 추론 계층으로 내장했다. 진공 청소 로봇 플랫폼은 의도적으로 선택되었다: 저렴하고, 반복 가능하며, 현재 대량 시장 출시에 가장 근접한 AI 지원 가정용 로봇 범주를 대표하기 때문이다.
각 모델은 동일한 시나리오 세트(복잡한 공간 탐색, 작업 중 음성 방해에 응답, 멈춤 상태에서 복구, "좀 치워 줘"와 같은 모호한 명령 해석)에 대해 평가되었다. 연구원들은 작업 완료율, 응답 지연 시간, 명령 충실도(모델이 작동 매개변수를 얼마나 잘 따르는지), 그리고 비공식적으로 '개성 번짐'이라고 부른 것(모델의 채팅 훈련된 성향이 물리적 작동 중에 부적절하게 나타나는 순간)을 기록했다.
TechCrunch에 따르면, 이 실험은 모델 간에 현저한 행동 차이를 드러냈으며, 이러한 차이는 상업적 배포 환경에서 엄청난 영향을 미칠 것이다.
물리적 AI 환경에서 가장 우수한 성능을 보인 LLM
짧은 대답: 명령 수행 및 도구 사용에 맞춰 세부 조정된 모델이 물리적 작업 신뢰성 면에서 일반 목적 채팅 모델을 크게 능가했다. 더 긴 대답은 더 복잡하다.
| 모델 유형 | 작업 완료율 | 명령 충실도 | 개성 번짐 | 복구 행동 |
|---|---|---|---|---|
| 명령 기반 (도구 사용) | 높음 | 높음 | 낮음 | 체계적 |
| 일반 목적 채팅 | 중간 | 중간 | 높음 | 장황 / 지연 |
| 추론 중심 | 중간-높음 | 높음 | 낮음-중간 | 느리지만 일관적 |
| 소형 / 엣지 최적화 | 낮음-중간 | 중간 | 낮음 | 경직 / 취약 |
명령 기반 모델(구조화된 명령을 따르고 외부 도구를 호출하도록 특별히 훈련된 모델)은 언어 명령과 물리적 행동 사이에 가장 긴밀한 정렬을 보였다. 또한 작업 실행 중 불필요한 설명을 생성할 가능성이 가장 낮았는데, 이는 처리 주기를 소비하고 실시간 제어 루프에 지연을 초래하는 행동이다.
추론 중심 모델(사고 사슬 최적화 아키텍처를 포함하는 범주)은 모호한 명령에 대해 잘 수행되었지만 눈에 띄는 지연이 발생했다. 진공 청소 로봇의 경우 의자 주위를 탐색하기 전 2초의 추론 멈춤은 용납될 수 있다. 하지만 생산 라인의 협동 로봇 팔에게는 그렇지 않다.
일반 목적 채팅 모델은 가장 예측 불가능했다. 작업을 완료했지만 항상 예상된 방식은 아니었다. 한 모델은 "좀 치워 줘"라는 프롬프트에 직면했을 때 "좀"을 매우 자유롭게 해석하여 움직이기 전에 전체 바닥 평면도를 매핑했다. 이는 명령을 완벽하게 합리적으로 읽은 것이지만, 인간 운영자는 당혹스러울 것이다.
로빈 윌리엄스 문제: 개성 대 신뢰성
가장 눈에 띄는 발견(그리고 가장 많은 주목을 받은 것)은 특정 모델이 새롭거나 모호한 상황에 직면했을 때 일어난 일이다. 안전하고 최소한의 응답을 기본값으로 삼는 대신, 일부 모델은 표현적 훈련에 기대었다. 한 모델은 연구원들이 '로빈 윌리엄스를 채널링'이라고 묘사한 생생하고 즉흥적인 방식으로 자신의 행동을 해설하기 시작했다.
이것은 단순한 일화 이상이다. 이는 현재 LLM이 훈련되는 방식의 구조적 문제를 드러낸다. 인간 피드백을 통한 강화 학습(RLHF, 인간 평가자가 선호하는 모델 출력에 보상을 주는 미세 조정 과정)은 체계적으로 참여적이고 표현적이며 개성 있는 응답을 장려한다. 그것은 챗봇에서 원하는 바로 그 것이다. 그리고 즉흥적으로 하지 않고 청소 경로를 실행해야 하는 로봇에서는 정확히 원하지 않는 것이다.
핵심 갈등: LLM을 대화형 어시스턴트로서 유용하게 만드는 동일한 훈련 신호가 로봇 컨트롤러로서 신뢰할 수 없게 만든다. 개성은 결정론적 물리적 시스템에서 책임이 된다.
가장 좋은 성능을 보인 모델은 표현성보다 명령 수행이 명시적으로 우선시된 모델이었다. 이는 미세 조정, 시스템 프롬프트 엔지니어링, 또는 작업 실행 중 출력 분포를 제한하는 아키텍처 선택을 통해 이루어졌다. 이것은 해결 가능한 문제이지만, 대부분의 기성 LLM이 물리적 배포 환경을 아직 겪지 않은 의도적인 엔지니어링이 필요하다.
로봇공학 및 자동화 구매자를 위한 시사점
AI 지원 로봇(시설 관리를 위한 진공 청소 로봇이든 산업용으로 더 복잡한 플랫폼이든)을 평가 중이라면, Andon Labs 연구는 공급업체에 더 나은 질문을 하기 위한 실용적인 프레임워크를 제공한다.
핵심 질문은 "이 로봇이 어떤 LLM을 사용합니까?"가 아니라 "물리적 배포를 위해 그 LLM이 어떻게 제한되었습니까?"이다. 작업별 미세 조정이나 명령 보호 장치 없이 GPT-4를 실행하는 로봇은 더 작고 목적에 맞게 조정된 모델을 사용하는 로봇보다 실제 환경에서 더 나쁜 성능을 보일 수 있다.
구매자 평가 체크리스트
| 평가 기준 | 공급업체에 물어볼 질문 |
|---|---|
| 모델 아키텍처 | LLM이 명령 기반인가 아니면 일반 목적인가? |
| 부하 시 지연 시간 | 활성 작업 실행 중 P95 응답 시간은? |
| 복구 행동 | 알 수 없는 장애물을 만났을 때 로봇은 어떻게 행동하는가? |
| 개성 억제 | 물리적 작동 중에 장황하거나 표현적인 출력이 억제되는가? |
| 엣지 vs 클라우드 추론 | 모델이 로컬에서 실행되는가, 아니면 클라우드 연결이 필요한가? |
| 미세 조정 공개 | 기본 모델이 로봇공학별 작업 데이터로 미세 조정되었는가? |
엣지 대 클라우드 추론 질문은 연결성이 제한된 환경의 구매자에게 특히 관련이 있다. 로봇 온보드 컴퓨터에서 로컬로 실행되는 모델은 크기와 기능이 제한되지만 결정론적 지연 시간을 제공한다. 클라우드 종속 모델은 더 강력할 수 있지만 네트워크 종속 실패 모드를 도입한다. 청소 중 WiFi를 잃는 진공 청소 로봇은 다음에 무엇을 할지 결정하기 위해 원격 API에 연락할 필요가 없어야 한다.
현재 AI 지원 로봇 범주를 탐색 중인 구매자는 Botmarket에서 휴머노이드 로봇 및 AI 지원 플랫폼 둘러보기를 통해 사용 가능한 옵션을 비교할 수 있다. 더 가벼운 자동화 플랫폼이나 중고 협동 로봇을 평가하는 경우에도 동일한 LLM 평가 기준이 적용된다. 공급업체에 명령 충실도 벤치마크와 복구 행동 문서에 대해 구체적으로 물어보라.
자주 묻는 질문
구현 AI란 무엇이며 표준 LLM 배포와 어떻게 다른가?
구현 AI는 로봇이나 기계적 몸체를 통해 물리적 세상을 인지하고 행동하는 AI 시스템을 말한다. 텍스트를 생성하는 챗봇과 달리, 구현된 LLM은 언어 추론을 모터 명령으로 변환하고, 물리적 제약을 실시간으로 탐색하며, 인간의 감독 없이 안정적으로 작동해야 한다. 핵심 차이점은 구현 AI의 오류는 물리적 결과를 초래한다는 것이다. 잘못된 움직임은 재산을 손상시키거나 안전 위험을 만들 수 있는 반면, 챗봇의 잘못된 응답은 단순히 다시 생성될 수 있다.
왜 일부 LLM은 진공 청소 로봇에 내장되었을 때 불안정하게 행동했는가?
대화형 데이터로 주로 훈련된 모델은 표현적이고 탐구적인 출력을 생성하는 경향이 있다. 왜냐하면 그 행동이 RLHF 훈련 중에 보상되었기 때문이다. 동일한 모델이 물리적 시스템을 제어할 때, 그 표현성은 예측 불가능한 작업 해석, 장황한 작업 중 내레이션, 간단한 명령에 대한 지나치게 정교한 응답으로 나타난다. Andon Labs 테스트는 명시적인 작업 실행 미세 조정이 없는 모델이 이러한 '개성 번짐' 행동을 보일 가능성이 훨씬 더 높다는 것을 보여주었다.
로봇 제어 작업에 가장 적합한 LLM 유형은 무엇인가?
도구 사용 및 구조화된 명령 수행에 최적화된 명령 기반 모델이 물리적 작업 신뢰성 벤치마크에서 일반 목적 채팅 모델을 일관되게 능가한다. 더 작고 엣지 최적화된 모델은 낮은 지연 시간을 제공하지만 새로운 상황에 직면했을 때 취약할 수 있다. 최적의 선택은 작업 복잡성에 따라 달라진다: 단순하고 반복적인 작업은 엣지 모델에 유리하고, 복잡하고 가변적인 환경은 강력한 복구 행동을 갖춘 더 큰 명령 기반 모델의 이점을 얻는다.
소비자 AI 로봇을 구매할 때 기본 LLM이 중요한가?
예, 대부분의 제품 목록이 제시하는 것보다 더 중요하다. LLM은 로봇이 모호한 명령을 해석하고, 멈춤 상태에서 복구하며, 방해를 처리하는 방식을 결정한다. 제대로 제약되지 않은 일반 목적 모델을 탑재한 로봇은 일관성 없이 작업을 완료하거나 새로운 환경에서 예상치 못한 행동을 할 수 있다. 구매자는 공급업체에 작업 완료율 데이터를 요청하고, 내장 모델이 물리적 배포를 위해 미세 조정되었는지(단순히 기성 API에서 통합된 것이 아니라) 구체적으로 물어봐야 한다.
RLHF란 무엇이며 로봇 제어에 문제를 일으키는 이유는?
RLHF(Reinforcement Learning from Human Feedback)는 인간 평가자가 모델 출력을 평가하고 선호하는 응답에 보상을 주는 미세 조정 과정이다. 인간 평가자는 일관되게 참여적이고 표현적이며 도움이 되는 답변을 선호하기 때문에, RLHF는 체계적으로 모델을 장황함과 개성으로 밀어붙인다. 로봇 제어의 경우, 이는 갈등을 만든다: 모델이 대화에서 '똑똑하고 친근하게' 느껴지도록 하는 동일한 훈련이 간결함, 정밀함, 결정론이 요구되는 제한된 물리적 작업 실행에서 신뢰할 수 없게 만드는 것이다.
AI 지원 로봇을 평가 중이라면, 구매 전에 공급업체에 꼭 물어봐야 할 질문은 무엇인가?
Andon Labs의 발견은 한 가지를 분명히 한다: 로봇을 구동하는 LLM은 단순한 부품이 아니다. 데모에서 유능해 보이는 모델과 실제 환경에서 안정적으로 작동하는 모델 사이의 격차는 실제이며, 측정 가능하고, 결과를 초래한다. 물리적 AI 준비 상태는 원시 지능이 아니라 제한되고 목적 있는 실행에 관한 것이다. 이것을 올바르게 해내는 로봇이 차세대 자동화를 정의할 것이다.










토론에 참여하기
What's the one question you'd demand an AI robot vendor answer before signing a purchase order?