AutoDex: 완전 자동화된 손동작 잡기 데이터 수집, 시간당 75회 이상 (2026)

AutoDex는 사람의 개입 없이 물리적으로 레이블링된 손동작 잡기 시도 데이터를 수집하는 종단간 자율 시스템입니다. 100가지 가정용 물체에 대해 3,593회의 실제 잡기 시도를 생성했습니다. 물체 자세 추정, 충돌 없는 실행, 성공/실패 레이블링, 장면 리셋을 자동화하여 시간당 75.5회의 시도를 달성, 원격 조작보다 거의 4배 빠릅니다.

연구진이 만든 것

AutoDex는 시뮬레이션된 잡기 후보를 실제 다지핸드(Allegro 및 Inspire)에서 물리적으로 검증되고 레이블링된 시험으로 전환하는 완전한 하드웨어-소프트웨어 파이프라인입니다. 시스템은 완전히 무인으로 작동합니다. 20대의 카메라 배열을 사용하여 물체의 6자유도 자세를 추정하고, 모듈식 후보 생성기에서 실행 가능한 잡기를 필터링 및 선택하며, 실제 로봇 팔로 잡기를 실행하고, 들어 올리기 및 유지 성공(5cm 들어 올리기, 3초 유지)을 확인한 후 시도를 레이블링하고 다음 시도를 위해 물체를 리셋합니다.

세 가지 핵심 혁신이 이를 가능하게 합니다. 첫째, 밀집 다중 시각 인식 시스템은 잡기 실행 중 손-물체 가림을 극복하여 로봇 핸드가 물체의 대부분을 가려도 안정적인 자세 추적을 유지합니다. 둘째, 잔여 토크 안전 모니터는 예상치 못한 접촉을 감지하고 안전하지 않은 움직임을 중단하여 손상 위험 없이 무인 작동을 가능하게 합니다. 셋째, 능동 물체 리셋 모듈은 두 번째 로봇이나 수동 재배치 장치를 사용하여 물체를 안정적인 자세 사이로 이동시켜 모든 방향에서 후보 집합을 소진하도록 보장합니다. 수집된 데이터베이스에는 동기화된 로봇 상태 로그, 다중 시각 영상, 카메라 보정 데이터, 시도별 성공/실패 레이블이 모두 자동으로 생성되어 포함됩니다.

자세 추정에서 잡기 실행, 레이블링 및 리셋까지 AutoDex 루프를 보여주는 시스템 다이어그램

주요 결과

연구진은 플라스틱, 금속, 나무, 실리콘, 종이, 테이프, 세라믹 등 100가지 물체 데이터베이스에서 추출한 20가지 물체 하위 집합으로 AutoDex를 평가했습니다. 주요 지표는 자율 처리량 대 원격 조작입니다. AutoDex는 시간당 75.5회 시도를 달성한 반면, 숙련된 원격 조작자는 시간당 19.3회에 그쳐 3.9배 향상되었습니다. 이러한 이득은 더 빠른 실행(평균 루프 시간 48.2초, 로봇 동작이 지배적)이 아니라 인간의 유휴 시간을 없애고 24/7 무인 수집을 가능하게 함으로써 얻어졌습니다.

물리적 검증은 결과 잡기 데이터베이스의 품질을 극적으로 향상시킵니다. 연구진이 다운스트림 검색 기반 실행 정책을 테스트했을 때, AutoDex의 실제 시험으로 선별된 잡기는 새로운 장면에서 79.2% 의 성공률을 보인 반면, 후보 생성기(시뮬레이션 전용)로만 선택된 잡기는 18.3% 에 불과했습니다. 능동 물체 리셋 모듈은 적용 범위를 증가시켰습니다. 리셋 없이 시스템은 물체당 평균 2.3개의 안정적인 자세에서 시도를 수집한 반면, 리셋을 사용하면 5.7개의 자세를 커버하여 탐색된 후보 공간이 거의 3배로 늘어났습니다.

지표	AutoDex (자율)	원격 조작 (인간)
처리량 (시도/시간)	75.5	19.3
평균 루프 지속 시간 (초)	48.2	—
다운스트림 성공률 (물리적 검증)	79.2%	—
다운스트림 성공률 (시뮬레이션 전용)	18.3%	—
물체당 커버된 안정 자세 수 (리셋 없음)	2.3	—
물체당 커버된 안정 자세 수 (리셋 있음)	5.7	—

작동 방식

AutoDex는 다섯 단계로 구성된 폐쇄 루프로 작동합니다. 첫째, 자세 추정: 20대 카메라 장비가 동기화된 이미지를 캡처하고, 시스템은 기성 6자유도 자세 추정기를 실행하여 탁자 위 물체의 위치를 파악합니다. 높은 카메라 밀도는 로봇 핸드가 접근할 때도 적어도 두 대의 카메라가 방해받지 않는 시야를 확보하여 중요한 사전 잡기 단계에서 추적 정확도를 유지합니다.

둘째, 후보 선택: 모듈식 잡기 생성기(예: GraspIt! 또는 학습 모델)가 손목 자세와 손 구성을 생성합니다. AutoDex는 추정된 물체 자세와 알려진 장면 기하학(테이블, 장애물)에 대해 충돌 검사를 사용하여 이를 필터링합니다. 그런 다음 현재 안정 자세에 대해 시도되지 않은 가장 높은 순위의 실행 가능한 후보를 선택합니다.

셋째, 안전 모니터링을 통한 실행: 로봇 팔이 사전 잡기 자세로의 궤적을 계획하고, 손가락을 닫은 다음 5cm 들어 올려 3초간 유지합니다. 들어 올리는 동안 각 관절에서 잔여 토크 모니터가 실행됩니다. 측정된 토크가 사전 설정된 임계값(예상치 못한 접촉, 예: 테이블이나 떨어진 물체와의 접촉을 나타냄)을 초과하면 시스템이 중단하고 홈 위치로 후퇴합니다. 이 모니터는 잘못된 긍정을 피하기 위해 접촉이 중요한 세그먼트(테이블 근처)에서만 활성화됩니다.

넷째, 성공/실패 레이블링: 손목의 힘-토크 센서가 3초 유지 후 물체가 손에 남아 있는지 감지합니다. 측정된 하중이 데이터베이스의 물체 무게와 일치하면 시도는 '성공'으로 레이블링되고, 그렇지 않으면 '실패'로 레이블링됩니다. 이는 인간의 분류를 제거합니다.

다섯째, 리셋: 현재 물체 자세에 대해 시도되지 않은 후보가 남아 있으면 로봇이 물체를 다시 놓고 재시작합니다. 그렇지 않으면 능동 리셋 모듈(두 번째 로봇 팔 또는 중력 기반 재배치 장치)이 물체를 기울이거나 밀어 새로운 안정 자세로 만든 다음 자세를 다시 추정하고 계속합니다. 각 시도 기록(비디오, 자세, 후보 매개변수, 레이블)이 데이터베이스에 저장됩니다.

48.2초 루프의 구성은 로봇 실행(24.8초), 후퇴 동작(11.9초), 인식(7.8초), 동작 계획(3.8초)으로 나뉩니다. 인식만이 가속화될 수 있는 유일한 단계(예: 더 빠른 자세 추정기 사용)이지만 실행 동작이 여전히 주요 병목입니다.

로봇 공학에서의 중요성

손동작 잡기는 가정, 창고, 공장에서 임의의 물체를 다루는 로봇의 전제 조건입니다. 그러나 강력한 정책을 훈련하려면 막대한 양의 실제 데이터가 필요하며, 원격 조작은 이를 생산하기에 너무 느립니다. AutoDex는 완전 자동화된 데이터 수집이 가능할 뿐만 아니라 실용적임을 보여줍니다. 시스템이 밤새 작동하여 인간의 개입 없이 수천 건의 레이블링된 시도를 수집할 수 있습니다.

이는 중고 협동로봇이나 BotMarket의 휴머노이드 로봇을 배포하는 회사에 직접적인 영향을 미칩니다. AutoDex 접근 방식은 잡기 데이터 세트를 시간당 75회에 가까운 속도로 큐레이팅할 수 있어 모방 학습이나 강화 학습과 같은 다운스트림 작업이 수십만 건의 실제 잡기 시도로 훈련할 수 있도록 합니다. 데이터베이스 자체는 재사용 가능한 자산이 됩니다. "Allegro 핸드로 원통형 물체에 대한 성공적인 잡기"에 대한 질의가 즉시 답변될 수 있으며 새로운 장면에서 실행 가능성도 다시 확인할 수 있습니다.

또한 시스템의 안전 모니터와 자동 리셋은 인간 감독 비용이 많이 드는 산업 현장에 적합합니다. 다양한 품목의 픽 앤 플레이스를 자동화해야 하는 공장은 AutoDex의 파이프라인을 특정 로봇 팔-핸드 조합과 물체 집합에 맞게 조정할 수 있습니다.

한계와 미해결 과제

AutoDex는 현재 고정 작업 셀에서 안정적인 파워 그립만 수집합니다. 양손 협응, 이동 조작, 손가락 롤링 재잡기, 도구 사용 및 물체 전달과 같은 기능적 잡기 등 고급 작업에 중요한 동작은 다루지 않습니다. 시스템은 또한 잡기 생성기의 맹점을 그대로 물려받습니다. 생성기가 특정 물체에 대해 실행 가능한 후보를 제안할 수 없으면(예: 접촉 중 동적 손가락 동작 필요), AutoDex는 이를 테스트하지 않습니다. 또한 높은 카메라 밀도(20대)는 작업 셀을 부피가 크고 비싸게 만들지만, 실제로는 10~12대의 카메라만 필요하다고 논문은 언급합니다.

마지막으로 성공/실패 레이블링은 들어 올리기 및 유지만 확인할 뿐 기능적 성공(예: 잡기를 사용하여 따르기 또는 삽입 가능 여부)은 확인하지 않습니다. 작업 조건부 레이블링으로의 확장은 여전히 과제로 남아 있습니다.

자주 묻는 질문

AutoDex는 어떻게 잡기를 성공 또는 실패로 레이블링하나요? 5cm 들어 올리기 및 3초 유지 동안 손목의 힘-토크 센서를 사용합니다. 측정된 하중이 알려진 물체 무게와 일치하면 성공으로, 그렇지 않으면 실패로 레이블링합니다.

AutoDex는 수집 중 인간의 감독이 필요한가요? 아니요—완전히 무인으로 작동합니다. 안전 모니터가 안전하지 않은 움직임을 중단하고 능동 리셋 모듈이 인간의 도움 없이 물체를 재배치합니다.

지원되는 로봇 핸드는 무엇인가요? 논문은 Allegro Hand와 Inspire Hand(모두 4손가락 손동작 핸드)로 AutoDex를 시연합니다. 아키텍처는 로봇 팔이 충돌 없는 궤적을 계획할 수 있는 한 핸드에 구애받지 않습니다.

AutoDex는 총 몇 번의 시도를 수집했나요? 데이터베이스에는 다양한 기하학과 재질을 포괄하는 100가지 가정용 물체에 대해 물리적으로 실행되고 자동으로 레이블링된 3,593회의 시도가 포함되어 있습니다.

결론

AutoDex는 손동작 잡기 데이터 수집이 실용적인 처리량으로 완전 자동화될 수 있음을 증명합니다. 밀집 인식, 충돌 없는 실행, 물리적 레이블링, 자동 리셋을 통합하여 원격 조작 속도를 4배 향상시키고 인간의 피로를 제거합니다. 그 결과 손동작 조작에 필요한 대규모 실제 데이터 세트를 구축하기 위한 확장 가능한 경로가 제공됩니다.