Do as I Do는 단일 시점 RGB 비디오에서 손-물체 상호작용을 재구성하고 다지(dexterous) 로봇 손에 리타겟팅하는 2단계 알고리즘이다.
우리의 손-물체 재구성 프로세스는 관련 지표에서 최첨단 성능을 능가하며, 자아중심 시점이든 외부 시점이든, 인터넷 클립에서 생성형 비디오 모델의 출력물까지 다양한 비디오를 처리한다.
리타겟팅 프로세스는 기존의 확장 가능한 동역학 인식 리타겟팅 기술을 개선하여 잡음이 많은 재구성된 참조 궤적을 견고하게 만드는 새로운 구성 요소를 도입한다.
결과 로봇 데이터는 다지 로봇 손과 팔에서 실행 가능하며, 인터넷 비디오에서 실제 다지 로봇 롤아웃까지 이어지는 첫 번째 파이프라인을 완성한다.
재구성 방법
재구성 프로세스는 단일 시점 RGB 비디오를 입력으로 받아 전체 손-물체 궤적을 출력한다. 이는 전문 녹화에서 캐주얼 스마트폰 클립까지 다양한 카메라 시점과 비디오 품질 수준에서 작동한다.

리타겟팅 방법
리타겟팅 단계는 재구성된 손-물체 궤적을 로봇 손에서 재현하는 것을 목표로 한다. 그러나 인간과 로봇의 형태는 다르며, 접촉 정보와 힘은 운동학적 신호에서 누락된다. 이전 연구에서는 운동학적 솔버나 로봇 휴리스틱을 사용했지만, 물리적 타당성을 보장하지 못하거나 범용적 표현력을 잃는다.
Do as I Do는 동역학 인식 리타겟팅을 수행하며, 물리 시뮬레이션 내에서 현실성을 보장하면서 참조를 따른다. MPPI 프레임워크를 기반으로, 이 방법은 반복과 예측 수평선 모두에서 어닐링되는 커널을 사용한 샘플링 기반 최적화를 통해 광범위한 탐색에서 지역적 세부 조정으로 전환한다.
실험 설정
모든 작업에서 22자유도(DoF) Sharpa Wave 손이 사용된다. 실제 현장 배치 결과는 Sharpa Wave 손과 UR3e 팔을 사용한 양손 설정에서 50Hz로 명령하여 시연된다.
리타겟팅 결과
야생에서 재구성된 데이터에 대해 Do as I Do는 71%의 성공률을 달성하여 기준선 25%에서 크게 개선되었다. 주요 차별점은 웜업으로, 잡음이 많은 초기 프레임보다 훨씬 안정적이고 자연스러운 초기 상태를 발견하여 이후 시간 단계에서 성공적인 추적으로 이어진다. 섭동은 정량적 지표에 약간만 영향을 미치면서도 정성적 결과(예: 자연스러운 그립)를 눈에 띄게 개선하며, 전환 보상은 중요한 전환 시간 단계에서 물체를 놓칠 수 있는 궤적에 대해 성공적인 집기와 놓기를 장려한다.
OakInk2에서 방법을 검증한 결과 각 구성 요소가 일관된 개선을 보여 기준선 72%에서 81%로 상승했다. 이는 불완전한 재구성된 참조를 위해 설계되었음에도 불구하고 깨끗한 MoCap 궤적에서도 효과적인 이점을 제공하며 이 벤치마크의 1,000개 이상의 양손 작업으로 잘 확장됨을 보여준다.
결론
Do as I Do는 일상적인 인간 비디오를 재구성하고 다지 로봇 손에 리타겟팅하는 프레임워크를 제공한다. 이 방법은 자아중심, 외부 시점, 온라인 비디오 소스 전반에서 효과적이며, 인간을 관찰함으로써 로봇 데이터를 확장할 수 있는 경로를 제시한다.
한계. 이 방법은 강체 물체와 단일 시점 RGB로부터의 반정확한 미터법 깊이 예측을 가정하며, 둘 중 하나라도 성립하지 않으면 실패할 수 있다. 단일 시점 관찰은 또한 실제 손-물체 거리의 모호성으로 인해 물리적 접촉과 단순한 시각적 가림을 구분하기 어렵게 만든다. 이 방법은 전체 장면이 아닌 손과 물체만 재구성하며, 장애물이나 관절과 같은 환경적 제약을 추론할 수 없다. 마지막으로, 현재의 물리 시뮬레이터는 실제 세계 동역학을 대략적으로만 모델링하므로 달성 가능한 실제 성능에 상한선을 둔다.
자주 묻는 질문
Do as I Do는 어떤 비디오 유형을 지원하나요? 이 방법은 자아중심, 외부 시점, 야생 인터넷 비디오 및 생성형 비디오 모델의 출력물을 처리한다.
리타겟팅이 인간 손과 로봇 손의 차이를 어떻게 처리하나요? MPPI 스타일 샘플링 최적화와 웜업, 섭동, 전환 보상과 같은 새로운 구성 요소를 사용하여 잡음이 많은 재구성된 참조를 처리한다.
실제 검증에는 어떤 하드웨어가 사용되었나요? 모든 실험은 22자유도 Sharpa Wave 손과 UR3e 팔을 사용한 양손 설정에서 50Hz로 명령되었다.
현재 접근 방식의 주요 한계는 무엇인가요? 이 방법은 강체 물체를 가정하고 단일 시점 RGB로부터 반정확한 미터법 깊이가 필요하며, 전체 장면을 재구성하거나 환경적 제약을 추론할 수 없다.
