MOCHI, 여러 명의 물체 상호작용 노이즈 데이터를 정리하다 (2026)

두 사람이 탁자를 들거나, 공구를 주고받거나, 가구를 조립하는 등의 협력적인 인간-물체 상호작용은 캡처하기 까다롭습니다. 여러 사람이 하나의 물체를 공유할 때, 모션 캡처 시스템은 손-물체 접촉 오정렬, 시간적 지터, 손가락 디테일 누락 등의 문제를 겪습니다. MOCHI(MOtion Enhancement of Collaborative Human-object Interactions)는 이러한 노이즈가 있는 데이터를 입력받아 물리적으로 타당한 다중 인간-물체 상호작용 시퀀스를 출력하는 2단계 프레임워크입니다.

연구진이 구축한 것

MOCHI는 여러 사람이 동일한 물체와 상호작용하는(다중 인간-물체 상호작용, MHOI) 노이즈가 있는 모션 캡처 데이터를 향상시키는 2단계 파이프라인입니다. 첫 번째 단계는 손-물체 접촉에 초점을 맞춥니다: 노이즈가 있는 신체 포즈 입력을 받아, 물리적으로 타당하고(관통 없음, 안정적인 접촉) 신체 움직임과 의미적으로 일관된 손 그립을 최적화합니다. 이렇게 최적화된 그립은 전체 손-물체 상호작용 시퀀스로 확장됩니다.

두 번째 단계는 확산 기반 노이즈 최적화 프레임워크를 사용하여 모든 참가자의 전체 모션을 미세 조정합니다. 확산 모델은 일반적으로 단일 인물 모션 사전 정보로 작동하기 때문에, 연구진은 이러한 단일 인물 사전 정보에 인간-물체 및 인간-인간 상호작용 정보를 인코딩하는 새로운 최적화 목표를 도입했습니다. 그 결과 완전하고 시간적으로 일관되며 물리적으로 조화로운 다중 인물 애니메이션이 탄생합니다.

MOCHI는 기존 모션 캡처 시스템으로 캡처하거나 생성 모델로 합성한 모든 소스의 데이터에서 작동하며, 다양한 참가자 수와 상호작용 유형을 처리할 수 있습니다. 또한 키프레임 기반 MHOI 생성 및 물체 형상 변경을 통한 데이터 증강과 같은 실용적인 응용도 가능하게 합니다.

주요 결과

초록에는 구체적인 수치 벤치마크가 제공되지 않았지만, 연구진은 다양한 MHOI 데이터셋에서 파이프라인의 효과를 입증했습니다. 정성적 결과는 다음과 같은 상당한 감소를 보여줍니다:

접촉 오정렬 – 손이 더 이상 물체 근처에 떠 있거나 물체를 통과하지 않습니다.
모션 지터 – 동적 디테일을 잃지 않으면서 시간적 불일치가 매끄럽게 처리됩니다.
손가락 관절 표현 누락 – 손가락 수준의 움직임이 복원되고 신체 포즈와 동기화됩니다.

시스템은 다양한 참가자 수(2인, 3인 이상)와 상호작용 유형(들기, 건네기, 조립)에 강건함을 보여줍니다. 실용적 유용성의 검증으로, MOCHI는 키프레임 기반 MHOI 생성을 가능하게 합니다. 애니메이터가 몇 가지 키 포즈를 지정하면 시스템이 전체 상호작용을 생성합니다. 또한 물체 모양을 변경하면서 자연스러운 인간-물체 접촉을 유지하는 데이터 증강도 지원합니다.

작동 원리

MOCHI는 순차적인 두 단계로 작동합니다. 1단계는 손-물체 접촉을 처리합니다. 노이즈가 있는 신체 움직임(뼈의 위치와 회전은 있지만 손 데이터는 없거나 노이즈가 있음)이 주어지면, 시스템은 두 가지 기준을 만족하는 손 포즈를 찾는 최적화 문제를 수립합니다: 물리적 타당성(물체 관통 최소화, 안정적인 그립 지점)과 의미적 일관성(그립이 신체 구성에 자연스러워야 함, 예: 무거운 상자를 들 때 정밀 파지 대 파워 그립). 최적화 프로그램은 물체 간 관통을 페널티하고 표면 접촉 면적을 보상하는 물리학 기반 비용 함수를 사용합니다. 신체에서 추론된 물체 움직임과 일치하는 부드럽고 시간적으로 일관된 손 포즈 시퀀스를 출력합니다.

2단계는 모든 참가자의 전체 신체 움직임을 미세 조정합니다. 이 단계는 모션 미세 조정을 확산 기반 노이즈 최적화 문제로 취급합니다. 원시 노이즈 시퀀스로 시작하여 사전 훈련된 단일 인물 확산 모델을 사용해 반복적으로 노이즈를 제거합니다. 주요 혁신은 노이즈 제거 루프에 두 가지 상호작용 인식 목표를 주입한 점입니다:

인간-물체 목표: 각 사람의 손이 물체와 올바르게 정렬되도록 하면서 접촉 제약 조건을 위반하지 않도록 합니다.
인간-인간 목표: 관통을 방지하고 참가자 간의 타당한 공간 관계(예: 물건을 주고받을 때 두 사람이 서로 마주보는 것)를 유지합니다.

이러한 목표가 확산 샘플링 과정 내에서 최적화 항목으로 적용되므로, 최종 출력은 모든 물리적 및 상호작용 제약 조건을 존중하는 깨끗한 다중 인물 모션이 됩니다. 추가적인 다중 인물 확산 모델 훈련이 필요하지 않습니다.

구성 요소	입력	출력	방법
1단계 (손 그립 최적화)	노이즈 신체 포즈	최적화된 손 그립 + 전체 손 시퀀스	물리학 기반 비용 최소화
2단계 (전신 미세 조정)	1단계의 신체 + 손 움직임	깨끗한 다중 인물 모션	상호작용 목표를 포함한 확산 기반 노이즈 최적화

로봇공학에서의 중요성

인간이 물체를 다루는 고품질 모션 데이터는 모방 학습, 인간-로봇 협업, 합성 훈련 데이터 생성 등 많은 로봇 시스템의 연료입니다. 기존 모션 캡처 데이터셋의 대부분은 단일 인간이 물체와 상호작용하는 것을 다루지만, 실제 작업(배송, 창고, 조립)은 협력적 조작을 포함합니다. MOCHI는 본질적으로 노이즈가 많은 녹화를 정리함으로써 이러한 데이터를 획득하는 장벽을 낮춥니다.

여러 사람과 함께 작업해야 하는 창고 로봇이나 협동 로봇을 배포하는 기업에게 현실적인 상호작용 데이터는 인식 및 제어 정책을 훈련하는 데 중요합니다. MOCHI는 또한 데이터 증강(물체 형상 변경)을 가능하게 하여 시뮬레이션-실제 전이에 도움을 줍니다. 그리고 인간 시연에서 학습하는 휴머노이드 로봇의 경우, 미세 조정된 모션은 고품질 참조 궤적으로 사용될 수 있습니다.

한계점 및 미해결 과제

프레임워크는 확산 단계에서 사용되는 단일 인물 모션 사전 정보의 품질에 의존합니다. 사전 정보가 단순한 단일 인물 움직임(예: 걷기, 달리기)에만 훈련되었다면, MHOI의 복잡하고 협력적인 움직임을 일반화하는 데 어려움을 겪을 수 있습니다. 저자들은 추론 중에 상호작용 목표를 주입하여 이를 해결했지만, 완전히 새로운 상호작용 유형에 대한 강건성은 아직 테스트되지 않았습니다.

2단계 최적화의 계산 비용은 보고되지 않았지만, 반복적인 확산 샘플링은 일반적으로 느리기 때문에 현재 방법으로는 실시간 응용이 어렵습니다. 또한 MOCHI는 기존 노이즈 데이터를 미세 조정하지만, 처음부터 완전히 새로운 상호작용을 생성하지는 않습니다(키프레임 기반 생성은 여전히 수동 키포즈 지정이 필요함).

자주 묻는 질문

MOCHI는 어떤 문제를 해결하나요? MOCHI는 여러 사람이 동일한 물체와 상호작용하는(예: 탁자 들기, 공구 건네기) 노이즈가 있는 모션 캡처 데이터를 정리합니다.

MOCHI는 몇 명까지 지원하나요? 네, 프레임워크는 다양한 참가자 수와 상호작용 유형(2인에서 더 큰 그룹까지)에 강건합니다.

MOCHI를 사용하여 새로운 모션 데이터를 생성할 수 있나요? 사용자가 지정한 키프레임에서 전체 상호작용을 생성할 수 있으며, 자연스러운 접촉을 유지하면서 물체 형상을 변경하는 데이터 증강도 지원합니다.

MOCHI는 생성 모델인가요, 노이즈 제거기인가요? 주로 노이즈 제거/미세 조정 프레임워크입니다. 노이즈 입력 모션을 받아 최적화와 확산을 통해 더 깨끗한 버전을 출력하며, 독립형 생성 모델은 아닙니다.

결론

MOCHI는 다중 인간-물체 상호작용 모션 캡처의 지저분한 현실을 정리하기 위한 실용적인 2단계 솔루션을 제공합니다. 손 그립 최적화와 상호작용 인식 확산 미세 조정을 결합하여 노이즈 데이터에서 물리적으로 타당하고 시간적으로 일관된 애니메이션을 생성합니다. 이 연구는 협업 로봇공학 및 애니메이션을 위한 더 나은 훈련 데이터를 제공하며, 키프레임 기반 생성 및 증강 기능으로 인해 다목적 도구가 됩니다.