Manipulación diestra de horizonte largo y cero ejemplos con razonamiento VLM fundamentado en 3D multivista (2026)

Un objetivo de larga data en robótica es construir sistemas de propósito general que realicen manipulación de horizonte largo a partir de instrucciones lingüísticas de alto nivel. Más allá de reconocer objetos, dichos sistemas deben fundamentar las instrucciones en la geometría 3D relevante para la tarea: dónde colocar un objeto, qué parte contactar y cómo orientar y mover una herramienta durante la ejecución. Este requisito es especialmente exigente para manos diestras, donde pequeños errores de fundamentación 3D causan agarres inestables, colisiones, fallos de cinemática inversa o contacto en la región funcional incorrecta de una herramienta.

La fundamentación 3D inferida se acopla con una biblioteca de primitivas atómicas reutilizables. Los comportamientos de uso de herramientas se representan como una Bolsa de Acciones Atómicas, una biblioteca de trayectorias cortas de objetos en 6D indexadas por tipo de interacción. Para una nueva escena, se recupera la primitiva apropiada y se alinea con la geometría de la tarea fundamentada. Para apoyar la ejecución con manos diestras, se aplica la misma fundamentación multivista para estimar regiones de contacto funcional, generar agarres candidatos en esas regiones y filtrarlos por viabilidad de cinemática inversa y colisión a lo largo de toda la trayectoria de uso de la herramienta. Para tareas de horizonte largo, la verificación y reintento en bucle cerrado permiten que el sistema re-fundamente o replanifique tras fallos de ejecución.

Experimentos

Secuencia de manipulación de horizonte largo que muestra un brazo robótico con mano diestra realizando tareas de herramientas en múltiples pasos

El marco se evalúa en manipulación robótica de cero ejemplos en un entorno real de sobremesa, evaluando su escalabilidad desde tareas simples hasta escenarios de horizonte largo. La evaluación cubre cuatro capacidades clave: (1) fundamentación de objetivo en medio de distractores y robustez a colisiones (p. ej., colocar basura inferida en una cesta), (2) razonamiento de relaciones espaciales (p. ej., colocar herramientas en una estufa), (3) uso de herramientas basado en affordances (p. ej., barrer objetos con una escoba) y (4) secuenciación de horizonte largo (p. ej., cocinar y organizar 3-4 objetos). En el material complementario se proporcionan escenarios adicionales de uso de herramientas.

Configuración de hardware

El sistema cuenta con un xArm equipado con una mano diestra Inspire. El entorno de sobremesa es monitoreado por múltiples cámaras RGB calibradas, incluyendo un par estéreo. Se usa FoundationStereo para la estimación de profundidad estéreo y FoundationPose para la estimación de pose 6D de múltiples objetos.

Líneas base

El marco de cero ejemplos se compara con una línea base de fundamentación RGB-D y dos modelos Visión-Lenguaje-Acción (VLA). La línea base RGB-D predice un punto clave 2D desde una sola vista y lo eleva a 3D usando el mapa de profundidad alineado. Para los modelos VLA, los modelos preentrenados se ajustan usando 30 demostraciones de teleoperación específicas de la tarea, mientras que nuestro método opera completamente sin ejemplos, basándose únicamente en el razonamiento VLM para la fundamentación y manipulación 3D.

Métricas

Tasa de éxito. Un ensayo se considera exitoso si el robot completa la tarea según la instrucción textual. Para tareas con un objeto objetivo o ubicación objetivo especificados, verificamos si el objeto objetivo se coloca en la ubicación deseada después de la ejecución.

Error de colisión. Evaluamos si la fundamentación del waypoint o la colocación predicha causa colisión cuando el objeto manipulado se coloca en la ubicación correspondiente. La métrica informa la profundidad máxima de penetración media entre el objeto manipulado y el entorno circundante.

Tasa de éxito en horizonte largo. Para tareas secuenciales, un ensayo se considera exitoso solo si todos los pasos requeridos se completan en el orden correcto. Debido a que los ensayos con robots reales de horizonte largo consumen mucho tiempo, el número de ensayos puede diferir entre tareas. Informamos tanto el número de ensayos como la tasa de éxito. Cuando se usan reintentos, un ensayo se cuenta como exitoso si la tarea se completa dentro del presupuesto de reintentos.

Discusión

Diagrama de alineación de Bolsa de Acciones Atómicas que muestra cómo las primitivas de uso de herramientas se emparejan con la geometría de la tarea

Presentamos un marco de manipulación de horizonte largo y cero ejemplos que puentea el razonamiento VLM con la ejecución física mediante fundamentación 3D multivista. Al descomponer las instrucciones lingüísticas en secuencias de primitivas de manipulación fundamentadas en 3D, el sistema apoya sin problemas tanto tareas estándar de pick-and-place como tareas complejas de uso de herramientas, alineando espacialmente acciones atómicas centradas en el objeto con la escena objetivo. Los resultados experimentales demuestran que la estrategia de fusión multivista supera significativamente a las líneas base RGB-D de vista única en precisión espacial y robustez frente a la oclusión. Además, la formulación a nivel de primitivas permite naturalmente la ejecución en bucle cerrado, permitiendo al sistema verificar el progreso de la tarea y recuperarse dinámicamente de fallos intermedios durante tareas de horizonte largo.

Comparación de métodos de fundamentación 3D

Analizamos además el comportamiento de la línea base de fundamentación RGB-D de vista única y el enfoque de fundamentación multivista en escenas reales desordenadas. Debido a su dependencia de una sola observación, la línea base RGB-D es sensible a la oclusión y a la geometría incompleta, resultando a menudo en objetivos 3D mal ubicados. En contraste, el enfoque multivista agrega pistas semánticas de fundamentación a través de las vistas y produce estimaciones 3D más consistentes y relevantes para la tarea en entornos desordenados.

Generación de agarre basada en plantilla cilíndrica

Para tareas de uso de herramientas, optimizar directamente los contactos de las yemas de los dedos puede ser insuficiente porque el uso exitoso de herramientas requiere agarres que permanezcan estables y consistentes con la acción durante toda la ejecución del movimiento. Muchas herramientas domésticas contienen affordances de agarre aproximadamente cilíndricos, como mangos de escoba, botellas y mangos de sartén. Cuando la región de affordance estimada corresponde a una región cilíndrica, se explota esta prioridad estructural para inicializar las poses de la palma.

Se muestrea un vértice de la superficie cerca del centro de la región y su normal superficial hacia afuera se usa para definir un ancla de pose de la palma, controlando el punto de referencia de la palma, la normal deseada de la palma y el desplazamiento de la palma a la superficie. Para cubrir diversos estilos de agarre, se muestrean diferentes orientaciones de la palma alrededor de la dirección de aproximación mientras se preserva la alineación normal. Para cada pose de palma muestreada, se optimiza el cierre de los dedos mediante refinamiento del agarre basado en simulación. Los candidatos resultantes se validan en simulación aplicando fuerzas y torques externos a lo largo de los seis ejes para evaluar la estabilidad del agarre.

Detalles de implementación

Los siguientes hiperparámetros se utilizan en todos los experimentos.

Preguntas frecuentes

¿Cómo maneja el sistema la oclusión durante la fundamentación 3D? La estrategia de fusión multivista agrega pistas semánticas de múltiples cámaras RGB calibradas, superando significativamente a las líneas base RGB-D de vista única en precisión espacial y robustez frente a la oclusión en entornos desordenados.

¿Qué tipos de tareas de uso de herramientas puede realizar el marco? El sistema admite diversas tareas, incluyendo colocar objetos en cestas, posicionar herramientas en una estufa, barrer con una escoba y secuencias de horizonte largo como cocinar y organizar múltiples objetos.

¿Cómo se generan los agarres para la manipulación diestra de herramientas? El sistema utiliza un enfoque basado en plantilla cilíndrica que explota las prioridades estructurales de las herramientas domésticas, seguido de una optimización del cierre de los dedos basada en simulación y una validación de estabilidad bajo fuerzas externas.

¿Puede el sistema recuperarse de fallos durante la ejecución? Sí, la formulación a nivel de primitivas permite la ejecución en bucle cerrado con mecanismos de verificación y reintento, lo que permite al sistema re-fundamentar o replanificar tras fallos intermedios dentro de un presupuesto de reintentos.