OpenReLoc: Reubicación de Cámara a Nivel de Objeto con Comprensión de Vocabulario Abierto (2026)

OpenReLoc es un nuevo sistema de reubicación de cámara que utiliza representaciones a nivel de objeto y comprensión de vocabulario abierto para estimar la pose de la cámara a partir de una sola imagen RGB. A diferencia de métodos anteriores que dependen del emparejamiento de objetos con vocabulario cerrado, OpenReLoc puede reconocer y emparejar cualquier objeto, incluso categorías nunca antes vistas, lo que lo hace mucho más práctico para entornos interiores reales.

Lo que Construyeron los Investigadores

OpenReLoc es un sistema completo de reubicación de cámara en interiores que estima la pose de cámara de 6 GDL de una imagen RGB de consulta utilizando un mapa preconstruido de objetos como puntos de referencia. El mapa se construye a partir de imágenes RGB-D con pose de la escena, almacenando para cada objeto su etiqueta semántica, forma, relaciones con vecinos y, crucialmente, una descripción en lenguaje natural generada por un modelo de lenguaje grande (LLM). Cuando llega una nueva imagen de consulta, OpenReLoc detecta objetos, los empareja con el mapa utilizando incrustaciones de vocabulario abierto (CLIP) y luego refina la pose mediante un proceso de optimización de grueso a fino. Una innovación clave es la pérdida ICP 2D de doble ruta que combina alineación geométrica con supervisión semántica, y un paso de análisis de grafo de escena que resuelve ambigüedades causadas por objetos repetidos o similares. Esto convierte a OpenReLoc en el primer sistema de reubicación a nivel de objeto capaz de manejar escenas del mundo real escalables sin estar limitado a un vocabulario fijo de objetos.

Ejemplo de resultados de emparejamiento de objetos con vocabulario abierto en diferentes escenas

Resultados Clave

Los investigadores evaluaron OpenReLoc en los desafiantes conjuntos de datos ScanNet y ScanNet++, que contienen diversas escenas interiores reales con distribuciones de objetos de cola larga. En comparación con el estado del arte anterior, GoReloc, OpenReLoc logró una tasa de éxito drásticamente más alta; GoReloc a menudo fallaba al identificar objetos válidos para emparejar porque la escena contenía objetos fuera de su vocabulario cerrado. El emparejamiento de vocabulario abierto de OpenReLoc tuvo éxito en todas las escenas. En términos de precisión, incluso cuando GoReloc encontraba coincidencias, sufría de desviación debido a la falta de una función de pérdida de optimización dedicada, mientras que la pérdida ICP de doble ruta de OpenReLoc proporcionaba poses estables y precisas.

Los estudios de ablación confirmaron la importancia de cada componente: - Eliminar la etapa gruesa o fina degradó el rendimiento, demostrando que el mecanismo de grueso a fino es esencial. - Sin el análisis de grafo de escena, el sistema confundía objetos repetidos (por ejemplo, múltiples sillas). - Eliminar las descripciones en lenguaje natural generadas por LLM perjudicó la robustez bajo oclusión o ruido visual. - La recuperación basada en DIOU para obtener poses iniciales superó a las estrategias ingenuas basadas en visibilidad. - Filtrar objetos no válidos (paredes, suelos) mejoró la asociación de puntos de referencia y la calidad del grafo de escena.

Visualización del grafo de escena que muestra relaciones entre objetos y puntos de referencia emparejados

Cómo Funciona

OpenReLoc opera en dos etapas: una etapa gruesa que recupera una hipótesis de pose aproximada, y una etapa fina que la refina con precisión.

Construcción del Mapa (Fuera de Línea): A partir de imágenes RGB-D con pose, los objetos se detectan, segmentan y se les asigna una etiqueta semántica. Para cada objeto, se almacenan su nube de puntos 3D, su caja delimitadora y sus relaciones con objetos vecinos. Un LLM preentrenado (consultado vía API) genera una descripción en lenguaje natural de cada objeto (por ejemplo, “una silla de oficina roja con reposabrazos”). Estas descripciones se codifican en un espacio de incrustaciones de vocabulario abierto compartido usando CLIP.

Etapa Gruesa (Consulta): La imagen RGB de consulta se somete a detección de objetos. Cada objeto detectado se codifica en el mismo espacio CLIP y se empareja con el objeto más similar en el mapa. Para producir una pose inicial, el sistema utiliza un método de recuperación DIOU (Distance-Intersection over Union) que considera tanto la superposición de cajas delimitadoras 2D como la distancia 3D entre pares de objetos emparejados. Esto produce una pose inicial fiable.

Etapa Fina (Refinamiento): Se minimiza una pérdida ICP 2D de doble ruta. La Ruta 1 alinea las proyecciones 2D de los centroides de los objetos del mapa con los centros de los objetos detectados usando una distancia de chamfer. La Ruta 2 añade un término de consistencia semántica: los puntos del mapa proyectados que caen dentro de una detección de consulta deben tener la misma etiqueta de objeto. Existen muchas coincidencias candidatas; un análisis de grafo de escena filtra las geométricamente inconsistentes verificando las relaciones de vecindad entre pares candidatos. Los objetos no válidos (paredes, techos, suelos) se prefiltran porque se conectan con demasiados objetos y distorsionan el grafo.

La pose final se obtiene mediante optimización de mínimos cuadrados no lineales. Todo el proceso se ejecuta en tiempo real en una GPU estándar, aunque la dependencia actual de una API de LLM de código cerrado introduce latencia.

Por Qué Esto Importa para la Robótica

La reubicación fiable de la cámara es una capacidad fundamental para cualquier robot móvil que opere en interiores, desde transportadores de palés autónomos en almacenes hasta robots de servicio en hospitales. Los métodos tradicionales requieren características visuales que fallan bajo cambios de iluminación o dependen de un conjunto predefinido de categorías de objetos que no pueden manejar objetos novedosos. OpenReLoc resuelve ambos problemas: funciona con cualquier objeto y utiliza comprensión semántica de LLMs para hacer frente a la oclusión.

Para robots de almacén, esto significa que un robot que ha mapeado un pasillo una vez puede reubicarse incluso cuando la escena contiene nuevas cajas, palés mal colocados o equipos diferentes. El aspecto de vocabulario abierto es especialmente poderoso en entornos dinámicos donde los inventarios de objetos cambian con frecuencia. Para robots industriales usados que se reutilizan en nuevos espacios de trabajo, un sistema como OpenReLoc podría reducir drásticamente el tiempo de configuración al eliminar la necesidad de etiquetar objetos manualmente.

Limitaciones y Preguntas Abiertas

La principal limitación es manejar la repetición extrema de objetos. En una habitación con cientos de sillas idénticas, el grafo de escena y las descripciones de objetos se vuelven indistinguibles, lo que lleva a ambigüedad en el emparejamiento. Los investigadores señalan que esto es un desafío abierto. Otro problema práctico es la latencia: el sistema actual depende de un LLM de código cerrado para generar descripciones de objetos. Cada descripción requiere una llamada API, lo que hace que la construcción del mapa fuera de línea sea lenta. Los autores planean reemplazar el LLM remoto por un modelo local en trabajos futuros. Además, OpenReLoc actualmente requiere entrada RGB-D con pose para el mapeo; relajar esto a video monocular sería un siguiente paso natural.

Preguntas Frecuentes

¿Qué hace exactamente OpenReLoc? Estima la pose de cámara de 6 GDL de una imagen RGB emparejando objetos detectados con un mapa preconstruido, utilizando descripciones en lenguaje natural para reconocer objetos que nunca se vieron durante el entrenamiento.

¿En qué se diferencia de métodos anteriores como GoReloc? OpenReLoc utiliza emparejamiento de vocabulario abierto (a través de CLIP y descripciones LLM) para manejar cualquier objeto, no solo una lista fija. También incluye una pérdida ICP dedicada y análisis de grafo de escena para una mayor precisión y robustez.

¿Qué tipo de hardware requiere OpenReLoc? Una cámara RGB o RGB-D estándar para la imagen de consulta y una GPU para ejecutar las redes neuronales. El paso de mapeo fuera de línea utiliza imágenes RGB-D con pose, que pueden provenir de cualquier sistema SLAM.

¿Por qué es importante la comprensión de vocabulario abierto para la reubicación? Las escenas interiores contienen innumerables tipos de objetos (herramientas, empaques, artículos personales) que ningún vocabulario cerrado puede cubrir. El vocabulario abierto permite al sistema reconocer y emparejar estos objetos, haciendo posible la reubicación en entornos del mundo real donde los objetos cambian con frecuencia.

Conclusión

OpenReLoc demuestra que la reubicación de cámara a nivel de objeto puede lograr un rendimiento práctico y escalable al combinar la comprensión del lenguaje de vocabulario abierto con un proceso de optimización de grueso a fino cuidadosamente diseñado. Supera las limitaciones de vocabulario cerrado de trabajos anteriores y maneja la diversidad de escenas del mundo real. Los principales desafíos abiertos (manejar la repetición extrema y reducir la latencia del LLM) son objetivos claros para futuros trabajos.