OpenReLoc: 객체 수준 카메라 재위치 추정을 위한 개방형 어휘 이해 (2026)

OpenReLoc은 객체 수준 표현과 개방형 어휘 이해를 사용하여 단일 RGB 이미지에서 카메라 자세를 추정하는 새로운 카메라 재위치 추정 시스템입니다. 폐쇄형 어휘 객체 매칭에 의존하는 기존 방법과 달리 OpenReLoc은 모든 객체(이전에 본 적 없는 카테고리까지)를 인식하고 매칭할 수 있어 실제 실내 환경에서 훨씬 더 실용적입니다.

연구진이 만든 것

OpenReLoc은 객체 랜드마크의 사전 구축된 지도를 사용하여 질의 RGB 이미지의 6자유도 카메라 자세를 추정하는 완전한 실내 카메라 재위치 추정 시스템입니다. 지도는 포즈가 주어진 RGB-D 이미지로부터 구축되며, 각 객체에 대해 의미 레이블, 형상, 이웃 관계, 그리고 중요한 것은 대규모 언어 모델(LLM)이 생성한 자연어 설명을 저장합니다. 새 질의 이미지가 들어오면 OpenReLoc은 객체를 감지하고, 개방형 어휘 임베딩(CLIP)을 사용하여 지도와 매칭한 후, coarse-to-fine 최적화 파이프라인을 통해 자세를 정제합니다. 핵심 혁신은 기하학적 정렬과 의미적 감독을 결합한 이중 경로 2D ICP 손실과 반복되거나 유사한 객체로 인한 모호한 매칭을 해결하는 장면 그래프 분석 단계입니다. 이를 통해 OpenReLoc은 고정된 객체 어휘에 제한되지 않고 확장 가능한 실제 장면을 처리할 수 있는 최초의 객체 수준 재위치 추정 시스템이 되었습니다.

주요 결과

연구진은 다양하고 실제적인 실내 장면과 긴 꼬리 객체 분포를 가진 까다로운 ScanNet 및 ScanNet++ 데이터셋에서 OpenReLoc을 평가했습니다. 이전 최첨단 기술인 GoReloc과 비교하여 OpenReLoc은 훨씬 높은 성공률을 달성했습니다. GoReloc은 장면에 폐쇄 어휘 외부의 객체가 포함되어 유효한 매칭 객체를 식별하는 데 자주 실패했습니다. OpenReLoc의 개방형 어휘 매칭은 모든 장면에서 성공했습니다. 정확도 측면에서도 GoReloc이 매칭을 찾은 경우에도 전용 최적화 손실이 없어 드리프트가 발생했지만, OpenReLoc의 이중 경로 ICP 손실은 안정적이고 정밀한 자세를 제공했습니다.

절제 연구는 각 구성 요소의 중요성을 확인했습니다: - coarse 또는 fine 단계를 제거하면 성능이 저하되어 coarse-to-fine 메커니즘의 필수성이 입증되었습니다. - 장면 그래프 분석이 없으면 시스템이 반복 객체(예: 여러 의자)를 혼동했습니다. - LLM 생성 언어 설명을 제거하면 폐색이나 시각적 노이즈가 있을 때 강건성이 손상되었습니다. - 자세 사전을 위한 DIOU 기반 검색은 단순 가시성 기반 전략보다 성능이 뛰어났습니다. - 무효 객체(벽, 바닥)를 필터링하면 랜드마크 연관 및 장면 그래프 품질이 향상되었습니다.

작동 원리

OpenReLoc은 두 단계로 작동합니다: 대략적인 자세 가설을 검색하는 coarse 단계와 이를 정밀하게 정제하는 fine 단계입니다.

지도 구축(오프라인): 포즈가 주어진 RGB-D 이미지에서 객체를 감지, 분할하고 의미 레이블을 할당합니다. 각 객체에 대해 3D 포인트 클라우드, 경계 상자, 이웃 객체와의 관계를 저장합니다. 사전 훈련된 LLM(API를 통해 질의)이 각 객체의 자연어 설명(예: "팔걸이가 있는 빨간 사무용 의자")을 생성합니다. 이 설명들은 CLIP을 사용하여 공유 개방형 어휘 임베딩 공간으로 인코딩됩니다.

Coarse 단계(질의): 질의 RGB 이미지에서 객체 감지를 수행합니다. 각 감지된 객체는 동일한 CLIP 공간으로 인코딩되어 지도에서 가장 유사한 객체와 매칭됩니다. 자세 사전을 생성하기 위해 시스템은 매칭된 객체 쌍 간의 2D 경계 상자 중첩과 3D 거리를 모두 고려하는 DIOU(거리-교집합 대 합집합) 검색 방법을 사용합니다. 이는 신뢰할 수 있는 초기 카메라 자세를 제공합니다.

Fine 단계(정제): 이중 경로 2D ICP 손실을 최소화합니다. 경로 1은 지도 객체 중심의 2D 투영을 감지된 객체 중심에 챔퍼 거리로 정렬합니다. 경로 2는 의미적 일관성 항목을 추가합니다. 질의 감지 영역 내에 투영된 지도 점은 동일한 객체 레이블을 가져야 합니다. 많은 후보 매칭이 존재하며, 장면 그래프 분석은 후보 쌍 간의 이웃 관계를 확인하여 기하학적으로 일관되지 않은 매칭을 필터링합니다. 무효 객체(벽, 천장, 바닥)는 너무 많은 객체와 연결되어 그래프를 왜곡시키므로 사전 필터링됩니다.

최종 자세는 비선형 최소 제곱 최적화를 통해 얻어집니다. 전체 파이프라인은 표준 GPU에서 실시간으로 실행되지만, 현재 폐쇄형 LLM API에 의존하기 때문에 지연 시간이 발생합니다.

로보틱스에 중요한 이유

신뢰할 수 있는 카메라 재위치 추정은 실내에서 작동하는 모든 이동 로봇(자율 창고 팔레트 운반기부터 병원 서비스 로봇까지)의 기본 기능입니다. 전통적인 방법은 조명 변화에 취약한 시각적 특징에 의존하거나 새로운 객체를 처리할 수 없는 사전 정의된 객체 카테고리 집합에 의존합니다. OpenReLoc은 두 문제를 모두 해결합니다: 모든 객체와 작동하며 LLM의 의미 이해를 사용하여 폐색에 대처합니다.

창고 로봇의 경우, 한 번 통로를 매핑한 로봇은 장면에 새 상자, 잘못 배치된 팔레트 또는 다른 장비가 있더라도 재위치를 추정할 수 있습니다. 개방형 어휘 측면은 객체 인벤토리가 자주 변경되는 동적 환경에서 특히 강력합니다. 중고 산업용 로봇이 새로운 작업 공간에 재배치되는 경우, OpenReLoc과 같은 시스템은 객체를 수동으로 라벨링할 필요를 없애 설정 시간을 크게 줄일 수 있습니다.

한계 및 미해결 과제

주요 한계는 극단적인 객체 반복 처리입니다. 수백 개의 동일한 의자가 있는 방에서는 장면 그래프와 객체 설명이 구별 불가능해져 매칭 모호성이 발생합니다. 연구진은 이것이 미해결 과제라고 언급합니다. 또 다른 실용적 문제는 지연 시간입니다. 현재 시스템은 객체 설명 생성을 위해 폐쇄형 LLM에 의존합니다. 각 설명에는 API 호출이 필요하므로 오프라인 지도 구축이 느립니다. 저자들은 향후 작업에서 원격 LLM을 로컬 모델로 대체할 계획입니다. 또한 OpenReLoc은 현재 매핑을 위해 포즈가 주어진 RGB-D 입력이 필요합니다. 이를 단안 비디오로 완화하는 것은 자연스러운 다음 단계입니다.

자주 묻는 질문

OpenReLoc은 정확히 무엇을 하나요? 감지된 객체를 사전 구축된 지도와 매칭하고 언어 설명을 사용하여 훈련 중에 본 적 없는 객체를 인식함으로써 RGB 이미지의 6자유도 카메라 자세를 추정합니다.

GoReloc 같은 기존 방법과 어떻게 다른가요? OpenReLoc은 개방형 어휘 매칭(CLIP 및 LLM 설명 사용)을 사용하여 고정된 목록이 아닌 모든 객체를 처리할 수 있습니다. 또한 더 나은 정확성과 강건성을 위해 전용 ICP 손실과 장면 그래프 분석을 포함합니다.

OpenReLoc에는 어떤 하드웨어가 필요한가요? 질의 이미지를 위한 표준 RGB 또는 RGB-D 카메라와 신경망 실행을 위한 GPU가 필요합니다. 오프라인 매핑 단계는 포즈가 주어진 RGB-D 이미지를 사용하며, 이는 모든 SLAM 파이프라인에서 얻을 수 있습니다.

개방형 어휘 이해가 재위치 추정에 왜 중요한가요? 실내 장면에는 도구, 포장재, 개인 물품 등 어떤 폐쇄 어휘도 포괄할 수 없는 수많은 객체 유형이 포함됩니다. 개방형 어휘를 사용하면 시스템이 이러한 객체를 인식하고 매칭할 수 있어 객체가 자주 변경되는 실제 환경에서 재위치 추정이 가능해집니다.

결론

OpenReLoc은 개방형 어휘 언어 이해와 신중하게 설계된 coarse-to-fine 최적화 파이프라인을 결합하여 객체 수준 카메라 재위치 추정이 실용적이고 확장 가능한 성능을 달성할 수 있음을 보여줍니다. 이전 연구의 폐쇄 어휘 한계를 극복하고 실제 장면 다양성을 처리합니다. 극단적인 반복 처리와 LLM 지연 시간 감소라는 주요 미해결 과제는 향후 연구의 명확한 목표입니다.