OpenReLoc：基于开放词汇理解的物体级相机重定位 (2026)

OpenReLoc 是一种新型相机重定位系统，利用物体级表示和开放词汇理解，从单张 RGB 图像中估计相机位姿。与依赖封闭词汇物体匹配的传统方法不同，OpenReLoc 能够识别和匹配任何物体——即使是前所未见的类别——使其在实际室内环境中更具实用性。

研究人员构建了什么

OpenReLoc 是一个完整的室内相机重定位系统，通过预构建的物体地标地图，从查询 RGB 图像中估计 6 自由度相机位姿。地图由带位姿的 RGB-D 图像构建，为每个物体存储其语义标签、形状、邻接关系，以及——关键的是——由大型语言模型 (LLM) 生成的自然语言描述。当新查询图像到来时，OpenReLoc 检测物体，使用开放词汇嵌入 (CLIP) 与地图匹配，然后通过粗到精的优化流水线细化位姿。一项关键创新是双路径 2D ICP 损失，它结合了几何对齐与语义监督，以及场景图分析步骤，用于解决由重复或相似物体引起的模糊匹配。这使得 OpenReLoc 成为首个能够处理可扩展真实场景而不受固定物体词汇限制的物体级重定位系统。

关键结果

研究人员在具有挑战性的 ScanNet 和 ScanNet++ 数据集上评估了 OpenReLoc，这些数据集包含多样化的真实室内场景，物体分布长尾。与现有最优方法 GoReloc 相比，OpenReLoc 取得了显著更高的成功率——GoReloc 经常无法识别有效匹配物体，因为场景包含其封闭词汇之外的物体。OpenReLoc 的开放词汇匹配在所有场景中均成功。在精度方面，即使 GoReloc 找到了匹配，由于缺乏专用优化损失，也会出现漂移，而 OpenReLoc 的双路径 ICP 损失提供了稳定、精确的位姿。

消融研究证实了每个组件的重要性： - 移除粗阶段或细阶段均会降低性能，证明粗到精机制至关重要。 - 没有场景图分析，系统会混淆重复物体（例如多把椅子）。 - 去掉 LLM 生成的语言描述会损害遮挡或视觉噪声下的鲁棒性。 - 基于 DIOU 的位姿先验检索优于朴素的可见性策略。 - 过滤无效物体（墙壁、地板）改善了地标关联和场景图质量。

工作原理

OpenReLoc 分为两个阶段：粗阶段检索粗略位姿假设，细阶段进行精确细化。

地图构建（离线）： 从带位姿的 RGB-D 图像中，检测、分割物体并分配语义标签。对于每个物体，存储其 3D 点云、边界框以及与其他物体的关系。预训练 LLM（通过 API 查询）生成每个物体的自然语言描述（例如“一把带扶手的红色办公椅”）。这些描述使用 CLIP 编码到共享的开放词汇嵌入空间中。

粗阶段（查询）： 查询 RGB 图像进行物体检测。每个检测到的物体被编码到相同的 CLIP 空间，并与地图中最相似的物体匹配。为了生成位姿先验，系统使用基于 DIOU（距离-交并比）的检索方法，该方法同时考虑匹配物体对之间的 2D 边界框重叠和 3D 距离。这产生了一个可靠的初始相机位姿。

细阶段（细化）： 最小化双路径 2D ICP 损失。路径 1 使用倒角距离将地图物体质心的 2D 投影与检测到的物体中心对齐。路径 2 添加语义一致性项——投影到查询检测框内的地图点应具有相同的物体标签。存在许多候选匹配；场景图分析通过检查候选对之间的邻接关系过滤掉几何上不一致的匹配。无效物体（墙壁、天花板、地板）被预先过滤，因为它们连接太多物体，扭曲了图结构。

最终位姿通过非线性最小二乘优化获得。整个流水线在标准 GPU 上实时运行，但当前依赖闭源 LLM API 引入了延迟。

对机器人技术的重要性

可靠的相机重定位是任何室内移动机器人（从自主仓库托盘搬运车到医院服务机器人）的基础能力。传统方法要么需要视觉特征（在光照变化下失效），要么依赖预定义的物体类别（无法处理新物体）。OpenReLoc 解决了这两个问题：它适用于任何物体，并使用 LLM 的语义理解应对遮挡。

对于仓库机器人，这意味着机器人一旦映射了一条通道，即使场景中出现新箱子、错放托盘或不同设备，也能重定位。开放词汇特性在物体库存频繁变化的动态环境中尤为强大。对于重新部署到新工作空间的二手工业机器人，像 OpenReLoc 这样的系统可以通过消除手动标注物体的需要，大幅减少设置时间。

局限性与待解决问题

主要限制是处理极端物体重复。在数百个相同椅子的房间里，场景图和物体描述变得难以区分，导致匹配歧义。研究人员指出这是一个开放挑战。另一个实际问题是延迟：当前系统依赖闭源 LLM 生成物体描述。每次描述都需要 API 调用，使得离线地图构建缓慢。作者计划在未来工作中用本地模型替换远程 LLM。此外，OpenReLoc 目前需要带位姿的 RGB-D 输入用于建图；放宽到单目视频将是自然的下一步。

常见问题

OpenReLoc 具体做什么？ 它通过将检测到的物体与预构建地图匹配，利用语言描述识别训练期间未见过的物体，来估计 RGB 图像的 6 自由度相机位姿。

它与 GoReloc 等旧方法有何不同？ OpenReLoc 使用开放词汇匹配（通过 CLIP 和 LLM 描述），因此可以处理任何物体，而不仅是固定列表。它还包含专用的 ICP 损失和场景图分析，以获得更好的精度和鲁棒性。

OpenReLoc 需要什么样的硬件？ 查询图像需要标准 RGB 或 RGB-D 相机，以及用于运行神经网络的 GPU。离线建图步骤使用带位姿的 RGB-D 图像，这些图像可以来自任何 SLAM 流水线。

为什么开放词汇理解对重定位很重要？ 室内场景包含无数物体类型——工具、包装、个人物品——没有封闭词汇能覆盖。开放词汇允许系统识别和匹配这些物体，使重定位在物体频繁变化的真实环境中成为可能。

结论

OpenReLoc 表明，通过将开放词汇语言理解与精心设计的粗到精优化流水线相结合，物体级相机重定位可以实现实用且可扩展的性能。它克服了先前工作的封闭词汇限制，并处理了真实场景的多样性。主要的开放挑战——处理极端重复和减少 LLM 延迟——是未来工作的明确目标。

开放词汇重定位能否使传统基于特征的 SLAM 在室内机器人中变得过时？