视觉语言模型赋予仓库机器人上下文感知语义地图 (2026)

仓库机器人迎来重大升级：研究人员构建了一个管道，让自主移动机器人（AMR）不仅能理解场景中有什么物体，还能判断它们能否移动。通过结合SLAM、Segment Anything（SAM）和视觉语言模型，该系统能够创建区分静态货架、可移动托盘和移动叉车的语义地图，且无需任何任务特定训练。

研究团队构建了什么

来自卡尔斯鲁厄理工学院的研究团队开发了一套上下文语义地图构建管道，用于内部物流环境，可在标准工业机器人传感器套件上运行：两个二维激光扫描仪和一个前置RGB摄像头。该管道分五个阶段工作。首先，使用GMapping SLAM构建二维几何地图。其次，对每一帧摄像头图像运行SAM的自动掩码生成，产生与类别无关的分割掩码。第三，将这些掩码投影到地图坐标系，并跨帧聚类重叠的实例，形成持久化的物体表示。第四，视觉语言模型（VLM）对每个物体聚类的多视图观察进行推理，推断其语义类别（如“货架”、“托盘”、“叉车”）和可移动性——这是决定物体是静态基础设施还是潜在动态障碍物的关键属性。VLM返回结构化的JSON，包含类别、可移动性和解释。最后，地图融合模块将这些语义属性附加到几何地图点上，生成六维点云（x, y, 类别, 可移动性，以及两个辅助字段）。该系统完全零样本且开放词汇——无需预定义物体类别。

关键结果

该管道在真实内部物流测试环境中进行了评估，对比了真实语义标签。表现最佳的VLM配置——Gemini 3.1 Flash Lite配合直接JSON提示——在语义分割上实现了平均交并比（mIoU）98.93%，全景质量（PQ）为56.82%。可移动性分类达到了平衡每类准确率（mAcc）84.86%。这些数字令人瞩目，因为它们来自零样本设置——模型从未见过该环境。

研究团队还进行了彻底的组件分析。去除多视图推理（即使用单帧观察）导致mIoU下降超过10个百分点，并在地图上产生碎片化、不一致的物体标签。VLM推理步骤被证明是可移动性估计的主要瓶颈，而实例关联错误是全景性能的主要限制。一个使用最近邻标签传播的简单基线完全失败，证实了VLM推理的必要性。

表：最佳VLM配置在关键指标上的表现

指标	得分
语义分割mIoU	98.93%
可移动性分类mAcc	84.86%
全景质量（PQ）	56.82%

工作原理

该系统的关键创新在于将多视图观察与VLM推理集成到地图构建管道中，而不是将语言模型作为后处理步骤。在通过GMapping SLAM从激光扫描构建二维几何地图后，管道对每一帧RGB图像运行SAM，生成精细的、与类别无关的掩码。通过二维激光扫描仪与相机之间的时间同步建立点到像素的对应关系，从而将每个掩码投影到几何地图坐标系中。

实例聚类然后使用成对交并比（IoU）跨帧对投影掩码进行分组。任何IoU超过阈值（实验中设为0.5）的两个实例被视为同一物理物体的观察。这种聚类有两个目的：为最终地图创建持久的物体级表示，并将该物体的所有相机视图聚合起来供VLM推理使用。

VLM接收复合输入：一个显示物体位置并带有边界框叠加的全场景分割掩码，以及该物体的裁剪特写。研究人员发现这种复合格式至关重要——它提供了空间上下文，同时将VLM的注意力集中在目标物体上，避免被视觉上占主导的元素（如大型货架）分散注意力。提示包含一个明确的可移动性本体：不可移动（固定在地面/结构上）、可移动（机器人可以重新定位，但空置时保持静止）和移动（如叉车等自行车辆）。VLM返回结构化JSON，包含类别、可移动性和简短的解释以实现可追溯性。如果置信度低，则两个字段都回退为“未知”。

整个管道在预录数据上离线运行。作者使用Gemini 3.1 Flash Lite获得了最佳结果，但该架构与模型无关。

为何对机器人技术重要

对于仓库和配送中心来说，区分静态基础设施与可移动或移动物体的能力，是机器人卡住还是适应的关键。传统的占用网格地图告诉机器人托盘挡住了路——但它不知道托盘可以被推开，或者叉车会自行移动。这种上下文语义地图能够支持更高级的操作：“将托盘从转运站运送到货架”需要知道物体是什么、在哪里，以及托盘是否可移动。

零样本、开放词汇的特性意味着无需为每个新仓库布局创建训练数据集即可生成地图。这降低了在经常重新配置布局的设施中部署AMR的门槛。该系统还支持自然语言查询：仓库经理可以问“所有可移动托盘在哪里？”机器人可以回答，因为地图编码了该属性。

该技术直接适用于需要在动态物体（如叉车和工人）附近安全运行的仓库机器人和二手工业机器人。对于使用二手协作机器人的系统，类似的方法可以使其无需重新编程就能避开或与可移动物体交互。

局限性与开放问题

最大的局限性在于该管道目前离线运行在记录数据上。对于实时操作，系统需要增量更新地图，因为新物体会出现、移动或消失——作者承认这是未来工作的挑战。评估也是在单一受控测试环境中进行的；泛化到真实工业场所的完全混乱（灰尘、照明差、遮挡）仍然是一个悬而未决的问题。

VLM推理步骤是可移动性估计的主要瓶颈。虽然Gemini 3.1 Flash Lite表现良好，但作者指出模型的推理可能脆弱——有时会混淆“可移动”和“移动”，例如对于兼具两者特性的托盘车。56.82%的全景质量表明实例关联（跨帧识别同一物体）仍然是薄弱环节。最后，系统仅使用二维激光数据；扩展到三维LiDAR将提供更丰富的几何上下文，以实现更鲁棒的推理。

常见问题解答

什么是上下文语义地图？ 它是一种几何地图（如占用网格），将语义属性——物体类别、可移动性状态——附加到每个地图点上，使机器人不仅能理解物体在哪里，还能理解它们是什么以及如何行为。

研究人员使用了哪个视觉语言模型？ 最佳结果来自Gemini 3.1 Flash Lite配合直接JSON提示策略。然而，该管道与模型无关，可以使用其他VLM。

系统如何处理从未见过的物体？ 它采用零样本、开放词汇的方法——VLM可以对任何物体进行分类并推断其可移动性，无需预定义类别列表或任务特定训练数据。

该系统能实时运行吗？ 目前，它在预录数据上离线运行。实现在线增量地图更新被列为未来工作。

结论

通过结合几何SLAM、SAM分割和视觉语言模型推理，研究人员构建了一个管道，使仓库机器人能够对其环境进行丰富的上下文理解——无需任何训练数据即可区分静态固定装置与可移动或移动物体。98.93%的语义准确率和零样本灵活性使这成为迈向真正自适应内部物流自动化的有希望的一步。

你会如何使用一个知道哪些物体可以移动、哪些会自行移动的语义地图？