为了可靠部署,导航系统需要一个不确定性信号,指示当前轨迹是否偏离成功的目标导向执行。然而,现有的不确定性代理并不适合这一场景。大多数方法依赖瞬时信号,如动作分布的预测熵或词元级置信度。这些指标捕捉单个决策的模糊性,但不能反映最终轨迹是否与朝向目标的几何进展保持一致。因此,智能体可能在保持高步级置信度的同时,反复执行导致振荡、停滞或低效绕路的动作。
这表明,具身导航中的不确定性应反映目标导向动力学的轨迹级一致性。在成功回合中,到目标距离信号通常遵循一种结构化的演化特征:持续进展且变化有界。违背这一结构的行为——如振荡、停滞、发散或相对于位移的低路径效率——为执行偏离预期导航目标提供了定量证据。基于此观点,不确定性估计即成为检测目标导向运动预期统计显著偏离的问题。
选择性风险—覆盖导航协议
为独立于原始任务成功评估不确定性,我们引入了选择性风险—覆盖导航(SRCN)协议,用于轨迹级不确定性信号。该协议通过风险—覆盖曲线及包括AURC和超额AURC在内的汇总指标,衡量不确定性评分对导航回合失败排序的有效性。这一形式隔离了排序质量,无需修改底层导航策略,并支持熵估计与行为估计之间的比较。
主要贡献
我们将到目标距离动力学的轨迹级一致性形式化,作为基于视觉语言导航(VLN)的具身导航中不确定性估计的基础。
我们提出了GroundControl,一种轻量级轨迹一致性估计器,用于检测名义目标导向运动的统计显著偏离。

在五个EB-Navigation分割(一个大型导航回合数据集)上,我们的轨迹一致性不确定性在基于成功的选择性风险下实现了接近理想的排序,加权平均风险—覆盖曲线下面积优于熵、共形和启发式基线,同时在基于SPL的选择性评估中保持竞争力。
任务设置与标准导航指标
一个回合被视为成功,如果智能体在距离阈值epsilon内到达目标,记为成功指示符。除成功率(SR)外,我们还报告按路径长度加权的成功(SPL)。
对于每个回合i,不确定性估计器产生一个标量分数u_i,其中较低值表示较高置信度。该分数可能来源于内部状态统计(如后验协方差或创新能量)、模型内部信号(如注意力熵或信念离散度),或事后行为度量(如动作熵、计划不稳定性、无效动作率或共形非一致性)。
这种抽象允许异构的不确定性估计器在共同框架内进行评估,同时隔离其回合级排序质量。特别是,后续引入的SRCN评估仅依赖于通过阈值化由u_i诱导的排序。
基线不确定性估计器
我们比较了七个代表性不确定性基线,涵盖共形、基于熵、基于轨迹和启发式信号。每个基线产生一个回合级分数u_i,并在SRCN协议下评估。
预测熵: 回合动作直方图的归一化香农熵H,度量动作使用的离散度。
自一致性: 计划不稳定性测量为1减去平均Jaccard相似度,其中Jaccard相似度是从VLM推理中提取的连续可执行计划之间的平均Jaccard相似度。
无效动作率: 执行动作被环境拒绝的步数比例。
随机: 随机不确定性分数Uniform(0,1)作为下界。
实验协议与结果
表I展示了三种LLM骨干(GPT-4o、GPT-5-mini和Gemini-1.5-Flash)的基线导航性能。对于GPT-4o,在四个分割上成功率超过53%,但在long_horizon上骤降至16.7%,长执行链增加了累积误差。使用GPT-5-mini时,四个分割上成功率超过65%,但long_horizon的成功率没有改善。由此导致的成功率和SPL下降使该分割成为轨迹级不确定性排序的严格测试。
| LLM骨干 | 基础SR | 常识SR | 复杂指令SR | 长视界SR | 平均SR | 平均SPL |
|---|---|---|---|---|---|---|
| GPT-4o | 53.4% | 56.7% | 56.7% | 16.7% | 48.3% | 0.33 |
| GPT-5-mini | 65.6% | 68.9% | 65.6% | 18.9% | 56.1% | 0.40 |
| Gemini-1.5-Flash | 50.0% | 47.8% | 38.9% | 14.4% | 38.3% | 0.25 |
风险—覆盖曲线与诊断图

图4展示了基于SPL损失的风险—覆盖曲线,该损失除完全失败外还惩罚低效轨迹。轨迹一致性不确定性在不同覆盖率水平下保持低选择性风险,表明其对导航效率的渐进退化(而非仅终端失败)具有敏感性。这一行为对机器人导航尤其重要,因为低效徘徊、振荡运动或重复回溯往往先于失败发生,并消耗有限的执行时间或能量。
常见问题
GroundControl与现有导航不确定性方法有何不同? GroundControl关注到目标距离动力学的轨迹级一致性,而非瞬时动作级信号,因此能够检测步级置信度指标无法捕捉的系统性偏差(如振荡或停滞)。
SRCN协议如何独立于导航策略评估不确定性质量? SRCN使用风险—覆盖曲线和汇总指标(AURC、超额AURC)衡量不确定性分数对回合按失败排序的效果,无需修改底层导航策略。
GroundControl在实验中优于哪些基线? GroundControl在基于成功的选择性风险下实现了接近理想的排序,优于预测熵、自一致性、无效动作率、随机基线和共形方法,跨越所有五个EB-Navigation分割。
为什么long_horizon分割对不确定性估计构成特别挑战? long_horizon分割的成功率急剧下降(GPT-4o为16.7%,GPT-5-mini为18.9%),原因是长执行链中的累积误差,使其成为轨迹级不确定性排序的严格测试。
