新算法UBP2利用不确定性从偏好中学习机器人奖励 (2026)

研究人员开发了UBP2，一种基于偏好的强化学习方法，通过平衡期望奖励与模型不确定性来主动引导探索。该方法使机器人能够比现有的无模型和非乐观基于模型的方法更高效地从有限的人类偏好反馈中学习操作任务。

研究者的贡献

UBP2（不确定性平衡偏好规划）是一种基于模型的强化学习算法，旨在通过成对偏好比较而非显式数值奖励来学习机器人行为。该方法解决了基于偏好的强化学习中的一个关键瓶颈：当人类能回答的查询数量有限时，如何收集最具信息量的数据。

核心创新在于一种乐观探索策略，该策略使用三个独立的深度集成模型——一个用于动力学（预测下一状态），一个用于奖励函数（从偏好中推断），一个用于价值函数。在反馈阶段，UBP2使用一个统一分数来规划轨迹，该分数结合了期望累积回报和来自所有三个集成的不确定性奖励。这鼓励机器人访问那些动力学、奖励或最终价值不确定的状态，从而收集对学习最有用的数据。

当偏好预算耗尽后，系统切换到标准学习策略，无需进一步规划即可快速执行动作。UBP2还包含一种乐观查询选择策略：它会向人类训练者展示那些预测奖励高且奖励模型不确定性高的片段对，确保每次查询解决关键歧义。

关键结果

在一套包含五个Meta-World操作任务（包括开门、按钮按压和装配）的测试中，仅使用本体感受观测，UBP2在所有任务中一致达到或超过了无模型和非乐观基于模型的偏好强化学习基线的成功率，同时需要更少的环境交互。与PEBBLE（无模型）和MBP（非乐观基于模型）相比，UBP2在所有五个任务中更早地实现了任务成功。

理论分析建立了有限视界遗憾界，该界随回合数亚线性增长，并明确依赖于学习动力学和奖励模型的最大信息增益。这意味着在标准平滑性假设下，UBP2的探索效率具有近似最优的保证。

当扩展到高维视觉观测（使用DinoV2编码）时，UBP2在Walker Walk和Cheetah Run任务中均优于非乐观基于模型的基线，在Walker Walk上达到或超过无模型方法。在Cheetah Run上，无模型方法仍然表现最佳，表明基于视觉的动力学模型仍然具有挑战性。

工作原理

UBP2分两个阶段运行：可获取反馈的规划阶段和反馈耗尽的执行阶段。在第一阶段，每次动作选择都需要解决一个短时域模型预测控制问题。规划器通过学习到的动力学模型模拟轨迹，并计算一个分数，该分数是预测奖励之和加上来自所有三个集成的不确定性惩罚：

规划器目标 = 预测累积奖励 + α ×（动力学不确定性 + 奖励不确定性 + 价值不确定性）

不确定性通过集成成员之间的方差来衡量。通过乐观规划——奖励那些通向高不确定性区域的动作——UBP2自动平衡了利用（追求已知的高奖励状态）和探索（收集状态空间中不确定部分的数据）。

偏好查询通过比较成对的轨迹片段生成。UBP2并非随机选择对，而是选择那些预测奖励高且奖励模型不确定性高的对。这确保每次人类查询都针对最具信息量的比较，从而加速奖励学习。

动力学模型使用概率神经网络集成，每个网络预测下一状态分布。奖励模型类似，但通过Bradley-Terry损失直接从偏好比较中训练。价值模型是从预测奖励下的幻想轨迹中学习到的深度Q网络集成。

在查询预算用完后，规划组件被禁用。智能体随后贪婪地遵循学习到的价值函数，仅使用奖励和动力学模型来指导动作，无需进一步昂贵的规划。

组件	模型类型	不确定性来源	训练信号
动力学	深度集成（概率）	集成间方差	真实状态转移
奖励	深度集成（概率）	集成间方差	偏好比较
价值	深度集成（Q函数）	集成间方差	学习奖励下的轨迹

对机器人学的意义

基于偏好的强化学习非常适合机器人学，因为许多任务的奖励函数难以指定。与其设计复杂的奖励——或要求用户给出数值评分——训练者只需说“我更喜欢左边的轨迹”。UBP2的不确定性驱动查询选择减少了所需比较的数量，使其实际部署成为可能。

该方法在查询耗尽后从规划切换到策略执行也很实用：训练期间，机器人广泛探索；训练后，它执行快速反应式策略。这种解耦可用于仓库或装配线，其中初始人类演示成本高昂，但最终执行必须快速。

UBP2使用三个独立的不确定性估计值得注意。大多数先前工作只考虑奖励或动力学中的不确定性；包含所有三个来源可实现更有针对性的探索。对于学习抓取和放置或开门等任务的机器人手臂，与当前基线方法相比，所需的查询数量可能减半。

在BotMarket上探索相关机器人：浏览BotMarket上的类人机器人 | 二手协作机器人 | 二手工业机器人

局限性与开放问题

理论分析假设动力学和奖励模型是校准良好的高斯过程，但实践中UBP2使用深度集成。虽然深度集成通常能产生可靠的不确定性估计，但其理论基础不如高斯过程扎实。作者指出，偏好学习误差在遗憾界中未被完全表征，因此难以保证实际需要多少次查询。

在视觉域中，UBP2在Cheetah Run任务上的性能落后于无模型方法，表明基于学习的视觉动力学仍然是一个弱点。未来的工作可能需要结合更好的潜在表示或预训练的视觉编码器。

常见问题

什么是基于偏好的强化学习？ 不再给机器人数值奖励信号，而是由人类比较两段机器人行为的短视频片段，并指示哪个更可取。算法从这些比较中推断出奖励函数。

UBP2如何利用不确定性来更好地规划？ UBP2在规划期间向预测回报添加不确定性奖励。这鼓励机器人访问动力学、奖励或价值不确定的状态，收集最能降低整体不确定性的数据。

UBP2可应用于哪些机器人或任务？ 该方法在模拟操作任务上进行了测试，例如开门和按钮按压，适用于本体感受传感器和摄像头图像。它可以适应真实的机器人手臂、移动操作器或任何人类可比较两种行为的控制任务。

UBP2与PEBBLE等更简单的基于偏好的方法相比如何？ UBP2在五个Meta-World任务中一致实现了更高的成功率，并需要更少的环境交互。其不确定性引导的规划是相对于非乐观基线（如MBP）和无模型方法（如PEBBLE）的关键优势。

结论

UBP2引入了一种将动力学、奖励和价值模型的不确定性结合到基于偏好的强化学习单一规划目标中的原则性方法。通过在反馈阶段主动寻求信息性数据并随后切换到快速执行，它为从人类偏好中实现样本高效的机器人学习提供了一条实用路径。

当从人类反馈中学习时，机器人应首先利用哪些不确定性来源？