LIBERO-Safety基准测试：对视觉-语言-动作机器人进行物理与语义安全评估 (2026)

研究人员推出了LIBERO-Safety，这是一个全面的基准测试，系统性地评估了视觉-语言-动作（VLA）模型在40个不同任务中如何处理物理安全隐患和语义安全推理。通过生成19,664个无碰撞演示并测试八种最先进的VLA模型，该研究揭示了先前基准测试中普遍忽视的一个关键问题：泛化能力与安全性之间的紧张关系。

研究人员构建了什么

LIBERO-Safety不仅仅是一个机器人基准测试——它是首个专门针对VLA模型的安全评估框架，涵盖了物理危险（杂乱、人类接近、移动障碍）和语义危险（理解指令如“把刀放在人附近” vs “把刀远离人”）。研究团队设计了一个五维安全课程，将这两个方面解耦：

物理安全： 静态空间杂乱、桌面空间感知、人机交互、全场景手物意识。
语义推理： 需要理解上下文的任务，例如“避免将易碎物品放在边缘附近”。

为了大规模生成训练数据，他们构建了一个关键姿态引导的流水线，结合了稀疏人工标注（定义关键姿态）和基于优化的运动规划器（CuRobo）。这种方法无需完整的人类遥操作，就能生成大量运动学可行且无碰撞的轨迹。最终数据集包含19,664个人工筛选的演示，涵盖40个任务，并采用强烈的视觉和物理域随机化，强制模型学习鲁棒的安全感知操作技能。

关键结果

在对八种代表性VLA模型进行微调和评估后，研究揭示了几个令人瞩目的发现：

高多样性训练有助于安全但损害任务成功。 在多样化随机场景上训练的模型产生了更安全的轨迹（更少碰撞），但任务完成率较低，因为多样性使模型暴露于更难的边缘情况。
语义安全是最薄弱的环节。 所有模型在需要细微理解的任务（例如，“将杯子放在杯垫上，而不是布上”）中表现挣扎。最佳VLA模型在语义推理任务上的成功率仅为约60%，而在简单的物理安全任务上则超过80%。
失败模式清晰分割。 任务失败很少由物理碰撞引起。相反，它们来自次优轨迹合成（机器人采取了长而低效的路径，虽然避免了碰撞但未能达到目标）和细粒度语义错位（机器人误解了模糊或依赖上下文的指令）。

这些结果证实了当前VLA模型缺乏对物理约束和语言含义的鲁棒联合理解——它们要么能避开障碍物，要么能遵循指令，但无法同时做到两者。

工作原理

LIBERO-Safety的核心创新是统一行为域定义语言（UBDDL），它允许研究人员通过可控参数程序化生成安全关键任务。UBDDL在原始BDDL（行为域定义语言）基础上增加了明确的安全约束和环境随机性。

评估框架定义了三个难度级别：

级别	描述	示例
L0	静态物体的基本物理安全	将杯子放在远离边缘的地方
L1	中等物理危险 + 简单语义提示	避开移动障碍物同时拿起盒子
L2	分布外物理危险 + 复杂语义推理	“把刀放在人附近”——模型必须推断上下文

训练数据仅针对L0和L1物理安全任务生成（完全排除语义推理），以创建对认知能力的零样本评估。L2任务完全保留以测试泛化能力。

在数据生成过程中，操作员指定关键姿态（例如，抓取时的夹爪方向、避开障碍物的路径点）。然后CuRobo使用优化填充关键姿态之间的运动，确保运动学可行性和无碰撞。随后，流水线应用激进的域随机化：随机纹理、光照、相机视角、物体姿态，甚至机器人起始位置。

这对机器人技术为何重要

LIBERO-Safety直接针对通用机器人竞赛中的盲点。随着VLA模型越来越多地驱动人形机器人和仓库机器人，动态环境中的安全故障可能导致损坏或伤害。该基准测试提供了一种标准化方法，用于在部署前认证机器人能够处理物理危险和模糊的人类指令。

对于评估二手协作机器人或二手工业机器人的运营经理来说，LIBERO-Safety提供了一个模板，用于评估机器人的安全推理能力——而不仅仅是其拾取和放置精度。语义安全是更大瓶颈这一发现表明，未来的VLA训练必须将自然语言理解与低级运动规划更紧密地结合。

该研究还强调了一个实际权衡：在高度随机化数据上训练可以提高安全性，但会降低任务成功率。机器人买家应寻找在特定领域安全场景上微调的模型，而不是仅仅依赖通用预训练。

局限性与开放问题

LIBERO-Safety是一个模拟基准测试——现实世界的安全会引入额外挑战，如传感器噪声、物理磨损和不可预测的人类行为。数据集还排除了语义推理训练，这意味着模型从未被明确教导处理基于语言的安全提示。这使得语义推理结果成为内在能力的测试，但并未反映通过适当训练所能达到的水平。

另一个开放问题是关键姿态引导的流水线是否充分覆盖了所有安全相关场景。当前的40个任务虽然多样，但与真实环境中的无限可能性相比仍然有限。最后，该基准测试尚未评估多机器人协调，而这对于仓库和工厂部署至关重要。

常见问题

什么是VLA模型？ 视觉-语言-动作模型以图像和文本指令作为输入，直接输出机器人动作——它将视觉理解、语言理解和运动控制结合在一个神经网络中。

LIBERO-Safety与现有基准测试（如LIBERO）有何不同？ LIBERO专注于任务完成和泛化，没有特定的安全约束。LIBERO-Safety增加了明确的物理危险、人机交互场景以及需要理解安全与不安全行为的语义推理。

结果是否意味着当前的VLA机器人不安全？ 不完全是——它们在简单任务上通常是安全的（低碰撞率），但在指令模糊或有人类接近时不可靠。该基准测试暴露了“能完成任务”与“能在上下文中安全完成任务”之间的差距。

我可以使用LIBERO-Safety数据集训练自己的机器人吗？ 可以，包含19,664个演示的数据集已公开，旨在用于微调VLA模型。然而，保留的L2任务应仅用于评估，以维护基准测试的完整性。

结论

LIBERO-Safety通过系统性测试VLA模型如何平衡任务完成与物理及语义安全，填补了一个关键空白。研究结果表明，虽然训练数据的多样性使轨迹更安全，但语言理解仍然是薄弱环节。未来的机器人研究必须在通用机器人能与人可靠共存之前弥合这一差距。

在你自己的机器人部署中，你更担心哪种安全故障：碰撞物体还是误解口头安全指令？