新注意力机制将机器人位姿视为群元素,性能显著提升

新注意力机制将机器人位姿视为群元素,性能显著提升

Przemyslaw Musialski

1 分钟阅读2026年6月19日

研究人员提出了一种全新的注意力机制,其中每个令牌是矩阵李群(如二维或三维位姿)的元素,而非普通向量。该方法使神经网络能够以数学一致的方式处理空间变换(旋转、平移、缩放),有望提升机器人感知与控制的精度和数据效率。

目录

研究内容

作者提出了李代数注意力(Lie-Algebra Attention, LAA),这是一种Transformer变体,其中每个输入令牌直接位于矩阵李群上——常见例子为编码位姿的欧几里得群SE(2)和SE(3)。与以往将令牌表示为向量并施加外部群作用的方法不同,令牌本身即为群元素。注意力分数通过连接两个令牌的李代数元素的范数计算。

架构包含三个主要部分: - 集输入Transformer:从学习的群值嵌入初始化所有令牌,并通过尊重群结构的注意力层处理。 - 注意力头:将查询、键和值作为群元素计算,然后通过查询与键之间相对位姿的李代数范数计算注意力分数。 - 输出头:利用最终隐状态的MLP生成每个令牌在群上的修正。

该设计确保整个模型对输入集的全局变换具有等变性——这对于相机或机器人底座移动的机器人任务至关重要。

架构图:集输入Transformer、群值令牌以及使用李代数范数的注意力计算。

关键成果

在标准点云分类基准测试(ModelNet40)上,李代数注意力在参数显著减少的情况下达到了与最先进的基于向量的Transformer相当的精度。在姿态估计任务中,该方法相比先前的群等变网络展现出更高的位姿精度和更好的泛化能力。

理论分析表明,LAA的表达能力严格强于任何使用向量令牌加外部群作用的方法——因为令牌本身携带群结构,注意力可以直接比较相对位姿。在涉及SE(2)和SE(3)变换的合成基准测试中,模型保持了近乎完美的等变性,而基于向量的基线在大旋转下性能下降。

在真实RGB-D数据的六自由度姿态估计实验中,LAA在仅使用一半数据训练的情况下,将平均位姿误差相比相同深度的标准Transformer降低了12%。这表明群值令牌的归纳偏置带来了更好的样本效率。

工作原理

标准Transformer令牌是ℝ^d中的向量。在李代数注意力中,每个令牌是矩阵李群中的一个矩阵(例如SE(3)的4×4变换矩阵)。群乘法为标准矩阵乘法,求逆为矩阵求逆——两者均有闭式高效实现。

注意力分数计算如下:

  1. 查询和键生成:每个令牌通过学习得到的群值线性映射变换为同群上的查询和键元素。
  2. 相对位姿:对于查询令牌Q和键令牌K,相对位姿为Q⁻¹K(表示帧差异的群元素)。
  3. 李代数范数:通过矩阵对数将相对位姿映射到李代数,取其范数(如Frobenius范数)作为注意力分数。
  4. 值加权:注意力的输出是值令牌(也是群元素)的加权组合,使用尊重群几何的群加权平均。

该过程在多个头和层中重复。整个架构是端到端可微的,因为矩阵对数和指数是光滑映射。

两个群元素之间李代数范数计算的直观解释。

关键数学洞察:由于李代数是向量空间,范数提供了帧之间“距离”的自然且等变的度量。这在使用标准向量令牌时无法实现,因为向量空间的距离无法捕捉旋转和位姿的非欧几何。

对机器人的意义

机器人技术本质上涉及位姿——每个传感器读数、机械臂关节和物体位置都位于李群上。当前的深度学习模型通常将这些处理为平直向量,迫使网络从数据中学习近似的等变性。李代数注意力直接将这种结构嵌入架构中。

实际应用包括: - 用于拣选的点云处理:机器人臂必须识别物体,无论视角如何。群值令牌自然处理SE(3)变化,减少数据增强需求。 - SLAM与地点识别:将相机位姿作为令牌,使Transformer能够直接推理帧间相对几何,可能改进回环检测。 - 配置空间中的运动规划:对于串联关节臂,每个关节角位于圆(SO(2))上,因此将其作为群元素令牌化可改进轨迹预测。

该方法还为群值节点上的图神经网络铺平了道路——这是多机器人协调和场景图的一个有前景的方向。

在BotMarket浏览相关硬件:二手协作机器人 | 仓储机器人

局限与开放问题

李代数注意力要求群具有闭式矩阵对数和指数,这将其限制在矩阵李群。并非所有有用的对称群(例如无限维微分同胚群)都符合这一要求。注意力头中矩阵对数的计算成本也高于简单的点积——在现代硬件上每个头约为O(d³),这可能成为大型模型的瓶颈。

开放问题包括: - 如何将该方法扩展到高维群(例如六自由度位姿的SE(3)表示是紧凑的,但像SE(N)(N>3)这样的群则不适用)。 - 李代数范数是否总是最佳相似度度量——对于某些任务,加权范数或学习度量可能效果更好。 - 如何将群值令牌与标准向量值令牌结合在一个模型中(例如用于语言条件操控)。

常见问题解答

简单来说,什么是“矩阵李群”? 它是一个连续的矩阵集合,可以表示旋转、平移和缩放等变换,具有光滑的乘法和逆运算。例如,表示三维位姿的4×4矩阵是群SE(3)的元素。

这种注意力机制与标准Transformer注意力有何不同? 标准注意力分数是向量令牌的点积。在这里,令牌是群元素,分数通过令牌之间相对变换的李代数范数计算——这尊重了位姿的几何结构。

这对我的机器人有帮助吗? 如果你的机器人处理位姿数据——点云、相机帧、关节角度——这种方法可以提高精度并减少训练数据量,尤其在机器人需要处理多种视角时。

这种方法可以用于商业部署吗? 该架构已在学术基准上测试并显示出有希望的结果,但尚未集成到商业机器人软件栈中。关于使其适用于实时控制的研究仍在进行中。

结论

李代数注意力提供了一种数学上严谨的方法来构建Transformer,使其能够将位姿理解为群元素而非原始向量。通过使令牌本身成为群元素,模型自然编码了三维空间的对称性,从而在姿态敏感任务上实现更好的性能和更高的数据效率。对于机器人社区,这可能意味着更鲁棒的感知和控制系统,无需大量数据集即可泛化。

这种群值令牌方法能否开启真正理解空间几何的新一代机器人基础模型?

🍪 Cookie 偏好设置

我们使用 Cookie 来衡量性能。 隐私政策