教会四足机器人自然行走,通常需要工程师手动调整数十条自定义奖励规则。如今,研究人员展示了一种新方法,让宇树科技Go2仅凭两条规则就能学会行走——编程工作量减少90%以上,同时步态自然程度与传统的奖励塑形方法不相上下。
什么是MPC注入?
MPC注入是一种新技术,可大幅简化四足机器人学习行走的过程。核心问题在于:当机器人通过强化学习(RL)(一种试错训练方法)学习运动时,常常会产生怪异、无法使用的步态,如腿部抖动或躯干拖地。这是因为机器人优化的是“向前移动”这类通用目标,从而找到了满足目标但看起来不像行走的奇怪捷径。
为了防止这种情况,工程师传统上需要设计数十条奖励项——具体规则用于塑造机器人行为(如“保持躯干水平”、“脚抬到这么高”、“髋关节不要转太大”)。设置这些规则需要专家程序员花费数周时间反复试错。
MPC注入几乎消除了所有这些工作量。该技术借用了模型预测控制器(MPC)的良好行走行为——一个预编程系统,可实时解算运动方程,但全时运行计算成本高昂。MPC生成短时间自然行走片段。这些片段被“注入”到机器人的训练记忆(回放缓冲区)中,RL算法可通过模仿从中学习。最终机器人自然趋向于MPC偏好的步态,无需复杂的奖励系统强行驱动。
奖励设计简化了多少?
数据清晰说明了问题。传统奖励塑形实现行走步态通常需要21个单独调参的奖励项——每个都有自身的权重和阈值。MPC注入仅使用1到2个任务相关奖励项即可达到类似效果。
| 方法 | 奖励项数量 | 工程工作量 | 步态质量 |
|---|---|---|---|
| 传统奖励塑形 | 21 | 数周调参 | 高 |
| MPC注入 | 1–2 | 数天搭建 | 高 |
| 纯RL无塑形 | 0 | 无(但失败) | 不可用 |
MPC注入中的1–2个奖励项很简单:例如“向期望方向移动”和“保持身体直立”。它们无需强制执行步态模式——注入的MPC过渡会自动处理。
根据arXiv上的论文,“MPC注入使用一到两个任务奖励项将策略驱动到控制器的行为盆地中,生成与使用21个调优项奖励塑形定性相当的步态。”这意味着机器人无需工程师明确每个约束即可学习复杂自然的步态。
机器人实际行走效果更好了吗?
研究人员在仿真环境和真实的宇树科技Go2四足机器人上测试了MPC注入。在仿真中,他们使用了一个2D行走模型来验证该方法。随后将训练好的策略迁移到实体Go2上——这种仿真到现实的迁移如果仿真与实际情况不符,常常会失败。
结果:Go2以自然且稳定的步态行走,与最佳奖励塑形策略“定性相当”。未出现纯RL常见的抖动或拖地行为。该方法还避免了对抗模仿学习的开销,后者需要独立的AI模型(判别器)和复杂的动作捕捉数据。
MPC注入无需运动学重定向——将人体动作捕捉数据映射到机器人特定关节结构的繁琐过程。MPC直接在机器人自身坐标系中生成运动,因此无需转换。
| 方法 | 额外组件 | 数据需求 | 步态质量 |
|---|---|---|---|
| 奖励塑形 | 步态专家知识 | 无(手动设计规则) | 高 |
| 对抗模仿学习 | 判别器模型、动作捕捉 | 数小时人类/演示数据 | 非常高 |
| MPC注入 | MPC求解器(轻量级) | 无(MPC生成运动) | 高 |
论文还提供了理论见解:注入MPC过渡将演员-评论家更新(机器人用于改进行为的数学方法)偏向于MPC偏好的状态。这使得机器人保持在“行为盆地”——良好行走的区域——即使简单奖励函数本身不会惩罚不良步态。
这对四足机器人买家意味着什么?
对于使用或评估四足机器人(如宇树科技Go2、波士顿动力Spot或Ghost Robotics Vision 60)的组织,MPC注入具有直接实际意义:
更低的部署工作量。 如果机器人只需要一到两个奖励项而非21个,编程负担显著降低。不再需要雇用RL专家数周时间,普通工程师可以在数天内设置新的行走行为。这使得四足机器人更容易被巡检、安防和研究团队采用。
更简便的定制化。 不同环境需要不同的行走风格——在瓦砾中小心迈步、在平坦地面上快速小跑、或在狭窄走廊横向蟹行。使用传统方法,每种模式都需要重新调参。使用MPC注入,用户只需替换底层MPC模块,保持相同的简单奖励函数,大幅缩短迭代时间。
商用现成产品(COTS)的潜力。 如果四足机器人制造商采用该方法,未来的SDK可能包含即插即用的步态定制。买家可通过高级参数(速度、谨慎程度、稳定裕度)调整行走行为,而无需接触底层奖励项。
在BotMarket上探索可用的待售四足机器人,比较哪些平台能从这类简化编程中受益。
常见问题解答
用通俗的话说,什么是MPC注入? 这是一种方法,在训练过程中给机器人提供少量示例行走动作(由简单的预编程控制器生成)。机器人通过模仿这些示例来学习,因此无需数十条复杂规则来强制执行行为,就能自然行走。
MPC注入使用多少奖励项? 仅需1–2个任务奖励项,而传统奖励塑形通常需要21个。这使工程工作量减少约90%。
机器人的行走效果与传统方法一样好吗? 是的。研究人员报告说,使用MPC注入产生的步态与经过大量调参的奖励塑形“定性相当”。在宇树科技Go2上,自然行走行为达到了最佳替代方案的水平。
哪些类型的机器人可以使用MPC注入? 论文在2D仿真行走模型和宇树科技Go2四足机器人上进行了验证。该方法具有通用性,应适用于任何使用强化学习进行运动的足式机器人——包括人形机器人和六足机器人。
MPC注入需要昂贵的硬件或动作捕捉数据吗? 不需要。MPC本身是轻量级计算,可在普通CPU上运行。无需动作捕捉摄像头、捕捉服或预先录制的人类数据。MPC自动为机器人的特定设计生成运动。
MPC注入与模仿学习相比如何? 更简单。模仿学习通常需要判别器模型和大量专家演示数据集。MPC注入无需判别器、无需辅助训练目标、也无需运动学重定向——仅需MPC求解器生成的注入过渡。
结论
MPC注入代表了使四足机器人更易于编程实现自然行走的重要一步。通过将所需奖励项从21个减少到仅1–2个,该技术在保持步态质量的同时大幅缩短了工程时间。对于正在评估行走机器人的买家和集成商来说,这意味着部署可靠、可定制步态的障碍更低——也是关注强化学习方法如何在物理硬件上演变的一个理由。













评论