四足机器人自然行走所需规则减少90%——新研究大幅降低工程开发工作量 (2026)

教会四足机器人自然行走，通常需要工程师手动调整数十条自定义奖励规则。如今，研究人员展示了一种新方法，让宇树科技Go2仅凭两条规则就能学会行走——编程工作量减少90%以上，同时步态自然程度与传统的奖励塑形方法不相上下。

什么是MPC注入？
奖励设计简化了多少？
机器人实际行走效果更好了吗？
这对四足机器人买家意味着什么？
常见问题解答

什么是MPC注入？

MPC注入是一种新技术，可大幅简化四足机器人学习行走的过程。核心问题在于：当机器人通过强化学习（RL）（一种试错训练方法）学习运动时，常常会产生怪异、无法使用的步态，如腿部抖动或躯干拖地。这是因为机器人优化的是“向前移动”这类通用目标，从而找到了满足目标但看起来不像行走的奇怪捷径。

为了防止这种情况，工程师传统上需要设计数十条奖励项——具体规则用于塑造机器人行为（如“保持躯干水平”、“脚抬到这么高”、“髋关节不要转太大”）。设置这些规则需要专家程序员花费数周时间反复试错。

MPC注入几乎消除了所有这些工作量。该技术借用了模型预测控制器（MPC）的良好行走行为——一个预编程系统，可实时解算运动方程，但全时运行计算成本高昂。MPC生成短时间自然行走片段。这些片段被“注入”到机器人的训练记忆（回放缓冲区）中，RL算法可通过模仿从中学习。最终机器人自然趋向于MPC偏好的步态，无需复杂的奖励系统强行驱动。

奖励设计简化了多少？

数据清晰说明了问题。传统奖励塑形实现行走步态通常需要21个单独调参的奖励项——每个都有自身的权重和阈值。MPC注入仅使用1到2个任务相关奖励项即可达到类似效果。

方法	奖励项数量	工程工作量	步态质量
传统奖励塑形	21	数周调参	高
MPC注入	1–2	数天搭建	高
纯RL无塑形	0	无（但失败）	不可用

MPC注入中的1–2个奖励项很简单：例如“向期望方向移动”和“保持身体直立”。它们无需强制执行步态模式——注入的MPC过渡会自动处理。

根据arXiv上的论文，“MPC注入使用一到两个任务奖励项将策略驱动到控制器的行为盆地中，生成与使用21个调优项奖励塑形定性相当的步态。”这意味着机器人无需工程师明确每个约束即可学习复杂自然的步态。

机器人实际行走效果更好了吗？

研究人员在仿真环境和真实的宇树科技Go2四足机器人上测试了MPC注入。在仿真中，他们使用了一个2D行走模型来验证该方法。随后将训练好的策略迁移到实体Go2上——这种仿真到现实的迁移如果仿真与实际情况不符，常常会失败。

结果：Go2以自然且稳定的步态行走，与最佳奖励塑形策略“定性相当”。未出现纯RL常见的抖动或拖地行为。该方法还避免了对抗模仿学习的开销，后者需要独立的AI模型（判别器）和复杂的动作捕捉数据。

MPC注入无需运动学重定向——将人体动作捕捉数据映射到机器人特定关节结构的繁琐过程。MPC直接在机器人自身坐标系中生成运动，因此无需转换。

方法	额外组件	数据需求	步态质量
奖励塑形	步态专家知识	无（手动设计规则）	高
对抗模仿学习	判别器模型、动作捕捉	数小时人类/演示数据	非常高
MPC注入	MPC求解器（轻量级）	无（MPC生成运动）	高

论文还提供了理论见解：注入MPC过渡将演员-评论家更新（机器人用于改进行为的数学方法）偏向于MPC偏好的状态。这使得机器人保持在“行为盆地”——良好行走的区域——即使简单奖励函数本身不会惩罚不良步态。

这对四足机器人买家意味着什么？

对于使用或评估四足机器人（如宇树科技Go2、波士顿动力Spot或Ghost Robotics Vision 60）的组织，MPC注入具有直接实际意义：

更低的部署工作量。 如果机器人只需要一到两个奖励项而非21个，编程负担显著降低。不再需要雇用RL专家数周时间，普通工程师可以在数天内设置新的行走行为。这使得四足机器人更容易被巡检、安防和研究团队采用。

更简便的定制化。 不同环境需要不同的行走风格——在瓦砾中小心迈步、在平坦地面上快速小跑、或在狭窄走廊横向蟹行。使用传统方法，每种模式都需要重新调参。使用MPC注入，用户只需替换底层MPC模块，保持相同的简单奖励函数，大幅缩短迭代时间。

商用现成产品（COTS）的潜力。 如果四足机器人制造商采用该方法，未来的SDK可能包含即插即用的步态定制。买家可通过高级参数（速度、谨慎程度、稳定裕度）调整行走行为，而无需接触底层奖励项。

在BotMarket上探索可用的待售四足机器人，比较哪些平台能从这类简化编程中受益。

常见问题解答

用通俗的话说，什么是MPC注入？ 这是一种方法，在训练过程中给机器人提供少量示例行走动作（由简单的预编程控制器生成）。机器人通过模仿这些示例来学习，因此无需数十条复杂规则来强制执行行为，就能自然行走。

MPC注入使用多少奖励项？ 仅需1–2个任务奖励项，而传统奖励塑形通常需要21个。这使工程工作量减少约90%。

机器人的行走效果与传统方法一样好吗？ 是的。研究人员报告说，使用MPC注入产生的步态与经过大量调参的奖励塑形“定性相当”。在宇树科技Go2上，自然行走行为达到了最佳替代方案的水平。

哪些类型的机器人可以使用MPC注入？ 论文在2D仿真行走模型和宇树科技Go2四足机器人上进行了验证。该方法具有通用性，应适用于任何使用强化学习进行运动的足式机器人——包括人形机器人和六足机器人。

MPC注入需要昂贵的硬件或动作捕捉数据吗？ 不需要。MPC本身是轻量级计算，可在普通CPU上运行。无需动作捕捉摄像头、捕捉服或预先录制的人类数据。MPC自动为机器人的特定设计生成运动。

MPC注入与模仿学习相比如何？ 更简单。模仿学习通常需要判别器模型和大量专家演示数据集。MPC注入无需判别器、无需辅助训练目标、也无需运动学重定向——仅需MPC求解器生成的注入过渡。

结论

MPC注入代表了使四足机器人更易于编程实现自然行走的重要一步。通过将所需奖励项从21个减少到仅1–2个，该技术在保持步态质量的同时大幅缩短了工程时间。对于正在评估行走机器人的买家和集成商来说，这意味着部署可靠、可定制步态的障碍更低——也是关注强化学习方法如何在物理硬件上演变的一个理由。