四足机器人自然行走所需规则减少90%——新研究大幅降低工程开发工作量

四足机器人自然行走所需规则减少90%——新研究大幅降低工程开发工作量

实时6月26日 20:301 分钟阅读
Takeshi Yamamoto
Takeshi Yamamoto

教会四足机器人自然行走,通常需要工程师手动调整数十条自定义奖励规则。如今,研究人员展示了一种新方法,让宇树科技Go2仅凭两条规则就能学会行走——编程工作量减少90%以上,同时步态自然程度与传统的奖励塑形方法不相上下。

什么是MPC注入?

MPC注入是一种新技术,可大幅简化四足机器人学习行走的过程。核心问题在于:当机器人通过强化学习(RL)(一种试错训练方法)学习运动时,常常会产生怪异、无法使用的步态,如腿部抖动或躯干拖地。这是因为机器人优化的是“向前移动”这类通用目标,从而找到了满足目标但看起来不像行走的奇怪捷径。

为了防止这种情况,工程师传统上需要设计数十条奖励项——具体规则用于塑造机器人行为(如“保持躯干水平”、“脚抬到这么高”、“髋关节不要转太大”)。设置这些规则需要专家程序员花费数周时间反复试错。

MPC注入几乎消除了所有这些工作量。该技术借用了模型预测控制器(MPC)的良好行走行为——一个预编程系统,可实时解算运动方程,但全时运行计算成本高昂。MPC生成短时间自然行走片段。这些片段被“注入”到机器人的训练记忆(回放缓冲区)中,RL算法可通过模仿从中学习。最终机器人自然趋向于MPC偏好的步态,无需复杂的奖励系统强行驱动。

奖励设计简化了多少?

数据清晰说明了问题。传统奖励塑形实现行走步态通常需要21个单独调参的奖励项——每个都有自身的权重和阈值。MPC注入仅使用1到2个任务相关奖励项即可达到类似效果。

方法奖励项数量工程工作量步态质量
传统奖励塑形21数周调参
MPC注入1–2数天搭建
纯RL无塑形0无(但失败)不可用

MPC注入中的1–2个奖励项很简单:例如“向期望方向移动”和“保持身体直立”。它们无需强制执行步态模式——注入的MPC过渡会自动处理。

根据arXiv上的论文,“MPC注入使用一到两个任务奖励项将策略驱动到控制器的行为盆地中,生成与使用21个调优项奖励塑形定性相当的步态。”这意味着机器人无需工程师明确每个约束即可学习复杂自然的步态。

机器人实际行走效果更好了吗?

研究人员在仿真环境和真实的宇树科技Go2四足机器人上测试了MPC注入。在仿真中,他们使用了一个2D行走模型来验证该方法。随后将训练好的策略迁移到实体Go2上——这种仿真到现实的迁移如果仿真与实际情况不符,常常会失败。

结果:Go2以自然且稳定的步态行走,与最佳奖励塑形策略“定性相当”。未出现纯RL常见的抖动或拖地行为。该方法还避免了对抗模仿学习的开销,后者需要独立的AI模型(判别器)和复杂的动作捕捉数据。

MPC注入无需运动学重定向——将人体动作捕捉数据映射到机器人特定关节结构的繁琐过程。MPC直接在机器人自身坐标系中生成运动,因此无需转换。

方法额外组件数据需求步态质量
奖励塑形步态专家知识无(手动设计规则)
对抗模仿学习判别器模型、动作捕捉数小时人类/演示数据非常高
MPC注入MPC求解器(轻量级)无(MPC生成运动)

论文还提供了理论见解:注入MPC过渡将演员-评论家更新(机器人用于改进行为的数学方法)偏向于MPC偏好的状态。这使得机器人保持在“行为盆地”——良好行走的区域——即使简单奖励函数本身不会惩罚不良步态。

这对四足机器人买家意味着什么?

对于使用或评估四足机器人(如宇树科技Go2、波士顿动力Spot或Ghost Robotics Vision 60)的组织,MPC注入具有直接实际意义:

更低的部署工作量。 如果机器人只需要一到两个奖励项而非21个,编程负担显著降低。不再需要雇用RL专家数周时间,普通工程师可以在数天内设置新的行走行为。这使得四足机器人更容易被巡检、安防和研究团队采用。

更简便的定制化。 不同环境需要不同的行走风格——在瓦砾中小心迈步、在平坦地面上快速小跑、或在狭窄走廊横向蟹行。使用传统方法,每种模式都需要重新调参。使用MPC注入,用户只需替换底层MPC模块,保持相同的简单奖励函数,大幅缩短迭代时间。

商用现成产品(COTS)的潜力。 如果四足机器人制造商采用该方法,未来的SDK可能包含即插即用的步态定制。买家可通过高级参数(速度、谨慎程度、稳定裕度)调整行走行为,而无需接触底层奖励项。

在BotMarket上探索可用的待售四足机器人,比较哪些平台能从这类简化编程中受益。

常见问题解答

用通俗的话说,什么是MPC注入? 这是一种方法,在训练过程中给机器人提供少量示例行走动作(由简单的预编程控制器生成)。机器人通过模仿这些示例来学习,因此无需数十条复杂规则来强制执行行为,就能自然行走。

MPC注入使用多少奖励项? 仅需1–2个任务奖励项,而传统奖励塑形通常需要21个。这使工程工作量减少约90%。

机器人的行走效果与传统方法一样好吗? 是的。研究人员报告说,使用MPC注入产生的步态与经过大量调参的奖励塑形“定性相当”。在宇树科技Go2上,自然行走行为达到了最佳替代方案的水平。

哪些类型的机器人可以使用MPC注入? 论文在2D仿真行走模型和宇树科技Go2四足机器人上进行了验证。该方法具有通用性,应适用于任何使用强化学习进行运动的足式机器人——包括人形机器人和六足机器人。

MPC注入需要昂贵的硬件或动作捕捉数据吗? 不需要。MPC本身是轻量级计算,可在普通CPU上运行。无需动作捕捉摄像头、捕捉服或预先录制的人类数据。MPC自动为机器人的特定设计生成运动。

MPC注入与模仿学习相比如何? 更简单。模仿学习通常需要判别器模型和大量专家演示数据集。MPC注入无需判别器、无需辅助训练目标、也无需运动学重定向——仅需MPC求解器生成的注入过渡。

结论

MPC注入代表了使四足机器人更易于编程实现自然行走的重要一步。通过将所需奖励项从21个减少到仅1–2个,该技术在保持步态质量的同时大幅缩短了工程时间。对于正在评估行走机器人的买家和集成商来说,这意味着部署可靠、可定制步态的障碍更低——也是关注强化学习方法如何在物理硬件上演变的一个理由。

评论

更多文章

特斯拉声称德州致命车祸中司机‘手动接管自动驾驶’

特斯拉声称德州致命车祸中司机‘手动接管自动驾驶’

AWS CEO马特·加曼驳斥AI就业末日论,计划招聘数千名Z世代毕业生

AWS CEO马特·加曼驳斥AI就业末日论,计划招聘数千名Z世代毕业生

Anthropic工程负责人坦言Claude AI工具让工作变成“孤独体验”

Anthropic工程负责人坦言Claude AI工具让工作变成“孤独体验”

人形机器人从真实工厂车间现场直播——编排好的演示时代终结

人形机器人从真实工厂车间现场直播——编排好的演示时代终结

OpenAI合并ChatGPT与Codex打造'超级应用',冲刺万亿美元IPO

OpenAI合并ChatGPT与Codex打造'超级应用',冲刺万亿美元IPO

京东70万配送员将被重新培训,去修理那些取代他们的机器人

京东70万配送员将被重新培训,去修理那些取代他们的机器人

阿里发布三款物理世界交互AI基础模型

阿里发布三款物理世界交互AI基础模型

Roomba如何将扫地机器人从噱头变成150亿美元的产业

Roomba如何将扫地机器人从噱头变成150亿美元的产业

联储主席沃什承认:SpaceX、Alphabet、英伟达创纪录IPO和债务狂潮与紧缩政策相矛盾

联储主席沃什承认:SpaceX、Alphabet、英伟达创纪录IPO和债务狂潮与紧缩政策相矛盾

《财富》500强总收入破21万亿美元创新高,员工总数却缩至3050万

《财富》500强总收入破21万亿美元创新高,员工总数却缩至3050万

伯尼·桑德斯提案:AI公司政府持股50%,每年向每位美国人发放1000美元股息

伯尼·桑德斯提案:AI公司政府持股50%,每年向每位美国人发放1000美元股息

Michael Burry 放弃做空 SpaceX,称其“本质上是一家小型太空公司”

Michael Burry 放弃做空 SpaceX,称其“本质上是一家小型太空公司”

🍪 Cookie 偏好设置

我们使用 Cookie 来衡量性能。 隐私政策