Runway—以AI视频生成闻名—正在悄悄组建一支专注于机器人技术的团队,并针对包括自动驾驶汽车和机器人系统在内的物理AI应用微调其世界模型。这一动向反映出行业正在经历更广泛的转变:基础模型公司越来越多地将具身智能视为下一个重大营收增长领域,与NVIDIA、Google DeepMind等已开始争夺该技术栈的公司并肩而行。
从AI到机器人的路径已然真实
基础模型公司不再满足于服务创意专业人士和企业软件团队。机器人技术和自动驾驶汽车市场代表着数千亿美元的部署机会,而这一机会恰恰需要这些公司已经打造的东西:基于视觉和空间数据训练的大规模世界模型。Runway 是最新一家正式朝这一方向迈进的公司,据TechCrunch报道,它正在招聘专注于机器人技术的工程师,并调整现有模型以适应物理应用。
这不是一次转型,而是一次延伸。Runway 的核心能力是从学习到的世界表征中生成时间上连贯的视频。同样的能力,经过重新调整,可以成为机器感知和模拟引擎,帮助机器理解物理世界的运动与变化。二者之间的重叠比乍看起来要大得多。
这一模式已在行业中确立。NVIDIA 在 GPU 和模拟基础设施之上构建了 Isaac Sim 和物理AI工具。Google DeepMind 成立了机器人研究部门,并发布了 RT-2,证明视觉语言模型可以有意义地迁移到机器人控制中。物理AI初创公司 Figure AI 授权使用了 OpenAI 模型来驱动人形机器人的推理。从基础模型能力到机器人部署的路径已成为明确的产品策略,而不仅仅是研究课题。
Runway 为物理AI带来的实际价值
Runway 在机器人领域的价值主张在于其世界建模能力——它的模型不仅能生成图像,还能模拟场景如何随时间演变。这对机器人技术至关重要。在非结构化环境中运行的机器人需要预测接下来会发生什么:一个物体被推后如何移动、一个人如何绕过障碍物、一个表面是否能承受重量。
据报道,该公司正在针对机器人和自动驾驶客户微调现有模型。这一微调过程意义重大。预训练的世界模型减少了机器人团队的数据负担,而过去他们需要大量领域特定的训练数据才能实现可靠的实世界性能。如果 Runway 的模型能够提供强大的视觉空间先验,然后由机器人工程师进行专门化,那么开发周期将大幅缩短。
自动驾驶的角度同样具有战略意义。自动驾驶汽车公司长期以来一直使用合成数据和模拟来增强实际训练数据集——这是自动驾驶开发中的核心瓶颈之一。一个能够大规模生成逼真、物理合理的驾驶场景的世界模型,对任何仍在处理边缘案例的自动驾驶实验室来说都具有直接的商业价值。
为什么视频生成模型对机器人至关重要
视频AI与机器人之间的联系比表面看起来更具技术性。想一想视频生成模型实际上学到了什么:它内化了一个关于视觉世界如何运作的压缩表征——光照、物理、物体恒存性、运动动力学。这些正是使机器人在非结构化环境中具备能力的关键属性。
这里是一个类比成立的地方,也是它失效的地方。视频模型通过被动观察学习世界的统计模型。机器人则需要因果模型——不仅要理解通常会发生什么,还要理解在机器人采取特定动作后将会发生什么。Runway 的模型在被动视频上训练,需要大量调整才能支持以动作条件预测。这是困难的部分,也是专门的机器人微调变得必不可少而非可选项的地方。
据报道,Runway 正在招聘的团队很可能包括理解这一差距并致力于缩小它的工程师。Runway 的架构能否像NVIDIA的Isaac或1X Technologies的专有模型那样高效地弥合这一差距,还有待观察。
关键能力对比
| 能力 | Runway(当前) | 机器人需求 | 差距 |
|---|---|---|---|
| 视觉世界建模 | 强 | 必需 | 小 |
| 时间连贯性 | 强 | 必需 | 小 |
| 动作条件预测 | 有限 | 关键 | 大 |
| 模拟到现实迁移 | 未验证 | 关键 | 未知 |
| 物理合理性 | 中等 | 高 | 中等 |
竞争格局:还有哪些公司瞄准物理AI
Runway 进入了一个已经挤满资金雄厚参与者的领域。了解竞争动态有助于判断这是否是一个真正的机会,还是一个投机性赌注。
NVIDIA 拥有最强大的集成地位:用于合成数据生成的 Isaac Sim、用于模型训练的 CUDA、用于边缘推理的 Jetson,以及如今面向汽车和机器人的 Thor 计算平台。它既掌握硬件,也越来越多地掌控软件栈。
Google DeepMind 拥有最深厚的机器人研究团队,工作涵盖模仿学习、强化学习和视觉-语言-动作(VLA)模型。RT-2 及后续模型表明,互联网规模的预训练可以有意义地迁移到操作任务中。
物理AI初创公司——包括 1X Technologies、Physical Intelligence(π)和 Covariant——正从头开始构建专为机器人设计的基础模型,这些模型针对动作和控制进行了优化,而非从生成式视频改编而来。
Sora(OpenAI) 是 Runway 最接近的类比:一家视频世界模型公司,其既定目标是构建物理世界模拟器。OpenAI 已通过与 Figure AI 的合作伙伴关系进入机器人领域。
Runway 提供的、而其他一些玩家所缺乏的是商业化的模型 API 和现有的企业客户基础。机器人市场渴望可访问、可微调的基础模型,而不是垂直整合的黑盒子。如果 Runway 能够将自己定位为“机器人微调层”,那么即使不构建全栈机器人基础设施,它也能占据一个可防御的利基市场。
这对机器人领域意味着什么
基础模型公司进入物理AI领域对机器人买家、开发者和集成商产生了具体的影响。
对于机器人开发者:通过 API 访问预训练的世界模型可以显著减少训练感知和预测系统所需的时间和数据。团队可能不再需要收集数千小时的领域素材,而是只需在数百小时的数据上微调 Runway 风格的模型。这与大型语言模型为软件开发者带来的效率提升相同——但应用于物理系统。
对于工业买家:这一趋势加速了通用型机器人的发展时间线。部署二手工业机器人的瓶颈通常是感知和规划软件,而不是机械硬件。随着基础模型公司竞相服务机器人客户,这一软件层将变得更便宜、更强大、更易获取。
对于更广泛的市场:生成式AI公司与物理AI的融合代表着机器人构建方式的结构性转变。机器人将越来越多地不再从头编程——它们将从预训练的世界模型中实例化,并针对特定部署环境进行调整。这彻底改变了机器人开发的经济性。
如果您正在评估当前一代AI驱动的机器人用于仓储、物流或制造用例,请在 Botmarket 上浏览人形机器人,查看在这一软件层不断成熟的同时已有的商业产品。
常见问题解答
Runway 在机器人领域做什么?
Runway 正在组建一个专门的机器人团队,并针对机器人和自动驾驶汽车客户微调其现有的AI视频和世界模型。该公司正在调整其生成式AI能力——特别是模拟视觉场景如何随时间演变的能力——以适应需要理解实世界动态的物理AI应用。
视频生成模型如何帮助机器人?
视频生成模型学习物理世界行为方式的压缩表征,包括运动动力学、物体交互和空间关系。这些表征可以作为机器人感知和预测系统的预训练先验,可能减少机器人团队需要收集的领域特定训练数据量。关键限制是,被动视频模型必须进一步调整以支持动作条件预测——理解机器人采取特定动作时会发生什么。
Runway 在物理AI领域的主要竞争对手是谁?
Runway 在物理AI模型基础设施方面的主要竞争对手包括 NVIDIA(Isaac Sim、Thor平台)、Google DeepMind(RT-2 及后续VLA模型)、OpenAI(Sora世界模型、Figure AI 合作伙伴关系),以及诸如 Physical Intelligence(π)和 Covariant 等专为机器人设计的基础模型初创公司。每家公司都带来不同的架构优势;Runway 的差异化优势在于其现有的API基础设施和企业客户基础。
这会让机器人更便宜或更容易部署吗?
基础模型提供商之间针对机器人的竞争加剧往往会压缩成本并提高可访问性。如果 Runway 和竞争对手成功通过 API 提供可微调的世界模型,机器人开发者可能会大幅降低感知和规划开发成本。然而,在动作条件预测和模拟到现实迁移方面存在重大的技术差距,必须加以解决,这些模型才能在非结构化环境中提供生产级可靠性。
哪种类型的机器人最受益于 Runway 的模型?
自动驾驶汽车和移动操作机器人在短期内受益最大,因为两者都要求在动态环境中具有强大的视觉空间预测能力。在高度结构化环境中运行的工业固定臂机器人对通用世界建模的需求较少。Runway 风格模型的商业最佳点可能在于物流、巡检和服务机器人领域,这些领域的环境变异性较高。
Runway 进军机器人领域是最新的证据,表明生成式AI与物理AI之间的界限正在消融。拥有世界建模层的公司最终可能塑造下一代机器人感知和导航现实的方式。
你认为哪家基础模型公司最有能力掌控物理AI技术栈——Runway 是否有现实的机会?










参与讨论
Which foundation model company is best positioned to own the physical AI stack — does Runway have a realistic shot?