麻省理工学院的研究人员利用经过专门训练的生成式 AI 模型,构建了一个能够补全隐藏 3D 物体形状的系统。图片来源:研究人员提供。
在仓库和智能家居中运行的机器人有一个根本性的盲区:任何被摄像头遮挡的物体,对它们来说就不存在。麻省理工学院的研究人员现在部署了生成式 AI 来解决这个问题,利用毫米波无线信号和经过专门训练的 AI 模型,以比以往方法高出近 20% 的精度重建隐藏物体和整个房间——而且没有使用任何摄像头。
- 为什么基于摄像头的机器人视觉存在结构性弱点
- Wave-Former 如何通过墙壁重建隐藏物体
- RISE:从单个雷达绘制整个房间地图
- 训练数据难题——以及 MIT 如何解决它
- 这对仓库和工业机器人意味着什么
- 常见问题解答
为什么基于摄像头的机器人视觉存在结构性弱点
依赖摄像头的机器人感知一旦物体超出视线——被包装遮挡、在碎片下或角落处——就会失效。这不是边缘情况,而是仓库、物流中心以及家庭环境中的日常操作现实,机器人需要定位、识别并抓取它们无法直接看到的物体。
现有的解决方法——多摄像头、结构光、激光雷达——都有同样的限制:它们需要清晰的光学路径。一旦卡纸、石膏板、塑料甚至致密织物介入,机器人就相当于失明。这种局限性在分拣操作中导致高代价的错误,包括识别错误的包装物品和导致生产线停机的抓取失败。
由副教授 Fadel Adib 领导的麻省理工学院信号动力学小组花了十多年时间,利用毫米波雷达信号(与现代 Wi-Fi 相同的频段)构建替代方案,这些信号能穿透常见障碍物并从隐藏物体上反射回来。但直到现在,这些反射仍然过于不完整,无法用于精确操作。
Wave-Former 如何通过墙壁重建隐藏物体
MIT 的新系统 Wave-Former 将毫米波雷达与生成式 AI 模型相结合,重建隐藏在障碍物后面的物体的完整 3D 形状——在约 70 种日常物品(包括罐子、盒子、餐具和水果)上,相比先前的最先进方法实现了近 20% 的精度提升。
核心物理问题是镜面反射:毫米波信号像镜子上的光一样,只沿单一方向从表面反射。雷达传感器只捕捉到直接返回的信号,这意味着隐藏物体的顶面部分可见,而侧面和底面基本不可见。以前的系统试图仅依靠基于物理的规则来解释这些不完整的点云——这种方法从根本上就有限。
Wave-Former 的流程分为三个阶段。首先,它从原始毫米波反射中构建隐藏物体的部分重建。其次,它将这部分形状输入到经过训练的生成式 AI 模型,该模型用于预测合理的补全结果。最后,它迭代优化表面,直到收敛到完整的 3D 重建。结果:机器人不仅能检测到隐藏物体,还能理解其几何形状,从而规划可靠的抓取。
根据 Robohub 对该研究的报道,该系统在纸板、木头、石膏板、塑料和织物(正是仓库和物流环境中存在的材料)后面或下面隐藏的物体上得到了验证。
RISE:从单个雷达绘制整个房间地图
MIT 的第二个系统 RISE(基于雷达的室内场景理解)利用单个固定毫米波雷达的反射重建完整的房间布局——包括家具摆放——其空间精度大约是现有技术的两倍,并且不需要移动传感器平台。
目前大多数无线场景重建方法都需要将雷达安装在移动机器人上扫描环境——这是一个重要的操作限制。RISE 采用不同的方法:它利用在房间中自然移动的人产生的多径反射。
当人移动时,毫米波信号从他们身上弹射,然后再次从墙壁和家具上反射,最后返回雷达。这些二次回波——通常被视为“幽灵信号”而被丢弃为噪声——实际上编码了房间布局的空间信息。随着人的移动,幽灵信号的位置发生变化,它们的变化位置揭示了周围表面的几何形状。
该团队还构建了一个扩展系统,通过利用房间中移动的人产生的无线信号反射,完全重建整个室内场景。图片来源:研究人员提供。
RISE 在超过 100 条人体轨迹上进行了验证,这些轨迹由单个固定雷达捕获。隐私含义也很显著:与摄像头系统不同,毫米波雷达不会捕获环境中人物的视觉图像,因此可部署在摄像头面临监管或同意障碍的环境中。
训练数据难题——以及 MIT 如何解决它
任何 AI 模型在这个领域的基本障碍是数据稀缺:没有足够大的毫米波数据集来从头训练生成式模型。MIT 的解决方案是在现有大规模计算机视觉数据集上模拟毫米波物理特性——本质上是在教导 AI 雷达的语言,而不需要专门的雷达训练数据。
训练像 GPT 或 Claude 这样的大型生成式模型需要数百万或数十亿个样本的数据集。毫米波研究数据集要小几个数量级。正如 MIT 研究助理 Maisy Lam 所解释的那样,收集足够的真实世界雷达数据“可能需要数年时间”。
该团队的解决方法是合成适应:他们采用现有的大型计算机视觉数据集,并在计算上对图像数据施加毫米波反射的物理特性——镜面反射、噪声特性、信号几何形状。这创建了一个合成但物理上准确的训练集,生成式模型可以从中学习。
这种方法代表了物理 AI 研究中正在出现的一种更广泛的模式:在真实世界数据稀缺或收集成本高昂的情况下,利用物理信息模拟来启动 AI 训练。同样的原理支撑了机器人操作学习中的许多进展,其中 sim-to-real 迁移已成为主导范式。
| 系统 | 任务 | 信号源 | 精度提升 | 传感器配置 |
|---|---|---|---|---|
| Wave-Former | 隐藏物体 3D 重建 | 物体上的毫米波反射 | 比最先进方法提高约 20% | 移动或固定雷达 |
| RISE | 全房间场景重建 | 移动人体上的毫米波反射 | 比最先进方法提高约 2 倍精度 | 单个固定雷达 |
这对仓库和工业机器人意味着什么
对于机器人买家和工程师来说,这两个系统解决了不同但同样紧迫的操作问题:验证密封容器中的包装物品,以及使机器人无需全面传感器覆盖就能理解动态环境。
分拣与包装验证
仓库机器人目前无法在不打开密封箱子的情况下确认里面的物品。Wave-Former 通过纸板和塑料重建 3D 物体几何形状的能力直接解决了发货前验证的问题——这是电子商务分拣中的一个重大痛点,订单错装导致的退货率产生了巨大成本。配备毫米波感知能力的机器人可以在箱子密封前验证物品的存在和大致几何形状,而不会减慢流水线速度。
协作机器人和自主移动机器人的智能部署
RISE 的单雷达房间地图能力对部署在与人共享空间中的自主移动机器人(AMR) 和协作机器人具有直接影响。当前的人体追踪方法要么需要密集的摄像头覆盖(伴随隐私问题),要么需要安装在移动机器人上的传感器。一个固定的雷达通过幽灵信号分析构建房间的实时空间模型(包括人体位置),可以在动态环境中实现更安全、更灵敏的协作机器人操作。
对于正在评估这些应用场景的机器人团队,值得在关注 Wave-Former 等感知系统走向商业集成的同时,探索 Botmarket 上目前可用的二手工业机器人 和 协作机器人。
部署时间表
这两个系统目前处于研究阶段,相关成果将在 IEEE 计算机视觉与模式识别会议上发表。该研究得到了 NSF、MIT 媒体实验室和亚马逊的支持——后者是商业兴趣的重要信号。该团队的下一个既定目标是构建无线信号的基础模型,类似于语言领域的 GPT 或 Gemini,这将使这种方法在不同环境和物体类型上的通用性实现阶跃性提升。
常见问题解答
什么是 Wave-Former,它是如何工作的?
Wave-Former 是 MIT 开发的一个系统,它利用毫米波雷达信号重建隐藏在纸板、石膏板、塑料等障碍物后面的物体的 3D 形状。它从雷达反射构建部分重建,然后使用生成式 AI 模型补全缺失的几何形状。在约 70 种日常物品的测试中,它的精度比先前的最先进方法高出近 20%。
RISE 如何在没有摄像头的情况下重建房间?
RISE 使用单个固定毫米波雷达,并利用“幽灵信号”——这些信号是从房间中移动的人身上弹射,然后再次从周围家具和墙壁反射回来的二次回波。通过追踪这些多径反射随人移动的变化,生成式 AI 模型推断出整个房间的空间布局。RISE 在超过 100 条测试轨迹上展示了大约两倍于现有无线场景重建技术的空间精度。
毫米波信号能穿透哪些障碍物?
毫米波信号(与 Wi-Fi 相同的频段)能穿透常见的非金属材料,包括纸板、木头、石膏板、塑料和织物。它们不能有效穿透金属。这使得它们非常适合货物用纸板和塑料包装的仓库环境,但在金属密集的工业外壳中适用性较差。
这项技术比摄像头更好地保护隐私吗?
是的。毫米波雷达不会捕获环境中人物的视觉图像——它只检测信号反射。RISE 的房间地图功能利用人体运动作为信号源,而不记录任何可识别的视觉数据,这使其在隐私敏感型部署(如医院、家庭或受监管的工作场所)中比基于摄像头的空间地图具有显著优势。
这项技术何时能在商用机器人中使用?
Wave-Former 和 RISE 目前都处于研究阶段,相关论文将在 CVPR 会议上发表。亚马逊是资助方之一,表明有积极的商业兴趣。MIT 团队表示,构建无线信号基础模型是下一个发展重点。在仓库或协作机器人系统中的商业集成可能还需要数年时间,但向可部署硬件的轨迹是明确的。
这项研究代表了机器人感知在过去一年中更具实际意义的进展之一——不是边际基准改进,而是机器人在建模周围世界方式上的真正架构转变。生成式 AI 不再仅仅是语言或图像工具;它正在成为物理系统推理其无法直接观察到的事物的推理引擎。
单个雷达的房间感知能力会改变你在设施中部署协作机器人或 AMR 的方式吗?










参与讨论
Would single-radar room awareness change how you deploy cobots or AMRs in your facility?