挪威科技大學的研究人员开发了GazeLNN,一种轻量级神经网络,能够实时预测人类注视点,并利用这些预测引导无人机相机控制。这一工作将人类视觉注意力与自主飞行相结合,使无人机能够自动聚焦于人类飞行员会关注的同一物体。
目录
研究人员构建了什么
团队创建了两个紧密集成的组件:GazeLNN,一种基于Legendre记忆单元(LMU)的快速自底向上视觉注意力预测网络;以及一个强化学习(RL)策略,该策略利用GazeLNN的实时注视热图在飞行中主动控制无人机相机云台。
GazeLNN处理每个视频帧并输出注视热图——即人类下一步会看哪里概率分布。该热图随后被送入RL策略,该策略决定如何倾斜和平移相机,使无人机视角模仿人类注视模式。整个流程在小型嵌入式计算机(NVIDIA Jetson Orin NX)上以帧率运行,无需依赖云端。
系统完全在模拟环境(Aerial Gym)中训练,使用从障碍物网格生成的代理热图,然后零样本迁移到真实飞行中。RL训练不需要人类注视数据,仅在GazeLNN自身的监督预训练中使用了人类注视数据。

关键成果
GazeLNN在自底向上注视扫描路径预测上达到了最新水平,超越了tSPM-Net和其他基于LSTM的模型。在定量比较中,GazeLNN预测的扫描路径在归一化扫描路径显著性(NSS)、曲线下面积(AUC)和扫描路径相似度(Sim)等标准指标上更接近人类真实注视轨迹。
具体而言,GazeLNN的Sim得分为0.72,而tSPM-Net为0.66;NSS为2.41,而tSPM-Net为2.15——分别提升了9%和12%。该模型在单个NVIDIA Jetson Orin NX上以45 FPS运行,实现了在飞行无人机上的实时操作。
在真实飞行测试中,集成系统(GazeLNN + RL策略)成功地在向目标导航和避障过程中保持了类人注视行为。无人机持续将相机指向显著物体(如树木、建筑物、人),无需明确指令——这种行为在质量上与人类飞行员注意力相匹配。
工作原理
GazeLNN采用基于Legendre记忆单元(LMU)的轻量级编码器-解码器架构,LMU是一种循环单元,能以比LSTM或GRU更少的参数捕获长程依赖。编码器从每个视频帧中提取特征;解码器随时间处理这些特征,为当前帧生成逐像素注视热图。

在RL训练期间,无人机需要注视热图来计算奖励——但这些热图来自GazeLNN,而GazeLNN本身是离线训练的。为弥合这一差距,作者通过从模拟障碍物网格中采样面网格索引、随机扰动点并卷积高斯核来生成代理热图。这种有噪声但基于物理的信号在RL rollout中替代了真实人类注视数据。
RL策略的输入包括无人机状态(姿态、速度、目标方向)和当前GazeLNN热图。它输出连续动作:期望的相机俯仰和偏航角度。奖励函数鼓励相机指向高注意力区域(根据热图),同时朝向导航目标前进并避免碰撞。
在模拟中完成RL训练后,整个策略无需微调即可部署在真实无人机上。GazeLNN和策略在Jetson Orin NX上运行,通过ROS与PX4飞行控制器通信。相机控制循环以30 Hz运行,与GazeLNN的推理速率匹配。
为何对机器人技术重要
大多数自主导航系统依赖几何或语义场景理解(如深度图、目标检测)。这项工作引入了一种根本不同的方法:使用计算成本低的人类视觉注意力预测作为相机控制的高级指导。结果使得无人机自然而然地聚焦于人类飞行员会关注的区域,而无需显式目标模型或场景先验。
这对搜索与救援、监控、电影摄影和检查任务具有直接影响,在这些任务中,模仿人类注视可以提高态势感知。它还暗示了人机协作的新范式:共享我们视觉优先级的机器人可以成为更可预测和值得信赖的伙伴。
对于仓储操作,类似的注意力引导感知可以帮助仓储机器人专注于高价值区域,如包裹标签或安全隐患。轻量级架构也使其适合部署在计算能力有限的二手工业机器人上。
局限性与开放问题
GazeLNN在静态图像数据集(可能是SALICON或类似)上训练,并在视频片段上微调——但真实世界中的人类注视高度依赖任务上下文。当前的bottom-up模型无法捕捉诸如“找一扇红门”之类的top-down影响。RL训练中使用的代理热图策略引入了噪声,可能在杂乱环境中降低策略质量。
此外,系统假设单个相机且无移动障碍物。包含多个移动代理的动态场景可能破坏静态显著性假设。泛化到不同相机姿态和光照条件仍是一个开放挑战。
常见问题解答
什么是GazeLNN? 一种轻量级神经网络,预测人类在视频帧中会看哪里,在嵌入式GPU上以45 FPS运行。
系统在训练时需要真实人类注视数据吗? 不需要。GazeLNN在人类注视数据集上预训练,但RL策略从模拟中从障碍物网格生成的代理热图中学习。
它运行在什么硬件上? 无人机上的NVIDIA Jetson Orin NX 16GB模块,搭配PX4飞行控制器进行底层控制。
可以用于地面机器人或汽车吗? 可以——该方法与平台无关。任何带有可控相机和足够计算能力的机器人均可受益于注意力引导感知。
结论
GazeLNN证明,轻量级、受生物启发的注意力模型可以有效地部署在资源受限的机器人上,实现实时注视引导导航。通过结合快速bottom-up预测与强化学习,该系统使无人机能够自主模仿人类视觉行为,而无需昂贵的传感器或云端处理。这项工作为在野外实现更直观、更高效的人机协作打开了大门。
注意力引导感知能否让自主机器人在协作时感觉更“人性化”?
