Predicción Rápida de la Atención Humana Permite Navegación de Drones Guiada por Fijación en Tiempo Real (2026)

Investigadores de la Universidad Noruega de Ciencia y Tecnología desarrollaron GazeLNN, una red neuronal ligera que predice dónde miran los humanos en tiempo real, y luego utiliza esas predicciones para guiar el control de la cámara de un dron. Este trabajo conecta la atención visual humana con el vuelo autónomo, permitiendo que los drones enfoquen automáticamente los mismos objetos que un piloto humano.

Lo que los Investigadores Construyeron

El equipo creó dos componentes estrechamente integrados: GazeLNN, una red rápida de predicción de atención visual ascendente basada en Unidades de Memoria Legendre (LNNs), y una política de aprendizaje por refuerzo (RL) que utiliza los mapas de calor de fijación en tiempo real de GazeLNN para controlar activamente el cardán de la cámara de un dron durante el vuelo.

GazeLNN procesa cada fotograma de video y genera un mapa de calor de fijación—una distribución de probabilidad de dónde miraría un humano a continuación. Este mapa de calor se introduce en la política de RL, que decide cómo inclinar y panear la cámara para que el punto de vista del dron imite los patrones de mirada humana. Todo el proceso se ejecuta a bordo de un pequeño ordenador embebido (NVIDIA Jetson Orin NX) a la velocidad de fotogramas, sin dependencia de la nube.

El sistema se entrenó completamente en simulación (Aerial Gym) utilizando mapas de calor proxy generados a partir de mallas de obstáculos, y luego se transfirió con cero ajustes a vuelos reales. No se necesitaron datos de mirada humana durante el entrenamiento de RL, solo durante el preentrenamiento supervisado de GazeLNN.

Comparación cualitativa de predicciones de scanpath: GazeLNN vs verdad de campo vs tSPM-Net

Resultados Clave

GazeLNN alcanza un rendimiento de vanguardia en la predicción de scanpath de fijación ascendente, superando métodos anteriores como tSPM-Net y otros modelos basados en LSTM. En comparaciones cuantitativas, los scanpaths predichos por GazeLNN se asemejan más a las trayectorias de mirada humanas reales según métricas estándar como Normalized Scanpath Saliency (NSS), Área Bajo la Curva (AUC) y Similitud de Scanpath (Sim).

Específicamente, GazeLNN logra una puntuación Sim de 0.72 frente a 0.66 de tSPM-Net, y un NSS de 2.41 en comparación con 2.15—mejoras del 9% y 12%, respectivamente. El modelo se ejecuta a 45 FPS en un solo NVIDIA Jetson Orin NX, permitiendo operación en tiempo real en un dron en vuelo.

En pruebas de vuelo reales, el sistema integrado (GazeLNN + política RL) mantuvo con éxito un comportamiento de fijación similar al humano mientras navegaba hacia un objetivo y evitaba obstáculos. El dron apuntó consistentemente su cámara a objetos salientes (por ejemplo, árboles, edificios, personas) sin instrucción explícita—un comportamiento que cualitativamente coincide con la atención de un piloto humano.

Cómo Funciona

GazeLNN utiliza una arquitectura ligera de codificador-decodificador basada en Unidades de Memoria Legendre (LMUs), una celda recurrente diseñada para capturar dependencias a largo plazo con menos parámetros que LSTM o GRU. El codificador extrae características de cada fotograma de video; el decodificador procesa esas características a lo largo del tiempo para producir un mapa de calor de fijación por píxel para el fotograma actual.

Diagrama del bucle de aprendizaje por refuerzo para el control activo de la cámara

Durante el entrenamiento de RL, el dron necesita mapas de calor de fijación para calcular la recompensa—pero esos mapas provienen de GazeLNN, que a su vez se entrena fuera de línea. Para salvar esta brecha, los autores generan mapas de calor proxy muestreando índices de malla facial de mallas de obstáculos simulados, perturbando aleatoriamente los puntos y convolucionándolos con un núcleo gaussiano. Esta señal ruidosa pero fundamentada físicamente se utiliza en lugar de datos reales de mirada humana durante los despliegues de RL.

La política de RL toma como entrada el estado del dron (posición, velocidad, dirección del objetivo) y el mapa de calor actual de GazeLNN. Genera una acción continua: los ángulos de paneo e inclinación deseados de la cámara. La función de recompensa incentiva a la cámara a apuntar hacia regiones de alta atención (según el mapa de calor) mientras simultáneamente progresa hacia el objetivo de navegación y evita colisiones.

Después del entrenamiento de RL en simulación, toda la política se despliega en un dron real sin ajustes adicionales. GazeLNN y la política se ejecutan en el Jetson Orin NX, comunicándose con el controlador de vuelo PX4 a través de ROS. El bucle de control de la cámara opera a 30 Hz, igualando la tasa de inferencia de GazeLNN.

Por Qué Esto Importa para la Robótica

La mayoría de los sistemas de navegación autónoma se basan en la comprensión geométrica o semántica de la escena (por ejemplo, mapas de profundidad, detecciones de objetos). Este trabajo introduce un enfoque fundamentalmente diferente: usar predicciones computacionalmente baratas de la atención visual humana como guía de alto nivel para el control de la cámara. El resultado es un dron que naturalmente se enfoca en las mismas regiones que un piloto humano—sin necesidad de modelos de objetos explícitos ni conocimientos previos de la escena.

Esto tiene implicaciones inmediatas para tareas de búsqueda y rescate, vigilancia, cinematografía e inspección, donde imitar la mirada humana puede mejorar la conciencia situacional. También sugiere un nuevo paradigma para la colaboración humano-robot: los robots que comparten nuestras prioridades visuales pueden ser compañeros más predecibles y confiables.

Para operaciones en almacenes, una percepción similar guiada por la atención podría ayudar a los robots de almacén a enfocarse en áreas de alto valor como etiquetas de paquetes o peligros de seguridad. La arquitectura ligera también la hace adecuada para su implementación en robots industriales usados con capacidad de cómputo limitada.

Limitaciones y Preguntas Abiertas

GazeLNN se entrenó en un conjunto de datos de imágenes estáticas (probablemente SALICON o similar) y se afinó en clips de video—pero la mirada humana en el mundo real depende en gran medida del contexto de la tarea. El modelo ascendente actual no puede capturar influencias descendentes como "busca una puerta roja". La estrategia de mapa de calor proxy utilizada en el entrenamiento de RL introduce ruido que puede degradar la calidad de la política en entornos desordenados.

Además, el sistema asume una sola cámara y sin obstáculos en movimiento. Escenas dinámicas con múltiples agentes en movimiento podrían romper la suposición de saliencia estática. Generalizar a diversas poses de cámara y condiciones de iluminación sigue siendo un desafío abierto.

Preguntas Frecuentes

¿Qué es GazeLNN? Una red neuronal ligera que predice dónde miraría un humano en un fotograma de video, funcionando a 45 FPS en una GPU embebida.

¿Necesita el sistema datos reales de mirada humana durante el entrenamiento? No. GazeLNN se preentrena en conjuntos de datos de fijación humana, pero la política de RL aprende a partir de mapas de calor proxy generados a partir de mallas de obstáculos en simulación.

¿En qué hardware se ejecuta? En un módulo NVIDIA Jetson Orin NX de 16 GB a bordo de un dron, con un controlador de vuelo PX4 para el control de bajo nivel.

¿Se puede usar esto para robots terrestres o automóviles? Sí—el método es independiente de la plataforma. Cualquier robot con una cámara controlable y suficiente capacidad de cómputo podría beneficiarse de una percepción guiada por atención.

Conclusión

GazeLNN demuestra que los modelos de atención ligeros e inspirados biológicamente pueden implementarse eficazmente en robots con recursos limitados para navegación guiada por mirada en tiempo real. Al combinar la predicción ascendente rápida con el aprendizaje por refuerzo, el sistema permite que los drones imiten autónomamente el comportamiento visual humano—sin sensores costosos ni procesamiento en la nube. Este trabajo abre la puerta a una colaboración humano-robot más intuitiva y eficiente en entornos reales.