실시간 인간 시선 예측으로 드론 내비게이션 구현 (2026)

노르웨이 과학기술대학(NTNU) 연구진이 개발한 GazeLNN은 경량 신경망으로 사람의 시선을 실시간 예측한 뒤 이를 드론 카메라 제어에 활용한다. 이 연구는 인간의 시각적 주의와 자율 비행을 연결하여, 드론이 인간 파일럿처럼 중요한 객체에 자동으로 초점을 맞출 수 있게 한다.

연구 내용

연구팀은 두 가지 핵심 요소를 개발했다: Legendre Memory Units(LMU) 기반의 빠른 하향식 시각 주의 예측 네트워크 GazeLNN과, GazeLNN의 실시간 응시 히트맵을 활용해 드론 카메라 짐벌을 능동 제어하는 강화학습(RL) 정책이다.

GazeLNN은 각 비디오 프레임을 처리하여 사람이 다음에 볼 위치의 확률 분포인 응시 히트맵을 출력한다. 이 히트맵은 RL 정책에 입력되어 카메라의 틸트와 팬 각도를 결정하며, 드론의 시점이 인간의 시선 패턴을 모방하게 한다. 전체 파이프라인은 소형 임베디드 컴퓨터(NVIDIA Jetson Orin NX)에서 클라우드 의존 없이 프레임 속도로 동작한다.

시스템은 전적으로 시뮬레이션(Aerial Gym)에서 훈련되었으며, 장애물 메시에서 생성된 프록시 히트맵을 사용했다. 실제 인간 시선 데이터는 GazeLNN의 지도 사전훈련에만 필요했고, RL 훈련에는 사용되지 않았다. 훈련 후 제로샷 방식으로 실제 비행에 적용되었다.

GazeLNN 대 ground truth 대 tSPM-Net의 시선 경로 예측 비교

주요 결과

GazeLNN은 하향식 응시 경로 예측에서 최고 성능을 달성했으며, tSPM-Net 및 기타 LSTM 기반 모델을 능가했다. 정량적 비교에서 GazeLNN의 예측 응시 경로는 Normalized Scanpath Saliency(NSS), Area Under Curve(AUC), Scanpath Similarity(Sim) 등 표준 지표에서 인간 실측 데이터와 더 높은 일치도를 보였다.

구체적으로 GazeLNN은 Sim 점수 0.72(tSPM-Net 0.66 대비), NSS 2.41(tSPM-Net 2.15 대비)을 기록하여 각각 9%, 12% 향상되었다. 모델은 단일 NVIDIA Jetson Orin NX에서 45 FPS로 실행되어 비행 중 실시간 동작이 가능하다.

실제 비행 테스트에서 통합 시스템(GazeLNN + RL 정책)은 목표 지향 내비게이션과 장애물 회피 중 인간과 유사한 응시 행동을 유지했다. 드론은 별도의 명령 없이도 나무, 건물, 사람 등 현저한 객체에 카메라를 일관되게 향했으며, 이는 인간 파일럿의 주의 패턴과 질적으로 일치한다.

작동 원리

GazeLNN은 Legendre Memory Units(LMU) 기반의 경량 인코더-디코더 아키텍처를 사용한다. LMU는 LSTM이나 GRU보다 적은 파라미터로 장기 의존성을 포착하는 순환 셀이다. 인코더는 각 비디오 프레임에서 특징을 추출하고, 디코더는 시간에 따라 특징을 처리하여 현재 프레임의 픽셀 단위 응시 히트맵을 생성한다.

RL 훈련 중 드론은 보상 계산을 위해 응시 히트맵이 필요하지만, 이 히트맵은 오프라인 훈련된 GazeLNN에서 생성된다. 이를 해결하기 위해 연구진은 시뮬레이션 장애물 메시에서 면-메시 인덱스를 샘플링하고, 점을 무작위로 섞은 후 가우시안 커널로 컨볼루션하여 프록시 히트맵을 생성했다. 이 잡음이 있지만 물리 기반 신호는 RL 롤아웃에서 실제 인간 시선 데이터 대신 사용된다.

RL 정책은 드론의 상태(자세, 속도, 목표 방향)와 현재 GazeLNN 히트맵을 입력으로 받아, 원하는 카메라 팬 및 틸트 각도를 연속적인 행동으로 출력한다. 보상 함수는 카메라가 히트맵상 높은 주의 영역을 향하게 하면서 동시에 내비게이션 목표를 향해 진행하고 충돌을 피하도록 유도한다.

시뮬레이션에서 RL 훈련 후 전체 정책은 미세 조정 없이 실제 드론에 배포된다. GazeLNN과 정책은 Jetson Orin NX에서 실행되며 PX4 비행 컨트롤러와 ROS로 통신한다. 카메라 제어 루프는 GazeLNN의 추론 속도에 맞춰 30Hz로 동작한다.

로봇 공학에 미치는 영향

대부분의 자율 내비게이션 시스템은 기하학적 또는 의미론적 장면 이해(예: 깊이 맵, 객체 탐지)에 의존한다. 이 연구는 계산 비용이 적은 인간 시각 주의 예측을 카메라 제어의 고수준 지침으로 사용하는 근본적으로 다른 접근법을 제시한다. 그 결과 드론은 명시적인 객체 모델이나 장면 사전 지식 없이도 인간 파일럿이 주목하는 영역에 자연스럽게 초점을 맞춘다.

이는 수색 구조, 감시, 촬영, 검사 작업에 즉각적인 의미를 가지며, 인간의 시선을 모방함으로써 상황 인식을 향상시킬 수 있다. 또한 인간-로봇 협업의 새로운 패러다임을 제시한다: 우리와 시각적 우선순위를 공유하는 로봇은 더 예측 가능하고 신뢰할 수 있는 파트너가 될 수 있다.

창고 운영에서 유사한 주의 기반 인식은 창고 로봇이 패키지 라벨이나 안전 위험과 같은 고가치 영역에 집중하도록 도울 수 있다. 경량 아키텍처는 제한된 온보드 컴퓨팅 성능을 가진 중고 산업용 로봇에도 적합하다.

한계점 및 향후 과제

GazeLNN은 정적 이미지 데이터셋(아마 SALICON 등)으로 훈련되고 비디오 클립으로 미세 조정되었지만, 실제 인간 시선은 작업 맥락에 크게 의존한다. 현재의 하향식 모델은 "빨간 문을 찾아라"와 같은 상향식 영향을 포착할 수 없다. RL 훈련에 사용된 프록시 히트맵 전략은 잡음을 도입하여 복잡한 환경에서 정책 품질을 저하시킬 수 있다.

또한 시스템은 단일 카메라와 정적 장애물을 가정한다. 다중 움직이는 에이전트가 있는 동적 장면은 정적 현저성 가정을 깨뜨릴 수 있다. 다양한 카메라 자세와 조명 조건에 대한 일반화는 여전히 해결해야 할 과제이다.

자주 묻는 질문

GazeLNN이란 무엇인가? 비디오 프레임에서 사람이 볼 위치를 예측하는 경량 신경망으로, 임베디드 GPU에서 45FPS로 동작한다.

훈련에 실제 인간 시선 데이터가 필요한가? 아니다. GazeLNN은 인간 응시 데이터셋으로 사전 훈련되지만, RL 정책은 시뮬레이션의 장애물 메시에서 생성된 프록시 히트맵으로 학습된다.

어떤 하드웨어에서 실행되는가? 드론에 탑재된 NVIDIA Jetson Orin NX 16GB 모듈에서 실행되며, 저수준 제어는 PX4 비행 컨트롤러가 담당한다.

지상 로봇이나 자동차에도 사용될 수 있나? 그렇다. 이 방법은 플랫폼에 독립적이다. 제어 가능한 카메라와 충분한 연산 능력을 갖춘 모든 로봇이 주의 기반 인식의 혜택을 받을 수 있다.

결론

GazeLNN은 경량의 생물학적 영감을 받은 주의 모델을 자원 제약이 있는 로봇에 효과적으로 배포하여 실시간 시선 유도 내비게이션이 가능함을 보여준다. 빠른 하향식 예측과 강화학습을 결합하여, 드론은 값비싼 센서나 클라우드 처리 없이 인간의 시각적 행동을 자율적으로 모방할 수 있다. 이 연구는 실제 환경에서 더 직관적이고 효율적인 인간-로봇 협업의 문을 연다.