우리는 고속 지역 계획자와 느린 시각-언어 모델(VLM)을 결합한 하이브리드 아키텍처를 제안합니다. 계획자는 높은 빈도로 동적으로 실현 가능한 후보 궤적들을 생성하고, VLM은 1-2초 지연으로 비동기적으로 의미적 판단을 제공합니다. 핵심 과제는 이 시간적 불일치를 해소하는 것입니다: 지난 VLM 조언이 실시간 궤적 선택을 어떻게 개선할 수 있을까?
시각적 궤적 선택
후보 궤적들을 현재 카메라 이미지 위에 번호가 매겨진 색상 주석으로 렌더링하고, 기성 VLM이 인덱스를 선택하도록 합니다.
시각적 오버레이. 로봇 본체 프레임의 각 후보 궤적을 알려진 카메라 외부 및 내부 파라미터를 사용하여 카메라 이미지에 투영합니다. 각 궤적은 끝점에 인덱스 레이블이 있는 색상 폴리라인으로 렌더링됩니다. 목표 방향은 선택적으로 화살표로 표시됩니다. 이 시각적 표현을 통해 VLM은 픽셀 공간에서 직접 추론할 수 있습니다: 각 궤적이 보도 경계, 보행자, 장애물과의 관계에서 어디로 이어지는지 볼 수 있습니다.
훈련 없는 배포. 미세 조정 없이 기성 VLM(Gemini, GPT-5, Qwen)을 사용합니다. 시각적 프롬프팅 인터페이스는 궤적 선택을 범용 VLM이 제로샷으로 해결할 수 있는 시각적 추론 작업으로 변환합니다. 이로 인해 VLA 훈련 데이터, 도메인 적응 또는 특수 모델 아키텍처가 필요하지 않습니다.

실험
평가는 세 가지 구성 요소로 이루어집니다: (1) 실제 주행 로그에 대한 오프라인 궤적 선택; (2) 통제된 손상 계획자와 VLM 지연 하에서의 폐쇄 루프 시뮬레이션, 지연 및 융합 정책의 효과 분리; (3) 실제 셀룰러 지연 하에서 캠퍼스 보도에서의 실제 배포.
VLM 지연 하에서의 폐쇄 루프 시뮬레이션
우리는 VLM이 폐쇄 루프에서 1-3초 지연 하에서도 여전히 유용한지, 그리고 융합이 지난 VLM 궤적의 직접 실행이 제공하지 못하는 여유를 보존하는지 연구합니다.

결론
우리는 1-2초 VLM 추론 지연에도 불구하고 지속적인 로봇 제어가 가능하도록 하는 지연에 강건한 VLM 보강 내비게이션 접근법을 제시했습니다. 핵심 통찰은 고속 계획자와 느린 VLM이 하나의 시스템으로 강제되기보다는 융합될 수 있는 상호 보완적인 능력을 제공한다는 것입니다. 기성 VLM은 의미적으로 도전적인 시나리오에서 궤적 선택에 뛰어나며(ADE 30% 감소), 학습된 계획자는 일상적인 상황에서 경쟁력을 유지합니다—따라서 VLM 전용 제어보다 융합 접근법이 동기 부여됩니다. 점수 및 확률 융합은 지연 하에서 지속적인 제어를 가능하게 합니다. 실제 배포에서 확률 융합과 VLM 스트리밍을 사용하면 계획자 전용 및 순진한 VLM 실행에 비해 인간 개입이 크게 줄어듭니다.
우리의 접근법은 계획자의 후보 집합을 상속받습니다; 좋은 후보가 없으면 VLM이 도움을 줄 수 없습니다. VLM 선택이 계획자를 항상 능가하는 것은 아닙니다: 일상적인 시나리오에서는 계획자의 학습된 점수 매기기가 충분한 경우가 많으며, VLM 쿼리는 계산 자원을 소모하면서 이점이 없습니다. 우리의 폐쇄 루프 시뮬레이터는 또한 VLM을 지연된 오라클로 모델링하여 실제 세계 장면 드리프트를 나타낼 수 없습니다. 다음 단계로는 계획자가 불확실할 때만 VLM을 호출하는 적응형 쿼리, 궤적 선택을 넘어 VLM과 계획자 간의 상호작용 연구, 더 현실적인 시뮬레이터에서 전체 시스템 테스트가 포함됩니다.
인터페이스 개요
우리의 VLM은 저수준 제어보다 궤적 선택을 수행합니다: 각 단계에서 고속 지역 계획자가 단기 수평선 후보 궤적들(4초 수평선)의 이산 집합을 제안하고, VLM은 (i) 다음에 실행할 후보 중 하나의 인덱스 또는 (ii) 안전한 것이 없을 때 정지 결정을 반환합니다. 이는 VLM 출력을 동적으로 실현 가능한 동작으로 제한하고 안전 폴백을 가능하게 합니다.
지역 계획자: 앵커 기반 후보 생성
우리는 지역 계획자로 S2E를 채택합니다. 확산 기반 내비게이션 모델(예: NoMaD)과 달리 S2E는 앵커 가이드 분포 매칭을 사용하여 구조화된 후보 궤적 집합을 생성합니다.
앵커 집합. 모델은 훈련 데이터에서 궤적 끝점에 대한 k-평균 클러스터링을 통해 얻은 64개의 앵커 포인트를 정의합니다. 각 앵커는 전형적인 행동 모드(예: 직진, 좌회전, 감속, 급회전)를 나타냅니다. 이 앵커들은 훈련 후 고정되며 교차 주목 디코더에서 쿼리로 사용됩니다.
아키텍처 및 출력. 현재 RGB 관찰(과거 4프레임)과 목표 좌표가 주어지면 EfficientNet 인코더와 Transformer 인코더가 장면 컨텍스트 임베딩을 생성합니다. 그런 다음 Transformer 디코더가 64개의 앵커 쿼리로부터 이러한 컨텍스트 임베딩에 교차 주목하여 앵커별 특징을 생성합니다. 세 개의 경량 헤드가 각 앵커 특징을 다음으로 디코딩합니다:
- 점수(softmax 정규화): 현재 상황에 대해 앵커가 최상의 행동 모드라는 모델의 신뢰도를 나타냄;
- 회귀 궤적: 20개의 웨이포인트 시퀀스(앵커로부터의 정규화된 오프셋), 로봇 프레임에서 4초, 20-웨이포인트 폴리라인을 형성;
- 속도 스케일: 정규화된 궤적을 미터법 좌표로 변환.
결과는 각각 연관된 계획자 점수가 있는 64개의 후보 궤적입니다. 파이프라인에서는 점수별로 상위 k개 후보(기본값 8)를 선택하여 VLM에 제시합니다.
후보 시각화(오버레이 디자인)
렌더링되는 내용. 전면 카메라 이미지 위에 다음과 같은 오버레이를 렌더링합니다:
- 색상 폴리라인으로 된 후보 궤적(또는 선택적으로 스위프된 발자국 회랑);
- 각 후보 끝점에 작은 점;
- 각 끝점 근처에 정수 인덱스 레이블(레이블 텍스트가 권위 있는 ID);
- 선택적 목표 신호(마젠타 GOAL 마커 및/또는 "매달린" 화살표).
투영 및 기하학. 후보는 바닥 평면에서 로봇 본체 프레임으로 정의되며, 경량 어안 투영을 사용하여 카메라 이미지에 투영됩니다. 오버레이 범례는 어안 왜곡이 이미지 가장자리 근처에서 정상임을 VLM에 상기시킵니다.
레이블-선 분해. 궤적이 겹칠 때 인덱스 혼동을 줄이기 위해 각 레이블은 궤적 색상과 일치하는 배경색으로 그려집니다. 레이블을 가독성을 위해 이동해야 하는 경우, 얇은 연결선이 레이블을 끝점 점에 연결합니다.
프롬프트 디자인
관심사 분리. 시스템 프롬프트는 안전 우선 정책을 강제하고 출력 형식을 정의합니다. 사용자 프롬프트는 단계별 상태를 제공합니다: 목표(있는 경우), 후보 수, 표시된 후보에 대한 표(기하학 포함, 선택적으로 계획자 신뢰도 포함—우리는 종종 앵커링을 피하기 위해 숨깁니다).
단기 수평선 의미론. 프롬프트는 후보가 4초만 다루며 목표가 화면 밖에 있고 수평선보다 훨씬 멀리 있을 수 있다고 명시적으로 언급합니다. 따라서 올바른 행동은 한 번에 "목표에 도달"하는 것이 아니라 진전을 이루는 지역적으로 안전한 후보를 선택하는 것입니다.
출력 검증 및 강건한 구문 분석
실행 및 평가를 강건하게 만들기 위해 VLM 출력을 검증하고 일반적인 형식 편차를 정규화합니다. 파서는 다음 경우를 순서대로 처리합니다:
- 코드 펜스 제거: 마크다운 코드 펜스(예: 삼중 백틱 json 블록)로 감싸진 JSON은 구문 분석 전에 추출됩니다.
- JSON 객체 추출: 첫 번째
{...}블록이 구문 분석됩니다. action-필드 값select_trajectory,select,stop,halt가 모두 허용됩니다. - 정수 폴백: 응답이 단일 정수인 경우(JSON 없음), 궤적 인덱스로 처리됩니다.
- 인덱스 검증: 반환된 인덱스가 표시된 레이블 집합에 없으면, 파서는 순위 기반 매핑(정수를 후보 테이블의 0 기반 행 인덱스로 해석)을 시도합니다. 매핑도 실패하면 출력은 유효하지 않은 것으로 처리됩니다.
구문 분석이 완전히 실패하거나 매핑 후 인덱스가 범위를 벗어나면, 단계를 무효로 처리하고 배포 시 안전 동작(계획자 argmax 또는 정지)으로 폴백합니다.
정책 및 지연 처리
우리는 세 가지 정책군을 평가합니다: (i) 지난 VLM 궤적의 직접 실행(VLM Hold 및 VLM Stream); (ii) 지난 VLM 궤적을 가장 가까운 현재 후보에 매칭(VLM Match); (iii) 여전히 현재 후보 중에서 선택하면서 지난 VLM 의도로 계획자 선택을 편향시키는 융합 정책(Score Fusion / Probability Fusion).
요청 스케줄링 및 파이프라이닝. 순차 요청 정책(이전 응답을 받은 후에만 다음 쿼리 제출; 단일 진행 중 요청)과 스트리밍 요청 정책(고정된 주기로 제출; 여러 개의 파이프라인된 진행 중 요청)을 구분합니다. 이 분리는 처리량 제한에서 지연의 효과를 분리합니다.
시스템 아키텍처
실제 시스템은 이중 속도 아키텍처를 따릅니다: 고속 온보드 지역 계획자가 지속적으로 단기 수평선의 동적 실현 가능 후보 궤적을 제안하는 반면, 느린 VLM은 궤적 선택 형태의 고수준 의도를 제공하기 위해 비동기적으로 쿼리됩니다. 중요하게도, 제어와 계획은 VLM 응답에서 절대 차단되지 않습니다. 대신 시스템은 (i) 재계산 수평선 루프에서 계획자를 실행하고 (ii) 본 논문에서 설명된 지연 처리 정책(직접 실행, 매칭 또는 융합)을 사용하여 가장 최근의 VLM 의도를 통합합니다.
비동기 실행 및 시간 정렬. 각 VLM 요청에는 단조 증가하는 요청 ID와 오버레이에 사용된 카메라 프레임의 타임스탬프가 태그됩니다. 응답이 도착하면, 정책은 (a) 요청 ID와 (b) 현재 후보 집합을 사용하여 현재 계획 틱에 정렬하며, 다음 중 하나를 적용합니다: (i) 홀드 스타일 실행(실현 가능할 때 지난 의도를 직접 실행), (ii) 매치(지난 의도를 가장 가까운 현재 후보에 매핑), 또는 (iii) 융합(여전히 최신 후보 중에서 선택하면서 지난 VLM 의도로 현재 계획자 선택을 편향). 유효한 VLM 출력이 없으면 시스템은 안전 기본값(보수적 정지와 함께 계획자 전용)으로 폴백합니다.
VLM 쿼리, 지연 처리 및 안전 메커니즘
쿼리 스케줄링. VLM은 오버레이 이미지와 텍스트 프롬프트를 사용하여 비동기적으로 쿼리됩니다. 두 가지 스케줄링 모드를 지원합니다:
- 순차(vlm_hold 및 vlm_hold_match에서 사용): 한 번에 하나의 요청만 진행 중; 이전 응답이 수신 및 처리된 후에만 다음 요청이 제출됩니다. 이는 응답당 최대 신선도를 보장하지만 처리량을 제한합니다.
- 스트리밍(vlm_stream, score_fusion_stream, prob_fusion_stream에서 사용): 이전 응답이 도착했는지 여부와 관계없이 고정된 주기(기본값 1Hz)로 요청이 제출되어 여러 진행 중 요청을 허용합니다. 응답이 반환될 때(가변 네트워크 지연으로 인해 순서가 바뀔 수 있음), 시스템은 쿼리 타임스탬프별로 최신 조언을 채택합니다.
출력 검증. 모든 VLM 출력은 구문 분석 및 검증됩니다. 유효하지 않은 출력(비정수 인덱스, 범위를 벗어난 인덱스, 또는 구문 분석 불가능한 형식)은 폐기되고 누락으로 처리됩니다.
인간 참여 안전. 모든 실제 주행에는 즉각적인 오버라이드 기능(원격 조종 또는 비상 정지)을 갖춘 훈련된 안전 운영자가 포함됩니다. 모든 개입은 즉시 현재 VLM 의도를 취소하고 제어를 안전 모드로 되돌립니다. 결과적인 인수 이벤트는 기록되어 본 논문에 보고된 안전 메트릭을 계산하는 데 사용됩니다. 속도 제한은 항상 적용되며, 로봇은 안전 정지가 항상 가능한 보행자 환경에서만 운영됩니다.
평가 프로토콜 및 메트릭
환경 및 경로. 평가는 보행자, 연석 절단, 표면 경계(잔디/화단), 교차로/갈림길과 같은 자연 장애물을 포함하는 실외 보행자 경로(예: 보도 및 캠퍼스 통로)에서 수행됩니다. 각 경로는 유사한 조건에서 방법당 여러 번 실행됩니다. 모든 센서 스트림, 계획자 후보, 선택된 인덱스 및 운영자 개입이 타임스탬프와 함께 기록됩니다.
주행 및 완료. 주행은 고정된 시작 자세에서 시작하여 로봇이 경로 끝점(작은 허용 오차 내)에 도달할 때까지 계속됩니다. 실험 프로토콜에서 모든 시도는 인수 횟수에 관계없이 완료됩니다: 인수가 발생하면 안전 운영자가 로봇을 안전한 자세로 수동으로 안내하고 자율 정책에 제어를 반환합니다. 그런 다음 주행은 그 지점에서 계속됩니다. 이는 모든 메트릭(인수율, 궤적 부드러움, 완료 시간)이 방법 간에 비교 가능하도록 보장합니다.
자주 묻는 질문
로봇 제어를 차단하지 않고 VLM 지연을 어떻게 처리합니까? 로봇은 이중 속도 아키텍처를 사용합니다. 고속 지역 계획자는 재계산 수평선 루프에서 지속적으로 실행되고, VLM 조언은 VLM 응답에서 절대 차단하지 않는 융합 정책을 사용하여 비동기적으로 통합됩니다.
저자들은 지난 VLM 조언과 최신 계획자 출력을 결합하기 위해 어떤 융합 정책을 평가했습니까? 점수 융합(Score Fusion)과 확률 융합(Probability Fusion)을 평가했습니다. 이들은 여전히 최신 후보 궤적 중에서 선택하면서 지난 VLM 의도로 현재 계획자의 궤적 선택을 편향시킵니다.
VLM이 항상 학습된 계획자보다 궤적 선택에서 더 나은 성능을 보입니까? 아니요, VLM은 의미적으로 도전적인 시나리오에서 뛰어나지만 학습된 계획자는 일상적인 상황에서 종종 경쟁력을 유지하므로, VLM 전용 제어보다 융합 접근법이 동기 부여됩니다.
VLM 출력은 어떻게 검증되고 형식 오류에 강건하게 만들어집니까? 파서는 코드 펜스 제거, JSON 추출, 정수 폴백, 순위 기반 매핑을 통한 인덱스 검증을 처리하며, 구문 분석이 완전히 실패하면 안전 동작으로 폴백합니다.
