새 알고리즘 UBP2, 불확실성을 활용해 선호도로부터 로봇 보상 학습 (2026)

연구진이 개발한 UBP2는 선호 기반 강화학습 방법으로, 기대 보상과 모델 불확실성의 균형을 통해 탐색을 능동적으로 유도합니다. 이 접근법은 로봇이 제한된 인간 선호 피드백만으로도 기존의 모델 프리 및 비낙관적 모델 기반 방법보다 효율적으로 조작 작업을 학습할 수 있게 합니다.

연구진이 구축한 것

UBP2(Uncertainty-Balanced Preference Planning)는 모델 기반 강화학습 알고리즘으로, 명시적인 수치 보상 대신 쌍별 선호 비교(pairwise preference comparisons)를 통해 로봇 행동을 학습하도록 설계되었습니다. 이 방법은 선호 기반 RL의 핵심 병목 현상, 즉 인간이 응답할 수 있는 질의 수가 제한된 상황에서 가장 유용한 데이터를 수집하는 방법을 해결합니다.

핵심 혁신은 낙관적 탐색 전략으로, 세 개의 별도 딥 앙상블 모델(동역학(다음 상태 예측), 보상 함수(선호도로부터 추론), 가치 함수)을 사용합니다. 피드백 단계에서 UBP2는 예상 누적 보상과 세 앙상블 모두에서 파생된 불확실성 보너스를 결합한 통합 점수를 사용하여 궤적을 계획합니다. 이는 로봇이 동역학, 보상 또는 최종 가치에 대해 불확실한 상태를 방문하도록 유도하여 학습에 가장 유용한 데이터를 수집합니다.

선호도 예산이 소진되면 시스템은 추가 계획 없이 빠르게 행동을 실행하는 표준 학습 정책으로 전환합니다. UBP2는 또한 낙관적 질의 선택 전략을 포함합니다. 즉, 예측 보상이 높고 보상 모델 불확실성도 높은 세그먼트 쌍을 인간 트레이너에게 제시하여 각 질의가 주요 모호성을 해소하도록 합니다.

주요 결과

고유 감각 관측(proprioceptive observations)만 사용하는 다섯 가지 Meta-World 조작 작업(문 열기, 버튼 누르기, 조립 등)에서 UBP2는 모델 프리 및 비낙관적 모델 기반 선호 기반 RL 기준선의 성공률을 일관되게 능가하거나 동등했으며, 환경 상호작용 횟수는 더 적었습니다. 이 방법은 다섯 가지 작업 모두에서 PEBBLE(모델 프리) 및 MBP(비낙관적 모델 기반)보다 더 빠르게 작업 성공을 달성했습니다.

이론적 분석은 유한 시간 지평에 대한 후회 한계(regret bounds)가 에피소드 수에 따라 서브선형적으로 증가함을 보여주며, 학습된 동역학 및 보상 모델의 최대 정보 이득에 명시적으로 의존합니다. 이는 UBP2의 탐색 효율성이 표준 평활성 가정 하에서 거의 최적임을 의미합니다.

고차원 시각 관측(DinoV2 인코딩 사용)으로 확장했을 때, UBP2는 Walker Walk 및 Cheetah Run 작업 모두에서 비낙관적 모델 기반 기준선을 능가했으며, Walker Walk에서는 모델 프리 방법과 동등하거나 더 나은 성능을 보였습니다. Cheetah Run에서는 모델 프리 방법이 여전히 가장 우수하여, 시각 기반 동역학 모델이 여전히 어려운 과제임을 시사합니다.

작동 방식

UBP2는 두 단계로 작동합니다: 피드백 가능 계획 단계와 피드백 소진 실행 단계입니다. 첫 번째 단계에서는 모든 행동 선택이 단기간 모델 예측 제어(Model Predictive Control) 문제를 해결하는 것을 수반합니다. 플래너는 학습된 동역학 모델을 통해 궤적을 시뮬레이션하고, 예측 보상의 합에 세 앙상블 모두의 불확실성 패널티를 더한 점수를 계산하여 후보 행동 시퀀스를 평가합니다.

플래너 목적 함수 = 예측 누적 보상 + α × (동역학 불확실성 + 보상 불확실성 + 가치 불확실성)

불확실성은 앙상블 멤버 간의 분산으로 측정됩니다. 낙관적으로 계획함으로써(즉, 불확실성이 높은 영역으로 이끄는 행동에 보상), UBP2는 자동으로 활용(알려진 고보상 상태 추구)과 탐험(상태 공간의 불확실한 부분에서 데이터 수집) 사이의 균형을 맞춥니다.

선호도 질의는 궤적 세그먼트 쌍을 비교하여 생성됩니다. 무작위 쌍 대신, UBP2는 예측 보상이 높고 보상 모델 불확실성도 높은 쌍을 선택합니다. 이는 각 인간 질의가 가장 유용한 비교를 대상으로 하여 보상 학습을 가속화합니다.

동역학 모델은 확률적 신경망의 앙상블을 사용하며, 각각 다음 상태 분포를 예측합니다. 보상 모델도 유사하지만, Bradley-Terry 손실을 통해 선호 비교로 직접 훈련됩니다. 가치 모델은 예측 보상 하에서 상상된 롤아웃(imagined rollouts)으로부터 학습된 딥 Q-네트워크의 앙상블입니다.

질의 예산이 소진된 후에는 계획 구성 요소가 비활성화됩니다. 에이전트는 학습된 가치 함수를 탐욕적으로 따라가며, 더 이상의 값비싼 계획 없이 보상 및 동역학 모델만을 사용하여 행동을 안내합니다.

구성 요소	모델 유형	불확실성 원천	훈련 신호
동역학	딥 앙상블 (확률적)	앙상블 간 분산	실제 상태 전이
보상	딥 앙상블 (확률적)	앙상블 간 분산	선호 비교
가치	딥 앙상블 (Q-함수)	앙상블 간 분산	학습된 보상 하 롤아웃

로봇 공학에 미치는 의의

선호 기반 RL은 많은 작업에서 보상 함수를 명시하기 어렵기 때문에 로봇 공학에 자연스럽게 적합합니다. 복잡한 보상을 설계하거나 사용자에게 수치 점수를 요구하는 대신, 트레이너는 단순히 "왼쪽 궤적이 더 좋습니다"라고 말할 수 있습니다. UBP2의 불확실성 기반 질의 선택은 필요한 비교 횟수를 줄여 실제 배포에 실용적입니다.

질의 소진 후 계획에서 정책 실행으로 전환하는 이 방법의 능력도 실용적입니다. 훈련 중에는 로봇이 널리 탐험하고, 훈련 후에는 빠른 반응형 정책을 실행합니다. 이러한 분리는 초기 인간 시연 비용이 높지만 최종 실행은 신속해야 하는 창고나 조립 라인에서 채택될 수 있습니다.

UBP2가 세 가지 별도 불확실성 추정치를 사용하는 점은 주목할 만합니다. 대부분의 이전 연구는 보상 또는 동역학 중 하나의 불확실성만 고려했지만, 세 가지 원천을 모두 포함하면 더 목표 지향적인 탐색이 가능합니다. 집기-놓기(pick-and-place)나 문 열기를 배우는 로봇 팔의 경우, 현재 기준선 방법에 비해 필요한 질의 수를 절반으로 줄일 수 있습니다.

한계와 미해결 과제

이론적 분석은 동역학 및 보상 모델이 잘 보정된 가우시안 프로세스라고 가정하지만, 실제로 UBP2는 딥 앙상블을 사용합니다. 딥 앙상블은 종종 신뢰할 수 있는 불확실성 추정치를 제공하지만, GP만큼 이론적 근거가 확고하지는 않습니다. 저자들은 선호 학습 오차가 후회 한계에서 완전히 특성화되지 않아 실제로 필요한 질의 수를 보장하기 어렵다고 지적합니다.

시각 영역에서 UBP2의 성능은 Cheetah Run 작업에서 모델 프리 방법에 뒤처져, 학습된 시각 기반 동역학이 여전히 약점임을 시사합니다. 향후 연구에서는 더 나은 잠재 표현이나 사전 훈련된 시각 인코더를 통합해야 할 수 있습니다.

자주 묻는 질문

선호 기반 강화학습이란 정확히 무엇인가요? 로봇에 수치 보상 신호를 주는 대신, 인간이 로봇 행동의 두 짧은 비디오 클립을 비교하여 어느 쪽이 더 선호되는지 표시합니다. 알고리즘은 이러한 비교로부터 보상 함수를 추론합니다.

UBP2는 어떻게 불확실성을 사용하여 더 잘 계획하나요? UBP2는 계획 중 예측된 수익에 불확실성 보너스를 추가합니다. 이는 로봇이 동역학, 보상 또는 가치에 대해 불확실한 상태를 방문하도록 장려하여 전체 불확실성을 가장 많이 줄이는 데이터를 수집합니다.

UBP2는 어떤 종류의 로봇이나 작업에 적용될 수 있나요? 이 방법은 문 열기, 버튼 누르기와 같은 시뮬레이션 조작 작업에서 테스트되었으며, 고유 감각 센서와 카메라 이미지 모두에서 작동합니다. 실제 로봇 팔, 이동 매니퓰레이터 또는 인간이 두 행동을 비교할 수 있는 모든 제어 작업에 적용할 수 있습니다.

UBP2는 PEBBLE과 같은 더 간단한 선호 기반 방법과 어떻게 비교되나요? UBP2는 5가지 Meta-World 작업에서 일관되게 더 높은 성공률을 달성하고 더 적은 환경 상호작용이 필요했습니다. 불확실성 기반 계획이 비낙관적 기준선(MBP) 및 모델 프리 방법(PEBBLE)에 비해 핵심 이점입니다.

결론

UBP2는 동역학, 보상 및 가치 모델의 불확실성을 단일 계획 목표로 결합하는 원칙적인 방법을 선호 기반 RL에 도입합니다. 피드백 단계에서 적극적으로 유용한 데이터를 찾고 이후 빠른 실행으로 전환함으로써, 인간 선호도로부터 샘플 효율적인 로봇 학습을 위한 실용적인 경로를 제공합니다.