인공지능/논문 리뷰 or 진행

RELAM: LEARNING ANTICIPATION MODEL FOR REWARDING VISUAL ROBOTIC MANIPULATION

이게될까 2025. 10. 19. 23:06
728x90
728x90

읭 논문을 잘 못 가져왔네요 

 

대충 보고 넘어가겠습니다.

 

https://arxiv.org/abs/2509.22402

 

ReLAM: Learning Anticipation Model for Rewarding Visual Robotic Manipulation

Reward design remains a critical bottleneck in visual reinforcement learning (RL) for robotic manipulation. In simulated environments, rewards are conventionally designed based on the distance to a target position. However, such precise positional informat

arxiv.org

로봇 조작에서 Vision 만으로는 좋은 보상을 설계하기 어렵기에 Vision입력에서 키포인트를 출력해 task의 진행 상황을 파악하고, 예측 모델이 중간 목표를 설정, 달성까지 키 포인트 거리로 보상을 만들어 정책을 학습한다!

 

 

문제 상황 • 시각 기반 조작에서 정확 위치/상태를 알 수 없어 거리형 밀집 보상 설계가 병목. 실제 환경은 잡음·가림·지각 모호성으로 보상 설계가 어렵고 확장성이 떨어짐.
• 관측만으로 보상을 학습하는 적대적 LfO는 고차원 시각 입력에서 학습 난이도·불안정성 문제, 휴리스틱 시각 보상은 희소/비구조 문제. 자동·구조적·밀집 보상이 필요.
방법론 비디오→키포인트 서브골: SAM으로 객체 분할→트래킹→대표 점(FPS) 선택→ 동작 변곡 키프레임을 서브골 시퀀스로 구성.
예측(anticipation) 모델: (초기/작업 프레임) 임베딩+DINOv2+과거 키포인트 토큰 → 오토리그레시브로 다음 서브골 키포인트 예측(상위 플래너).
보상 설계: 현재 키포인트–서브골 간 거리를 조각별 선형(piecewise-linear)로 밀집 보상화. 단계 성공/최종 성공 보상 포함. (r= r_{dense}+r_{success}+I(l_s <= θ_s)).
학습 프레임워크(HRL): 상위 모델이 서브골 커리큘럼 생성, 하위 목표조건 정책을 온라인(PPO)/오프라인(IQL)으로 학습.
이론 보장: 서브골 예측오차 (ϵ_A)·정책오차 (ϵ_π)에 대해 근사 최적성 경계 (V^*_{rt}-V^{π}_{rt} <= k(ϵ _π+2_ϵ_A/M)).
실험 설정 환경: Meta-World(사와이어 7-DoF; Drawer/Door/Button, 온라인 RL) + ManiSkill(Franka 7-DoF; Push/Pick, 오프라인 RL). 모든 관측은 256×256 고정 3인칭 카메라 이미지.
데이터: 과제별 비행동 비디오 100(서브골/예측모델 학습), 오프라인 제어 200(전문가 100+노이즈 100).
베이스라인: DACfO(적대적 모사), Diffusion Reward(확산 신뢰도 보상), Image Subgoal(IS: 이미지 서브골+표현거리), Oracle(GT 서브골·비현실).
주요 결과 온라인(Meta-World): ReLAM이 세 과제 모두에서 빠르고 높은 성공률(다른 기법은 느리거나 불안정).
오프라인(ManiSkill): Oracle 제외 최고, IS는 생성 노이즈·임계치 불안정으로 저하.
정량 예시(최종 성공률 %): Drawer 100.0 / Door 100.0 / Button 75.8 / Push 89.3 / Pick 88.0 (ReLAM).
어블레이션: 보상 함수 중 조각별 선형이 가장 안정/우수. 이미지 서브골 대비 포인트 서브골이 생성 난이도↓·안정성↑(AR vs GT 격차 작음).
기여(요지) 행동 없는 비디오로 과제 기하 구조를 담은 키포인트 서브골을 만들고, 이를 기반으로 밀집·구조적 보상을 자동 생성.
예측 모델(상위 플래너)+HRL 결합으로 장기 과제에서 목표 지향 커리큘럼을 형성해 학습 가속.
이론 경계로 방법의 타당성 제시, 시뮬레이터 전반에서 SOTA급 성능 달성.
한계 & 적용시 유의 시점 변화·가림에 민감(단일 카메라+트래킹 의존). 멀티뷰→포인트클라우드 융합으로 보완 제안.
스케일 한계(데이터/모델): 대형 VLM(Qwen-VL-2.5)·Open-X Embodiment 등으로 확장 필요.

 

더보기

한눈에 보는 핵심 요약

항목 내용
문제 실제 로봇 조작에서 시각 입력만으로 “좋은 보상”을 설계하기 어렵다(정확한 위치/상태 정보 부재). 그래서 RL이 느리고 불안정하다.
핵심 아이디어 시演(行) 영상 데모에서 키포인트(keypoints) 를 추출해 과제의 기하학적 진행을 요약하고, 이를 따르는 예측(anticipation) 모델중간 서브골을 생성 → 서브골까지의 키포인트 거리로 연속형 보상을 만들어 HRL 하위 정책을 학습.
입력/표현 첫 프레임에서 SAM으로 객체 분할→ 트래킹으로 픽셀 이동 궤적 추출→ FPS로 대표 키포인트 선택. 동작 변화가 큰 시점(키프레임)을 뽑아 그 프레임의 키포인트 좌표를 서브골 시퀀스로 사용.
예측 모델 DINOv2 고정 백본으로 두 장의 이미지(초기 프레임+작업 표시 프레임) 임베딩 + 과거 키포인트 토큰을 결합해 12-layer causal Transformer로 다음 키프레임의 키포인트 좌표를 오토리그레시브 예측(MSE, teacher forcing).
보상 현재 키포인트와 서브골 키포인트 간 평균 유클리드 거리로 단계 보상 정의. 조각별 선형(piecewise-linear) 변환이 가장 잘 작동. 전체 보상: (r = r_{\text{dense}} + r_{\text{success}} + \mathbb{I}(l_s \le \theta_s)).
학습 상위(예측 모델)로 서브골 생성 → 하위 정책은 HRL 구조에서 PPO(SB3) 로 온라인(Meta-World), IQL(OfflineRL-kit) 로 오프라인(ManiSkill) 학습. 입력은 이미지 + 현재/목표 키포인트. 서브골 달성 시 trajectory를 분할(terminal 처리)해 GAE 안정화.
데이터/환경 Meta-World(Drawer/Door/Button; 온라인 RL) + ManiSkill(Push/Pick Cube; 오프라인 RL). 각 과제별 비행동(Videos only) 데모 100 + 오프라인 제어 데이터 200(전문가 100 + 노이즈 100). 입력은 256×256 RGB.
결과(정성) Meta-World 전 과제에서 ReLAM이 경쟁법보다 빠르고 높은 성공률. ManiSkill에서도 Oracle(치팅) 제외 최고 수준이며, 이미지-서브골(IS)은 노이즈/임계치 불안정으로 크게 열세.
결과(수치 예) 최종 평가 성공률(%) 예시: Meta-World Drawer 100.0, Door 100.0, Button 75.8 / ManiSkill Push 89.3, Pick 88.0 (ReLAM).
이론 예측 모델 오차(서브골 편차 ( \epsilon_A))와 하위 정책 아차(( \epsilon_\pi))에 대한 근사 최적성(sub-optimality) 경계: (V^*{rt} - V^{\text{ReLAM}}{rt} \le k(\epsilon_\pi + 2\epsilon_A/M)).
한계 단일 시점 카메라/가림(occlusion)에 취약, 시야 변화에 민감 → 다중 시점·포인트클라우드로 보완 제안. 스케일(데이터/모델) 한정.

1) 문제 정의(Why)

  • 실세계 시각 조작에서 정확 좌표/상태가 없어 거리 기반 밀집 보상 설계가 힘들다 → LfO/GAIL 류는 고차원 영상에서 불안정, 표현거리/생성기반 보상은 희소·노이즈·구조성 결여 문제. 이를 자동화되고 구조적이며 밀집한 시각 보상으로 대체하는 것이 목표.

2) 핵심 방법(ReLAM) — 단계별 파이프라인

(A) 서브골 데이터셋 생성

  1. 키포인트 선택
    • 첫 프레임에서 SAM으로 작업 객체 분할 → 객체 픽셀을 트래킹하여 이동 범위가 작은 픽셀 제거 → FPS로 대표 점 소수 선택. 과제 상태를 고수준으로 압축 표현.
  2. 키프레임 선택
    • 비디오 전 구간에서 동작 변화가 큰 시점(선형 이동 구간 경계)을 선택, 해당 프레임의 키포인트 좌표를 서브골로 정의.

결과: (초기 프레임의 키포인트, 이어지는 키프레임들의 키포인트 좌표)로 구성된 서브골 시퀀스 데이터셋.

(B) 예측(anticipation) 모델 학습

  • 입력: (초기 프레임 + 작업표시 프레임) 256×256 RGB를 DINOv2(frozen)로 패치 임베딩 → 과거 키포인트 좌표를 MLP로 임베딩해 함께 토큰화.
  • 모델: 12층 causal Transformer오토리그레시브로 다음 키프레임의 키포인트 좌표를 예측(MSE, teacher forcing).

(C) 포인트-기반 보상으로 정책 학습(HRL)

  • 에피소드 시작 시 예측 모델이 서브골 시퀀스 (P_1,\dots,P_k) 생성.
  • 현재 키포인트 (p_k)와 목표 키포인트 (p_{j}) 사이의 평균 제곱거리 (l)로 단계 손실 정의 → 조각별 선형(piecewise-linear) 변환으로 연속형 밀집 보상 (r_{\text{dense}}) 생성. 서브골 도달 시 보상 추가 및 다음 단계로 진행.
    [
    r ;=; r_{\text{dense}} + r_{\text{success}} + \mathbb{I}(l_s \le \theta_s)
    ]
    (실험적으로 조각별 선형이 선형/지수/로지스틱보다 안정적·효율적.)
  • 온라인 RL(Meta-World): SB3의 PPO 변형 사용—서브골 달성 시 terminal=True로 trajectory를 단계별 분할하여 GAE를 안정화, 보상 스케일링 적용. 입력은 이미지 CNN + (현재/목표)키포인트 MLP 결합.
  • 오프라인 RL(ManiSkill): IQL로 학습(OfflineRL-kit). 예측된 서브골 기반으로 거리 보상 라벨링 후 학습.

(D) 이론적 근거

  • 이상적 최단 경로를 이루는 서브골 경로에 대해, 예측 오차와 하위 정책 오차에 따른 근사 최적성 경계 제시:
    [
    V^*{rt} - V^{\text{ReLAM}}{rt} \le k!\left(\epsilon_\pi + \frac{2\epsilon_A}{M}\right)
    ]
    (여기서 (k): 서브골 단계 수, (M): 1스텝 최대 이동량).

3) 실험 설정

  • 환경: Meta-World(사와이어 7-DoF; Drawer/Door/Button), ManiSkill(Franka 7-DoF; Push/Pick Cube). 모든 관측은 256×256 RGB(고정 카메라). 온라인RL(Meta-World), 오프라인RL(ManiSkill).
  • 데이터: 과제별 비행동 영상 데모 100(서브골 학습용), 오프라인 제어 200(전문가 100 + 노이즈 100).
  • 비교 기법: DACfO(관측만 이용하는 적대 모사), Diffusion Reward(영상 확산모델 조건 엔트로피), Image Subgoal(IS; 이미지 서브골+표현거리 보상), Oracle(GT 서브골—실제 불가, 상한).

4) 결과 및 분석

(A) Meta-World(온라인)

  • ReLAM은 더 빠르게 높은 성공률에 도달, DACfO는 학습 변동성 큼, IS는 노이즈/임계치 불안정으로 저조.
  • 최종 성공률(%) 예: Drawer 100.0 / Door 100.0 / Button 75.8(ReLAM).

(B) ManiSkill(오프라인)

  • Oracle 제외 최고 성능. IS는 이미지 생성 품질/유사도 임계치 문제로 크게 저하. Diffusion Reward, DACfO는 전문가 분포 근처 보상을 부여해 서로 비슷하지만 ReLAM에 못 미침(목표 지향적 거리 보상이 유효).
  • 최종 성공률(%) 예: Push 89.3 / Pick 88.0(ReLAM).

(C) 어블레이션

  • 키포인트 수: 4개가 최적(팔 3 + 객체 1). 너무 많으면 예측 난이도·행동 제약 ↑로 성능 저하.
  • 보상 함수: 조각별 선형이 가장 안정적/효율적(선형/지수/로지스틱 대비).
  • 생성 서브골 vs GT: 성능 격차가 작아 예측 모델 정확도 충분. 이미지를 서브골로 쓰면(IS) 급락—포인트 표현이 생성 난이도/보상 안정성 측면에서 유리.

5) 기여(Contribution)

  1. 행동 없는 영상 데모만으로 서브골을 뽑고 밀집·구조적 보상을 자동 생성하는 키포인트-거리 보상 프레임워크 제안.
  2. 예측 모델(anticipation)→HRL 결합으로, 장기 과제에서 탐색을 목표 지향적으로 유도(실험 및 t-SNE 시각화로 타당화).
  3. 이론적 경계로 근사 최적성 보장(서브골 오차·정책 오차의 선형 누적 한계).
  4. 광범위 벤치마크(Meta-World/ManiSkill)에서 SOTA급 성능/학습 속도.

6) 한계와 향후 과제

  • 시점 변화/가림에 취약(단일 카메라 + 트래킹 의존). → 멀티뷰 융합(포인트클라우드) 로 강건화 제안.
  • 스케일: 데이터/모델 크기가 제한적 → 대규모 VLM/로봇 데이터로 확장 제안.

7) 구현 세부(재현 핵심)

  • 예측 모델: DINOv2 frozen, 입력(초기/작업 프레임) 패치 임베딩 + 과거 키포인트 토큰, 12-layer causal Transformer, 좌표 잔차(residual) 예측, MSE, teacher forcing.
  • 정책 네트워크: 이미지 CNN(3층) + (현재/목표)키포인트 MLP → 결합 후 MLP 헤드. PPO는 서브골 달성 시 terminal=True로 분할·GAE 안정화, 보상 스케일링 적용. 오프라인은 IQL.
  • 보상 함수: (거리 → 조각별 선형) 공식과 경사 설계 지침 제공(목표 근처 기울기 ↑).
  • 데이터셋: 과제별 비행동 비디오 100(서브골 학습), 오프라인 제어 200(IQL/오프라인 라벨링), 모든 과제 256×256 RGB.

8) 실험 결과를 이해하기 위한 포인트

  • 왜 포인트인가? 이미지 서브골은 생성 품질/표현 유사도 임계치의 불안정 문제가 크다. 포인트는 생성 난도↓, 보상 정의가 직관적(거리) 이라 임계치 튜닝 부담↓.
  • 왜 조각별 선형인가? 목표 접근 시 격려 경사를 높이고(기울기 증가), 전체는 안정적—정순 선형/지수/로지스틱 대비 학습 안정·속도 모두 우수.

필요하시면, 위 내용을 바탕으로 재현용 체크리스트(데이터 준비→서브골 생성→예측 모델 학습→보상 라벨링→PPO/IQL 설정) 도 만들어드릴게요.

 

 

728x90