인공지능/강화학습

강화학습 12강 - Deep RL 심화

이게될까 2024. 6. 9. 15:32
728x90
728x90

 

Value optimization 방식

 

Neural Fitted Q Iteration (NFQ)

신경망을 활용하여 Q 함수를 근사한다. 
기본 뉴럴넷 형식이고, Q를 뉴럴넷으로 구현하였다.

장 : 비선형 함수 근사를 통해 복잡한 환경에서도 사용 가능하다.
단 : 데이터 활용 측면에서 효율성 떨어짐

 

Deep Q Learning (DQN)

심층 신경망을 활용하여 Q 함수를 근사한다.

장 : replay memory를 사용하여 샘플 효율성을 높였다.
단 : 불안정한 학습과 과적합 문제가 발생 가능하다. 

Q를 뉴럴넷을 통해 구한다. == 학습이 불안정해지고, 오버피팅이 발생할 수 있다.
데이터 셋이 많을 수록 좋아진다. -> 데이터 샘플이 편향성을 가지지 않고, 다양한 형태를 가져야 한다 == Q를 학습하는데 편향이 될 수 있다. 
Q가 에피소드 끝까지 진행 후 학습을 진행하면 조금 괜찮으나 끝까지 가기 어렵기 때문에 TD와 같은 방식을 사용하며 불안정해진다.

 

더보기

NFQ(Neural Fitted Q Iteration)와 DQN(Deep Q-Learning)은 둘 다 Q-함수를 신경망으로 근사하지만, 그 차이는 신경망의 깊이뿐만 아니라 다른 여러 측면에서도 나타납니다. 아래에서 두 알고리즘의 주요 차이점을 설명하겠습니다.

NFQ (Neural Fitted Q Iteration)

특징:

  1. 비선형 함수 근사:
    • NFQ는 Q-함수를 비선형 신경망으로 근사합니다. 이는 단순히 선형 모델을 사용하는 것보다 더 복잡한 상태-액션 공간을 학습할 수 있게 합니다.
  2. 훈련 방식:
    • NFQ는 일반적으로 배치(batch) 학습을 사용합니다. 이는 모든 경험을 한 번에 네트워크에 전달하여 훈련합니다.
    • 경험을 수집한 후, Q-함수를 한 번에 업데이트합니다.
  3. 사용 데이터:
    • NFQ는 주로 과거 경험 데이터셋을 사용하여 훈련합니다. 이 데이터셋은 정적일 수 있으며, 업데이트 과정에서 추가 경험을 수집하지 않을 수 있습니다.
  4. 알고리즘의 단계:
    • 환경에서 경험 데이터를 수집합니다.
    • 수집된 데이터를 통해 신경망을 업데이트합니다.

장점:

  • 비선형 함수 근사를 통해 복잡한 환경에서 학습할 수 있습니다.

단점:

  • 배치 학습으로 인해 메모리와 계산 자원이 많이 필요할 수 있습니다.
  • 데이터 활용 효율성이 낮을 수 있습니다.

DQN (Deep Q-Learning)

특징:

  1. 심층 신경망 사용:
    • DQN은 심층 신경망(딥 러닝)을 사용하여 Q-함수를 근사합니다. 이는 여러 층을 통해 복잡한 패턴을 학습할 수 있게 합니다.
  2. 재현 메모리 (Replay Memory):
    • DQN은 경험 재현 메모리를 사용하여 샘플 효율성을 높입니다. 에이전트는 경험을 수집한 후, 이 경험을 재현 메모리에 저장합니다.
    • 학습 시, 재현 메모리에서 무작위로 미니배치를 샘플링하여 Q-함수를 업데이트합니다.
  3. 타깃 네트워크 (Target Network):
    • DQN은 타깃 네트워크를 사용하여 학습의 안정성을 높입니다. 이는 학습 네트워크의 가중치를 일정 간격으로 타깃 네트워크에 복사하는 방식으로, 목표 값의 변동성을 줄입니다.
  4. 알고리즘의 단계:
    • 에이전트가 환경과 상호작용하며 경험을 수집합니다.
    • 경험을 재현 메모리에 저장합니다.
    • 재현 메모리에서 무작위로 미니배치를 샘플링하여 신경망을 업데이트합니다.
    • 일정 간격으로 타깃 네트워크를 업데이트합니다.

장점:

  • 재현 메모리를 통해 샘플 효율성을 높이고, 경험의 중복 사용을 통해 학습 성능을 향상시킵니다.
  • 타깃 네트워크를 사용하여 학습의 안정성을 높입니다.

단점:

  • 학습 과정이 불안정할 수 있으며, 과적합 문제가 발생할 수 있습니다.
  • 메모리와 계산 자원이 많이 필요합니다.

요약

  • NFQ는 배치 학습과 비선형 함수 근사를 통해 Q-함수를 학습합니다. 이는 복잡한 환경에서도 학습이 가능하지만, 데이터 활용 효율성이 낮고 메모리와 계산 자원이 많이 필요할 수 있습니다.
  • DQN은 심층 신경망, 재현 메모리, 타깃 네트워크를 사용하여 Q-함수를 학습합니다. 이는 샘플 효율성을 높이고 학습의 안정성을 높이지만, 학습 과정이 불안정할 수 있으며 과적합 문제가 발생할 수 있습니다.

따라서 NFQ와 DQN은 신경망을 사용하여 Q-함수를 근사한다는 공통점이 있지만, 학습 방법, 경험 데이터 활용, 그리고 학습 안정성 측면에서 차이가 있습니다.

 

Double DQN

두개의 Q함수를 사용하여 Q 값의 과추정을 줄였다.
참조하는 Q는 매번 학습하는 것이 아니라 일정 턴마다 학습한다.

장 : Q 값의 과추정을 줄여 학습 안정성을 높였다. 
단 : DQN에 비해 계산 비용이 증가

 

Dueling DQN

상태 가치 함수와 이득 함수를 분리하여 Q 함수를 근사하였다.
두 개의 Q를 이용하는 것이 아니라 V와 A를 통해 Q를 구한다.(A = Q - V)
A는 action 자체의 가치로 복잡해 보이나 성능이 많이 오른다.

장 : 상태의 가치와 행동의 이득을 분리하여 더 안정적인 Q 값 추정 가능하다.
단 : 구현이 복잡하고 계산 비용이 증가한다.

 

Prioritized Replay DQN

중요한 경험을 우선적으로 학습하도록 재현 메모리를 개선하였다.
샘플 자체의 중요도가 다를 수 있다. => 중요도(Pi)를 설정하여 중요도가 높은 것을 우선 or 여러 번 학습한다.
TD error = 현재 Q와 다음 Q의 차이 == 내가 경험했을 때 얼마나 변화하냐 -> 값이 크게 변하면 중요한 샘플 
무조건 변화가 큰 것이 중요도가 높은 것은 아니지만 수렴에 크게 기여한다.
알파를 키울수록 우선순위가 강조된다.

장 : 중요 경험을 우선 학습하여 샘플 효율성을 높였다.
단 : 재현 메모리 관리가 복잡하고, 추가적인 계산 비용을 발생한다. 

 

Rainbow

DQN + Double DQN + Deuling DQN + Prioritized Experience Replay + Multi-step learning + Distributional RL + Noisy Networks
Distribution - 분산 : 여러개를 만들어 개별적으로 학습 후 모아서 최종 모델 만들기 - 비동기식 엑터 크리틱

장 : 다양한 DQN 변형을 결합하여 높은 성능을 보인다.
단 : 구현이 복잡하고 계산 비용이 매우 높다.

 

Policy optimiztion methods

 

Reinforce

에피소드 단위로 누적된 보상을 기반으로 정책을 업데이트한다.
G를 일반화 해서 사용하기도 한다. r, Q, V, A 등 다양하게 가능하다.

장 : 직접 정책을 최적화 하므로 높은 표현력 가능
단 : 높은 분산으로 인해 학습이 불안정할 수 있다.

 

Deep deterministic policy gradient (DDPG)

연속 행동 공간에서 사용되는 Actor Critic 방식이다.
액터를 위한 목적함수 : 정책 함수를 만들어서 극대화 한다.
크리틱을 위한 목적 함수 : Q를 뉴럴넷으로 학습시켜 최소화 한다.

장 : 연속 행동 공간에서 효과적으로 학습 가능하다
단 : 하이퍼파라미터 튜닝이 까다롭다.

 

Ansynchronous advantage Actor-Critic (A3C)

병렬 학습을 통해 정책과 가치 함수를 학습한다.
개별적으로 학습 후 합치거나 데이터 샘플을 여러 개 모아 커다란 데이터 셋을 만들어 학습 시킬 수 있다.
싱크가 맞아야만 효과가 있다.(on-Policy 라던지...)

장 : 병렬 학습을 통해 학습 속도 향상
단 : 동기화 오버헤드 발생 가능 

 

Actor-Critic with experience replay(ACER)

경험 재현을 통해 A3C의 단점을 보완하였다.

장 : 경험 재현을 통해 학습 안정성 향상
단 : 재현 메모리 관리의 복잡성 증가 

 

Generalized advantage estimation(GAE) 

가치 추정의 편향을 줄이기 위해 사용한다.
감마를 빼서 곱한다 == n-step로 보면 된다. 추정된 advantage를 확인한다.

장 : 가치 추정의 편향 감소
단 : 계산 비용의 증가 

 

Twin delayed DDPG(TD3)

DDPG의 단점을 보완하였다.
Q를 두개 만들고, 시작점이 다르다 => 각각 업데이트 하면서 가지고 가고, 참조할 땐 작은 것을 참조한다.

장 : Q값의 과추정 문제 완화
단 : 계산 비용 증가 

 

Soft actor-critic(SAC)

엔트로피 정규화를 통해 정책의 탐험성을 증가

장 : 안정적이고 샘플의 효율적인 학습 가능
단 : 엔트로피 매개변수 알파의 튜닝이 필요하다.

 

Trust region policy optimization (TRPO)

정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높였다.

장 : 정책 업데이트의 신뢰 영역을 제한하여 안정적 학습 가능
단 구현 복잡성과 계산 비용 증가 

 

Proximal policy optimization (PPO)

정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높였다.
old - 타겟, Theta - 현재
두 개의 비율을 이용해 곱해준다.
ACER과 비슷한 느낌이다. 

장 : 구현이 비교적 간단하고, 효율적인 학습이 가능하다.
단 : 하이퍼파라미터 입실론의 적절한 설정이 필요하다.

 

더보기

12. Deep RL 심화

강의 내용은 두 가지 주요 주제로 나누어집니다:

  1. Value optimization methods
  2. Policy optimization methods

12.1 Value Optimization Methods

Neural Fitted Q Iteration (NFQ):

  • 신경망을 사용하여 Q-함수를 근사
  • 비선형 함수 근사를 통해 복잡한 환경에서도 학습 가능
  • 데이터 활용 측면에서 효율성이 떨어짐

Deep Q learning (DQN):

  • 심층 신경망을 사용하여 Q-함수를 근사
  • 재현 메모리(replay memory)를 사용하여 샘플 효율성을 높임
  • 불안정한 학습과 과적합 문제 발생 가능

Double DQN:

  • 두 개의 Q-함수를 사용하여 Q-값의 과추정을 줄임
  • 학습 안정성을 높임
  • 계산 비용이 증가

Dueling DQN:

  • 상태-가치 함수와 이득 함수를 분리하여 Q-함수를 근사
  • 상태의 가치와 행동의 이득을 분리하여 더 안정적인 Q-값 추정 가능
  • 구현이 복잡하고 계산 비용이 증가

Prioritized Replay DQN:

  • 중요한 경험을 우선적으로 학습하도록 재현 메모리를 개선
  • 중요 경험을 우선 학습하여 샘플 효율성을 높임
  • 재현 메모리 관리가 복잡하고 추가적인 계산 비용 발생

Rainbow:

  • DQN, Double DQN, Dueling DQN, Prioritized Experience Replay, Multi-step learning, Distributional RL, Noisy Networks를 결합하여 높은 성능을 발휘
  • 구현이 복잡하고 계산 비용이 매우 높음

알고리즘 비교:

  • NFQ: 복잡한 환경 학습 가능, 대규모 데이터 학습 어려움
  • DQN: 샘플 효율성 증가, 불안정한 학습
  • Double DQN: Q-값 과추정 감소, 계산 비용 증가
  • Dueling DQN: 안정적 Q-값 추정, 구현 복잡성 증가
  • Prioritized Replay DQN: 샘플 효율성 증가, 관리 복잡성 증가
  • Rainbow: 높은 성능, 계산 비용 증가

12.2 Policy Optimization Methods

REINFORCE (Monte Carlo Policy Gradient):

  • 에피소드 단위로 누적된 보상을 기반으로 정책을 업데이트
  • 직접 정책을 최적화하므로 높은 표현력 가능
  • 높은 분산으로 인해 학습이 불안정할 수 있음

Deep Deterministic Policy Gradient (DDPG):

  • 연속 행동 공간에서 사용되는 Actor-Critic 방법
  • 연속 행동 공간에서 효과적으로 학습 가능
  • 하이퍼파라미터 튜닝이 까다로움

Asynchronous Advantage Actor-Critic (A3C):

  • 병렬 학습을 통해 정책과 가치 함수를 학습
  • 병렬 학습을 통해 학습 속도 향상
  • 동기화 오버헤드 발생 가능

Actor-Critic with Experience Replay (ACER):

  • 경험 재현을 통해 A3C의 단점을 보완
  • 경험 재현을 통해 학습 안정성 향상
  • 재현 메모리 관리의 복잡성 증가

Generalized Advantage Estimation (GAE):

  • 가치 추정의 편향을 줄이기 위해 사용
  • 가치 추정의 편향 감소
  • 계산 비용 증가

Twin Delayed DDPG (TD3):

  • DDPG의 단점을 보완
  • Q-값의 과추정 문제 완화
  • 계산 비용 증가

Soft Actor-Critic (SAC):

  • 엔트로피 정규화를 통해 정책의 탐험성을 증가
  • 안정적이고 샘플 효율적인 학습 가능
  • 엔트로피 매개변수 𝛼의 튜닝 필요

Trust Region Policy Optimization (TRPO):

  • 정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높임
  • 정책 업데이트의 신뢰 영역을 제한하여 안정적 학습 가능
  • 구현 복잡성과 계산 비용 증가

Proximal Policy Optimization (PPO):

  • 정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높임
  • 구현이 비교적 간단하고 효율적인 학습 가능
  • 하이퍼파라미터 𝜖의 적절한 설정 필요

알고리즘 비교:

  • REINFORCE: 높은 표현력, 높은 분산으로 인한 학습 불안정
  • DDPG: 연속 행동 공간에서 효과적 학습, 하이퍼파라미터 튜닝 까다로움
  • A3C: 병렬 학습으로 학습 속도 향상, 동기화 오버헤드 발생 가능
  • ACER: 학습 안정성 향상, 재현 메모리 관리의 복잡성 증가
  • GAE: 가치 추정의 편향 감소, 계산 비용 증가
  • TD3: Q-값 과추정 문제 완화, 계산 비용 증가
  • SAC: 안정적이고 샘플 효율적 학습, 엔트로피 매개변수 𝛼 튜닝 필요
  • TRPO: 안정적 학습 가능, 구현 복잡성과 계산 비용 증가
  • PPO: 구현이 비교적 간단하고 효율적 학습 가능, 하이퍼파라미터 𝜖 설정 필요

강의 내용은 강화학습의 심화 주제를 다루며, 가치 최적화 및 정책 최적화 방법을 중심으로 다양한 알고리즘을 설명하고 있습니다. 각 알고리즘의 특징, 장단점, 대표 수식 및 의사 코드를 제공하여 이해를 돕고 있습니다.

 

O, X 문제 (10문제)

  1. Neural Fitted Q Iteration (NFQ)은 신경망을 사용하여 Q-함수를 근사한다. (O)
    • 해설: NFQ는 신경망을 사용하여 Q-함수를 근사합니다.
  2. Deep Q Learning (DQN)은 재현 메모리를 사용하여 샘플 효율성을 높인다. (O)
    • 해설: DQN은 재현 메모리를 사용하여 샘플 효율성을 높입니다.
  3. Double DQN은 두 개의 Q-함수를 사용하여 Q-값의 과추정을 줄인다. (O)
    • 해설: Double DQN은 두 개의 Q-함수를 사용하여 Q-값의 과추정을 줄입니다.
  4. Dueling DQN은 상태-가치 함수와 이득 함수를 분리하여 Q-함수를 근사한다. (O)
    • 해설: Dueling DQN은 상태-가치 함수와 이득 함수를 분리하여 Q-함수를 근사합니다.
  5. Prioritized Replay DQN은 모든 경험을 동일하게 학습한다. (X)
    • 해설: Prioritized Replay DQN은 중요한 경험을 우선적으로 학습합니다.
  6. Rainbow 알고리즘은 다양한 DQN 변형을 결합하여 높은 성능을 발휘한다. (O)
    • 해설: Rainbow는 다양한 DQN 변형을 결합하여 높은 성능을 발휘합니다.
  7. REINFORCE는 에피소드 단위로 누적된 보상을 기반으로 정책을 업데이트한다. (O)
    • 해설: REINFORCE는 에피소드 단위로 누적된 보상을 기반으로 정책을 업데이트합니다.
  8. Deep Deterministic Policy Gradient (DDPG)는 이산 행동 공간에서 사용된다. (X)
    • 해설: DDPG는 연속 행동 공간에서 사용됩니다.
  9. Asynchronous Advantage Actor-Critic (A3C)는 병렬 학습을 통해 학습 속도를 향상시킨다. (O)
    • 해설: A3C는 병렬 학습을 통해 학습 속도를 향상시킵니다.
  10. Proximal Policy Optimization (PPO)은 정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높인다. (O)
    • 해설: PPO는 정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높입니다.

빈칸 문제 (10문제)

  1. Neural Fitted Q Iteration (NFQ)은 신경망을 사용하여 __를 근사한다. (Q-함수)
    • 해설: NFQ는 신경망을 사용하여 Q-함수를 근사합니다.
  2. Deep Q Learning (DQN)은 __ 메모리를 사용하여 샘플 효율성을 높인다. (재현)
    • 해설: DQN은 재현 메모리를 사용하여 샘플 효율성을 높입니다.
  3. Double DQN은 두 개의 Q-함수를 사용하여 Q-값의 __을 줄인다. (과추정)
    • 해설: Double DQN은 두 개의 Q-함수를 사용하여 Q-값의 과추정을 줄입니다.
  4. Dueling DQN은 상태-가치 함수와 __ 함수를 분리하여 Q-함수를 근사한다. (이득)
    • 해설: Dueling DQN은 상태-가치 함수와 이득 함수를 분리하여 Q-함수를 근사합니다.
  5. Prioritized Replay DQN은 중요한 __를 우선적으로 학습한다. (경험)
    • 해설: Prioritized Replay DQN은 중요한 경험을 우선적으로 학습합니다.
  6. Rainbow 알고리즘은 다양한 DQN __을 결합하여 높은 성능을 발휘한다. (변형)
    • 해설: Rainbow는 다양한 DQN 변형을 결합하여 높은 성능을 발휘합니다.
  7. REINFORCE는 에피소드 단위로 누적된 __을 기반으로 정책을 업데이트한다. (보상)
    • 해설: REINFORCE는 에피소드 단위로 누적된 보상을 기반으로 정책을 업데이트합니다.
  8. Deep Deterministic Policy Gradient (DDPG)는 __ 행동 공간에서 사용된다. (연속)
    • 해설: DDPG는 연속 행동 공간에서 사용됩니다.
  9. Asynchronous Advantage Actor-Critic (A3C)는 __ 학습을 통해 학습 속도를 향상시킨다. (병렬)
    • 해설: A3C는 병렬 학습을 통해 학습 속도를 향상시킵니다.
  10. Proximal Policy Optimization (PPO)은 정책 업데이트의 __ 영역을 제한하여 학습 안정성을 높인다. (신뢰)
    • 해설: PPO는 정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높입니다.

서술형 문제 (10문제)

  1. Neural Fitted Q Iteration (NFQ)의 장점과 단점을 설명하시오.
    • 정답: 장점은 비선형 함수 근사를 통해 복잡한 환경에서도 학습이 가능하다는 점입니다. 단점은 데이터 활용 측면에서 효율성이 떨어진다는 것입니다.
    • 해설: NFQ는 비선형 함수 근사를 통해 복잡한 환경에서 학습이 가능하지만, 데이터 활용 효율성이 낮습니다.
  2. Deep Q Learning (DQN)의 학습 과정과 재현 메모리의 역할을 설명하시오.
    • 정답: DQN은 심층 신경망을 사용하여 Q-함수를 근사합니다. 재현 메모리는 에이전트의 경험을 저장하여 샘플 효율성을 높이고, 과거 경험을 재사용하여 학습 안정성을 향상시킵니다. 경험을 무작위로 샘플링하여 네트워크를 업데이트합니다.
    • 해설: DQN은 재현 메모리를 사용하여 샘플 효율성을 높이고, 과거 경험을 재사용하여 학습 안정성을 향상시킵니다.
  3. Double DQN의 특징과 장점을 설명하시오.
    • 정답: Double DQN은 두 개의 Q-함수를 사용하여 Q-값의 과추정을 줄입니다. 이를 통해 학습 안정성을 높이고, 과추정 문제를 완화할 수 있습니다. 그러나 DQN에 비해 계산 비용이 증가하는 단점이 있습니다.
    • 해설: Double DQN은 Q-값의 과추정을 줄여 학습 안정성을 높이지만, 계산 비용이 증가합니다.
  4. Dueling DQN의 구조와 이점에 대해 설명하시오.
    • 정답: Dueling DQN은 상태-가치 함수와 이득 함수를 분리하여 Q-함수를 근사합니다. 이를 통해 상태의 가치와 행동의 이득을 분리하여 더 안정적인 Q-값 추정이 가능합니다. 그러나 구현이 복잡하고 계산 비용이 증가하는 단점이 있습니다.
    • 해설: Dueling DQN은 상태 가치와 행동의 이득을 분리하여 안정적인 Q-값 추정이 가능하지만, 구현이 복잡하고 계산 비용이 증가합니다.
  5. Prioritized Replay DQN의 중요성과 단점을 설명하시오.
    • 정답: Prioritized Replay DQN은 중요한 경험을 우선적으로 학습하여 샘플 효율성을 높입니다. 이는 학습 속도를 높이고, 중요 경험을 효과적으로 반영할 수 있습니다. 그러나 재현 메모리 관리가 복잡하고 추가적인 계산 비용이 발생하는 단점이 있습니다.
    • 해설: Prioritized Replay DQN은 중요한 경험을 우선 학습하여 샘플 효율성을 높이지만, 재현 메모리 관리가 복잡하고 추가적인 계산 비용이 발생합니다.
  6. Rainbow 알고리즘이 다양한 DQN 변형을 결합하여 높은 성능을 발휘할 수 있는 이유를 설명하시오.
    • 정답: Rainbow는 DQN, Double DQN, Dueling DQN, Prioritized Experience Replay, Multi-step learning, Distributional RL, Noisy Networks를 결합하여 각각의 장점을 최대한 활용합니다. 이를 통해 높은 성능을 발휘할 수 있지만, 구현이 복잡하고 계산 비용이 매우 높습니다.
    • 해설: Rainbow는 다양한 DQN 변형의 장점을 결합하여 높은 성능을 발휘하지만, 구현이 복잡하고 계산 비용이 높습니다.
  7. REINFORCE 알고리즘의 주요 개념과 단점을 설명하시오.
    • 정답: REINFORCE는 에피소드 단위로 누적된 보상을 기반으로 정책을 업데이트하는 Monte Carlo Policy Gradient 방법입니다. 높은 표현력을 가지지만, 보상의 높은 분산으로 인해 학습이 불안정할 수 있습니다.
    • 해설: REINFORCE는 에피소드 단위로 정책을 업데이트하는 방법으로 높은 표현력을 가지지만, 높은 분산으로 인해 학습이 불안정할 수 있습니다.
  8. Deep Deterministic Policy Gradient (DDPG)의 장단점을 설명하시오.
    • 정답: DDPG는 연속 행동 공간에서 효과적으로 학습할 수 있는 Actor-Critic 방법입니다. 이는 높은 샘플 효율성과 안정성을 제공하지만, 하이퍼파라미터 튜닝이 까다롭고, 학습 과정이 복잡합니다.
    • 해설: DDPG는 연속 행동 공간에서 효과적이지만, 하이퍼파라미터 튜닝이 까다롭습니다.
  9. Asynchronous Advantage Actor-Critic (A3C)의 병렬 학습 방법과 장단점을 설명하시오.
    • 정답: A3C는 병렬 학습을 통해 정책과 가치 함수를 동시에 학습합니다. 이는 학습 속도를 향상시키고, 다양한 환경에서 학습할 수 있는 장점을 가지지만, 동기화 오버헤드가 발생할 수 있는 단점이 있습니다.
    • 해설: A3C는 병렬 학습을 통해 학습 속도를 높이지만, 동기화 오버헤드가 발생할 수 있습니다.
  10. Proximal Policy Optimization (PPO)의 주요 개념과 이점을 설명하시오.
    • 정답: PPO는 정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높이는 방법입니다. 이는 구현이 비교적 간단하고, 효율적인 학습이 가능하며, 하이퍼파라미터 𝜖의 적절한 설정이 필요합니다.
    • 해설: PPO는 신뢰 영역을 제한하여 안정성을 높이고, 구현이 비교적 간단하지만, 하이퍼파라미터 설정이 필요합니다.

단답형 문제 (10문제)

  1. Neural Fitted Q Iteration (NFQ)은 무엇을 사용하여 Q-함수를 근사하는가?
    • 정답: 신경망
    • 해설: NFQ는 신경망을 사용하여 Q-함수를 근사합니다.
  2. Deep Q Learning (DQN)은 무엇을 사용하여 샘플 효율성을 높이는가?
    • 정답: 재현 메모리
    • 해설: DQN은 재현 메모리를 사용하여 샘플 효율성을 높입니다.
  3. Double DQN은 두 개의 무엇을 사용하여 Q-값의 과추정을 줄이는가?
    • 정답: Q-함수
    • 해설: Double DQN은 두 개의 Q-함수를 사용하여 Q-값의 과추정을 줄입니다.
  4. Dueling DQN은 상태-가치 함수와 무엇을 분리하여 Q-함수를 근사하는가?
    • 정답: 이득 함수
    • 해설: Dueling DQN은 상태-가치 함수와 이득 함수를 분리하여 Q-함수를 근사합니다.
  5. Prioritized Replay DQN은 중요한 무엇을 우선적으로 학습하는가?
    • 정답: 경험
    • 해설: Prioritized Replay DQN은 중요한 경험을 우선적으로 학습합니다.
  6. Rainbow 알고리즘은 다양한 DQN 변형을 결합하여 무엇을 발휘하는가?
    • 정답: 높은 성능
    • 해설: Rainbow는 다양한 DQN 변형을 결합하여 높은 성능을 발휘합니다.
  7. REINFORCE는 에피소드 단위로 누적된 무엇을 기반으로 정책을 업데이트하는가?
    • 정답: 보상
    • 해설: REINFORCE는 에피소드 단위로 누적된 보상을 기반으로 정책을 업데이트합니다.
  8. Deep Deterministic Policy Gradient (DDPG)는 어떤 행동 공간에서 사용되는가?
    • 정답: 연속 행동 공간
    • 해설: DDPG는 연속 행동 공간에서 사용됩니다.
  9. Asynchronous Advantage Actor-Critic (A3C)는 무엇을 통해 학습 속도를 향상시키는가?
    • 정답: 병렬 학습
    • 해설: A3C는 병렬 학습을 통해 학습 속도를 향상시킵니다.
  10. Proximal Policy Optimization (PPO)은 정책 업데이트의 무엇을 제한하여 학습 안정성을 높이는가?
    • 정답: 신뢰 영역
    • 해설: PPO는 정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높입니다.
728x90