강화학습 12강 - Deep RL 심화

인공지능/강화학습

강화학습 12강 - Deep RL 심화

이게될까 2024. 6. 9. 15:32

728x90

Value optimization 방식

Neural Fitted Q Iteration (NFQ)

신경망을 활용하여 Q 함수를 근사한다.
기본 뉴럴넷 형식이고, Q를 뉴럴넷으로 구현하였다.

장 : 비선형 함수 근사를 통해 복잡한 환경에서도 사용 가능하다.
단 : 데이터 활용 측면에서 효율성 떨어짐

Deep Q Learning (DQN)

심층 신경망을 활용하여 Q 함수를 근사한다.

장 : replay memory를 사용하여 샘플 효율성을 높였다.
단 : 불안정한 학습과 과적합 문제가 발생 가능하다.

Q를 뉴럴넷을 통해 구한다. == 학습이 불안정해지고, 오버피팅이 발생할 수 있다.
데이터 셋이 많을 수록 좋아진다. -> 데이터 샘플이 편향성을 가지지 않고, 다양한 형태를 가져야 한다 == Q를 학습하는데 편향이 될 수 있다.
Q가 에피소드 끝까지 진행 후 학습을 진행하면 조금 괜찮으나 끝까지 가기 어렵기 때문에 TD와 같은 방식을 사용하며 불안정해진다.

NFQ(Neural Fitted Q Iteration)와 DQN(Deep Q-Learning)은 둘 다 Q-함수를 신경망으로 근사하지만, 그 차이는 신경망의 깊이뿐만 아니라 다른 여러 측면에서도 나타납니다. 아래에서 두 알고리즘의 주요 차이점을 설명하겠습니다.

NFQ (Neural Fitted Q Iteration)

특징:

비선형 함수 근사:
- NFQ는 Q-함수를 비선형 신경망으로 근사합니다. 이는 단순히 선형 모델을 사용하는 것보다 더 복잡한 상태-액션 공간을 학습할 수 있게 합니다.
훈련 방식:
- NFQ는 일반적으로 배치(batch) 학습을 사용합니다. 이는 모든 경험을 한 번에 네트워크에 전달하여 훈련합니다.
- 경험을 수집한 후, Q-함수를 한 번에 업데이트합니다.
사용 데이터:
- NFQ는 주로 과거 경험 데이터셋을 사용하여 훈련합니다. 이 데이터셋은 정적일 수 있으며, 업데이트 과정에서 추가 경험을 수집하지 않을 수 있습니다.
알고리즘의 단계:
- 환경에서 경험 데이터를 수집합니다.
- 수집된 데이터를 통해 신경망을 업데이트합니다.

장점:

비선형 함수 근사를 통해 복잡한 환경에서 학습할 수 있습니다.

단점:

배치 학습으로 인해 메모리와 계산 자원이 많이 필요할 수 있습니다.
데이터 활용 효율성이 낮을 수 있습니다.

DQN (Deep Q-Learning)

특징:

심층 신경망 사용:
- DQN은 심층 신경망(딥 러닝)을 사용하여 Q-함수를 근사합니다. 이는 여러 층을 통해 복잡한 패턴을 학습할 수 있게 합니다.
재현 메모리 (Replay Memory):
- DQN은 경험 재현 메모리를 사용하여 샘플 효율성을 높입니다. 에이전트는 경험을 수집한 후, 이 경험을 재현 메모리에 저장합니다.
- 학습 시, 재현 메모리에서 무작위로 미니배치를 샘플링하여 Q-함수를 업데이트합니다.
타깃 네트워크 (Target Network):
- DQN은 타깃 네트워크를 사용하여 학습의 안정성을 높입니다. 이는 학습 네트워크의 가중치를 일정 간격으로 타깃 네트워크에 복사하는 방식으로, 목표 값의 변동성을 줄입니다.
알고리즘의 단계:
- 에이전트가 환경과 상호작용하며 경험을 수집합니다.
- 경험을 재현 메모리에 저장합니다.
- 재현 메모리에서 무작위로 미니배치를 샘플링하여 신경망을 업데이트합니다.
- 일정 간격으로 타깃 네트워크를 업데이트합니다.

장점:

재현 메모리를 통해 샘플 효율성을 높이고, 경험의 중복 사용을 통해 학습 성능을 향상시킵니다.
타깃 네트워크를 사용하여 학습의 안정성을 높입니다.

단점:

학습 과정이 불안정할 수 있으며, 과적합 문제가 발생할 수 있습니다.
메모리와 계산 자원이 많이 필요합니다.

요약

NFQ는 배치 학습과 비선형 함수 근사를 통해 Q-함수를 학습합니다. 이는 복잡한 환경에서도 학습이 가능하지만, 데이터 활용 효율성이 낮고 메모리와 계산 자원이 많이 필요할 수 있습니다.
DQN은 심층 신경망, 재현 메모리, 타깃 네트워크를 사용하여 Q-함수를 학습합니다. 이는 샘플 효율성을 높이고 학습의 안정성을 높이지만, 학습 과정이 불안정할 수 있으며 과적합 문제가 발생할 수 있습니다.

따라서 NFQ와 DQN은 신경망을 사용하여 Q-함수를 근사한다는 공통점이 있지만, 학습 방법, 경험 데이터 활용, 그리고 학습 안정성 측면에서 차이가 있습니다.

Double DQN

두개의 Q함수를 사용하여 Q 값의 과추정을 줄였다.
참조하는 Q는 매번 학습하는 것이 아니라 일정 턴마다 학습한다.

장 : Q 값의 과추정을 줄여 학습 안정성을 높였다.
단 : DQN에 비해 계산 비용이 증가

Dueling DQN

상태 가치 함수와 이득 함수를 분리하여 Q 함수를 근사하였다.
두 개의 Q를 이용하는 것이 아니라 V와 A를 통해 Q를 구한다.(A = Q - V)
A는 action 자체의 가치로 복잡해 보이나 성능이 많이 오른다.

장 : 상태의 가치와 행동의 이득을 분리하여 더 안정적인 Q 값 추정 가능하다.
단 : 구현이 복잡하고 계산 비용이 증가한다.

Prioritized Replay DQN

중요한 경험을 우선적으로 학습하도록 재현 메모리를 개선하였다.
샘플 자체의 중요도가 다를 수 있다. => 중요도(Pi)를 설정하여 중요도가 높은 것을 우선 or 여러 번 학습한다.
TD error = 현재 Q와 다음 Q의 차이 == 내가 경험했을 때 얼마나 변화하냐 -> 값이 크게 변하면 중요한 샘플
무조건 변화가 큰 것이 중요도가 높은 것은 아니지만 수렴에 크게 기여한다.
알파를 키울수록 우선순위가 강조된다.

장 : 중요 경험을 우선 학습하여 샘플 효율성을 높였다.
단 : 재현 메모리 관리가 복잡하고, 추가적인 계산 비용을 발생한다.

Rainbow

DQN + Double DQN + Deuling DQN + Prioritized Experience Replay + Multi-step learning + Distributional RL + Noisy Networks
Distribution - 분산 : 여러개를 만들어 개별적으로 학습 후 모아서 최종 모델 만들기 - 비동기식 엑터 크리틱

장 : 다양한 DQN 변형을 결합하여 높은 성능을 보인다.
단 : 구현이 복잡하고 계산 비용이 매우 높다.

Policy optimiztion methods

Reinforce

에피소드 단위로 누적된 보상을 기반으로 정책을 업데이트한다.
G를 일반화 해서 사용하기도 한다. r, Q, V, A 등 다양하게 가능하다.

장 : 직접 정책을 최적화 하므로 높은 표현력 가능
단 : 높은 분산으로 인해 학습이 불안정할 수 있다.

Deep deterministic policy gradient (DDPG)

연속 행동 공간에서 사용되는 Actor Critic 방식이다.
액터를 위한 목적함수 : 정책 함수를 만들어서 극대화 한다.
크리틱을 위한 목적 함수 : Q를 뉴럴넷으로 학습시켜 최소화 한다.

장 : 연속 행동 공간에서 효과적으로 학습 가능하다
단 : 하이퍼파라미터 튜닝이 까다롭다.

Ansynchronous advantage Actor-Critic (A3C)

병렬 학습을 통해 정책과 가치 함수를 학습한다.
개별적으로 학습 후 합치거나 데이터 샘플을 여러 개 모아 커다란 데이터 셋을 만들어 학습 시킬 수 있다.
싱크가 맞아야만 효과가 있다.(on-Policy 라던지...)

장 : 병렬 학습을 통해 학습 속도 향상
단 : 동기화 오버헤드 발생 가능

Actor-Critic with experience replay(ACER)

경험 재현을 통해 A3C의 단점을 보완하였다.

장 : 경험 재현을 통해 학습 안정성 향상
단 : 재현 메모리 관리의 복잡성 증가

Generalized advantage estimation(GAE)

가치 추정의 편향을 줄이기 위해 사용한다.
감마를 빼서 곱한다 == n-step로 보면 된다. 추정된 advantage를 확인한다.

장 : 가치 추정의 편향 감소
단 : 계산 비용의 증가

Twin delayed DDPG(TD3)

DDPG의 단점을 보완하였다.
Q를 두개 만들고, 시작점이 다르다 => 각각 업데이트 하면서 가지고 가고, 참조할 땐 작은 것을 참조한다.

장 : Q값의 과추정 문제 완화
단 : 계산 비용 증가

Soft actor-critic(SAC)

엔트로피 정규화를 통해 정책의 탐험성을 증가

장 : 안정적이고 샘플의 효율적인 학습 가능
단 : 엔트로피 매개변수 알파의 튜닝이 필요하다.

Trust region policy optimization (TRPO)

정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높였다.

장 : 정책 업데이트의 신뢰 영역을 제한하여 안정적 학습 가능
단 구현 복잡성과 계산 비용 증가

Proximal policy optimization (PPO)

정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높였다.
old - 타겟, Theta - 현재
두 개의 비율을 이용해 곱해준다.
ACER과 비슷한 느낌이다.

장 : 구현이 비교적 간단하고, 효율적인 학습이 가능하다.
단 : 하이퍼파라미터 입실론의 적절한 설정이 필요하다.

12. Deep RL 심화

강의 내용은 두 가지 주요 주제로 나누어집니다:

Value optimization methods
Policy optimization methods

12.1 Value Optimization Methods

Neural Fitted Q Iteration (NFQ):

신경망을 사용하여 Q-함수를 근사
비선형 함수 근사를 통해 복잡한 환경에서도 학습 가능
데이터 활용 측면에서 효율성이 떨어짐

Deep Q learning (DQN):

심층 신경망을 사용하여 Q-함수를 근사
재현 메모리(replay memory)를 사용하여 샘플 효율성을 높임
불안정한 학습과 과적합 문제 발생 가능

Double DQN:

두 개의 Q-함수를 사용하여 Q-값의 과추정을 줄임
학습 안정성을 높임
계산 비용이 증가

Dueling DQN:

상태-가치 함수와 이득 함수를 분리하여 Q-함수를 근사
상태의 가치와 행동의 이득을 분리하여 더 안정적인 Q-값 추정 가능
구현이 복잡하고 계산 비용이 증가

Prioritized Replay DQN:

중요한 경험을 우선적으로 학습하도록 재현 메모리를 개선
중요 경험을 우선 학습하여 샘플 효율성을 높임
재현 메모리 관리가 복잡하고 추가적인 계산 비용 발생

Rainbow:

DQN, Double DQN, Dueling DQN, Prioritized Experience Replay, Multi-step learning, Distributional RL, Noisy Networks를 결합하여 높은 성능을 발휘
구현이 복잡하고 계산 비용이 매우 높음

알고리즘 비교:

NFQ: 복잡한 환경 학습 가능, 대규모 데이터 학습 어려움
DQN: 샘플 효율성 증가, 불안정한 학습
Double DQN: Q-값 과추정 감소, 계산 비용 증가
Dueling DQN: 안정적 Q-값 추정, 구현 복잡성 증가
Prioritized Replay DQN: 샘플 효율성 증가, 관리 복잡성 증가
Rainbow: 높은 성능, 계산 비용 증가

12.2 Policy Optimization Methods

REINFORCE (Monte Carlo Policy Gradient):

에피소드 단위로 누적된 보상을 기반으로 정책을 업데이트
직접 정책을 최적화하므로 높은 표현력 가능
높은 분산으로 인해 학습이 불안정할 수 있음

Deep Deterministic Policy Gradient (DDPG):

연속 행동 공간에서 사용되는 Actor-Critic 방법
연속 행동 공간에서 효과적으로 학습 가능
하이퍼파라미터 튜닝이 까다로움

Asynchronous Advantage Actor-Critic (A3C):

병렬 학습을 통해 정책과 가치 함수를 학습
병렬 학습을 통해 학습 속도 향상
동기화 오버헤드 발생 가능

Actor-Critic with Experience Replay (ACER):

경험 재현을 통해 A3C의 단점을 보완
경험 재현을 통해 학습 안정성 향상
재현 메모리 관리의 복잡성 증가

Generalized Advantage Estimation (GAE):

가치 추정의 편향을 줄이기 위해 사용
가치 추정의 편향 감소
계산 비용 증가

Twin Delayed DDPG (TD3):

DDPG의 단점을 보완
Q-값의 과추정 문제 완화
계산 비용 증가

Soft Actor-Critic (SAC):

엔트로피 정규화를 통해 정책의 탐험성을 증가
안정적이고 샘플 효율적인 학습 가능
엔트로피 매개변수 𝛼의 튜닝 필요

Trust Region Policy Optimization (TRPO):

정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높임
정책 업데이트의 신뢰 영역을 제한하여 안정적 학습 가능
구현 복잡성과 계산 비용 증가

Proximal Policy Optimization (PPO):

정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높임
구현이 비교적 간단하고 효율적인 학습 가능
하이퍼파라미터 𝜖의 적절한 설정 필요

알고리즘 비교:

REINFORCE: 높은 표현력, 높은 분산으로 인한 학습 불안정
DDPG: 연속 행동 공간에서 효과적 학습, 하이퍼파라미터 튜닝 까다로움
A3C: 병렬 학습으로 학습 속도 향상, 동기화 오버헤드 발생 가능
ACER: 학습 안정성 향상, 재현 메모리 관리의 복잡성 증가
GAE: 가치 추정의 편향 감소, 계산 비용 증가
TD3: Q-값 과추정 문제 완화, 계산 비용 증가
SAC: 안정적이고 샘플 효율적 학습, 엔트로피 매개변수 𝛼 튜닝 필요
TRPO: 안정적 학습 가능, 구현 복잡성과 계산 비용 증가
PPO: 구현이 비교적 간단하고 효율적 학습 가능, 하이퍼파라미터 𝜖 설정 필요

강의 내용은 강화학습의 심화 주제를 다루며, 가치 최적화 및 정책 최적화 방법을 중심으로 다양한 알고리즘을 설명하고 있습니다. 각 알고리즘의 특징, 장단점, 대표 수식 및 의사 코드를 제공하여 이해를 돕고 있습니다.

O, X 문제 (10문제)

Neural Fitted Q Iteration (NFQ)은 신경망을 사용하여 Q-함수를 근사한다. (O)
- 해설: NFQ는 신경망을 사용하여 Q-함수를 근사합니다.
Deep Q Learning (DQN)은 재현 메모리를 사용하여 샘플 효율성을 높인다. (O)
- 해설: DQN은 재현 메모리를 사용하여 샘플 효율성을 높입니다.
Double DQN은 두 개의 Q-함수를 사용하여 Q-값의 과추정을 줄인다. (O)
- 해설: Double DQN은 두 개의 Q-함수를 사용하여 Q-값의 과추정을 줄입니다.
Dueling DQN은 상태-가치 함수와 이득 함수를 분리하여 Q-함수를 근사한다. (O)
- 해설: Dueling DQN은 상태-가치 함수와 이득 함수를 분리하여 Q-함수를 근사합니다.
Prioritized Replay DQN은 모든 경험을 동일하게 학습한다. (X)
- 해설: Prioritized Replay DQN은 중요한 경험을 우선적으로 학습합니다.
Rainbow 알고리즘은 다양한 DQN 변형을 결합하여 높은 성능을 발휘한다. (O)
- 해설: Rainbow는 다양한 DQN 변형을 결합하여 높은 성능을 발휘합니다.
REINFORCE는 에피소드 단위로 누적된 보상을 기반으로 정책을 업데이트한다. (O)
- 해설: REINFORCE는 에피소드 단위로 누적된 보상을 기반으로 정책을 업데이트합니다.
Deep Deterministic Policy Gradient (DDPG)는 이산 행동 공간에서 사용된다. (X)
- 해설: DDPG는 연속 행동 공간에서 사용됩니다.
Asynchronous Advantage Actor-Critic (A3C)는 병렬 학습을 통해 학습 속도를 향상시킨다. (O)
- 해설: A3C는 병렬 학습을 통해 학습 속도를 향상시킵니다.
Proximal Policy Optimization (PPO)은 정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높인다. (O)
- 해설: PPO는 정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높입니다.

빈칸 문제 (10문제)

Neural Fitted Q Iteration (NFQ)은 신경망을 사용하여 __를 근사한다. (Q-함수)
- 해설: NFQ는 신경망을 사용하여 Q-함수를 근사합니다.
Deep Q Learning (DQN)은 __ 메모리를 사용하여 샘플 효율성을 높인다. (재현)
- 해설: DQN은 재현 메모리를 사용하여 샘플 효율성을 높입니다.
Double DQN은 두 개의 Q-함수를 사용하여 Q-값의 __을 줄인다. (과추정)
- 해설: Double DQN은 두 개의 Q-함수를 사용하여 Q-값의 과추정을 줄입니다.
Dueling DQN은 상태-가치 함수와 __ 함수를 분리하여 Q-함수를 근사한다. (이득)
- 해설: Dueling DQN은 상태-가치 함수와 이득 함수를 분리하여 Q-함수를 근사합니다.
Prioritized Replay DQN은 중요한 __를 우선적으로 학습한다. (경험)
- 해설: Prioritized Replay DQN은 중요한 경험을 우선적으로 학습합니다.
Rainbow 알고리즘은 다양한 DQN __을 결합하여 높은 성능을 발휘한다. (변형)
- 해설: Rainbow는 다양한 DQN 변형을 결합하여 높은 성능을 발휘합니다.
REINFORCE는 에피소드 단위로 누적된 __을 기반으로 정책을 업데이트한다. (보상)
- 해설: REINFORCE는 에피소드 단위로 누적된 보상을 기반으로 정책을 업데이트합니다.
Deep Deterministic Policy Gradient (DDPG)는 __ 행동 공간에서 사용된다. (연속)
- 해설: DDPG는 연속 행동 공간에서 사용됩니다.
Asynchronous Advantage Actor-Critic (A3C)는 __ 학습을 통해 학습 속도를 향상시킨다. (병렬)
- 해설: A3C는 병렬 학습을 통해 학습 속도를 향상시킵니다.
Proximal Policy Optimization (PPO)은 정책 업데이트의 __ 영역을 제한하여 학습 안정성을 높인다. (신뢰)
- 해설: PPO는 정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높입니다.

서술형 문제 (10문제)

Neural Fitted Q Iteration (NFQ)의 장점과 단점을 설명하시오.
- 정답: 장점은 비선형 함수 근사를 통해 복잡한 환경에서도 학습이 가능하다는 점입니다. 단점은 데이터 활용 측면에서 효율성이 떨어진다는 것입니다.
- 해설: NFQ는 비선형 함수 근사를 통해 복잡한 환경에서 학습이 가능하지만, 데이터 활용 효율성이 낮습니다.
Deep Q Learning (DQN)의 학습 과정과 재현 메모리의 역할을 설명하시오.
- 정답: DQN은 심층 신경망을 사용하여 Q-함수를 근사합니다. 재현 메모리는 에이전트의 경험을 저장하여 샘플 효율성을 높이고, 과거 경험을 재사용하여 학습 안정성을 향상시킵니다. 경험을 무작위로 샘플링하여 네트워크를 업데이트합니다.
- 해설: DQN은 재현 메모리를 사용하여 샘플 효율성을 높이고, 과거 경험을 재사용하여 학습 안정성을 향상시킵니다.
Double DQN의 특징과 장점을 설명하시오.
- 정답: Double DQN은 두 개의 Q-함수를 사용하여 Q-값의 과추정을 줄입니다. 이를 통해 학습 안정성을 높이고, 과추정 문제를 완화할 수 있습니다. 그러나 DQN에 비해 계산 비용이 증가하는 단점이 있습니다.
- 해설: Double DQN은 Q-값의 과추정을 줄여 학습 안정성을 높이지만, 계산 비용이 증가합니다.
Dueling DQN의 구조와 이점에 대해 설명하시오.
- 정답: Dueling DQN은 상태-가치 함수와 이득 함수를 분리하여 Q-함수를 근사합니다. 이를 통해 상태의 가치와 행동의 이득을 분리하여 더 안정적인 Q-값 추정이 가능합니다. 그러나 구현이 복잡하고 계산 비용이 증가하는 단점이 있습니다.
- 해설: Dueling DQN은 상태 가치와 행동의 이득을 분리하여 안정적인 Q-값 추정이 가능하지만, 구현이 복잡하고 계산 비용이 증가합니다.
Prioritized Replay DQN의 중요성과 단점을 설명하시오.
- 정답: Prioritized Replay DQN은 중요한 경험을 우선적으로 학습하여 샘플 효율성을 높입니다. 이는 학습 속도를 높이고, 중요 경험을 효과적으로 반영할 수 있습니다. 그러나 재현 메모리 관리가 복잡하고 추가적인 계산 비용이 발생하는 단점이 있습니다.
- 해설: Prioritized Replay DQN은 중요한 경험을 우선 학습하여 샘플 효율성을 높이지만, 재현 메모리 관리가 복잡하고 추가적인 계산 비용이 발생합니다.
Rainbow 알고리즘이 다양한 DQN 변형을 결합하여 높은 성능을 발휘할 수 있는 이유를 설명하시오.
- 정답: Rainbow는 DQN, Double DQN, Dueling DQN, Prioritized Experience Replay, Multi-step learning, Distributional RL, Noisy Networks를 결합하여 각각의 장점을 최대한 활용합니다. 이를 통해 높은 성능을 발휘할 수 있지만, 구현이 복잡하고 계산 비용이 매우 높습니다.
- 해설: Rainbow는 다양한 DQN 변형의 장점을 결합하여 높은 성능을 발휘하지만, 구현이 복잡하고 계산 비용이 높습니다.
REINFORCE 알고리즘의 주요 개념과 단점을 설명하시오.
- 정답: REINFORCE는 에피소드 단위로 누적된 보상을 기반으로 정책을 업데이트하는 Monte Carlo Policy Gradient 방법입니다. 높은 표현력을 가지지만, 보상의 높은 분산으로 인해 학습이 불안정할 수 있습니다.
- 해설: REINFORCE는 에피소드 단위로 정책을 업데이트하는 방법으로 높은 표현력을 가지지만, 높은 분산으로 인해 학습이 불안정할 수 있습니다.
Deep Deterministic Policy Gradient (DDPG)의 장단점을 설명하시오.
- 정답: DDPG는 연속 행동 공간에서 효과적으로 학습할 수 있는 Actor-Critic 방법입니다. 이는 높은 샘플 효율성과 안정성을 제공하지만, 하이퍼파라미터 튜닝이 까다롭고, 학습 과정이 복잡합니다.
- 해설: DDPG는 연속 행동 공간에서 효과적이지만, 하이퍼파라미터 튜닝이 까다롭습니다.
Asynchronous Advantage Actor-Critic (A3C)의 병렬 학습 방법과 장단점을 설명하시오.
- 정답: A3C는 병렬 학습을 통해 정책과 가치 함수를 동시에 학습합니다. 이는 학습 속도를 향상시키고, 다양한 환경에서 학습할 수 있는 장점을 가지지만, 동기화 오버헤드가 발생할 수 있는 단점이 있습니다.
- 해설: A3C는 병렬 학습을 통해 학습 속도를 높이지만, 동기화 오버헤드가 발생할 수 있습니다.
Proximal Policy Optimization (PPO)의 주요 개념과 이점을 설명하시오.
- 정답: PPO는 정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높이는 방법입니다. 이는 구현이 비교적 간단하고, 효율적인 학습이 가능하며, 하이퍼파라미터 𝜖의 적절한 설정이 필요합니다.
- 해설: PPO는 신뢰 영역을 제한하여 안정성을 높이고, 구현이 비교적 간단하지만, 하이퍼파라미터 설정이 필요합니다.

단답형 문제 (10문제)

Neural Fitted Q Iteration (NFQ)은 무엇을 사용하여 Q-함수를 근사하는가?
- 정답: 신경망
- 해설: NFQ는 신경망을 사용하여 Q-함수를 근사합니다.
Deep Q Learning (DQN)은 무엇을 사용하여 샘플 효율성을 높이는가?
- 정답: 재현 메모리
- 해설: DQN은 재현 메모리를 사용하여 샘플 효율성을 높입니다.
Double DQN은 두 개의 무엇을 사용하여 Q-값의 과추정을 줄이는가?
- 정답: Q-함수
- 해설: Double DQN은 두 개의 Q-함수를 사용하여 Q-값의 과추정을 줄입니다.
Dueling DQN은 상태-가치 함수와 무엇을 분리하여 Q-함수를 근사하는가?
- 정답: 이득 함수
- 해설: Dueling DQN은 상태-가치 함수와 이득 함수를 분리하여 Q-함수를 근사합니다.
Prioritized Replay DQN은 중요한 무엇을 우선적으로 학습하는가?
- 정답: 경험
- 해설: Prioritized Replay DQN은 중요한 경험을 우선적으로 학습합니다.
Rainbow 알고리즘은 다양한 DQN 변형을 결합하여 무엇을 발휘하는가?
- 정답: 높은 성능
- 해설: Rainbow는 다양한 DQN 변형을 결합하여 높은 성능을 발휘합니다.
REINFORCE는 에피소드 단위로 누적된 무엇을 기반으로 정책을 업데이트하는가?
- 정답: 보상
- 해설: REINFORCE는 에피소드 단위로 누적된 보상을 기반으로 정책을 업데이트합니다.
Deep Deterministic Policy Gradient (DDPG)는 어떤 행동 공간에서 사용되는가?
- 정답: 연속 행동 공간
- 해설: DDPG는 연속 행동 공간에서 사용됩니다.
Asynchronous Advantage Actor-Critic (A3C)는 무엇을 통해 학습 속도를 향상시키는가?
- 정답: 병렬 학습
- 해설: A3C는 병렬 학습을 통해 학습 속도를 향상시킵니다.
Proximal Policy Optimization (PPO)은 정책 업데이트의 무엇을 제한하여 학습 안정성을 높이는가?
- 정답: 신뢰 영역
- 해설: PPO는 정책 업데이트의 신뢰 영역을 제한하여 학습 안정성을 높입니다.

저작자표시

'인공지능 > 강화학습' 카테고리의 다른 글

AI 경진대회 - 구성 요소 정하기 (0)	2024.07.16
AI 경진대회 - 환경 구성하기 matlab Driving Scenario Designer (0)	2024.07.15
강화학습 11강 - 강화학습 실습 예제 (1)	2024.06.08
강화학습 10장 - 알파고와 MCTS (0)	2024.06.08
강화학습 9장 - 정책 기반 에이전트 (1)	2024.06.08

현재글강화학습 12강 - Deep RL 심화

인공지능, 자율주행에 관심있는 공대생의 일기장...?

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

공대생 도전 일지

강화학습 12강 - Deep RL 심화