인공지능/강화학습

matlab 강화학습 onramp 6 - 에이전트 정의하기 , 신경망으로 크리틱 표현하기

이게될까 2024. 5. 9. 02:16
728x90
728x90

상태와 행동이 많으면 Q테이블이 엄청 커진다.

그리고 상태와 행동이 연속적인 값이라면 어떻게 해야 할까요?

딥뉴럴넷을 활용하여보자

 

주사위 게임을 위한 신경망 기반 에이전트



상태와 행동이 각각 20개와 5개에 불과한 주사위 게임은 Q-테이블 에이전트로 잘 표현할 수 있습니다. 그러나 상태와 행동이 더 많은 경우에는 크리틱을 표현하기 위해 테이블 대신 신경망을 사용할 수 있습니다.


사실 이러한 간단한 문제에 신경망을 사용하는 것이 지나치기는 하지만, 이 활동에서는 주사위 게임을 위한 심층 Q-신경망(DQN)을 만들어 보겠습니다.

 

관측값 사양과 행동 사양만을 입력값으로 지정하여 적절한 rl*Agent 함수(여기서 와일드카드 "*"는 DQN과 같은 에이전트 유형으로 대체됨)를 호출해 에이전트를 만들 수 있습니다.

agent = rlDQNAgent(obsInfo,actInfo);

그러면 에이전트의 액터 또는 크리틱을 표현하는 신경망에 대해 미리 결정된 디폴트 아키텍처를 사용하는 에이전트가 생성됩니다.
작업
rlDQNAgent 함수를 사용하여 디폴트 크리틱 신경망을 갖는 agent라는 에이전트를 만드세요.

더보기

agent = rlDQNAgent(obsInfo,actInfo);

 

에이전트에서 신경망 가져오기



에이전트는 쉽게 만들 수 있으며 일반적으로 디폴트 에이전트도 잘 작동합니다. 하지만 그러한 디폴트 신경망의 아키텍처를 어떻게 확인하나요? 디폴트 신경망을 변경할 수 있나요? 이러한 디폴트 액터 또는 크리틱의 옵션이나 속성을 어떻게 변경할 수 있을까요?

getActor 함수와 getCritic 함수를 사용하여 에이전트에서 액터와 크리틱을 가져올 수 있습니다. getModel 함수를 사용하여 액터 또는 크리틱에서 기본 신경망을 가져올 수 있습니다.

 

getCritic 함수는 에이전트를 입력값으로 받고 크리틱을 출력값으로 반환합니다.
작업
getCritic 함수를 사용하여 agent에서 크리틱을 추출한 다음 critic이라는 변수에 저장하세요.

더보기

critic = getCritic(agent)

 

작업
getModel 함수를 사용하여 critic에서 신경망을 추출한 다음 net이라는 변수에 저장하세요.

더보기

net= getModel(critic)

 

변수 net은 신경망을 표현합니다. 이를 플로팅하여 신경망의 계층 구조를 확인할 수 있습니다.

plot(net)
작업
plot 함수를 사용하여 net의 계층 구조를 시각화하세요.

더보기

plot(net)

 

이 크리틱 신경망은 여섯 개의 계층으로 구성됩니다. 심층 신경망 디자이너로 신경망을 열어서 각 계층에 대한 입력값 개수 및 출력값 개수와 같은, 계층에 대한 자세한 내용을 확인할 수 있습니다.

deepNetworkDesigner(net)

또한 에이전트를 훈련시킬 때 디폴트 아키텍처가 좋은 결과를 내지 못하는 경우 심층 신경망 디자이너를 사용하여 신경망을 수정할 수 있습니다.

 

Q-값 신경망의 아키텍처

DQN 에이전트에 대한 디폴트 크리틱은 여섯 개의 계층으로 이루어진 신경망으로 표현됩니다.


이 신경망은 변수에 포함되어 있습니다. 해당 변수의 속성 중 하나는 신경망의 계층으로 구성된 배열을 포함하고 있습니다. 이번 섹션에서는 이러한 계층을 검토해 보겠습니다.

 

변수 defaultnet은 디폴트 DQN 에이전트에 대한 크리틱 신경망을 포함하고 있습니다. 신경망 변수의 Layers 속성은 신경망의 계층으로 구성된 배열을 보관하고 있습니다.

점 표기법을 사용하여 신경망 변수의 속성에 액세스할 수 있습니다.
layers = network.Layers
작업
점 표기법을 사용하여 신경망 defaultnet의 Layers 속성을 추출하세요. 결과를 layers라는 변수에 저장하세요.

세미콜론을 생략하면 결과를 직접 확인할 수 있습니다.

더보기

layers = defaultnet.Layers

 

Q-값 함수 – 1개의 입력값, 5개의 출력값


주사위 게임에서 에이전트는 단일 값(목표값)을 관측하고 5개의 행동(주사위) 중에서 선택합니다. 이는 크리틱 신경망에 대한 입력 계층과 출력 계층을 결정합니다. 여기서 크리틱 신경망은 단일 입력값(관측값)을 가지며 해당 관측값과 각 주사위의 조합에 대한 5개의 Q 값을 나타내는 5개의 출력값을 생성합니다.

완전 연결 은닉 계층은 임의의 크기일 수 있습니다. 디폴트 신경망은 256개의 뉴런으로 구성된 두 개의 은닉 계층을 사용합니다.

 

신경망의 계층은 벡터 변수로 표현됩니다. 벡터의 각 요소는 신경망의 계층에 대응됩니다. 표준 배열 인덱싱을 사용하여 개별 계층을 추출할 수 있습니다.
nthlayer = layers(n)
작업
디폴트 신경망의 두 번째 계층을 fc라는 변수로 추출하세요.

세미콜론을 생략하여 이 개별 계층의 속성을 확인할 수 있습니다.

더보기

fc = layers(2)

 

점 인덱싱과 배열 인덱싱을 조합하여 신경망의 Layers 속성에서 특정 계층을 추출할 수 있습니다.

nthlayer = network.Layers(n)

변수 trainednet은 훈련된 에이전트의 크리틱 신경망을 포함하고 있습니다. 이는 훈련되지 않은 크리틱 신경망 defaultnet과 동일한 구조를 가지고 있습니다.
작업
사전 훈련된 신경망 trainednet의 두 번째 계층을 fctrained라는 변수로 추출하세요.

더보기

fctrained = trainednet.Layers(2)

 

신경망 파라미터 – 가중치와 편향



완전 연결 계층 fc와 fctrained는 똑같아 보입니다. 이 둘의 차이점은 무엇일까요? 완전 연결 뉴런의 가중치와 편향은 입력값을 출력값으로 변환하는 방법을 결정합니다.


처음 만들었을 때(예: defaultnet), 신경망은 무작위로 지정된 가중치와 편향을 가지고 있습니다. 에이전트가 훈련되면, 신경망이 의미 있는 방식으로 입력값을 출력값으로 변환하도록 신경망의 가중치와 편향이 업데이트됩니다. (이 사례에서는 목표값에 대한 주어진 관측값이 각 주사위를 선택할 때마다 올바른 Q 값을 생성하도록 합니다.)

 

완전 연결 계층에는 각 뉴런에 대한 파라미터를 표현하는 가중치 배열과 편향 배열이 있습니다. 이러한 파라미터의 값은 일반적으로 훈련 중에 결정됩니다.
작업
점 표기법을 사용하여 fc의 Weights 속성을 wd라는 변수로 추출하세요. 마찬가지로, fctrained의 Weights 속성을 wt라는 변수로 추출하세요.

세미콜론을 생략하면 결과를 직접 확인할 수 있습니다. 그러면 두 신경망의 가중치를 비교할 수 있습니다.

더보기

wd = fc.Weights
wt = fctrained.Weights

 

은닉 계층의 가중치는 명확한 의미를 갖고 있지 않습니다. 크리틱 신경망의 중요한 특징은 이 신경망이 각 입력값(즉, 목표값에 대응되는 관측값)에 대해 생성하는 5개의 Q 값입니다.

로컬 함수 visualizeQ는 신경망을 통해 각 목표값을 전달하고 반환된 5개의 Q 값을 기록합니다. 그런 다음, 결과로 생성된 Q 테이블을 이미지로 시각화합니다.

visualizeQ(defaultnet)
visualizeQ(trainednet)

defaultnet의 가중치와 편향은 무작위로 지정되기 때문에 스크립트를 실행할 때마다 다른 Q 테이블이 표시됩니다.

728x90