반응형

전체 글 746

강화학습 12강 - Deep RL 심화

Value optimization 방식 Neural Fitted Q Iteration (NFQ)신경망을 활용하여 Q 함수를 근사한다. 기본 뉴럴넷 형식이고, Q를 뉴럴넷으로 구현하였다.장 : 비선형 함수 근사를 통해 복잡한 환경에서도 사용 가능하다.단 : 데이터 활용 측면에서 효율성 떨어짐 Deep Q Learning (DQN)심층 신경망을 활용하여 Q 함수를 근사한다.장 : replay memory를 사용하여 샘플 효율성을 높였다.단 : 불안정한 학습과 과적합 문제가 발생 가능하다. Q를 뉴럴넷을 통해 구한다. == 학습이 불안정해지고, 오버피팅이 발생할 수 있다.데이터 셋이 많을 수록 좋아진다. -> 데이터 샘플이 편향성을 가지지 않고, 다양한 형태를 가져야 한다 == Q를 학습하는데 편향이 될 수 ..

강화학습 11강 - 강화학습 실습 예제

전이 확률이 1이다 == action과 다음 state과 같다. Frozen Lake에서 랜덤만 넣으니 학습이 잘 되지않닸다.-> 경험을 다양하게 시켜보자 == max를 뽑고 입실론을 넣어주자 : 쪼금 늘었다.-> 에피소드를 진행할수록 입실론을 줄여보자 - 안좋아졌다. => 적당히 남겨놓고 경험하게 둬야 한다. -> 이전 Q와 알파 Q로 나누자 - 알파를 조절하면 정보의 반영 정보 조절 가능하다 - 파라미터 추가로 성능 향상 -> 입실론을 빼고 Q에 랜덤 노이즈를 더해줬다. == 랜덤성이 부여되었다.(Q값이 큰 차이가 없으면 다양한 경험이 가능하다.) - 가능성이 있는 곳을 선택하여 안 간 곳이 사라지고, 성능이 향상되었다.  더보기11. 강화학습 실습 예제11.1 Escape Room방탈출 예제:5개의..

강화학습 10장 - 알파고와 MCTS

알파고는 2016년 3월 이세돌과 바둑을 둔 AI로 학습단계와 플래닝 단계가 나뉘어 있다. 학습 단계 : 사용될 재료를 미리 만들어 둔다. 플래닝 단계 : 대국 도중 실시간으로 이루어지며 바둑알을 어디에 놓을지 고민하는 과정으로 MCTS를 사용하였다.MCTS(Monte Carlo Tree Search): 예측을 통해 끝까지 가보고 확률을 낸다.학습이 모든 경우의 수를 파악한 것은 아니기 때문에 플래닝 단계를 활용하여 학습의 불안정성을 제거하고, 이후의 판세를 판단할 수 있다.학습단계에서는 4개의 네트워크를 학습한다. 정책 네트워크 : sl(기보를 이용한 지도학습), roll(MCTS를 위한 지도학습), rl(스스로 대국하며 강화학습한 정책)가치 네트워크 : rl 지도학습 정책 sl19*19 convolu..

강화학습 9장 - 정책 기반 에이전트

가치 기반 에이전트가 액션을 선택하는 방식은 결정론적이다. == 모든 state의 각 상태에서 선택하는 action이 변하지 않는다.정책 기반 에이전트는 가치 기반 에이전트에 비해 좀 더 유연하다.action 공간이 연속적인 경우 가치 기반 에이전트는 q(s,a)에서 최대가 되는 a를 잘 찾기 힘들다.정책 기반 에이전트는 파이가 있기 때문에 액션을 바로 뽑을 수 있다.정책 기반 에이전트는 확률적 정책(state에서 action을 고를 확률)이다.여기선 최대화를 해야 하기 때문에 +를 사용한다.어떤 행동이 가장 좋은지에 대해 기준이 필요하다 => 기준 == 리턴 (정답은 아니므로 비지도 학습) => 정책함수 학습 가능딱 한스텝만 진행하는 MDO이다.모델 프리상황에서는 r과 P를 알 수 없다.샘플 기반 방법..

강화학습 8강 - 가치 기반 에이전트

가치 기반 에이전트는 V와 Q를 만든다. V, Q 계산을 잘해야 최적의 정책을 찾을 수 있다. 가치 기반 : 가치 함수에 기반하여 액션 선택모델 프리상황(v를 사용하기 힘들다)에서는 v를 보고 알 수 없기 때문에 q를 사용한다.정책 기반 : 정책 함수에 기반하여 액션 선택액터 크리틱 : 가치 함수와 정책 함수를 모두 사용한다.액터 : 정책크리틱 : v,q  벨류네트워크는 정책이 고정되어 있을 때 뉴럴넷을 이용하여 학습한다.이렇게 만든 네트워크는 테이블 필요없이 input인 state만 주면 값이 튀어나온다. 업데이트 진행은 MSE를 활용한 경사 하강법과 동일하다. 그러나 강화학습에는 라벨이 없기 때문에 TD나 MC를 활용하여 True 값을 만들어 준다.   딥 Q 러닝가치 기반 에이전트는 명시된 정책이 ..

강화학습 7강 - DEEP RL 개요

테이블 대신에 함수를 사용한다mse를 최소로 하는 선을 찾아서 없는 값들도 유추할 수 있다.일반적인 직선 말고도 다항 함수를 사용하여 데이터 점들을 가장 가깝게 지나가게 할 수 있다.고차함수에 가깝게 갈수록 mse는 떨어지겠지만 노이즈에 민감하게 반응한다 언더 피팅 : 함수의 유연성이 부족하여 주어진 데이터와 에러가 너무 크다.오버 피팅 : 함수가 너무 유연하여 노이즈에 피팅해버리는 것 실험을 통해 주어진 데이터는 노이즈가 껴있기 때문에 적절하게 차수를 선정해야 한다. 강화학습에서 state가 너무 많으면 테이블의 모든 Value를 담을 수 없다. -> Value를 구하는 함수를 학습하자.일반화 : 전체를 다 경험하지 못하더라도 일부 샘플만으로 전체를 추정하는 것함수를 인공 신경망을 통해 복잡하게 만들어..

자연어 처리 17강 - Parameter efficient Tuning

LLM의 파라미터를 효율적으로, 효과적으로 튜닝하는 방법이다.언어 모델은 Semi supervised learning (NSP, Masking)을 통해 Pre-trained하고, Supervised learning을 통해 fine tuning을 진행한다. 이전에는 각 task마다 fine tuning을 진행하여 여러개의 모델을 만들었으나 요즘엔 모델 하나하나의 크기가 거대해져서 fine tuning을 그렇게 진행할 수 없고, task 종류도 너무 많이 늘었다. 전체 파라미터를 수정하기 어려우니 일부분만 학습하기로 하였다. Adapters - 필요한 부분만 (전체 파라미터의 3% 정도) 바꾸어 전체를 파인 튜닝 한 모델과 큰 차이가 나지 않은 정확도를 보였다. fine-tuning은 특정 task의 los..

자연어 처리 16강 - Prompt Engineering

Instruction : input에 대한 설명 Context : input  Prompt = instruction + context Prompt -> model -> output Prompt 엔지니어링 == 모델을 다양한 분야에 적용하기 위해 Chat GPT는 오픈 도메인으로 instructions를 잘 작성해야 한다.  좋은 prompt 작성을 위해선 상황을 가정해주고, 무슨 일을 할지 명령해주며, 원하는 대답의 형태 등 넣어줄 것이 많다. step을 정해주는건 안해주는 것과 큰 차이가 난다. few-shot Prompts : 예시 남겨주기Zero shot CoT : "Let's think step by step"을 활용하여 순차적으로 문장 하나 하나에 대응할 수 있게 해준다. 문제도 step by ..

자연어 처리 15강 - Large Language Model

생성형 모델의 대부분은 Decoder 모델이다. input이 들어가면 차례대로 결과가 나오고, 질문에 대한 답을 생성하는데 목적이 있다. fine-tuning으로 말이 되는지 안되는지 supervised learning도 진행한다. 이러한 fine-tuning없이 모든 task를 잘하길 원했고, 스케일 up, 학습 up하여 좋은 데이터셋을 가지고 좋은 모델을 만들려고 지속적으로 시도하였다. GPT2는 시존 책 코퍼스가 아니라 웹 텍스트를 가져왔고, 데이터의 양도 많이 늘렸다.transformer layer도 12층에서 48층으로 늘리면서 토큰 수도 늘었다.117M -> 1.5B로 파라미터도 엄청나게 증가!Vocab size를 늘렸다 == 인코딩 방식을 세분화 하였다.input을 넣을 때 무슨 일을 할지 ..

자연어 처리 14강 - Self supervised Learning 2

BERT에서는 supervised learning과 unsupervised learning의 중간인 semi(self) supervised learning을 Pre-training 과정(실제 task 풀기 전 전반적인 지식 탐구)에 한다. Fine-tuning을 진행할 때 labeled dataset으로 supervised learning을 진행한다.  SpanBERT에선 NSP가 빠졌다. 마스킹을 span레벨로 진행하여 문맥을 조금 더 파악할 수 있게 되었다. Longformer : BERT의 변형으로 긴 doc를 처리한다.  긴 doc에서 global로 attention을 진행하게 되면 연산량이 엄청나게 늘어난다 -> 특정 패턴을 주자 NLU는 NLG에 비해 그나마 쉽다.  BART는 원본 문장을 생..

728x90
728x90