전체 글 614

생성형 인공지능 입문 6~7, 9 ~10 주 차 정리, 중간 고사, 퀴즈

6주 차 - LLM1차시 - BERTBERT - Bidirectional Encoder Representations from Transformer로 Google의 모델이다.대규모 텍스트를 통해 언어 표현을 Pre-trained 하여 언어 이해를 하고, 나중에 Downstream으로 학습한다.Pre-training 모델ELMo - 양방향 LSTMBERT - 양방향 AttentionGPT - 단방향 AttentionEmbeddingToken Embedding : 단어 벡터를 이용해 후속 분류 작업 시행Segment Embedding : 임의의 두 문장을 구분하는데 사용([SEP] 토큰도 있지만 서로 보완해 준다.)Position Embedding : 트랜스포머와 달리 trigonometric 기반이 아니다...

인공지능/공부 2024.06.13

자연어 처리 기말고사 대비 문제 만들기

10강 - Language model with GPTOX 문제Language Modeling은 다음 단어를 예측하는 작업이다. (O/X)정답: O해설: Language Modeling의 기본 개념은 주어진 단어 시퀀스에서 다음에 올 단어를 예측하는 것이다.GPT-1은 양방향 self-attention을 사용한다. (O/X)정답: X해설: GPT-1은 단방향 self-attention을 사용하여, 다음 단어를 예측하기 위해 이전 단어들만을 고려한다.Perplexity는 Language Model 평가에서 사용되는 표준 평가 지표이다. (O/X)정답: O해설: Perplexity는 주어진 모델이 텍스트 데이터를 얼마나 잘 예측하는지를 나타내는 지표로, cross-entropy loss의 지수이다.GPT-1은..

자연어 처리 기말고사 정리

10강 - Language Modeling with GPTMasked LM - encoder에서 진행되는 과정으로 마스킹된 단어를 맞춘다.BERT가 Transformer의 Encoder를 사용하여 양방향 Self attention을 진행하여 마스킹된 단어 예측을 진행한다.LM - Decoder에서 진행되는 과정으로 다음 단어를 예측한다.input으로 이전 단어를 넣고 가장 높은 확률을 가지는 단어를 가지고 오는 것을 반복한다. == auto aggressiveGPT가 Transformer를 사용해 단방향 Self attention을 진행하고, 이전 컨택스트만 가지고 예측한다.n-gram : n개 단어까지만 확인해서 그 확률이 어떻게 되는지 보고, 높은 단어를 가지고 온다 - 통계적 방법앞의 문맥을 버리고..

생성형 인공지능 입문 1~5주 차 정리, 퀴즈

1주 차 - 생성형 인공지능이란?1차시 - CHAT GPT란?Chat GPT == LLM : 언어모델(LM)을 더욱 확장한 개념으로 인간의 언어를 이해하고 생성하도록 훈련된 인공지능GPT : 트랜스포머 Decoder 모델인 생성형 사전 학습 트랜스포머를 기반으로 한다. G : Generative = 생성형P : Pre-train = 사전 학습T : Transformer = 자연어를 처리하는 딥러닝 기술, 글자럴 번역한다는 의미 GPT 이전엔 BERT이었고, 사용자의 텍스트(Query)를 기반으로 텍스트 응답을 형성한다.인코더 : 외부의 글자를 인코딩한다. 학습할 때 사용디코더 : 인코더 된 정보를 통해 생성.Transformer Decoder 모델은 Masked Multi-Head Self Attenti..

인공지능/공부 2024.06.11

모두를 위한 머신러닝 기말고사

다음 설명 중 머신러닝 시스템을 설계할 때 가장 먼저 고려하여야 할 사항은 무엇인가?하나를 선택하세요.샘플 데이터 수집하기학습 알고리즘 개발하기접근방식 선택하기 (지도학습 / 비지도학습)특징 추출하기이건 퀴즈에 있었던 내용이네요 접근 방식 선택하기 머신러닝 시스템을 설계할 때 가장 먼저 고려하여야 할 사항은 "접근방식 선택하기 (지도학습 / 비지도학습)"입니다. 따라서 정답은 3번입니다.이유:머신러닝 시스템을 설계할 때 첫 번째 단계는 문제를 정의하고 그에 맞는 접근 방식을 선택하는 것입니다. 이 결정은 전체 시스템 설계의 방향을 결정짓기 때문에 가장 중요합니다. 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning) 중 어느 접근 방식을 사용할지 결정하는 것..

인공지능/공부 2024.06.10

모두를 위한 머신러닝 9 ~ 14주차 정리

9주 차 1차시 - 예측 함수 성능 평가Cost function은 실제 출력(예측 값), Label,  regularization으로 이루어져 있다.테스트 데이터는 학습에 사용되지 않은 데이터로 모델의 성능을 평가할 때 사용되며 잘 작동하면 문제 없지만 오차가 크면 성능 향상이 필요하다.1. 학습데이터 더 수집하기 : 좋은 생각이나 시간과 노력이 필요하다. 확실하게 파악하고 시작해야함2. feature 수를 줄인다 : 오버피팅을 방지하기 위해 줄인다.3. feature 수를 늘린다 : 현재 feature로는 모든 정보를 넘길 수 없을 때 늘린다.4. 다항식을 추가한다. : 새로운 특징값을 만드는 것과 같다. 5. 정규화 파라미터 감소하기 : train 데이터에 대해 잘 학습한다.6. 정규화 파라미터 증가..

인공지능/공부 2024.06.10

모두를 위한 머신러닝 1 ~ 7주차 정리

1주 차 1차시 - 머신러닝이란?머신러닝이란 == 이전의 경험이나 사례를 바탕으로 새로운 패턴을 예측한다.인공지능 == 컴퓨터 시스템으로 인간의 지능으로 해결할 수 있는 문제를 푼다.시각 인지, 청각 인지, 의사 결정을 한다.머신러닝이란 인공지능의 한 분야로 컴퓨터 알고리즘이 경험으로부터 자동으로 학습하고 성능을 향상한다.명확하게 프로그래밍하지 않아도 문제 해결 능력을 가지게 된다. 일 T와 성능지표 P로부터 경험 E를 통해 학습한다. 경험으로부터 학습한다!adaptive System - 오차로부터 학습한다.T의 파라미터를 ouput에 대한 오차를 측정하여 학습한다.y - prediction 출력값, h - Hypothese = 예측함수예측함수는 parameters에 의해 표현되고, 오차를 줄여나가는 방..

인공지능/공부 2024.06.09

모두를 위한 머신러닝 기말 문제 풀기

1번일 T와 성능지표 P로부터 경험 E를 통해 학습한다. 경험으로부터 학습한다!3번 아닌가...? 2. 1맞고2전역최소3번 겁나 애매하네 test할 때는 가장 좋은게 아닐 수 있는데 그럼 아니라고 가자4맞다 하나하나 바꿔버리면 오류 발생 가능 한번에 바꿔야 된다.3여러개고 다른 것을 비슷한 것으로 바꿔주는 건데 문제 진짜 싫어.... 애매해....41.가능2.그럼 왜 분류한다 그르냐 분류 잘하지. 아니네 잘 못 분류하지 않는다..ㅋㅋㅋㅋㅋ.ㅠ3. 비선형 가능4. 선형 가능 51vs all도 n개만 있으면 됩니다.61 맞습니다2 테스트는 나쁩니다3 학습에 좋습니다4 맞습니다71. ? ??? 진짜 뭐지 역행렬이 만들어 진다네요 2. 아뇨3. 이게 맞아요4. cost function에 들어가니 파라미터 업데이..

인공지능/공부 2024.06.09

강화학습 12강 - Deep RL 심화

Value optimization 방식 Neural Fitted Q Iteration (NFQ)신경망을 활용하여 Q 함수를 근사한다. 기본 뉴럴넷 형식이고, Q를 뉴럴넷으로 구현하였다.장 : 비선형 함수 근사를 통해 복잡한 환경에서도 사용 가능하다.단 : 데이터 활용 측면에서 효율성 떨어짐 Deep Q Learning (DQN)심층 신경망을 활용하여 Q 함수를 근사한다.장 : replay memory를 사용하여 샘플 효율성을 높였다.단 : 불안정한 학습과 과적합 문제가 발생 가능하다. Q를 뉴럴넷을 통해 구한다. == 학습이 불안정해지고, 오버피팅이 발생할 수 있다.데이터 셋이 많을 수록 좋아진다. -> 데이터 샘플이 편향성을 가지지 않고, 다양한 형태를 가져야 한다 == Q를 학습하는데 편향이 될 수 ..

강화학습 11강 - 강화학습 실습 예제

전이 확률이 1이다 == action과 다음 state과 같다. Frozen Lake에서 랜덤만 넣으니 학습이 잘 되지않닸다.-> 경험을 다양하게 시켜보자 == max를 뽑고 입실론을 넣어주자 : 쪼금 늘었다.-> 에피소드를 진행할수록 입실론을 줄여보자 - 안좋아졌다. => 적당히 남겨놓고 경험하게 둬야 한다. -> 이전 Q와 알파 Q로 나누자 - 알파를 조절하면 정보의 반영 정보 조절 가능하다 - 파라미터 추가로 성능 향상 -> 입실론을 빼고 Q에 랜덤 노이즈를 더해줬다. == 랜덤성이 부여되었다.(Q값이 큰 차이가 없으면 다양한 경험이 가능하다.) - 가능성이 있는 곳을 선택하여 안 간 곳이 사라지고, 성능이 향상되었다.  더보기11. 강화학습 실습 예제11.1 Escape Room방탈출 예제:5개의..

728x90
728x90