인공지능/자연어 처리 118

자연어 처리 기말고사 대비 문제 만들기

10강 - Language model with GPTOX 문제Language Modeling은 다음 단어를 예측하는 작업이다. (O/X)정답: O해설: Language Modeling의 기본 개념은 주어진 단어 시퀀스에서 다음에 올 단어를 예측하는 것이다.GPT-1은 양방향 self-attention을 사용한다. (O/X)정답: X해설: GPT-1은 단방향 self-attention을 사용하여, 다음 단어를 예측하기 위해 이전 단어들만을 고려한다.Perplexity는 Language Model 평가에서 사용되는 표준 평가 지표이다. (O/X)정답: O해설: Perplexity는 주어진 모델이 텍스트 데이터를 얼마나 잘 예측하는지를 나타내는 지표로, cross-entropy loss의 지수이다.GPT-1은..

자연어 처리 기말고사 정리

10강 - Language Modeling with GPTMasked LM - encoder에서 진행되는 과정으로 마스킹된 단어를 맞춘다.BERT가 Transformer의 Encoder를 사용하여 양방향 Self attention을 진행하여 마스킹된 단어 예측을 진행한다.LM - Decoder에서 진행되는 과정으로 다음 단어를 예측한다.input으로 이전 단어를 넣고 가장 높은 확률을 가지는 단어를 가지고 오는 것을 반복한다. == auto aggressiveGPT가 Transformer를 사용해 단방향 Self attention을 진행하고, 이전 컨택스트만 가지고 예측한다.n-gram : n개 단어까지만 확인해서 그 확률이 어떻게 되는지 보고, 높은 단어를 가지고 온다 - 통계적 방법앞의 문맥을 버리고..

자연어 처리 17강 - Parameter efficient Tuning

LLM의 파라미터를 효율적으로, 효과적으로 튜닝하는 방법이다.언어 모델은 Semi supervised learning (NSP, Masking)을 통해 Pre-trained하고, Supervised learning을 통해 fine tuning을 진행한다. 이전에는 각 task마다 fine tuning을 진행하여 여러개의 모델을 만들었으나 요즘엔 모델 하나하나의 크기가 거대해져서 fine tuning을 그렇게 진행할 수 없고, task 종류도 너무 많이 늘었다. 전체 파라미터를 수정하기 어려우니 일부분만 학습하기로 하였다. Adapters - 필요한 부분만 (전체 파라미터의 3% 정도) 바꾸어 전체를 파인 튜닝 한 모델과 큰 차이가 나지 않은 정확도를 보였다. fine-tuning은 특정 task의 los..

자연어 처리 16강 - Prompt Engineering

Instruction : input에 대한 설명 Context : input  Prompt = instruction + context Prompt -> model -> output Prompt 엔지니어링 == 모델을 다양한 분야에 적용하기 위해 Chat GPT는 오픈 도메인으로 instructions를 잘 작성해야 한다.  좋은 prompt 작성을 위해선 상황을 가정해주고, 무슨 일을 할지 명령해주며, 원하는 대답의 형태 등 넣어줄 것이 많다. step을 정해주는건 안해주는 것과 큰 차이가 난다. few-shot Prompts : 예시 남겨주기Zero shot CoT : "Let's think step by step"을 활용하여 순차적으로 문장 하나 하나에 대응할 수 있게 해준다. 문제도 step by ..

자연어 처리 15강 - Large Language Model

생성형 모델의 대부분은 Decoder 모델이다. input이 들어가면 차례대로 결과가 나오고, 질문에 대한 답을 생성하는데 목적이 있다. fine-tuning으로 말이 되는지 안되는지 supervised learning도 진행한다. 이러한 fine-tuning없이 모든 task를 잘하길 원했고, 스케일 up, 학습 up하여 좋은 데이터셋을 가지고 좋은 모델을 만들려고 지속적으로 시도하였다. GPT2는 시존 책 코퍼스가 아니라 웹 텍스트를 가져왔고, 데이터의 양도 많이 늘렸다.transformer layer도 12층에서 48층으로 늘리면서 토큰 수도 늘었다.117M -> 1.5B로 파라미터도 엄청나게 증가!Vocab size를 늘렸다 == 인코딩 방식을 세분화 하였다.input을 넣을 때 무슨 일을 할지 ..

자연어 처리 14강 - Self supervised Learning 2

BERT에서는 supervised learning과 unsupervised learning의 중간인 semi(self) supervised learning을 Pre-training 과정(실제 task 풀기 전 전반적인 지식 탐구)에 한다. Fine-tuning을 진행할 때 labeled dataset으로 supervised learning을 진행한다.  SpanBERT에선 NSP가 빠졌다. 마스킹을 span레벨로 진행하여 문맥을 조금 더 파악할 수 있게 되었다. Longformer : BERT의 변형으로 긴 doc를 처리한다.  긴 doc에서 global로 attention을 진행하게 되면 연산량이 엄청나게 늘어난다 -> 특정 패턴을 주자 NLU는 NLG에 비해 그나마 쉽다.  BART는 원본 문장을 생..

자연어 처리 13강 - Self Supervised Learning 1

머신러닝의 종류에는 지도, 비지도 강화학습이 있다. 지도학습은 학습셋에 데이터와 라벨이 묶여있다.비지도 학습은 라벨이 존재하지 않고, 데이터의 패턴끼리 묶는다. 그러나 높은 성과를 기대하기 어렵다. pre-training = 라벨되거나, 라벨되지 않은 대량의 데이터를 가지고 모델을 학습시킨다.fine-tuning = 지식을 추가하기 위해 라벨된 데이터를 모델에 학습시킨다.데이터 양, 유사도에 따라 fine-tuning할 때 weight의 변화를 조절한다. Self supervised lenring은 unsupervised learning으로 pre training 진행할 때 라벨이 없는 데이터를 가지고 학습하는 것을 뜻한다. Pretext task를 진행한다. RoBERTa기존의 Static Maskin..

자연어 처리 12강 - Question Answering + BERT

QA 모델에서는 의도파악, NER, 문서 검색, 정보 추출, 정답 생성 등 다양한 기능이 필요하고, 질문의 의도 파악이 중요하다.CHAT GPT도 하나의 QA챗봇으로 지금 시대의 검색이다.QA SOTA 모델은 대부분 pre trained된 BERT 모델이다. 더보기BERT 기반 질문 응답 시스템(QA)은 주어진 문맥에서 질문에 대한 답변을 찾아내는 작업에 주로 사용됩니다. 그러나 Knowledge-Based QA에서는 외부 지식 그래프나 데이터베이스와 같은 지식을 활용하여 질문에 답변을 제공합니다. 아래는 BERT를 활용한 Knowledge-Based QA 시스템의 일반적인 접근 방식을 설명합니다.BERT를 활용한 Knowledge-Based QA 시스템의 구성 요소질문 이해 (Question Under..

자연어 처리 11강 - Named Entity Recognition (NER) + BERT

이 단어가 회사인지, 기관인지, 나라, 시설 등 다양한 개체, 대명사, 이름 중에 무엇인지 맞추는 작업이다. 위키에 페이지로 존재하는 명사로 생각하면 편하다.  이름이 너무 길거나, 모든 이름을 포함하지 않고(Zipf's Law), 동일한 이름을 가지는 경우 모델이 제대로 파악하지 못하는(Ambiguity) 경우가 생긴다.  규칙 기반 NER1. 높은 정밀도 rule을 통해 애매하지 않은 mentions를 라벨한다. - recall을 확보해야 한다.2. 감지된 entities의 label 전파3. list를 활용하여 더 식별4. 순차적 라벨링 더보기이 부분은 규칙 기반 Named Entity Recognition (NER)에 대한 설명입니다. NER은 텍스트에서 특정 명명된 엔티티(사람, 조직, 장소, ..

728x90
728x90