반응형

2024/09/03 4

자연어 처리 복습 5 - 사전 학습, 전이 학습, 미세 조정

Pre-training = 특정 task로 특화하기 전 일반적인 data를 통해 먼저 학습하는 단계로 일반화된 언어 특성을 학습  1. 과거의 사전학습과거에는 딥러닝의 학습이 잘 진행되지 않아 레이어를 각각 학습시키고, 합치는 형식으로 진행  2. 사전 학습된 워드 임베딩  - Word2Vec, FastText,GloVe단어의 의미를 Dense 벡터 표현에 성공적으로 압축BUT 단어의 형태학적 특성을 반영하지 못하고, OOV 처리가 어려우며, 단어 사전이 클수록 학습하는데 오래걸린다는 단점이 있다. 3. 사전 학습된 언어 모델 ELMo한 단어에 여러 의미가 있으면 벡터 값이 달라지기에 위의 Word2Vec와 같은 한계를 어느정도 해결 그러나 LSTM기반을 벗어나지 못해 구조적인 문제가 발생고정된 크기 벡..

자연어 처리 복습 4 - seq2seq, ELMo, Transformer, GPT, BERT

기존 RNN 모델의 성능이 별로였던 이유 - 입 출력이 고정되어 언어에 활용하기 부족한 점이 있다!what are you doing now ?너     지금  뭐해 ?   - ---------이렇게 비는 경우가 생긴다. Seq2Seq - LSTM으로 이루어진 Encoder와 Decoder을 통해 가변적인 길이의 입 출력을 가능하게 한다.Encoder - 입력된 문장을 context vector에 압축(인코딩)하여 정보 저장  -> 문장 수준의 벡터 활용 가능Decoder - context vector를 통해 출력 문장 생성 한계 - 고정된 크기의 context vector때문에 정보 손실, LSTM을 사용하기 때문에 Vanishing Gradient 문제 발생attention의 등장으로 입력 시퀸스의 길..

자연어 처리 복습 3 - 토큰화, 임베딩, 언어 모델

한국어는 교착어로 조사나 어미가 발달되어 있기 때문에 띄어쓰기 단위인 어절로 토큰화를 진행하면 의미적인 훼손이 일어난다.형태소를 추출하여 분리하는 작업이 선행되어야 의미를 이해하는데 도움이 된다.품사 태깅(POS)도 중요하다.ex) fly = 날다(동사), 파리(명사)오타와, 띄어쓰기가 없어도 형태소 분석기를 사용하면 잘 분류하나, 종류마다 성능이 다 다르다.정제 과정은 아래에서 확인 가능합니다.2024.03.05 - [인공지능/자연어 처리] - 한국어 데이터 전처리 - 한국어 코퍼스 전처리 Python 실습 한국어 데이터 전처리 - 한국어 코퍼스 전처리 Python 실습한국어 코퍼스 전처리 실습 Introduction Chapter 2. 한국어 데이터 전처리 강의의 한국어 코퍼스 전처리 실습 강의입니다..

영어 저장소 22일차

nominate(후보자로)지명하다.nominate 는 사람을 목적어로 취해 그 사람을 '임명하다, 추천하다'의 뜻으로 뒤에 전치사 (for/as)와 함께 사용 된다.conditionally조건부로 appliance기기, 가전제품respective각각의 respect존경하다 strategically전략적으로briefly간략히, 잠시vendor판매자brief간결한, 간단한~에게 간단히 알리다.integral [형] 필수적인within [전] ~이내에 until further notice 추후 공지가 있을 때까지 burst [명] 폭발since '~이래로, 이후로' prior to '전에'job market 구직 시장 competitive [형] 경쟁하는 prepare oneself for ~에 스스로 대비하..

기타 2024.09.03
728x90
728x90