728x90
728x90
목표 - 자연어 처리 Task를 수행하는 절차 중 모델링, 모델 학습 및 평가 과정에 대해 이해할 수 있다.
기계번역 - 한국어 소스 -> 영어소스 = 영어 토큰으로 변환
최대 확률을 가지는 토큰을 가져온다!
문장 구조 상, 의미 상 가장 높은 확률을 가지는 토큰을 선택한다.
어순이 바른 것이 높은 확률을 가진다.
SOTA = 그 분야에서 제일 적합한 모델
상황에 따른 결정들이 많이 다르다!
내가 사용할 수 있는 리소스의 한계를 알아두기
모델 평가 시점도 중요하다!
모델 학습이 끝난 후 평가를 진행하면 재학습을 처음부터 다시해야 하는 경우가 있을 수 있다.
validation 데이터 셋을 사용하여 학습을 잘 체크한다!
오버 피팅에 대한 값은 validation과 train의 오차를 통해 확인
8/2로 나눠서 train과 validation으로 나눈다.
validation을 통해 학습의 진행 정도를 확인할 수 있다. 또한 일반화 성능을 확인할 수 있다.
대부분의 자연어 처리는 text이므로 명확하게 채점할 수 없기 때문에 정성평가를 진행할 경우가 많다.
두가지 평가를 모두 진행하고, 새로운 평가를 만들어 내려고 노력하고 있다.
가이드라인 -> 평가 방법의 명확성을 보여준다.
블라인드 테스트 - 사람 평가의 오차를 막아준다.
728x90
'인공지능 > 자연어 처리' 카테고리의 다른 글
자연어 처리 살펴보기 - Google colab 환경에서 Huggingface 기초 실습 (0) | 2024.03.02 |
---|---|
자연어 처리 살펴보기 - 프레임워크 소개 (0) | 2024.03.02 |
자연어 처리 진행 순서 1 - 데이터 수집 및 전처리 (0) | 2024.03.02 |
자연어 처리 살펴보기 - 다양한 자연어 처리 Task 소개 (1) | 2024.03.02 |
자연어 처리 살펴보기 - 개요 (0) | 2024.03.02 |