인공지능/자연어 처리

자연어 처리 모델 학습 - 파인 튜닝된 모델 분석 및 평가

이게될까 2024. 3. 30. 19:00
728x90
728x90

목표 - 언어 모델을 파인튜닝할 때 발생하는 문제들을 분석하고 평가하는 방법들에 대해 이해하기

자연어 처리 모델 평기 Evaluation

위험하고 평향된 말이 들어왔을 때 모델이 답변을 잘 선택하도록 만들어야 한다.

언더 피팅과 오버비팅 (memorized)

일반화 - 우리가 추구하는 목표, 모르는 데이터에 대해 적절한 답변을 준다.

 

자연어 분류 작업에서의 모델 평가

감정 분류 - 긍, 부정, 행복, 슬픔과 같은 감정 분류

자연어 추론 - 전제문장과 가설문장이 주어졌을 때 가설문장의 참, 거짓 등을 밝힌다.

의도 분류 - 정확한 의도 파악

다양한 분류 작업에서 사용된다.

label이 늘어나도 행렬이 늘어나는 것이기 때문에 사용 가능하다.

항상 예시로는 암의 관측을 정확도의 오류의 위험성을 말합니다.

실제 정답이 negative인데 ture라고 한 경우 중요한 지표이다.

리콜이 낮으면 다 찍어보고 왜 그렇게 나오는지 확인 필요. -> 모델을 개선할 때 어떤 패턴을 취해야 하는지 알 수 있다.

정량적인 수치에 의존하지 말고 정성적인 부분의 평가도 필요!

 

자연어 생성 작업에서의 모델 평가

 

PPL

문장이 하나 완성될 때 확률이 있다 -> 누적된 확률을 통한 PPL구하기

확률이 높다 -> PPL값 낮다. -> 확신하여 답을 골랐다.

확률이 낮다 -> PPL 값 높다. -> 고만고만하다. == 만이 햇갈렸다.

 

형태적 유사성을 평가하므로 의미적으론 보지 않는다.

예측 문장이 지나치게 길면 패널티를 준다.

 

SSA

 

 

728x90