모두를 위한 머신러닝 10주차 3차시 - 불균형 데이터의 경우 오차 평가 척도

인공지능/공부

이게될까 2024. 5. 9. 15:46

728x90

불균형 데이터 == 데이터의 수가 크게 차이나는 것

이렇게만 만들어도 정확도가 99.5%!!!

불합리한 결과는 데이터의 부류 내에 데이터의 개수가 매우 차이 나기 때문에 발생!!

극단적인 경우를 skewed Classes라고 부른다.

그냥 정확도를 확인하는게 좋은 척도가 아니다.

단지 정확도가 올랐다고 성능이 좋아졌다고 하기 어렵다. 다른 척도가 필요하다.

혼동 행렬(confusion matrix)이라고도 많이 불렀던 것 같네요

정밀도 - 참이라고 예측한 경우 중 진짜 참인 경우

재현율 - 참인 중에 참이라고 예측한 경우 (이게 암 환자한테 중요하다고 느끼네요..)

재현율이 0이 되어 버렸다.

정확도는 단지 데이터의 불균형 때문이었다.

에러는 이걸 반대로 하면 된다.

진짜 부정 중 예측을 부정으로 한 경

모두를 위한 머신러닝 10주차 5차시 - 학습 데이터 수와 테스트 오차의 관계 (0)	2024.05.09
모두를 위한 머신러닝 10주차 4차시 - 정밀도와 재현율의 Trade - off (0)	2024.05.09
모두를 위한 머신러닝 10주차 2차시 - 오차 분석 방법 (0)	2024.05.09
모두를 위한 머신러닝 10주차 1차시 - 머신러닝 시스템 설계 시 고려사항 (0)	2024.05.09
이전부터 살짝 아리까리 했던 RNN 정리하기 (0)	2024.05.09

NLP, AI, XAI에 관심있는 공대생의 일기장...?

공대생 도전 일지