인공지능/공부

모두를 위한 머신러닝 10주차 3차시 - 불균형 데이터의 경우 오차 평가 척도

이게될까 2024. 5. 9. 15:46
728x90
728x90

 

불균형 데이터 == 데이터의 수가 크게 차이나는 것

이렇게만 만들어도 정확도가 99.5%!!!

불합리한 결과는 데이터의 부류 내에 데이터의 개수가 매우 차이 나기 때문에 발생!!

극단적인 경우를 skewed Classes라고 부른다.

그냥 정확도를 확인하는게 좋은 척도가 아니다.

단지 정확도가 올랐다고 성능이 좋아졌다고 하기 어렵다. 다른 척도가 필요하다.

혼동 행렬(confusion matrix)이라고도 많이 불렀던 것 같네요

정밀도 - 참이라고 예측한 경우 중 진짜 참인 경우

재현율 - 참인 중에 참이라고 예측한 경우 (이게 암 환자한테 중요하다고 느끼네요..)

재현율이 0이 되어 버렸다.

정확도는 단지 데이터의 불균형 때문이었다.

 

에러는 이걸 반대로 하면 된다.

진짜 부정 중 예측을 부정으로 한 경

 

728x90