인공지능/공부

모두를 위한 머신러닝 - 14주차 이상 데이터 검출

이게될까 2024. 6. 3. 16:10
728x90
728x90

Q. 다음 문장의 빈칸에 적절한 용어를 생각해 보세요.

"신용카드를 도난 당했지만, 도난 사실을 모르고 즉시 카드를 정지 시키지 못했거나,
 신용카드 정보를 해킹 당했을 때 사용자는 매우 난처한 일을 겪을 수 있겠지요?

 신용카드 회사에서는 사용자의 거래 내역 중에서 비정상적인 패턴을 찾아냄으로써
 혹시 있을 지 모르는 신용카드 부정 사용을 막고자 노력합니다.

 이처럼 많은 데이터 중에서
 일반적으로 발생하지 않는 정상적이지 않은 데이터를 ( 이상 데이터(Anomaly) )라고 합니다.
"

1차시 - 이상 데이터 검출 문제 정의

 

 

특징 - 열, 진동 강도 등 다양하게 볼 수 있다.

이렇게 정상 범위에서 많이 벗어난 데이터를 이상 데이터라고 칭한다.

 

사용자의 행동 패턴을 특징 값으로 본다.

저것으로 부족하면 인증키를 추가로 요청한다.

 

2차시 - 가우시안 분포

가우시안 확률 분포 == 정규분포

평균을 기준으로 좌우 대칭이다.

전체 면적은 1이다.

 

평균과 표준편차는 어떻게 알 수 있을까?

m이 클경우 큰 차이가 없다.

 

3차시 - 이상 데이터 검출 알고리즘 

모두 독립적이라고 가정하면! 다 곱한 것으로 표현될 수 있다.

이제 대입하여 입실론보다 크냐 작냐를 통해 구할 수 있다. 

독립이므로 곱한 값도 가우시안 분포이다.

이진 분류 문제이다! 
이상 데이터가 아닌 것만 학습에 활용한다. 
약간의 비정상 데이터는 test와 validation에 조금씩 섞어 넣는다.

정확도가 좋은 평가 척도가 아니다!

validation 을 통해 입실론 값을 결정하면 된다.

 

4차시 - 이상 데이터 검출을 위한 특징 변환

데이터 불균형이 있다.

가우시안 분포가 아닌 분포들은 가우시안 분포와 같이 변형해준다.
특징 값의 변형을 통해 가능하게 된다.

어떤 함수를 사용하여 변환하는게 좋을지 판단을 잘 해야된다.

hist를 통해 빈도 수를 계산한다.

range를 세분화하여 좀더 자세하게 볼 수 있다.

경우를 확인하고 제일 좋은 값으로 결정할 수 있다.

 

비정상 데이터지만 정상 데이터 분포 안에 들어가 있다. -> 특징 차원이 너무 낮다. 

차원의 수를 증가 시킨다!

새로운 특징을 추가하였다.

이상데이터가 발생했을 때 크게 변하는 값들을 선택하는 것이 좋다.

 

5차시 - 다변수 가우시안 분포

 

정상 데이터는 선형적인 분포를 보이고 있다.

두 feature 다 가우시안 분포를 가진다.

1차원에서 보면 특이하다고 보기 힘들다.

기울어진 분포를 확인했을 때 이상 데이터임을 확인할 수 있다.

다변수 가우시안을 확인해야 한다!

독립적이라는 가정을 빼버린다.

비대칭적인 모습을 보인다.

평균값에 따라 이동도 한다.

이전에는 독립이었으므로 각각을 곱해줬다.

오리지널이 계산량이 더 적다.

데이터의 개수(m)가 특징 개수(n)보다 커야한다!!

 

728x90