Q. 다음 문장의 빈칸에 적절한 용어를 생각해 보세요.
"신용카드를 도난 당했지만, 도난 사실을 모르고 즉시 카드를 정지 시키지 못했거나,
신용카드 정보를 해킹 당했을 때 사용자는 매우 난처한 일을 겪을 수 있겠지요?신용카드 회사에서는 사용자의 거래 내역 중에서 비정상적인 패턴을 찾아냄으로써
혹시 있을 지 모르는 신용카드 부정 사용을 막고자 노력합니다.이처럼 많은 데이터 중에서
일반적으로 발생하지 않는 정상적이지 않은 데이터를 ( 이상 데이터(Anomaly) )라고 합니다."
1차시 - 이상 데이터 검출 문제 정의
특징 - 열, 진동 강도 등 다양하게 볼 수 있다.
이렇게 정상 범위에서 많이 벗어난 데이터를 이상 데이터라고 칭한다.
사용자의 행동 패턴을 특징 값으로 본다.
저것으로 부족하면 인증키를 추가로 요청한다.
2차시 - 가우시안 분포
가우시안 확률 분포 == 정규분포
평균을 기준으로 좌우 대칭이다.
전체 면적은 1이다.
평균과 표준편차는 어떻게 알 수 있을까?
m이 클경우 큰 차이가 없다.
3차시 - 이상 데이터 검출 알고리즘
모두 독립적이라고 가정하면! 다 곱한 것으로 표현될 수 있다.
이제 대입하여 입실론보다 크냐 작냐를 통해 구할 수 있다.
독립이므로 곱한 값도 가우시안 분포이다.
이진 분류 문제이다!
이상 데이터가 아닌 것만 학습에 활용한다.
약간의 비정상 데이터는 test와 validation에 조금씩 섞어 넣는다.
정확도가 좋은 평가 척도가 아니다!
validation 을 통해 입실론 값을 결정하면 된다.
4차시 - 이상 데이터 검출을 위한 특징 변환
데이터 불균형이 있다.
가우시안 분포가 아닌 분포들은 가우시안 분포와 같이 변형해준다.
특징 값의 변형을 통해 가능하게 된다.
어떤 함수를 사용하여 변환하는게 좋을지 판단을 잘 해야된다.
hist를 통해 빈도 수를 계산한다.
range를 세분화하여 좀더 자세하게 볼 수 있다.
경우를 확인하고 제일 좋은 값으로 결정할 수 있다.
비정상 데이터지만 정상 데이터 분포 안에 들어가 있다. -> 특징 차원이 너무 낮다.
차원의 수를 증가 시킨다!
새로운 특징을 추가하였다.
이상데이터가 발생했을 때 크게 변하는 값들을 선택하는 것이 좋다.
5차시 - 다변수 가우시안 분포
정상 데이터는 선형적인 분포를 보이고 있다.
두 feature 다 가우시안 분포를 가진다.
1차원에서 보면 특이하다고 보기 힘들다.
기울어진 분포를 확인했을 때 이상 데이터임을 확인할 수 있다.
다변수 가우시안을 확인해야 한다!
독립적이라는 가정을 빼버린다.
비대칭적인 모습을 보인다.
평균값에 따라 이동도 한다.
이전에는 독립이었으므로 각각을 곱해줬다.
오리지널이 계산량이 더 적다.
데이터의 개수(m)가 특징 개수(n)보다 커야한다!!
'인공지능 > 공부' 카테고리의 다른 글
생성형 인공지능 입문 - 14주차 transformer 기반 행동 생성 2 (0) | 2024.06.03 |
---|---|
모두를 위한 머신러닝 - 14주차 퀴즈 (1) | 2024.06.03 |
인공지능과 빅데이터 과제 python tensorflow - 간단한 딥러닝 구현 (0) | 2024.05.28 |
생성형 인공지능 입문 - 13주차 퀴즈 (0) | 2024.05.28 |
생성형 인공지능 입문 13주차 - Transformer 기반 action 생성 (1) | 2024.05.27 |