인공지능/공부

모두를 위한 머신러닝 12주차 클러스터링

이게될까 2024. 5. 20. 19:53
728x90
728x90

1주차 - 비지도 학습

고객들의 방문 로그 데이터를 이용하여 웹 사이트 이동 동선을 표시하는 프로세스 맵을 만들 수 있다.
이 프로세스 맵을 통해서 유입 경로와 유출 결로를 만들어 판매 전략을 수립할 수 있다.

라벨링이 되어 있지 않은 수많은 데이터로부터 데이터의 패턴 등 유용한 정보를 추출하는 것을 비지도 학습이라고 한다.

 

여태까지는 입력과 정답이 대응되어있는 데이터이다.

이 분류 경계선을 잘 찾는 것이 일이다.

구조적인 특징을 잘 찾는 것이 일이다. 라벨이 존재하지 않는다.

유사한 데이터를 그룹핑하는 클러스터링이 목적이다.

 

소비자들의 그룹을 소비 패턴에 따라 몇 개의 그룹으로 clustering 할 수 있다.

소비자나 제품을 기준으로 판매 전략을 만들 수 있다.

클러스터링을 통해 패턴을 찾아낼 수 있다!

 

의료 진단에서 지금까지 알지 못했떤 새로운 종류의 증세/ 병의 종류, 정상 범위에서 벗어나는 환자를 찾는 데 사용이 될 수 있다.

데이터 특성에 기반에서 찾아내고 라벨링해서 찾아낼 수 있다.

2차시 - K-means 알고리즘의 원리

상당히 널리 사용되는 알고리즘이다.

2 단계로 운영된다.

가장 가까운(유사한) 데이터들을 표시한다. 

새로운 클러스터 중심을 계산한다.

지속적으로 반복한다.

유사한 데이터 표시 -> 센터로이드 옮기기 -> 다시 유사한 데이터들 표시 -> 센터로이드 옮기기

 

어떤 클러스터가 아무런 포인트도 포함하지 못한다!

 

어떤 값이 가장 이상적일까?

왼쪽은 명확하게 3개로 나누는 것이 좋아보인다.

 

3차시 - K means 알고리즘의 최적화 목적 함수

 

C - 어떤 클러스터에 포함되어있는지

클러스터 중심 - 데이터 차원 수

비용함수는 다른 말로 distortion이라고 부른다. 제곱의 평균이다!

 

임의의 값이었으나 시각적으로 적절한 클러스터를 형성한다.

 

4차시 - 랜덤 초기화와 kMeans 알고리즘 

제일 처음 하는 일은 랜덤 하게 센트로이드를 초기화한다.

클러스터의 수는 데이터의 수보다 작아야 한다.

랜덤이기 때문에 초기화가 원하는 대로 될 수 있지만 이상하게 될 수도 있다.

원하는 대로 된 경우

이것도 반복을 계속하면 도달하지 않나?

글로벌 옵티멈 - 제일 작은 값!

초기화에 따라 결과가 달라질 수 있다!

Local optima를 어떻게 벗어나야 할까?

여러 번 시도해 보는 게 도움이 된다!

클러스터의 개수가 많으면 랜덤 초기화를 반복해도 나은 결과가 안 나올 수 있다.

 

5차시 - 클러스터 수의 결정

항상 명확한 답은 없다는 것을 알아야 한다!

애매모호성이 존재한다.

3인경우 까지는 비용함수가 큰 폭으로 줄어드나 그 이후로는 큰 폭으로 줄지 않았다.

엘보우 메서드가 항상 이상적인 것은 아니다.

목적에 기초한 클러스터 개수

판매 전략에 따라 클러스터 개수를 적절하게 선택할 수 있다.

사람의 시야로 판단

728x90