[게임 데이터 스터디] 유저의 행동기반 군집화

고객 세분화(Customer Segmentation)

  1. 유사한 특성을 기준으로 군집화(Clustering)
  2. 시간에 따른 변화를 기준으로 군집화(Sequence Clustering)
  3. 사회 연결망 분석(Social Network Analysis)

군집화

데이터 포인트들이 얼마나 유사한지 거리를 측정하여 가까운 데이터 포인트들끼리 묶는 데이터 마이닝 기법

  • Hierarchical Clustering
  • Non-Hierarchical Clustering
    (1) K-means(중심점 기반)
    (2) DBScan(밀도 기반)

K-means Clustering

📍 K-means Clustering 알고리즘

1) 사용자로부터 입력받은 k의 값에 따라, 임의로 클러스터 중심(centroid) k개를 설정해준다.
2) k개의 클러스터 중심으로부터 모든 데이터가 얼마나 떨어져 있는지 계산한 후에, 가장 가까운 클러스터 중심을 각 데이터의 클러스터로 정해준다. 
3) 각 클러스터에 속하는 데이터들의 평균을 계산함으로 클러스터 중심을 옮겨준다.  
4) 보정된 클러스터 중심을 기준으로 2, 3단계를 반복한다.
5) 더이상 클러스터 중심이 이동하지 않으면 알고리즘을 종료한다. 
📍 K-means Clustering 문제점

1) K 결정이 주관적
2) 여러 개의 초기값이 동일 군집 내에 존재할 경우 오류 발생 가능 
3) 아웃라이어가 있을 경우 적어도 한 군집은 거리가 멀어도 해당 값을 억지로 한 군집으로 묶는 성향이 있음
4) 차원이 많아지는 경우 유사도 측정에 어려움을 겪음
5) 반복 특성과 중심 무작위 초기화 때문에, k 평균 알고리즘은 local optimum에 고착될 수 있음
👉 해결 방법

* 정규화
* Elbow method를 활용한 k 값 결정
* 차원 축소(PCA, TSNE)

정규화

데이터의 분포 특정에 의해 데이터 거리 측정이 왜곡되는 일을 방지하기 위해 사용
정규화(Normalization) 쉽게 이해하기

1) Min-Max Scaler(정규화)

2) Z-score(표준화)

좋은 웹페이지 즐겨찾기