[게임 데이터 스터디] 유저의 행동기반 군집화
고객 세분화(Customer Segmentation)
- 유사한 특성을 기준으로 군집화(Clustering)
- 시간에 따른 변화를 기준으로 군집화(Sequence Clustering)
- 사회 연결망 분석(Social Network Analysis)
군집화
데이터 포인트들이 얼마나 유사한지 거리를 측정하여 가까운 데이터 포인트들끼리 묶는 데이터 마이닝 기법
- Hierarchical Clustering
- Non-Hierarchical Clustering
(1) K-means(중심점 기반)
(2) DBScan(밀도 기반)
K-means Clustering
📍 K-means Clustering 알고리즘 1) 사용자로부터 입력받은 k의 값에 따라, 임의로 클러스터 중심(centroid) k개를 설정해준다. 2) k개의 클러스터 중심으로부터 모든 데이터가 얼마나 떨어져 있는지 계산한 후에, 가장 가까운 클러스터 중심을 각 데이터의 클러스터로 정해준다. 3) 각 클러스터에 속하는 데이터들의 평균을 계산함으로 클러스터 중심을 옮겨준다. 4) 보정된 클러스터 중심을 기준으로 2, 3단계를 반복한다. 5) 더이상 클러스터 중심이 이동하지 않으면 알고리즘을 종료한다.
📍 K-means Clustering 문제점 1) K 결정이 주관적 2) 여러 개의 초기값이 동일 군집 내에 존재할 경우 오류 발생 가능 3) 아웃라이어가 있을 경우 적어도 한 군집은 거리가 멀어도 해당 값을 억지로 한 군집으로 묶는 성향이 있음 4) 차원이 많아지는 경우 유사도 측정에 어려움을 겪음 5) 반복 특성과 중심 무작위 초기화 때문에, k 평균 알고리즘은 local optimum에 고착될 수 있음
👉 해결 방법 * 정규화 * Elbow method를 활용한 k 값 결정 * 차원 축소(PCA, TSNE)
정규화
데이터의 분포 특정에 의해 데이터 거리 측정이 왜곡되는 일을 방지하기 위해 사용
정규화(Normalization) 쉽게 이해하기
1) Min-Max Scaler(정규화)
2) Z-score(표준화)
Author And Source
이 문제에 관하여([게임 데이터 스터디] 유저의 행동기반 군집화), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@orangejuice/게임-데이터-스터디-유저의-행동기반-군집화저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)