분류 데이터 분석
이번에는 제가 기계 학습 방법 중의 하나인 군집을 쓰는 것을 허락해 주십시오.
클러스터링이란 무엇입니까?
데이터 분석 방법 중의 하나.'집합분석','집합분석'이라고도 부른다.기계 학습, 데이터 발굴, 패턴 식별, 이미지 분석과 생물 정보학 등 여러 분야(데이터 집합 참조)에 사용된다.분류에서 데이터의 집합을 서브집합(집단)으로 나누어 각 서브집합에 포함된 데이터(이상적으로)는 특정한 공통된 특징을 가지게 한다.이 특징은 일반적으로 유사성이나 특정 거리 척도에 기초한 접근성으로 나타난다.
출처: Wikipedia
드로잉
간단하게 말하면 아래의 그림이다.
↓ 분류 전
↓ 분류 후
기계 학습
기계 학습
교사의 기계 학습이 있다
미리 분류된 빅데이터를 바탕으로 학습해 아직 착수하지 않은 데이터를 분류하는 방법이다.
학습과 분류는 두 가지 절차가 필요하다.
신경망 여기 있어요.
무교사 기계학습
이것은 분류되지 않은 빅데이터 입력 알고리즘을 분류하는 방법이다.
그 특징은 분류 방법의 판단부터 스스로 진행하는 것이다.
여기에 군집하다.
실제 분석
분류 방법 중 하나인 eFCMA 방법은 다음과 같은 조건을 만족시키는 u,v,α에서 설명한 대로 해당 매개변수의 값을 수정합니다.\underset{u,v,\alpha}{\text{minimize}}
\sum_{i=1}^C\sum_{k=1}^Nu_{i,k}||x_k-v_i||_2^2+\lambda^{-1}\sum_{i=1}^C\sum_{k=1}^Nu_{i,k}\log\Bigl(\frac{u_{i,k}}{\alpha_{i}}\Bigl)
알고리즘
예를 들어 방법 중 하나인 Fuzzy c-means의 알고리즘
1. 모든 데이터가 집단에 속하는 값(귀속도)을 초기화합니다.
2. 귀속값을 사용하여 각 집단 센터를 업데이트합니다.
3. 계산된 센터를 사용하여 각 데이터의 귀속도를 업데이트한다.
4. 중심의 변화가 일정한 이하이면 끝난다. 그렇지 않으면 2이다.
샘플 데이터
고스 평면에 인공적으로 제작된 데이터 그룹을 사용한다.
분석 결과
상기 알고리즘을 사용하여 분석할 때 그림과 같이 분류 경계를 표시한다.
총결산
정보통신 기술, IoT의 발전에 따라 데이터가 끊임없이 증가함에 따라 빅데이터를 어떻게 활용하는가가 중요하다.이번에 소개한 수법도 이와 관련된 것이다.
응용 예
신변의 예로
- 어떤 밀림이 추천한 상품을 추출해'이 상품을 산 사람이 이런 상품을 샀어요'.
- 어떤 새의 SNS 연락처 그룹
추천 시스템.
저장소
참고 자료
Reference
이 문제에 관하여(분류 데이터 분석), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/aqua_ix/items/a9769dd3f6887e25fdc8
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
\underset{u,v,\alpha}{\text{minimize}}
\sum_{i=1}^C\sum_{k=1}^Nu_{i,k}||x_k-v_i||_2^2+\lambda^{-1}\sum_{i=1}^C\sum_{k=1}^Nu_{i,k}\log\Bigl(\frac{u_{i,k}}{\alpha_{i}}\Bigl)
정보통신 기술, IoT의 발전에 따라 데이터가 끊임없이 증가함에 따라 빅데이터를 어떻게 활용하는가가 중요하다.이번에 소개한 수법도 이와 관련된 것이다.
응용 예
신변의 예로
- 어떤 밀림이 추천한 상품을 추출해'이 상품을 산 사람이 이런 상품을 샀어요'.
- 어떤 새의 SNS 연락처 그룹
추천 시스템.
저장소
참고 자료
Reference
이 문제에 관하여(분류 데이터 분석), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/aqua_ix/items/a9769dd3f6887e25fdc8텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)