주성분 분석의 여러 가지

주성분 분석의 여러 가지


주성분 분석의 확장 확률의 주성분 분석,Bays의 주성분 분석,내핵 주성분 분석의 비교

PCA(Primary Analysis Analysis)


저차원 고차원 데이터를 삭감하는 방법
각양각색의 요구가 있지만, 기이치로 해석되면 분해가 매우 빠르다
$$ X = UDV^T $$
  • $X$: 샘플 수량×비트의 원시 데이터
  • $U$: ×비트의 단일 행렬
  • $D$: 차원×비트의 대각 행렬(대각 분량은 특징값)
  • $V^T$: 차원×비트의 본징 벡터 매트릭스 (행위의 본징 벡터)
  • 차원을 한층 더 삭감하는 벡터는
    $$ X_{pca} = XV_{pca} $$
    요구할 수 있다.
    하지만 $V{pca}달러 매트릭스 V에서 뺀 비트로 제작

    확률 주성분 분석(Probabilistic PCA)


    고스 분포 확률을 이용하여 차원 삭감을 진행하다
    EM 알고리즘으로 계산하면
    E-step
    M = W^TW+\sigma^2I \\
    E[z_n] = M^{-1}W^T(x_n-\bar{x}) \\
    E[z_{n}z_{n}^T]=\sigma^2M^{-1}+E[z_n]E[z_n]^T
    
    하지만
  • $M$: 삭감된 비트×축소된 비트 행렬
  • $W: 원시 차원×축소된 비트 매트릭스 (무작위 초기화)
  • $\sigma^2달러: 스칼라
  • $I: 단위 행렬
  • n번째 데이터의 차원 삭감 후의 벡터
  • $x_n번째 데이터의 차원 삭감 전 벡터
  • $\bar{x}달러: 차원 삭감 전 데이터의 평균 벡터
  • $E[z nz n^T]: 삭감된 비트×축소된 비트 행렬
  • M-step에서
    W = \bigl[\sum_{n=1}^{N}(x_n-\bar{x})E[z_n]^T\bigr]\bigl[\sum_{n=1}^{N}E[z_nz_n^T]\bigr]^{-1}\\
    \sigma^{2} = \frac{1}{ND}\sum_{n=1}^{N}\bigl\{||x_n-\bar{x}||^2 - 2E[z_n]^TW^T(x_n-\bar{x}) + Tr(E[z_nz_n^T]W^TW)\bigr\}
    
    
    하지만
  • N: 데이터 수
  • D: 원시 비트
  • 요구할 수 있다.

    Bayes의 주요 성분 분석(Bayes PCA)


    고스 분포에 초파라미터를 도입하여 베스 평가를 진행하다.
    Probabilistic PCA와 달리 M-step은
    \alpha_i = \frac{D}{w_i^Tw_i} \\
    W = \bigl[\sum_{n=1}^{N}(x_n-\bar{x})E[z_n]^T\bigr]\bigl[\sum_{n=1}^{N}E[z_nz_n^T] + \sigma^2A \bigr]^{-1}\\
    \sigma^{2} = \frac{1}{ND}\sum_{n=1}^{N}\bigl\{||x_n-\bar{x}||^2 - 2E[z_n]^TW^T(x_n-\bar{x}) + Tr(E[z_nz_n^T]W^TW)\bigr\}
    
    
    하지만
  • $w_행렬 W의 i행 벡터
  • $A$: $diag(\alpha_i)$
  • 네.

    내핵 주성분 분석


    코어 데이터 수×비트 행렬의 데이터 수를 계산하다×데이터 수의 행렬로 변환한 후 주성분 분석을 진행하다
    $$\tilde{K} = K - 1_{N}K - K1_N+1_NK1_N$$
    하지만
  • $K$: i, j성분이kernel($xi$, $xj$)인 행렬
  • 1_{N}: 모든 성분의 데이터 수는 $1/N$입니다.×데이터 수 매트릭스
  • 이렇게 구한 $\tild{K}에 대해 주성분 분석 때와 마찬가지로 고유값과 고유벡터를 구하여 차원 삭감

    실험


    주성분분석(PCA), 확률주성분분석(PPCA), 바이스주성분분석(BPCA), 커널주성분분석(KPCA)을 활용해 차원 감축을 한다.
    사용하는 데이터는 아이리스의 데이터이다(세 가지 식물의 데이터는 4차원 벡터로 표시되고 종류마다 50개의 데이터가 있다).
    코드 여기 있어요.
    https://github.com/kenchin110100/machine_learning
    2차원 축소 후 아래 그림을 그렸다
  • PCA
  • PPCA
  • BPCA
  • KPCA
  • PPCA보다는 PCA, BPCA가 종류 간 경계선을 더 잘 알고 있다.
    KPCA의 느낌도 다르고 종류별로 그려진 것이 확실하다.

    끝맺다


    4가지 주성분 분석을 했는데 BPCA 등이 사용하기 편해요.
    PCA의 확장 방법을 임의로 결정하거나 kerner를 사용하는 두 개의 축이 있습니다.
    그것들을 조합해서 가장 강한 주성분 분석을 하는 것이 있는 것 같다

    좋은 웹페이지 즐겨찾기