주요 성분 분석이란?

본고는 다변량 분석의 대표적 기법 중 하나인 주성분 분석(Principal Component Analysis, PCA)을 소개한다.
기계 학습의 상하문에서 차원 삭감에 자주 사용되고 그 외에 소음과 다변량 데이터의 가시화 등을 제거하는 데도 사용된다.
본 보도는 아래의 논문을 참고하였다.자세한 것을 알고 싶은 사람은 저쪽으로 오세요.
Hervé Abdi, Lynne J.Williams, "Principal Component Analysis", Available at [ https://www.researchgate.net/profile/Lynne_Williams/publication/227644862_Principal_Component_Analysis/links/00b7d51657d5ad0d15000000/Principal-Component-Analysis.pdf ], 2010.
콘셉트
주성분 분석의 목적은 고차원 데이터에서 가장 큰 분산 방향을 찾아 원래의 차원과 같거나 더 작은 곳으로 투영하는 것이다.
이미지를 잡기 위해 2차원 데이터의 차원을 1차원으로 줄이는 매우 간단한 예를 들었다.
지금 점이 두 개예요.
$$
(x,y)=(-1, 1), (1,1)
$$
언젠가 우리는 이를 바탕으로 원시적인 정보를 유지하는 동시에 차원을 1차원으로 줄일 것이다.
그림의 가로 실선을 x축으로 설정하고 세로 실선을 y축으로 설정할 때 먼저 y축에 대한 투영을 고려해 보자.

위의 그림에서 보듯이 $(-1,1)\mapstoo(1)$(1,1)\mapstoo(1)달러와 두 개의 점이 겹치면 원시 정보를 잃어버릴 수 있습니다.
다른 한편, x축에 대한 투영을 고려하다

위의 그림에서 보면 $(-1,1)\mapstoo(-1)$(1,1)\mapstoo(1)달러는 원시 데이터 정보를 유지하는 동시에 차원을 줄일 수 있다.위에서 말한 바와 같이 고차원 데이터(예를 들어 2차원)에서 분산이 가장 큰 방향으로 투영하면 차원을 줄일 수 있다.
실제로 예를 들어 100차원에서 2차원으로 차원 삭감을 진행할 때 일반적으로 100% 원래의 데이터 정보를 유지할 수 없다.하지만 얼마나 (기여율) 유지될지는 확실하다.
수학 해석
다음은 주성분 분석의 공식 해석이다.
우선 $(n\times m) - 달러 행렬 $X${rm rank} (X) = k달러입니다.
이때 $X$$X는 다음과 같이 특수 값을 사용하여 분해합니다.
$$X = P\Delta Q^T$$
단, $P$$(n\times k) 왼쪽의 특이성 값 벡터로 배열된 행렬, $Q$$$(m\times k) - 달러 오른쪽의 특이성 값 벡터로 배열된 행렬입니다.또한 $\Delta는 대각에 특이한 값이 있는 행렬입니다.여기서 $X^T, x^T의 비 0 (이것들은 반정값 행렬이기 때문에 정) 특징값을 대각으로 배열한 행렬을 $\Lambda달러로 하면 $\Delta^2=\Lambda달러로 변합니다.($\because XX^T = P\Delta Q^T Q\Delta P^T = P\Delta ^2 P^T $)
여기서는 특이치 분해에 대한 상세한 접촉이 없기 때문에 이런 분해가 존재한다는 것을 알면 괜찮다.
위 공식에서 $F=P\Delta$(득점 행렬이라고 함)을 나타내면 다음 공식이 성립됩니다.
$$
F= P\Delta = P\Delta Q Q^T = XQ
$$
위의 공식에서 알 수 있듯이 $Q$는 투영 행렬입니다.기하학적 해석에 관해서는 이전 논문에서도 예를 들어 설명하였다.
여기서 $F는 $(n\times) 달러의 득점 행렬이지만, $l $$
F_l = XQ_l
$$
투영 행렬 $Q득점 행렬 $Fl$X 계산 행렬 사용하기하면, 만약, 만약...
$$
\| X - X_l\| =\| FQ^T - F_l Q_l^T\|
$$
의 최소 층수 $l 행렬입니다.그러나 $A의 행렬에 대해서는 $\|A\|$이(가) 플로베르니우스 노임을 나타냅니다.
이 항목을 확인하면 공헌도가 큰 $l달러의 특이값에 대응하는 특이방향량은 투영 행렬로 보존됩니다.(흔히 볼 수 있는 공헌이 큰 순서 = 특징치가 큰 순서에 따라 벡터를 선택한 결과 간의 연관성도 이해할 수 있다)
마지막으로 투영 후의 공헌률을 살짝 접해 보자.
상기 괄호에 적힌 바와 같이 특징량의 분산 협방차 행렬의 특징값이 크고 공헌도가 큰 정보를 보았을 것이다.
분포식 협방차 행렬 $\sum, 그 특징값 $\lambda, 고유 벡터 $v$는 아래 방정식을 만족시킨다.
$$
\sum v=\lambda v
$$
여기서는 데이터에 포함된 여러 정보(분산)를 포함하는 고유 벡터를 선택하지만, 피쳐 값이 고유 벡터의 크기를 나타내므로 고유 값이 큰 순서대로 해당 축을 선택합니다.
여기는 고정값 $\lambda입니다.i$i의 공헌률은 다음과 같은 공식입니다.
$$
\frac{\lambda_i}{\sum_{i}\lambda_i}
$$
예를 들어 특징값이 $\lambda=32,1달러일 때 3차원에서 2차원까지의 차원에서 삭감하는 것은
$$
\frac{3+2}{3+2+1} = 0.83333...
$$
약 83%의 정보를 저장합니다.
끝말
본 보도에서 특이치 분해를 사용하는 것은 주성분 분석과 관련이 있다.
마지막으로 조금만 썼는데 분산 협방차 행렬과의 관계도 재미있으니 꼭 조사해 보세요.
무슨 문제가 있으면 메시지를 남겨 주세요.마음대로 분부하세요.  

좋은 웹페이지 즐겨찾기