PRML: 제7장 희소한 내부 핵 기계
개요
PRML 제7장의 연관 벡터 머신(RVM; relevance vector machine)의 회귀는pythn에서 이루어진다.
코드와 실험 결과를 요약한 Jupter notebook .
RVM 모델
$$
p(t|\mathbf{x},\mathbf{w},\beta) =\mathcal{N}(t|y(\mathbf{x}),\beta^{-1})
$$
여기서 $\beta=\sigma^{-2}달러는 소음 정밀도 매개 변수(소음 색산의 역수)로 평균값은 다음 선형 모델에 의해 정의됩니다.
$$
y(\mathbf{x})=\sum_{i=1}^{M}w_{i}\phi_{i}(\mathbf{x})=\mathbf{w}^{T}\mathbf{\phi}(\mathbf{x})
$$
모든 훈련 데이터는 기초 함수로 내핵 함수를 하나의 매개 변수로 사용한다.
$$
y(\mathbf{x})=\sum_{n=1}^{N}w_{n}k(\mathbf{x},\mathbf{x}_{n})+b
$$
매개 변수의 수는 모두 $M=N+1달러이며, 유사함수는 하식으로 제공된다.
$$
p(\mathbf{t}|\mathbf{X},\mathbf{w},\beta) =\prod_{n=1}^{N} p(t_{n}|\mathbf{x}_{n},\mathbf{w},\beta)
$$
매개 변수 벡터로 $\mathbf{w}달러의 예분포, 평균 0의 고스 예분포를 사용${i} 마다 다른 수퍼 매개 변수 $\alpha{i}달러를 사용합니다. 즉, 권중에 대한 사전 분포는 다음과 같습니다.
$$
p(\mathbf{w}|\mathbf{\alpha}) =\prod_{i=1}^{M}\mathcal{N} (w_{i}|0,\alpha_{i}^{-1})
$$
여기, ${i} 달러는 해당 가중치 매개 변수 $w{i} 달러의 정밀도를 나타냅니다. $\mathbf{\alpha}=(\alpha{1},\dots,\alpha{M})^{T}. 이러한 슈퍼 파라미터를 최대화하면 대부분의 슈퍼 파라미터는 무한대이며, 대응하는 가중 파라미터의 후분포는 0점에 집중됩니다.이러한 매개 변수에 대응하는 기함수(상응하는 데이터점과 거리를 나타내는 내핵 함수)는 예측에 아무런 역할을 하지 않기 때문에 제거하고 희소한 모델을 얻을 수 있다.
권중향량의 백업 확률은 다시 고스 분포로 변하여 다음과 같은 형식으로 나타낸다.
$$
p(\mathbf{w}|\mathbf{t},\mathbf{X},\mathbf{\alpha},\beta) =\mathcal{N}(\mathbf{w}|\mathbf{m},\mathbf{\Sigma})
$$
여기서 평균과 협방차는 다음과 같은 공식에서 제시한다.
$$
\mathbf{m} =\beta\mathbf{\Sigma}\mathbf{\Phi}^{T}\mathbf{t}
$$
$$
\mathbf{\Sigma} =\left(\mathbf{A} +\beta\mathbf{\Phi}^{T}\mathbf{\Phi}\right)^{-1}
$$
그러나 $\mathbf{\Phi}는 $i=1\dots, N$\Phi{ni}=\phi_{i}(\mathbf{x{n})$, 그리고 $n=1\dots, N$$\Phi{nM]=$N\times M의 계획 매트릭스, $\mathbf{A} = rm{diag}(\alpha{i}) 달러.
두 번째 가장 유사한 추정은 evidence apploximation이라고도 부른다. 두 번째 가장 유사한 추정을 하기 위해 먼저 권중 매개 변수에 대해 포인트를 매긴다.
$$
p(\mathbf{t}|\mathbf{X},\mathbf{\alpha},\beta) =\int p(\mathbf{t}|\mathbf{X},\mathbf{w},\beta)p(\mathbf{w}|\mathbf{\alpha}) d\mathbf{w}
$$
이 방정식은 두 고스가 분포하는 권적 포인트이기 때문에 포인트를 분석적으로 집행할 수 있고 다음과 같은 대수 유사성을 얻을 수 있다.
$$
\ln p(\mathbf{t}|\mathbf{X},\mathbf{\alpha},\beta)
=\ln\mathcal{N} (\mathbf{t}|\mathbf{0},\mathbf{C})
= -\frac{1}{2}{ N\ln (2\pi) +\ln |\mathbf{C}| +\mathbf{t}^{T}\mathbf{C}^{-1}\mathbf{t}}
$$
여기는 $\mathbf{t}=(t{1},\dots, t{N})^{T}달러이며 $N\times N달러 매트릭스 $\mathbf{C}를 다음과 같이 정의합니다.
$$
\mathbf{C} =\beta^{-1}\mathbf{I} +\mathbf{\Phi}\mathbf{A}^{-1}\mathbf{\Phi}^{T}
$$
획득한 대수와 비슷한 미분을 0으로 설정하여 슈퍼 파라미터의 업데이트식은 다음과 같다.
$$
\begin{split}
\alpha_{i}^{new} &=\frac{\gamma_{i}}{m_{i}^{2}}\
(\beta^{new})^{-1} &=\frac{|\mathbf{t} -\mathbf{\Phi m}|^{2}}{N -\Sigma_{i}\gamma_{i}}
\end{split}
$$
여기 있습니다.{i} 달러는 해당 가중치 매개 변수 $w{i}달러는 데이터에서 얼마나 많은 양을 명확하게 나타냈는지 다음과 같은 공식에 의해 정의된다.
$$
\gamma_{i} = 1 -\alpha_{i}\Sigma_{ii}
$$
슈퍼 파라미터의 학습은 상기 결과를 사용하여 다음과 같이 진행한다. 우선, 적당히 선택한 $\mathbf{alpha}와 $\beta의 초기값 추정 후 확률의 평균 $\mathbf{m}와 공방차$\mathbf{Sigma}$. 그리고 얻은 값으로부터 슈퍼 파라미터를 추정한다. 적당한 수렴 조건을 충족시킬 때까지 번갈아 반복한다.
실험
트레이닝 데이터
결실
설계 매트릭스 및 관련 벡터
출력 $\mathbf{t}와 무관한 벡터의 값은 $\alpha의 값은 $\infty달러입니다. 즉, 값이 $\alpha^{-1}인 대열은 관련 벡터입니다.
RVM 회귀 결과
고찰하다.
Reference
이 문제에 관하여(PRML: 제7장 희소한 내부 핵 기계), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/kibo35/items/2945d5383724a987e05a텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)