PRML: 제7장 희소한 내부 핵 기계

4239 단어 Python PRML

개요

PRML 제7장의 연관 벡터 머신(RVM; relevance vector machine)의 회귀는pythn에서 이루어진다.
코드와 실험 결과를 요약한 Jupter notebook ．

RVM 모델

베이스 선형 회귀의 예분포를 수정하여 희소화

실제 수치 목표 변수 $t$$$$\mathbf{x}의 조건 확률 분포
$$
p(t|\mathbf{x},\mathbf{w},\beta) =\mathcal{N}(t|y(\mathbf{x}),\beta^{-1})
$$
여기서 $\beta=\sigma^{-2}달러는 소음 정밀도 매개 변수(소음 색산의 역수)로 평균값은 다음 선형 모델에 의해 정의됩니다.
$$
y(\mathbf{x})=\sum_{i=1}^{M}w_{i}\phi_{i}(\mathbf{x})=\mathbf{w}^{T}\mathbf{\phi}(\mathbf{x})
$$
모든 훈련 데이터는 기초 함수로 내핵 함수를 하나의 매개 변수로 사용한다.
$$
y(\mathbf{x})=\sum_{n=1}^{N}w_{n}k(\mathbf{x},\mathbf{x}_{n})+b
$$
매개 변수의 수는 모두 $M=N+1달러이며, 유사함수는 하식으로 제공된다.
$$
p(\mathbf{t}|\mathbf{X},\mathbf{w},\beta) =\prod_{n=1}^{N} p(t_{n}|\mathbf{x}_{n},\mathbf{w},\beta)
$$
매개 변수 벡터로 $\mathbf{w}달러의 예분포, 평균 0의 고스 예분포를 사용${i} 마다 다른 수퍼 매개 변수 $\alpha{i}달러를 사용합니다. 즉, 권중에 대한 사전 분포는 다음과 같습니다.
$$
p(\mathbf{w}|\mathbf{\alpha}) =\prod_{i=1}^{M}\mathcal{N} (w_{i}|0,\alpha_{i}^{-1})
$$
여기, ${i} 달러는 해당 가중치 매개 변수 $w{i} 달러의 정밀도를 나타냅니다. $\mathbf{\alpha}=(\alpha{1},\dots,\alpha{M})^{T}. 이러한 슈퍼 파라미터를 최대화하면 대부분의 슈퍼 파라미터는 무한대이며, 대응하는 가중 파라미터의 후분포는 0점에 집중됩니다.이러한 매개 변수에 대응하는 기함수(상응하는 데이터점과 거리를 나타내는 내핵 함수)는 예측에 아무런 역할을 하지 않기 때문에 제거하고 희소한 모델을 얻을 수 있다.
권중향량의 백업 확률은 다시 고스 분포로 변하여 다음과 같은 형식으로 나타낸다.
$$
p(\mathbf{w}|\mathbf{t},\mathbf{X},\mathbf{\alpha},\beta) =\mathcal{N}(\mathbf{w}|\mathbf{m},\mathbf{\Sigma})
$$
여기서 평균과 협방차는 다음과 같은 공식에서 제시한다.
$$
\mathbf{m} =\beta\mathbf{\Sigma}\mathbf{\Phi}^{T}\mathbf{t}
$$
$$
\mathbf{\Sigma} =\left(\mathbf{A} +\beta\mathbf{\Phi}^{T}\mathbf{\Phi}\right)^{-1}
$$
그러나 $\mathbf{\Phi}는 $i=1\dots, N$\Phi{ni}=\phi_{i}(\mathbf{x{n})$, 그리고 $n=1\dots, N$$\Phi{nM]=$N\times M의 계획 매트릭스, $\mathbf{A} = rm{diag}(\alpha{i}) 달러.
두 번째 가장 유사한 추정은 evidence apploximation이라고도 부른다. 두 번째 가장 유사한 추정을 하기 위해 먼저 권중 매개 변수에 대해 포인트를 매긴다.
$$
p(\mathbf{t}|\mathbf{X},\mathbf{\alpha},\beta) =\int p(\mathbf{t}|\mathbf{X},\mathbf{w},\beta)p(\mathbf{w}|\mathbf{\alpha}) d\mathbf{w}
$$
이 방정식은 두 고스가 분포하는 권적 포인트이기 때문에 포인트를 분석적으로 집행할 수 있고 다음과 같은 대수 유사성을 얻을 수 있다.
$$
\ln p(\mathbf{t}|\mathbf{X},\mathbf{\alpha},\beta)
=\ln\mathcal{N} (\mathbf{t}|\mathbf{0},\mathbf{C})
= -\frac{1}{2}{ N\ln (2\pi) +\ln |\mathbf{C}| +\mathbf{t}^{T}\mathbf{C}^{-1}\mathbf{t}}
$$
여기는 $\mathbf{t}=(t{1},\dots, t{N})^{T}달러이며 $N\times N달러 매트릭스 $\mathbf{C}를 다음과 같이 정의합니다.
$$
\mathbf{C} =\beta^{-1}\mathbf{I} +\mathbf{\Phi}\mathbf{A}^{-1}\mathbf{\Phi}^{T}
$$
획득한 대수와 비슷한 미분을 0으로 설정하여 슈퍼 파라미터의 업데이트식은 다음과 같다.
$$
\begin{split}
\alpha_{i}^{new} &=\frac{\gamma_{i}}{m_{i}^{2}}\
(\beta^{new})^{-1} &=\frac{|\mathbf{t} -\mathbf{\Phi m}|^{2}}{N -\Sigma_{i}\gamma_{i}}
\end{split}
$$
여기 있습니다.{i} 달러는 해당 가중치 매개 변수 $w{i}달러는 데이터에서 얼마나 많은 양을 명확하게 나타냈는지 다음과 같은 공식에 의해 정의된다.
$$
\gamma_{i} = 1 -\alpha_{i}\Sigma_{ii}
$$
슈퍼 파라미터의 학습은 상기 결과를 사용하여 다음과 같이 진행한다. 우선, 적당히 선택한 $\mathbf{alpha}와 $\beta의 초기값 추정 후 확률의 평균 $\mathbf{m}와 공방차$\mathbf{Sigma}$. 그리고 얻은 값으로부터 슈퍼 파라미터를 추정한다. 적당한 수렴 조건을 충족시킬 때까지 번갈아 반복한다.