입문 EM 알고리즘

선형 회귀



$N$개의 데이터 세트 $(x_i, y_i)$ 가 있을 때 그 관계 $y = a x+b$ 를 구하라



추정



관측 데이터로부터 파라미터를 계산하는 함수
$$\hat{a} =\phi_a(\hat{x},\hat{y}),\hat{b} =\phi_b(\hat{x},\hat{y})$$
를 추정량이라고 부른다.
  • 관측 데이터가 무작위로 생성되면 거기에서 계산 된 추정량도 무작위 값을 취합니다.
  • 추정량 중 예상 값 $ E [\hat {a}] $가 실제 매개 변수 값 $ a $와 일치하는 것을 불편 추정량이라고합니다.


    최대 우도 추정


  • 매개 변수가 $a, b$ 값이면 데이터가 출력 될 확률 $p (x, y | a, b) $를 우도라고합니다.
  • 우도를 계산하려면 노이즈를 포함한 확률 모델이 필요합니다
  • 노이즈는 정규 분포를 따른다고 가정한다($\sigma^2$는 간단하기 때문에 알려져 있다):
    $$ p(x,y|a,b) =\mathcal{N}_{\sigma^2}(y-(ax+b))\propto\exp(-|y-(ax+b)|^ 2/2\sigma^2) $$
  • 개별 관측이 독립적으로 얻어졌다고 가정한다.
    $$ p(\hat{x},\hat{y}|a, b) =\prod_i p(x_i, y_i|a, b) $$
  • 우도가 최고가 되도록 $a, b$를 선택한다(최우 추정):
    $$\phi_{a,b}(\hat{x},\hat{y}) =\text{argmax}_{(a, b)} p(\hat{x},\hat{y}| a, b)$$


  • 최소 제곱법


  • $\log$는 단조 증가 함수이므로 $p(..)$의 최대값은 $\log(p(..))$의 최대값과 동일합니다.
    $$\log(p(\hat{x},\hat{y}|a, b)) =\sum_i\log(p(x_i, y_i|a, b)) = -\sum_i |y_i -(ax_i +b)|^2/2\sigma^2 $$
  • 이것이 최소 자승법의 비용 함수
  • $a, b$에 대한 2차식이므로 제곱 완성할 수 있다
  • 실제 $\sigma^2$는 계산에 나오지 않는다


  • 베이즈 선형 회귀


  • 매개 변수의 확률 분포를 고려 $p(a, b)$
  • 파라미터의 사전분포를 가정한다:
    $$ p(a, b)\propto\exp(-(a^2 + b^2)/2\sigma_a^2)$$
  • 관측 데이터 $(x_i, y_i)$가 들어갈 때마다 갱신한다(사후 분포)
    $$ p(a,b|\hat{x})\propto p(\hat{x}|a,b) p(a,b) $$
  • 사후 분포에 대한 최대 우도 추정하기:
    $$\log(p(\hat{x},\hat{y}|a,b)) = -\sum_i |y_i -(ax_i +b)|^2/2\sigma^2 - (a^2 +b^2)/2\sigma_a^2$$
  • 정규화항이 추가되어 $\sigma^2$에 의미가 나온다


  • Evidence function


  • 하이퍼파라미터 $\sigma^2$, $\sigma_a^2$는 어떻게 결정하면 좋았을까?
  • $\sigma^2$, $\sigma_a^2$를 결정하면 $a$, $b$의 추정량 $\phi_{a,b}$가 고유하게 결정되므로 그것에 대해 평균을 취한다(E 단계)
    $$
    p(\hat{x},\hat{y}|\sigma^2,\sigma_a^2) =\int da\int db p(\hat{x},\hat{y}|a, b,\sigma) p(a, b|\sigma_a^2)
    $ $
  • 이것을 최대화하는 $\sigma^2$, $\sigma_a^2$가 좋은 하이퍼 파라미터
  • 하지만 어떻게 계산합니까? ?


  • EM 알고리즘


  • $p(\hat{x},\hat{y}|\sigma^2,\sigma_a^2)$ 의 최대화 문제에서는 $(a, b)$ 가 적분되어 버리기 때문에, 숨겨진 변수로 볼 수 있습니다
  • EM 알고리즘은 관측할 수 있는 변수($X$)와 숨겨진 변수($Z$)가 있는 경우의 파라미터($\theta$)를 최대 우도 추정하기 위한 알고리즘
    $$ p(X|\theta) =\int dZ p(X, Z|\theta) $$


  • EM 알고리즘(for 베이즈 선형 회귀)


  • E단계: 고정된 하이퍼파라미터($\sigma^2,\sigma_a^2$)에 대한 파라미터 $a, b$의 사후분포 $p(a,b|\hat{x},\hat {y}) $ 계산
  • M단계: 그 분포에 대해 평균된 $E_{a,b}[\log p(\hat{x},\hat{y}, a, b|\sigma^2,\sigma_a^2 )] $ 극대화
  • 좋은 웹페이지 즐겨찾기