베이즈 정리 계산을 그래프로 이미지화

※이 기사는, 베이즈의 정리에 나오는 각각의 확률 분포를 기하학적으로 이미지했을 때의 필자의 뇌내이며, 수학적으로 엄밀하지 않습니다.
그러나 개인적인 의견이지만, 이 기사와 같이 수식에 후리가나를 흔드는 것도 이해를 깊게 하는 데 도움이 된다고 생각합니다.

베이즈 정리


p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)}

베이즈 정리를 사용하여 사후 확률 $p(C_k|x)$를 구하는 과정을 우도(클래스별 밀도) $p(x|C_k)$, 생기 확률(입력 데이터 분포) $p(x) $ 그래프를 사용하여 이미지하고 싶습니다. 이 기사에서는 $k=1, 2$ 로 2 클래스 판별을 하는 경우를 생각한다. 또한 사전 확률은 $p(C_1) = p(C_2) =\frac{1}{2}$ 로 한다.

우도(클래스별 밀도)



우도 $p(x|C_k)$ 는 다음과 같은 분포를 하고 있다고 설정한다.

우도는 정규 분포와 같은 단순한 분포가 아닌 복잡한 분포를 취할 수 있으므로 정확하게 우도의 분포를 알기 위해서는 많은 양의 데이터가 필요합니다.

발생 확률 (입력 데이터 분포)



발생 확률 $p(x)$ 는
$$ p(x) =\sum_k p(x|C_k)p(C_k) =\sum_k p(x, C_k) $$
와 같이 주변화하는 것으로 요구되기 때문에, 아래의 그래프와 같이 된다.


식별 모델과 생성 모델(여담)



발생 확률 $p(x)$ 는 $k$ 에 의존하지 않는다, 즉 모든 클래스 공통의 계수이기 때문에, 클래스간의 사후 확률의 대소만을 비교하고 싶은 경우는 일부러 계산할 필요가 없다. 클래스의 식별(분류)만을 목적으로 한다면 여분의 계산량이 된다.
그러나 $ p (x) $의 의미를 고려하면 입력 데이터의 분포, 즉 데이터가 어떻게 발생했는지를 나타내는 분포로 해석 할 수 있습니다. 최근 인기있는 가상 데이터를 생성하는 생성 모델은이 입력 데이터의 분포를 기반으로 데이터를 출력합니다.

사후 확률



$$ 사후 확률 =\frac{우도}{생기 확률}\times 사전 확률 $$
사후 확률은 위 식으로 구해진다. 덧붙여서, 우도와 생기 확률을, 이 기사중의 그래프의 색으로 옮겨놓으면 아래와 같이 된다.

$$ 녹색 =\frac{빨강}{보라색}\times 사전 확률 , 주황색 =\frac{파랑}{자주색}\times 사전 확률 $$

실제로 녹색과 주황을 계산한 것을 플롯하면 아래와 같이 된다.


방금 발생한 확률 (보라색) 그래프와이 사후 확률 (주황색, 녹색) 그래프를 함께 보면 빨간색과 보라색이 거의 겹치는 부분은 녹색이 거의 $ 1 $에서 일정합니다. 보라색이 점점 떨어지기 시작하면 녹색도 내려가기 시작한다.

또, 2개의 그래프를 같은 평면상에 플롯하면 아래와 같이 된다.

우도(빨강, 파랑)가 길항하고 있는 점에서 사후 확률(주황색, 녹색)은 $\frac{1}{2}$ 가 된다. 즉, 우도가 일치하거나 가까운 값을 취하면 모델은 거의 무작위로 식별됩니다.
이러한 식별의 기초가 될 확률을 알 수 있으면, 확률이 낮을 때 기계에 의한 판단을 피하여 인간에게 판단을 맡길 수도 있다. (거부)

좋은 웹페이지 즐겨찾기