KL 다이버전스에서 확률 분포의 거리를 측정하는 이유

$$
\newcommand{\R}{\mathbb{R}}
\newcommand{\C}{\mathbb{C}}
\newcommand{\N}{\mathbb{N}}
\newcommand{\Z}{\mathbb{Z}}
\newcommand{\kk}{{\mathbf{k}}}
\newcommand{\pp}{{\mathbf{p}}}
\newcommand{\xx}{{\mathbf{x}}}
\newcommand{\XX}{{\mathbf{X}}}
\newcommand{\yy}{{\mathbf{y}}}
\newcommand{\zz}{{\mathbf{z}}}
\newcommand{\ee}{\mathbf{e}}
\newcommand{\qq}{\mathbf{q}}
\newcommand{\ga}{\gamma}
\newcommand{\la}{\lambda}
\newcommand{\La}{\Lambda}
\renewcommand{\S}{\mathscr{S}}
\renewcommand{\rm}{\mathrm}
\newcommand{\fr}{\frac}
\renewcommand{\hat}{\widehat}
\renewcommand{>}{\right\rangle}
\renewcommand{<}{\left\langle}
\newcommand{\LL}{\mathrm{(L)}}
\newcommand{\CC}{\mathrm{(C)}}
\newcommand{\pa}{\partial}
\newcommand{\Ga}{\Gamma}
$$
$\small{키워드: Sanov 정리, Sanov's theorem, 컬백 라이브러 정보량, 컬백 라이브러 거리, KL 다이버전스, KL 정보량}$

여기 에 훌륭한 해설이 있습니다만, 나의 공부도 겸해, 이해한 것을 정리합니다.

결론을 보면 KL 다이버전스에서 확률 분포의 거리를 측정하는 이유는 Sanov의 정리가 있기 때문입니다.

읽는 방법은 사노프입니다. 사노스가 아닙니다.


Sanov의 정리(Sanov's theorem)



집합 $ X $의 전체 확률 분포로 구성된 집합은 $\mathcal {P} $로 표현됩니다. 확률 분포 $ q\in\mathcal {P} $를 임의로 고정하고 $ q $에서 생성 된 독립 동 분포 $ x_1, ..., x_n $에서 파생 된 경험 분포를 $ p_n $로 나타냅니다. 이 때, 집합 $A\subset\mathcal{P} $에 대해, 그 내부(개핵)의 폐쇄가 $A$를 포함하면,
\lim _{n \to \infty} \frac{1}{n} \log \mathbb{P} (p_n \in A)= - \inf _{p \in A} D_{\text{KL}} (p \| q) 

가 성립한다.

정확한 상태에 대해서는 영어 위키 또는 이쪽의 해설을 참조하십시오.

Sanov의 정리 해석과 KL 다이버전스와의 관계



(부정확·불성실한 기술이 있을지도 모릅니다. 용서해 주세요)

어떤 확률 분포에서 생성 된 것으로 보이는 샘플 $ x_1, ..., x_n $를 관찰 할 때 진정한 확률 분포 $
q $를 추정하고 싶다는 문제를 생각한다고 가정합니다.

Sanov의 정리는 참으로 참 확률 분포 $ q $에서 생성 된 샘플 $ x_1, ..., x_n $이 다른 확률 분포 $ p $에서 생성 된 것처럼 행동 할 확률은
\mathbb{P} (p  \approx q)   \approx e^{-n D_{\text{KL}}(p \| q)}

에서 근사할 수 있다는 주장입니다.

단어를 바꾸고 다시 말하면 진정한 확률 분포 $q$에 따른 $
n$회의 독립 시도에서 경험분포 $p$가 우연히 발생할 확률 양
D_{\text{KL}}(p \| q)

가 나타난다고도 할 수 있습니다.

다시 말하면, $ p $와 $ q $의 거리 (KL 다이버전스)가 $ p $와 $ q $를 혼동 해 버릴 확률에 지수의 순서로 효과가 있다고 말할 수 있습니다.

그리고 이것이 KL 다이버전스가 확률 분포 사이의 거리를 측정하는 척도로서 가장 적절한 이유입니다.

중요한 일이므로 다시 쓰면 KL 다이버전스가 확률 분포 사이의 거리를 측정하는 척도로서 적절한 이유는 Sanov의 정리에 있습니다.

KL 다이버전스 $D_{\text{KL}}(p | q)$는 대칭성을 충족시키지 않지만, 한쪽이 진정한 분포이고 다른 한쪽이 경험 분포이기 때문에 자연스러운 결과입니다. 있다는 것을 알 수 있습니다.

좋은 웹페이지 즐겨찾기