Computational Optimal Transport 정독회 기록 (#10: 4.1)

2256 단어 math기계 학습

배경


  • 전회: Computational Optimal Transport 정독회 기록 (#9: 3.7) 은 5/23에 개최, 이번은 근처 5/28에 개최했지만, 컨디션을 무너져 버렸기 때문에 원격으로부터 참가(원격은 어렵고 미묘)
  • 직장에서 COT를 읽고 {자기만족, 복습, 미래를 위해} 등의 이유로 기록을 하고 있다

  • 이번 범위의 내용


  • 마침내 § 4에 돌입하여 엔트로피 정규화를 수행한다

  • §4.1 Entropic Regularization



  • Coupling matrix $\mathbf{P}$의 이산 엔트로피 정의: $H(\mathbf{P})=-\sum_{i,j} (\log\mathbf{P}_{i,j} - 1 )$
  • 행렬 2층 미분(헤시안)을 계산하면, $\log$ 곳의 $\mathbf{P}_{i,j}$가 대각 성분만 남기 때문에, $\mathrm{diag}(1/\mathbf {P}_{i, j}) $가됩니다
  • 이것의 반정 정치성을 확인하기 위해 임의의 (비 제로) 벡터를 좌우로부터 걸어 생각하거나 정방 행렬의 제곱으로 쓸 수 있으므로 반 정정치가 되어 있다. 또 $\mathbf{P}_{i,j}\leq 1$이므로, 1-strongly concave가 되어 있다(신뢰 없음)

  • 이것을 정규화항에 이용하는 문제를 $L^\epsilon_C(a, b)$ 와 같이 나타낸다
  • 의미 (효과) : 3 차 확률 단체를 시각화 한 것으로 본다



  • Prop 4.1


  • $\epsilon$에 대한 최적화 문제의 수렴성을 논의하고, 특히 $\epsilon\to 0$ 및 $\epsilon\to\infty$를 주장

  • 증명
  • 모르겠다


  • (메모)
  • $U(a, b)$가 닫혀 있기 때문에 유계 폐쇄 공간
  • 이것은 점열 콤팩트이다 (= 수렴하는 부분열을 취할 수 있다)
  • 이 근처에서 끼우면 수렴성을 나타낼 수 있다($\epsilon\to 0$의 경우)
  • $\epsilon\to\infty$는 모른다

  • 이 측면을 심각하게 논의하기 위해서는 집합과 위상에 대한 지식이 필요합니다

  • KL-divergence


  • 다음의 형태로 KL-divergence를 정의한다
  • 자주 사용하는 KL의 형태는 아니지만, Bregman 어떻게든과 관계가 있다(아마)
  • 그러나 $K$는 깁스 커널 같은 느낌의 가중치: $\mathbf{K}_{i,j}=\exp(-C_{i,j}/\epsilon)$


  • $$KL(\mathbf{P}\mid\mathbf{K}) =\sum_{i,j}\mathbf{P}_{i,j}\log\left(\frac{\mathbf{P}_ {i,j}}{\mathbf{K}_{i,j}}\right) -\mathbf{P}_{i,j} +\mathbf{K}_{i,j}$$
  • KL을 줄이는 맵을 정의합니다

  • $$\mathbf{P}_\epsilon =\mathrm{Proj}_{\mathbf{U}(\mathbf{a,b})}^\mathbf{KL}(\mathbf{K}) =\arg\min_{\mathbf{P}\in\mathbf{U}(\mathbf{a,b})}\mathbf{KL}(\mathbf{P}\mid\mathbf{K})$$
  • 아마 어딘가에서 사용할 것입니다

  • 다음


  • 6/11에 개최 예정, § 4.2는 상당히 길기 때문에 분할 될 것이다
  • 좋은 웹페이지 즐겨찾기