논문 요약: Manifold Mixup: Better Representations by Interpolating Hidden States

소개



ICML 2019에서 다음 논문
[1] V. Verma, et. al. "Manifold Mixup: Better Representations by Interpolating Hidden States"
초간결 정리.

arXiv:
htps : // / r ぃ v. rg/아bs/1806.05236

개요


  • mixup을 hidden 레이어로 확장하면 일반화 성능이 향상되었습니다

  • 기법



    우선 용어의 정의에서
    $g_k(x)$ : 입력 데이터 $x$ 의 $k$ 레이어의 feature map.
    $f(x) = f_k (g_k(x))$ :feature map $g_k(x)$ 의 출력.
    $(x,y)$ 및 $(x',y')$ 데이터와 대상 쌍.
    $\lambda\sim {\rm Beta}(\alpha,\alpha)$ : $\lambda$ 는 베타 함수 $(\alpha,\alpha)$ 에 따른 상수입니다.
    ${\rm{Mix}}_{\lambda} (a, b) =\lambda\cdot a + (1-\lambda)\cdot b$ : 데이터 $a$ 와 $b$ 의 mixup.

    이상을 사용하여 manifold mixup
    (\tilde{g_k}, \tilde{y}) := ({\rm{Mix}}_{\lambda} (g_k(x), g_k(x')),{\rm{Mix}}_{\lambda} (y, y'))
    

    로, hidden 레이어 $k$ 에minibatch를 작성하기만 하면 됩니다.

    그리고 이것의 출력에 대한 loss
    L(f) = \mathbb{E}_{(x,y) \sim P} \mathbb{E}_{(x',y') \sim P} \mathbb{E}_{\lambda \sim {\rm Beta}(\alpha, \alpha)} \mathbb{E}_{k \sim \mathcal{S}} l (f_k ({\rm Mix}_\lambda(g_k(x),g_k(x'))), {\rm Mix}_\lambda(y,y'))
    

    최소화.

    다만, 실용상은minibatch 마다 $\lambda$ 와 적응하는 hidden층 $k$ 를 고정한다. 이렇게 해도 정밀도는 변하지 않는 것 같다.

    효과





    그림 (a)와 (d)가 본 방법을 사용하지 않는 경우, (b)와 (e)가 사용한 경우.

    (a)와 (b)는 2 차원 입력 데이터의 분포이지만, 사용하지 않는 (a)와 비교하여 사용하는 (b)는 데이터의 경계면이 매끄럽다.

    (d)와 (e)는 hidden 층의 분포이지만, 사용하지 않는 (d)와 비교하여 사용한 (e)는 깨끗하게 알려져 있다.

    (c)는 1층째의 sinular value, (f)는 3층째의 sinular value이지만, 사용한 경우는 flatten으로 되어 있다.

    좋은 웹페이지 즐겨찾기