논문 요약: Manifold Mixup: Better Representations by Interpolating Hidden States
소개
ICML 2019에서 다음 논문
[1] V. Verma, et. al. "Manifold Mixup: Better Representations by Interpolating Hidden States"
초간결 정리.
arXiv:
htps : // / r ぃ v. rg/아bs/1806.05236
개요
기법
우선 용어의 정의에서
$g_k(x)$ : 입력 데이터 $x$ 의 $k$ 레이어의 feature map.
$f(x) = f_k (g_k(x))$ :feature map $g_k(x)$ 의 출력.
$(x,y)$ 및 $(x',y')$ 데이터와 대상 쌍.
$\lambda\sim {\rm Beta}(\alpha,\alpha)$ : $\lambda$ 는 베타 함수 $(\alpha,\alpha)$ 에 따른 상수입니다.
${\rm{Mix}}_{\lambda} (a, b) =\lambda\cdot a + (1-\lambda)\cdot b$ : 데이터 $a$ 와 $b$ 의 mixup.
이상을 사용하여 manifold mixup
(\tilde{g_k}, \tilde{y}) := ({\rm{Mix}}_{\lambda} (g_k(x), g_k(x')),{\rm{Mix}}_{\lambda} (y, y'))
로, hidden 레이어 $k$ 에minibatch를 작성하기만 하면 됩니다.
그리고 이것의 출력에 대한 loss
L(f) = \mathbb{E}_{(x,y) \sim P} \mathbb{E}_{(x',y') \sim P} \mathbb{E}_{\lambda \sim {\rm Beta}(\alpha, \alpha)} \mathbb{E}_{k \sim \mathcal{S}} l (f_k ({\rm Mix}_\lambda(g_k(x),g_k(x'))), {\rm Mix}_\lambda(y,y'))
최소화.
다만, 실용상은minibatch 마다 $\lambda$ 와 적응하는 hidden층 $k$ 를 고정한다. 이렇게 해도 정밀도는 변하지 않는 것 같다.
효과
그림 (a)와 (d)가 본 방법을 사용하지 않는 경우, (b)와 (e)가 사용한 경우.
(a)와 (b)는 2 차원 입력 데이터의 분포이지만, 사용하지 않는 (a)와 비교하여 사용하는 (b)는 데이터의 경계면이 매끄럽다.
(d)와 (e)는 hidden 층의 분포이지만, 사용하지 않는 (d)와 비교하여 사용한 (e)는 깨끗하게 알려져 있다.
(c)는 1층째의 sinular value, (f)는 3층째의 sinular value이지만, 사용한 경우는 flatten으로 되어 있다.
Reference
이 문제에 관하여(논문 요약: Manifold Mixup: Better Representations by Interpolating Hidden States), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/masataka46/items/99a18d5d067acd97b99c
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
(\tilde{g_k}, \tilde{y}) := ({\rm{Mix}}_{\lambda} (g_k(x), g_k(x')),{\rm{Mix}}_{\lambda} (y, y'))
L(f) = \mathbb{E}_{(x,y) \sim P} \mathbb{E}_{(x',y') \sim P} \mathbb{E}_{\lambda \sim {\rm Beta}(\alpha, \alpha)} \mathbb{E}_{k \sim \mathcal{S}} l (f_k ({\rm Mix}_\lambda(g_k(x),g_k(x'))), {\rm Mix}_\lambda(y,y'))
그림 (a)와 (d)가 본 방법을 사용하지 않는 경우, (b)와 (e)가 사용한 경우.
(a)와 (b)는 2 차원 입력 데이터의 분포이지만, 사용하지 않는 (a)와 비교하여 사용하는 (b)는 데이터의 경계면이 매끄럽다.
(d)와 (e)는 hidden 층의 분포이지만, 사용하지 않는 (d)와 비교하여 사용한 (e)는 깨끗하게 알려져 있다.
(c)는 1층째의 sinular value, (f)는 3층째의 sinular value이지만, 사용한 경우는 flatten으로 되어 있다.
Reference
이 문제에 관하여(논문 요약: Manifold Mixup: Better Representations by Interpolating Hidden States), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/masataka46/items/99a18d5d067acd97b99c텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)