향상된 품질, 안정성, 그리고 다양성을 위한 향상된 갤런의 점진적인 성장을 읽었습니다.

5527 단어 기계 학습 심층 학습

Tero Karras, Timo Aila, Samuli Laine, Jaakko Lehtinen
NVIDIA and Aalto University
Published as a conference paper at ICLR 2018
arXiv , pdf , GitHub , YouTube
저번에 읽은 논문의 원시 논문.

어떤 물건?

Progressive growing of GANs를 사용하면 더욱 빠르고 안정적으로 학습할 수 있으며 고해상도 이미지를 생성할 수 있습니다.

선행 연구와의 차이

Progressive growing of GANs

Minibatch standard deviation을 사용한 variation

Equalized learning rate

Pixelwise feature vector normalization

새로운 평가 지표 sliced Wasserstein distance SWD

제안

기술과 수법의 관건

Progressive growing of GANs

다음 그림은 Progressive growing of GANs의 개요도입니다.
저해상도 이미지부터 배우고 학습이 진행될수록 축적층.

새 레이어가 쌓일 때 학습된 레이어의sudden shocks를 피하기 위해 아래 그림과 같이 $\alpha$선형을 0~1로 증가합니다.

Increase variation using minibatch standard deviation

출력 이미지를 다양하게 만드는 방법 중 하나는 minibatch discrimination 이다.
discriminator의 최종층에서 이를 간소화한 다음 기교를 사용합니다.

소량 이미지 간의 표준 편차 계산(BxHxWxC → HxWxC)

공간당 평균값(HxW x1)

이미지별 평균

Equalized learning rate

권중을 갱신할 방법을 강구하다.
가중치 초기화는 $\it{N}(0,1)$로 초기화되지만 가중치 업데이트는

\hat{\omega_i} = \omega_i / c

하다
$c$은(는) He 등의 초기화에서 얻은per-layer normalization constant입니다.
이에 따라 일반적으로 RMSprop, Adam 등 동적 범위가 큰 매개 변수는 학습에 더 많은 시간이 필요하지만 이 정규화를 통해 척도를 고려한 매개 변수를 업데이트하여 학습 속도를 높일 수 있다.

Pixelwise feature vector normalization

학습 중 각 네트워크가 제어할 수 없는 값을 취하는 것을 방지하기 위해generator의 각 볼륨 적층 다음에 채널 방향의 정규화를 넣는다.

b _ { x , y } = \frac{a _ { x , y }}{\sqrt { \frac { 1 } { N } \sum _ { j = 0 } ^ { N - 1 } \left( a _ { x , y } ^ { j } \right) ^ { 2 } + \epsilon }}

$\epsilon=10^{-8}$, $N$는 특징도 수량, $a_{x, y}, b_{x, y}$는 각각 원시와 정규화 후의 특징 벡터 요소인 $(x, y)$의 값입니다.

sliced Wasserstein distance SWD

기존의 평가지표MS-SSIM로서 큰 모드collapses에 민감하지만 색깔과 무늬의 다양성 등 작은 효과는 득점에 영향을 미치기 어렵고 생성된 이미지와trainingset의 싱크로율도 평가하지 않았다.
따라서 Laplacianpyramid를 사용하여 얻은 국부적 특징에 대한 평가 지표인 sliced Wasserstein distance SWD를 제시했다.
하고 있지만 이해가 안 돼...
생성 이미지와 training set의 이미지를 비교하여 각 층의 sliced Wasserstein distance를 구합니다.

유효성 확인 방법

다음 표는 CELEBA, LSUN BEDROOM의 평가입니다.
Baseline(WGAN-GP) 방법에 제안된 요소를 순서대로 추가합니다.
추가 요소일수록 더 좋은 점수를 얻을 수 있다.

또한 각 단계의 생성 이미지를 비교하는 것이 가장 좋지만 MS-SSSIM은 이를 반영하지 않기 때문에 권장하는 평가 지표가 비교적 좋다.

다음 그림에서 (a), (b)는 WGAN-GP와 제안 기법의 각 훈련 시간의 SWD입니다.
제안 방법의 SWD 하락은 수렴까지의 시간도 짧다.
또한 제시한 방법에서 저해상도 층을 학습한 후 상층을 축적하기 때문에 학습이 안정적이다.
(c)는 시간의 학습을 통해 사용된 이미지 장수에 대한 도표이다.
제시한 방법 중 초기의 층이 얕고 처리가 가볍기 때문에 많은 이미지를 사용할 수 있다.
제안 방법 중 학습이 끝날 때까지 96시간 동안 640만 장의 이미지를 처리했지만 이전의 방법은 같은 장 수를 처리하는 데 520시간이 걸렸다(제안 방법은 5.4배 증가).