향상된 품질, 안정성, 그리고 다양성을 위한 향상된 갤런의 점진적인 성장을 읽었습니다.

Tero Karras, Timo Aila, Samuli Laine, Jaakko Lehtinen
NVIDIA and Aalto University
Published as a conference paper at ICLR 2018
arXiv , pdf , GitHub , YouTube
저번에 읽은 논문의 원시 논문.

어떤 물건?


Progressive growing of GANs를 사용하면 더욱 빠르고 안정적으로 학습할 수 있으며 고해상도 이미지를 생성할 수 있습니다.

선행 연구와의 차이

  • Progressive growing of GANs
  • Minibatch standard deviation을 사용한 variation
  • Equalized learning rate
  • Pixelwise feature vector normalization
  • 새로운 평가 지표 sliced Wasserstein distance SWD
  • 제안

    기술과 수법의 관건


    Progressive growing of GANs


    다음 그림은 Progressive growing of GANs의 개요도입니다.
    저해상도 이미지부터 배우고 학습이 진행될수록 축적층.

    새 레이어가 쌓일 때 학습된 레이어의sudden shocks를 피하기 위해 아래 그림과 같이 $\alpha$선형을 0~1로 증가합니다.

    Increase variation using minibatch standard deviation


    출력 이미지를 다양하게 만드는 방법 중 하나는 minibatch discrimination 이다.
    discriminator의 최종층에서 이를 간소화한 다음 기교를 사용합니다.
  • 소량 이미지 간의 표준 편차 계산(BxHxWxC → HxWxC)
  • 공간당 평균값(HxW x1)
  • 이미지별 평균
  • Equalized learning rate


    권중을 갱신할 방법을 강구하다.
    가중치 초기화는 $\it{N}(0,1)$로 초기화되지만 가중치 업데이트는
    \hat{\omega_i} = \omega_i / c
    
    하다
    $c$은(는) He 등의 초기화에서 얻은per-layer normalization constant입니다.
    이에 따라 일반적으로 RMSprop, Adam 등 동적 범위가 큰 매개 변수는 학습에 더 많은 시간이 필요하지만 이 정규화를 통해 척도를 고려한 매개 변수를 업데이트하여 학습 속도를 높일 수 있다.

    Pixelwise feature vector normalization


    학습 중 각 네트워크가 제어할 수 없는 값을 취하는 것을 방지하기 위해generator의 각 볼륨 적층 다음에 채널 방향의 정규화를 넣는다.
    b _ { x , y } = \frac{a _ { x , y }}{\sqrt { \frac { 1 } { N } \sum _ { j = 0 } ^ { N - 1 } \left( a _ { x , y } ^ { j } \right) ^ { 2 } + \epsilon }}
    
    $\epsilon=10^{-8}$, $N$는 특징도 수량, $a_{x, y}, b_{x, y}$는 각각 원시와 정규화 후의 특징 벡터 요소인 $(x, y)$의 값입니다.

    sliced Wasserstein distance SWD


    기존의 평가지표MS-SSIM로서 큰 모드collapses에 민감하지만 색깔과 무늬의 다양성 등 작은 효과는 득점에 영향을 미치기 어렵고 생성된 이미지와trainingset의 싱크로율도 평가하지 않았다.
    따라서 Laplacianpyramid를 사용하여 얻은 국부적 특징에 대한 평가 지표인 sliced Wasserstein distance SWD를 제시했다.
    하고 있지만 이해가 안 돼...
    생성 이미지와 training set의 이미지를 비교하여 각 층의 sliced Wasserstein distance를 구합니다.

    유효성 확인 방법


    다음 표는 CELEBA, LSUN BEDROOM의 평가입니다.
    Baseline(WGAN-GP) 방법에 제안된 요소를 순서대로 추가합니다.
    추가 요소일수록 더 좋은 점수를 얻을 수 있다.

    또한 각 단계의 생성 이미지를 비교하는 것이 가장 좋지만 MS-SSSIM은 이를 반영하지 않기 때문에 권장하는 평가 지표가 비교적 좋다.

    다음 그림에서 (a), (b)는 WGAN-GP와 제안 기법의 각 훈련 시간의 SWD입니다.
    제안 방법의 SWD 하락은 수렴까지의 시간도 짧다.
    또한 제시한 방법에서 저해상도 층을 학습한 후 상층을 축적하기 때문에 학습이 안정적이다.
    (c)는 시간의 학습을 통해 사용된 이미지 장수에 대한 도표이다.
    제시한 방법 중 초기의 층이 얕고 처리가 가볍기 때문에 많은 이미지를 사용할 수 있다.
    제안 방법 중 학습이 끝날 때까지 96시간 동안 640만 장의 이미지를 처리했지만 이전의 방법은 같은 장 수를 처리하는 데 520시간이 걸렸다(제안 방법은 5.4배 증가).

    다음 이미지는 CELEBA-HQ를 사용한 결과 입니다.
    이미지 크기는 1024x1024이며 학습용 8Tesla V100GPU는 4일이 걸렸습니다.

    다음은 현재 네트워크입니다.

    다음은 다른 데이터 집합을 사용할 때의 결과입니다.


    논쟁이 있습니까?

  • 점차적으로 축적층을 쌓는 동시에 학습하는 것을 권장한다
  • 생성된 이미지를 다양성을 가지게 하고 학습을 안정적이고 신속하게 진행하기 위해 방법을 제시한다
  • 이미지의 더 정교한 구조에 대한 개선 여지가 있음
  • 다음 논문


    생각 중이야...

    좋은 웹페이지 즐겨찾기