Generative Adversarial Networks Style-Based Generator Architecture for Generative Adversarial Networks 읽기

Tero Karras, Samuli Laine, Timo Aila
NVIDIA
arXiv , pdf , YouTube
트위터에서 화제가 돼서 읽어봤어요.

이 문장이 문장의 해설도 참고로 몇 개의 이미지를 인용했다.

어떤 물건?

  • 고해상도(1024x1024) 이미지를 생성하는 GAN, StyleGAN을 제시했습니다.
  • 저자이전 논문가 제시한'Progressive-Growing of GANs'의generator 부분의 발전(discriminator,loss는 원래대로 유지).
  • 새로운 얼굴 이미지 데이터 세트, "Flickr-Fes-HQ, FFHQ"공개.

  • 선행 연구와의 차이

  • 맵 네트워크 가져오기를 통해 데이터 집합의 features entanglement
  • 제거
  • coarse,middle,fine 레벨의style
  • 을 조작할 수 있다
  • 소음(주름, 주근깨, 머리끝 등)을 통해 미세한 변화를 일으킬 수 있다
  • 기술과 수법의 관건


    나의 전통적인 방법



    Progressive-Growing of GANs[26]는 고해상도 이미지를 생성하는 기술로 저해상도 층부터 차례대로generator와discriminator를 배운다.
    점차적으로 해상도를 증가시켜 효과적으로 학습하여 좋은 결과를 얻을 수 있다.
    그러나 전통적인 방법으로는 생성된 이미지를 조작하기 어렵기 때문에generator를 개량하여 조작할 수 있다.

    Mapping network


    다음 그림(fig1)의 (a)는 이전이고, (b)는 제안 방법의generator입니다.
    제안 방법의generator는 Mapping network $f$(빨간색 허선틀)과 Synthesis network $g$(파란색 허선틀)로 구성되어 있습니다.
    그림에서 A는learned affine transform이고, B는learned per-channel scaling factors to the noise input이며, Synthesis 네트워크의 각 볼륨 층을 입력한 후에 출력을 입력하십시오.

    ※ 가공 논문의 Figure1
    네트워크 매핑의 목적은 입력한 벡터 $z\in\mathbb Z$를 다른 공간 $\mathbb W$에 투영하는 것입니다.
    즉, $f:\mathbbZ\to\mathbbW$로 인코딩된 벡터는 $w\in\mathbbW$입니다.
    이로써featuresentanglement(disentanglement)를 제거하지 않으면 생성된 이미지를 조작하기 어렵습니다.(데이터에 집중적으로 포함된 이미지 특징의 분포(편차)를 따르지 않을 수 있습니다.)

    Adaptive Instance Normalization (AdaIN)


    벡터 $w$는learned affine transform A (전 결합층의 출력 2개, scale vector $y_ {s, i} $,bias vector $y_ {b, i} $) 를 통해 이미지용 벡터로 변환됩니다.
    그 다음에 AdaIN에서 Synthesis 네트워크의 특징 벡터와 합체한다.

    Removing traditional input


    그림을 생성하기 위해 random input를 기존generator의 상수 (빨간색 상자, 4x4x512)로 변경합니다.
    $w$와 AdaIN 작업으로 이미지를 생성할 수 있는 기능이 발견되어 상수로 변경되었습니다.

    ※ 가공 논문의 Figure1

    Stochastic variation


    인간(주름, 주근깨, 머리끝 등)의 작은 변화는 각 층의 크기로 축소된 소음을 통해 이루어진다.
    B의learnedper-channel scalingfactors to the noise input로 축소 후 입력하십시오.

    ※ 가공 논문의 Figure1

    Style mixing


    $z_1, z_맵 네트워크에 2$를 입력하면 $w_1, w_2$를 사용하여 Style mixing을 수행합니다.
    $w_1, w_믹스가 2$인 $w$를 어느 층에 입력하면 스타일을 조작할 수 있습니다.
    (작업 $w_1$에 추가된 피쳐 수 $w_2$)
    lower level층의 입력을 조작하여coarse 스타일을 변경할 수 있으며, top층으로 향함에 따라middle,fine detail을 변경할 수 있습니다.
    다음 그림은 Style mixing의 결과입니다.
    입력 대상의 층을 바꾸면 어떤 등급의 특징을 조작할지 선택할 수 있다YouTube를 보면 이해하기 쉽다.

    Truncation trick in W


    generator는 데이터 집합에 포함되지 않은 스타일을 배우기 어렵습니다. (비슷한 이미지 생성,modecollapse?)
    이를 방지하기 위해 Truncation trick을 가져옵니다.
    $\mathbb W$의 평균 $\bar {w}=\mathbb E_{z\sim p(z)}\bigl[f(z)\bigr]$
    w^{\prime} = \bar{w} + \psi(w - \bar{w})
    
    하다
    평균 이미지에서 얼마나 멀리 떨어진 이미지를 $\psi$로 생성할 수 있는지 이해하기 쉽습니다.

    The FFHQ dataset


    Flickr-Fes-HQ(FFHQ)는 1024x1024의 70000장의 얼굴 초상화로 구성되어 있다.
    YouTube

    유효성 확인 방법


    Quantitative results


    2개의 데이터 세트를 사용할 때의 FID score 비교
    FID score가 낮을수록 이미지 생성의 질이 높아 다양성을 나타냅니다.
    A에서 F로 들어가면서 제안 기법의 구조.

    Disentanglement를 계량화하기 위해 Perceptual path length와 Linear separability(둘 다 entanglement 상황의 지표)를 제시하고 각 네트워크에서 이 값들을 비교한다(값이 작을수록 좋다).
    E가 가장 좋다. F의 값이 커지는 것은 style mixing을 추가하면 $W$의 분포를 배우기 어려워지기 때문이다.

    다음은 매핑 네트워크의 깊이를 변경할 때의 비교입니다.
    어느 지표든 깊은 구조의 지표가 가장 좋다는 것을 알 수 있다.

    Qualitative results


    다음은 Stochastic variation의 변화 시각화입니다.
    섬세한variation이 첨가된 것을 알 수 있다.
    standard deviation이 클수록 Stochastic variation은 효과가 있고 머리카락과 배경값이 크며 신분과 자세 등은 영향을 받지 않습니다.
    또 동공 구역의 표준 편차가 커진 것은 동공 속의 빛의 반사를 고려했기 때문으로 보인다.

    다음은 Stochastic variation의 노이즈 레이어를 변경할 때의 비교 이미지입니다.
  • (a) 모든 레이어에 잡음 있음
  • (b) 노이즈 없음
  • (c)top에 가까운 층만 소음(642-10242)이 있다.
  • (d)lower층만 소음(42-322)
  • 잡음이 없으면 그림처럼 된다.
    (c)finer의 영향이 있고 (d)큰 변화가 있다.

    다음은 Truncation trick의 $\psi$값을 변경할 때의 비교 이미지입니다.
    w^{\prime} = \bar{w} + \psi(w - \bar{w})
    
    $\psi=0$일 경우 $w$는 평균 $\bar {w}$입니다.
    $\psi$의 변화(-1~1)에 따라 시점, 안경의 유무, 나이, 색깔, 머리카락의 길이, 성별의 반전이 흥미롭다.

    다음은 다른 데이터 집합의 결과입니다.
    어떤 데이터 집합이든 변화가 매우 많다.



    논쟁이 있습니까?

  • 고해상도(1024x1024) 이미지를 생성하는 GAN, StyleGAN
  • Perceptual path length와 Linear separability의 평가 지표
  • 제시
  • 본고에서 사용한 기술과 평가 지표는 다른 GAN에도 사용될 수 있기 때문에 앞으로의 기준이 될 수 있다
  • 다음 논문


    본문의 확장원

    좋은 웹페이지 즐겨찾기