SketchyGAN:Towards Diverse and Realistic Sketch to Image Synthesis

Wengling Chen, James Hays
CVPR2018
arXiv , pdf

어떤 물건?


스케치에서 (50레벨) 사진을 생성하는 GAN, Sketchy GAN을 제시했다.

선행 연구와의 차이

  • 이전의 방법은 대부분 스케치에서 비슷한 사진을 검색했지만 제안 방법은 스케치에서 새로운 사진을 만드는 것이다
  • 스케치에 사용되는 자동 데이터 확장 방법을 제시하여 유효성을 확인했다
  • 새로운 손실 함수와 Masked Residual Unit(MRU) 제시

  • 기술과 수법의 관건


    Sketchy Database Augmentation


    Edges vs Sketches

  • 가장자리
  • 반드시 물체의 윤곽을 나타내는 것은 아니다
  • 사진 전체의 정보(배경의 가장자리 등)를 가지고 있다
  • 스케치
  • 물체의 윤곽의 경향을 명확하게 나타낸다
  • 주요 물체의 정보만 가지고 있다
  • 물체의 상징으로서의 특징(고양이에게 호랑이의 줄무늬를 그린다)을 포함한다
  • → 데이터 확장에 유효

    Data Collection


    Flickr에서 각 범주에서 10만 장의 이미지를 가져옵니다.
  • Inception-SResNet-v2 필터링
  • 38 분류 (ImageNet$\cap$Sketchy Database), 각 분류는 평균 46265장을 획득했다
  • Single Shot MultiBox Detector 필터
  • 18 분류(COCO$\cap$Sketchy 데이터베이스), 각 분류는 평균 61365장을 획득했다
  • 인물 위주의 6개 범주(violin,umbrella,trumpet 등)(38+18-6=50)를 배제한다
  • Edge Map Creation


    테두리 검출, 이치화, 축소 등을 통해 제작된다.
    5.1. “Both sketches and edge maps are converted into distance fields.”따라서 스케치 이미지와 테두리 이미지를distancefield로 변환하여 학습합니다.

    Training Adaptation from Edges to Sketches


    학습의 시작은 가장자리 지도와 쌍을 이루는 이미지를 통해 학습을 하고 천천히 스케치와 쌍을 이루는 이미지에 따라 학습하는 방식으로 스케줄링을 한다.
    이렇게 되면 테두리 맵을 통해pre-train을 할 필요가 없다.
    참고로 Inception score에서 6.73 vs 7.90(pre-train and fine-tuning vs unified).

    SketchyGAN


    Masked Residual Unit (MRU)


    이전 레이어의 피쳐 맵($x_i$)과 비교하여 가져온 이미지($I$)에서 새 피쳐 양 ($y_i$) 을 추출합니다.

    ※ 논문에서 Figure6 가공
    z_i = f(Conv([m_i \odot x_i, I]))   (4)
    
    m_i = \sigma(Conv([x_i, I]))     (5)
    
    n_i = \sigma(Conv([x_i, I]))     (6)
    
    $m_i$는 입력 피쳐 매핑의 마스크입니다. $nui$는 입력한 특징지도와 새로운 특징지도를 통합하기 위한 마스크입니다.
    최종 출력은
    y_i = (1 - n_i) \odot x_i + n_i \odot z_i     (7)
    
    논문의 공식(7)은 $y_i = (1 - n_i)\odot z_i + n_i\odot x_하지만 Figure7은 그렇다고 생각한다.

    Network Structure


    네트워크 총도.
    generator 부분에서 척도가 다른 스케치 이미지를 MRU에 입력합니다.
    인코더 섹션과 디코더 섹션을 연결하는 Skip connection이 있습니다.

    Objective Function


    일반적인 손실 함수 외에 출력 이미지를 다양성을 가지게 하는 손실 함수 2개를 추가했다.
  • 이미지와 실제 사진 이미지를 생성하는 Inception-V4의 출력을 비교합니다
  • 서로 다른 2개의 고스 소음으로 생성된 이미지를 비교적 배치한다

  • 유효성 확인 방법

  • Dataset
  • Sketchy
  • Augmented Sketchy
  • Sketchy 데이터 세트 사용을 테스트합니다
  • Inception Scores 평가
  • Baselines
  • pix2pix on Sketchy
  • pix2pix on Augmented Sketchy
  • Label-Supervised pix2pix on Augmented Sketchy, 탭 정보를 추가할 수 있도록 확장합니다
  • Comparison to Baselines




    아래의 상황을 알 수 있다.
  • pix2pix는 edge-to-image의 방법이다. 득점에서 sketch-to-image가 어떻게 어려운지 알 수 있다
  • pix2pix의 결과를 통해 알 수 있듯이 데이터 확장은 효과적이다
  • 라벨 정보를 추가함으로써 점수가 상승하지만 모호함과 위영을 볼 수 있다
  • 제안 방법의 점수가 높고 가장 진실하고 다채로운 이미지를 생성한다
  • Component Analysis


    손실 함수를 줄이면 이미지 품질이 저하됩니다(-GAN, -P, -DIV). 음영 오류가 발생합니다(L-AC).

    Comparison between MRU and other structures


    RU와 기타 구조(ResNet, Cascaded Refinement Network, DCGAN)를 비교합니다.
    제안 방법의 점수가 가장 높으며 매개변수 수에 가까운 ResNet과 비교할 수 있습니다.
    제시된 방법은 MRU를 통해 사진에서 주요 물체의 질이 비교적 높다.
    점수상 GAN loss의 제안 수법만 가장 좋다.


    Human Evaluation of Realism and Faithfulness

  • faithful test
  • 인간에게 같은 종류의 스케치 9장을 보여준다
  • 생성된 그림은 어느 스케치로 만들어졌는지 알아맞혀 보세요
  • 이 점수가 높은 쪽은'faithful'이다
  • Baselines : pix2pix, 1-nearest-neighbor retrieval
  • realism test
  • pix2pix와 SketchyGAN의 출력 및 입력 초도
  • "Realistic"이라고 대답해 주세요.

  • faithful 평점이 pix2pix보다 낮은 이유는 pix2pix가 입력 이미지의 가장자리를 정확하게 출력했기 때문이다.
    마지막으로 방법을 제시한 best output.

    논쟁이 있습니까?


    스케치에서 사진을 생성하는 GAN, Sketchy GAN을 제시했다.
    스케치에 사용할 데이터 확장 방법을 제시했는데 Inception Score에서 이전의 방법을 초과했다.
  • 초도에서 물체의 자세와 위치는 출력 이미지에 반영될 수 있으나 실제 이미지를 생성하기 어렵다
  • 스케치에서 사람의 의도를 받아들여 배우기 어렵다
  • 다음 논문


    GAN 기법
  • Generative Image Inpainting with Contextual Attention
  • AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks
  • 좋은 웹페이지 즐겨찾기