CartoonGAN:Generative Adversarial Networks for Photo Cartoonization

Yang Chen, Yu-Kun Lai, Yong-Jin Liu
CVPR2018
pdf

어떤 물건


현실 세계의 초상화를 만화풍의 초상화로 바꾸는 GAN, Catoon GAN을 제시했다.

선행 연구와의 차이


기존의 화풍 변환 기법은 다음과 같은 만화의 독특한 특징을 충분히 표현할 수 없다.
  • 만화 풍격이 가지고 있는 높은 수준의 단순화와 추상화의 특징
  • 만화 이미지는 선명한 가장자리를 가지고 매끄러운 색깔이 고르지 않으며 비교적 간단한 무늬를 가지고 있다
  • 이들 만화의 특징을 표현하기 위해 손실 함수 2개를 제시했다.
  • (semantic) content loss: 사진과 만화 간의 스타일 변환에 대응하기 위해 VGGnet의 높은 등급 특징 지도의 희소정규화로 공식화한다
  • (edge-promoting)adversarial loss: 선명한 가장자리를 유지하는 것이 목적이다
  • 기술과 수법의 관건


    1. CartoonGAN architecture



    generator network

  • flat convolution stage
  • 2 down-convolution blocks
  • 8 residual blocks
  • 2 up-convolution blocks
  • convolutional layer
  • discriminator network

  • flat layers
  • 2 convolutional blocks
  • feature construction block
  • convolutional layer
  • 2. Loss function


    Adversarial loss


    선명한 테두리를 가진 이미지를 만들고 싶습니다 (전통적인discriminator는 테두리(적음)이지만 색깔이 고르지 않은 이미지를 잘 분별하지 못합니다)
    → 유무를 구분할 수 있다면 좋겠다
    → 디자인은'카툰','테두리 모호 카툰'과'사진'의 손실을 구분할 수 있다

    Content loss


    사진 속 내용은 만화가 바뀐 뒤에도 저장돼 피해를 봤다.
  • 변환된 이미지가 어느 정도 내용을 유지하더라도'특징지도'는 차이가 난다
  • 이로써 이미지의 일부 구역에 차이가 나타난다
  • 'L1 희소 정규화'는 이 부분적인 차이를 처리하는 데 적용된다
  • → VGGnet의 피쳐 매핑(conv4_4)의 차이인 L1 희소 정규화를 통해 손실을 정의합니다.

    3. Initialization phase


    GAN의 학습은 국부해에 빠지기 쉬우므로 이를 해결하기 위해generator 네트워크의 초기화에 힘쓴다.
    → 콘텐츠 로스, pre-train generator network만 사용하면 순조롭다
    이미지는 사진과 initialization phase가 10epoch를 진행한 결과의 비교입니다.

    유효성 확인 방법


    정성 비교.
    이미지를 생성합니다.

    state-of-the-art의 비교.
    공정성을 위해 NST는 스타일 이미지 1장(이전)과 여러 스타일 이미지를 제공한 경우(확장판)를 비교합니다.
    CycleGAN에 관해서도 identity loss의 유무를 비교한다.

    Cartoongan을 사용하면 가장자리가 잘 보입니다.

    "훈련 중에 쌍으로 된 이미지(paired image)를 사용할 필요가 없다"는 점도 CycleGAN과 같지만 훈련에 필요한 시간은 CartoongAN이 더 적다.
    CycleGAN         : 2291.77 s
    CycleGAN with identity loss : 3020.31 s
    CartoonGAN        : 1517.69 s
    CRFMRF, Deep Analogy와 비교합니다. (image1) 사진과 비슷한 이미지를 선택하고, (image2) 무작위로 이미지를 선택합니다.
    Cartoongan은 작가의 화풍을 포착했다.

    초기화 phase 없음, $L_$L_2$를 사용하면 엣지 로스가 없는 것과 비교됩니다.
    초기화하지 않으면 전혀 통하지 않는다.

    논쟁이 있습니까?

  • 가장자리 손실을 잘 유지하는 데 쓰인다
  • 특징도를 사용하여 L1 희소 정규화의 손실을 나타낸다
  • 학습을 순조롭게 끝내기 위한 초기화
  • 제안
    앞으로
  • 얼굴 만화 전환
  • 만화 변환 특유의 손실 함수를 처리하는 데 사용된다
  • 애니메이션을 처리하기 위해 연속적이고 시간 서열의 제한을 추가했다
  • 목표

    다음 논문


    이미지의 부족한 부분을 GAN으로 메우기
    Generative Image Inpainting with Contextual Attention
    선 그리기부터 색칠까지 GAN 진행
    SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis

    좋은 웹페이지 즐겨찾기