Contextual Attention으로 Generative Image Inpainting 읽기

Jiahui Yu, Zhe Lin, Jimei Yang, Xiaohui Shen, Xin Lu, Thomas S. Huang
CVPR2018
arXiv , pdf , github

어떤 물건?


우리는 모델을 생성하는 이미지를 바탕으로 하는 보충 방법을 제시했는데 이 방법은 주위의 무늬를 이용하여 주의를 기울였다.

선행 연구와의 차이

  • 멀리 떨어진 곳에서 패치에 대한 주의
  • 학습의 노봉성과 속도를 높이는 기교(state-of-the-art 방법을 통해 일주일 안에 두 달이 걸리는 학습을 완성)
  • 네트워크 구조
  • , 각종 이미지(얼굴, 직물, 풍경 등)에서도 고품질의 이미지 보충 실현

    기술과 수법의 관건


    총체적


    Figure2에서 주의하지 않은 제안 기법 1(baseline model).
  • coarse-to-fine 구조
  • 생성된 이미지에 대해 Globalcritic, Localcritic은 각각 전체적, 국부적 일치성 평가
  • 를 실시한다.
  • WGAN-GP(Wasserstein GAN Gradient Penalty) loss를 사용하여 완전성 평가
  • 결손 구역 내의 점과 배경 구역의 거리에 따라 로스를 할인합니다
  • Dilated convolution에 광범위한 정보가 볼륨되어 있음(dilated conv 아래 그림 참조)

    https://towardsdatascience.com/understanding-2d-dilated-convolution-operation-with-examples-in-numpy-and-tensorflow-with-d376b3972b25
  • Contextual Attention


    Contextual Attention Layer와 Dilated Conv를 동시에 추가합니다. (full model)
    관련 큰 패치를 이용하여 디코딩을 하다.
    Attention Map 색상은 이미지의 주의 장소에 해당합니다.

    Background의 패치(3x3)와 Foreground를 축소하여 관련성을 계산합니다.

    유효성 확인 방법


    state-of-the-art의 비교


    state-of-the-art의 기법[십오]과 비교한다.
    우선 비교 방법과baseline 모델을 비교합니다.
    보이는 느낌의 차이는 이해하기 어렵지만 베이스라인 모델에서 비교 방법에 사용된post-processing step(image blending) 없이 이 결과를 얻을 수 있다.

    이어서 비교 방법과full모델을 비교한다.
    제안 방법은 주위의 무늬와 구조를 활용하여 위영을 줄이고 자연스러운 보충을 할 수 있다.

    사람의 얼굴, 모양에 대한 결과.
    Attention Map을 보면 이미지의 어떤 부분이 보충에 사용되는지 알 수 있습니다.

    다음은 정량의 평가다.
    평가 지표는 mean$l_1$ error, mean $l_2$error,peak signal-to-noise(PSNR),total variation(TV) 4개.
    학습 기반 방법은 $l_1$, $l_2$, PSNR은 좋은 결과지만, TV loss 중 패치를 직접 붙이는 방법이 가장 좋다.
    (PSNR은 최고 신호 소음 비율로 신호가 가져오는 최대 출력/열화 소음을 초래한다. 이런 상황에서 신호는 원시 이미지이고 소음은 상호 보완적인 오류일 수 있다.)
    (total variation은 경사도의 절대값을 적분하여 만든 것입니다. 이미지 내의 변화가 적을수록 값이 작습니다.)

    Ablation study


    기타 주의 모듈
  • spatial transformer network [ 십칠 ]
  • appearance flow [ 42 ]
  • 비교하다.
    spatialtransformernetwork는 이미지의 전역 모방 변환이 너무 coarse이기 때문에 순조롭게 진행할 수 없습니다(STN-basedattention does not work well for inpainting asits global affine transformation is too coarse.).
    appearance flow는 2개의 이미지에서 비슷한 Attention Map을 생성합니다.

    DC-GAN, LSGAN도 실험을 했지만 순조롭지 못했다.
    WGAN-GP loss는 유효합니다.

    그리고 그림과 시계는 없지만,
  • $l_1달러 reconstruction loss가 필요합니다
  • perceptualloss,styleloss,totalvariationloss는 결과 개선과 관련이 없음
  • 듣자니

    논쟁이 있습니까?

  • coarse-to-fine의 이미지 보충 방법 제시
  • 에서 제시한 contextualattention 모듈은 관련 백그라운드 패치를 이용하여 이미지 보충 성능을 향상시킨다
  • 앞으로
  • 해상도 향상된 이미지 보완 기능
  • 으로 확장
    제시된 모델과contextualattention 모듈,
  • conditional image generation
  • image editing
  • computational photography tasks (image-based rendering, super-resolution, guided editing)
  • 등 응용.

    다음 논문


    GAN 기법
  • AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks
  • 좋은 웹페이지 즐겨찾기