Contextual Attention으로 Generative Image Inpainting 읽기
CVPR2018
arXiv , pdf , github
어떤 물건?
우리는 모델을 생성하는 이미지를 바탕으로 하는 보충 방법을 제시했는데 이 방법은 주위의 무늬를 이용하여 주의를 기울였다.
선행 연구와의 차이
기술과 수법의 관건
총체적
Figure2에서 주의하지 않은 제안 기법 1(baseline model).
https://towardsdatascience.com/understanding-2d-dilated-convolution-operation-with-examples-in-numpy-and-tensorflow-with-d376b3972b25
Contextual Attention
Contextual Attention Layer와 Dilated Conv를 동시에 추가합니다. (full model)
관련 큰 패치를 이용하여 디코딩을 하다.
Attention Map 색상은 이미지의 주의 장소에 해당합니다.
Background의 패치(3x3)와 Foreground를 축소하여 관련성을 계산합니다.
유효성 확인 방법
state-of-the-art의 비교
state-of-the-art의 기법[십오]과 비교한다.
우선 비교 방법과baseline 모델을 비교합니다.
보이는 느낌의 차이는 이해하기 어렵지만 베이스라인 모델에서 비교 방법에 사용된post-processing step(image blending) 없이 이 결과를 얻을 수 있다.
이어서 비교 방법과full모델을 비교한다.
제안 방법은 주위의 무늬와 구조를 활용하여 위영을 줄이고 자연스러운 보충을 할 수 있다.
사람의 얼굴, 모양에 대한 결과.
Attention Map을 보면 이미지의 어떤 부분이 보충에 사용되는지 알 수 있습니다.
다음은 정량의 평가다.
평가 지표는 mean$l_1$ error, mean $l_2$error,peak signal-to-noise(PSNR),total variation(TV) 4개.
학습 기반 방법은 $l_1$, $l_2$, PSNR은 좋은 결과지만, TV loss 중 패치를 직접 붙이는 방법이 가장 좋다.
(PSNR은 최고 신호 소음 비율로 신호가 가져오는 최대 출력/열화 소음을 초래한다. 이런 상황에서 신호는 원시 이미지이고 소음은 상호 보완적인 오류일 수 있다.)
(total variation은 경사도의 절대값을 적분하여 만든 것입니다. 이미지 내의 변화가 적을수록 값이 작습니다.)
Ablation study
기타 주의 모듈
spatialtransformernetwork는 이미지의 전역 모방 변환이 너무 coarse이기 때문에 순조롭게 진행할 수 없습니다(STN-basedattention does not work well for inpainting asits global affine transformation is too coarse.).
appearance flow는 2개의 이미지에서 비슷한 Attention Map을 생성합니다.
DC-GAN, LSGAN도 실험을 했지만 순조롭지 못했다.
WGAN-GP loss는 유효합니다.
그리고 그림과 시계는 없지만,
논쟁이 있습니까?
제시된 모델과contextualattention 모듈,
다음 논문
GAN 기법
Reference
이 문제에 관하여(Contextual Attention으로 Generative Image Inpainting 읽기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/d-ogawa/items/6636381aded41fab1ecf텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)