Generative Multi-column Convolutional Neural Networks를 통한 Image Inpainting 읽기
NeurIPS 2018
arXiv , pdf
이전에 읽은 논문 비교기법으로 등장해서 읽어봤어요.
어떤 물건?
이미지 인페인팅, 이미지 보충 방법을 제시합니다.
선행 연구와의 차이
implicit diversified Markov random field(ID-MRF), 훈련 때만 사용
confidence-driven의 reconstruction loss를 제시합니다.
기술과 수법의 관건
아래의 그림은 제안 방법의 전체도이다.
대체적인 절차는,
※ 논문에서 figure2 가공
기존의 주류 방법에서 사용된 one-stream encoder-decoder structure,coarse-to-fine architecture와 달리
듣자니
ID-MRF Regularization
(완전 이해...)
많은 방법에서 이미지에 CNN과 유사한 특징을 가진 스티커를 사용하여 이미지를 보충한다.
제안 방법에는 ID-MRF(Implicit diversified Markov random fields)가 사용됩니다.
ID-MRF의 계산에서도 여현 유사도 등 직접적인 지표를 사용할 수 있다. 그러면 아래의 이미지(a)처럼 같은 패치의 특징을 사용하여 보충할 수 있다.
이런 상황을 방지하기 위해 각종 패치의 특징을 이용하여 노력한다.
생성된 이미지와 실제 이미지를 학습된 네트워크(VGG19)에 입력하고 $L$레이어의 피쳐를 $\hat{Y}_g^L, Y^L$, 각각 가져온 패치를 $v, s$로 설정합니다.
이 패치들의 상대적인 싱크로율은
RS(v, s) = \exp((\frac{\mu(v, s)}{\max_{r\in\rho_s(Y^L)}\mu(v, r) + \epsilon}) / h)
로 정의됩니다.$h,\epsilon$는 상수의 양수, $\mu()$는 여현 유사도, $r\in\rho_s(Y^L)$는 $s$이외의 패치 $r$입니다.
지수의 분자 부분은 $v, s$의 여현 유사도를 $v, r$의 여현 유사도의 최대치로 나눈다.
우리는 그것을 귀일화하고,
\overline{RS}(v, s) = RS(v, s) \big/ \sum_{r\in\rho_s(Y^L)}RS(v, r)
$\hat{Y}_g^L, Y^L$간의 ID-MRF 손실을 정의합니다.L_M(L) = -\log(\frac{1}{Z}\sum_{s\in Y^L}\max_{v\in\hat{Y}_g^L}\overline{RS}(v, s))
패치당 $v$에 가장 가까운 패치 $s$가 클수록 $L_(L)$이 작아집니다.제시된 방법 중 VGG19의 conv4_2 이미지 구조 캡처용, conv3_2, conv4_2 이미지 텍스쳐 스냅,
L_{mrf} = L_M(conv4\_2) + \sum_{t=3}^4L_M(conv\mathbf{t}\_2)
이런 손실을 추가하면 위의 이미지(b)처럼 다양한 패치의 특징을 사용할 수 있다.Confidence-driven reconstruction loss
Confidence-driven reconstruction loss$L_c$를 정의합니다.
고스 필터로 confidence 마스크를 만드는 것 같은데 잘 모르겠어요.
다른 방법의reconstructionloss에 비해 학습이 진행됨에 따라 상호보완적인focus는 결함 부분의 중심으로 이동한다.
Adversarial Loss
Adversarial Loss $L_{adv}$로 improved Wasserstein GAN[육]을 사용합니다.
최종 손실 함수 $L$,
L = L_c + \lambda_{mrf}L_{mrf} + \lambda_{adv}L_{adv}
유효성 확인 방법
Qualitative Evaluation
다음은 이미지 생성 예입니다.
제안 방법은 가장 스타일리시한 이미지를 생성할 수 있다.
멀티컬럼architecture와confidence-drivenreconstructionloss를 통해 합리적인 구조를 포착하면 ID-MRFregularization과adversarialtraining은 실제 무늬의 생성과 관련이 있는 것 같다.
다음은 얼굴 이미지 보충 결과입니다.
ID-MRF regularization의 효과는 더 좋은 결과와 연결되어 있는 것 같습니다.
Quantitative Evaluation
다음은 PSNR과 SSIM의 비교입니다.
두 지표 모두 클수록 좋다.
제안 기법은 클래스가 적은 데이터 집합에 효과적인 것 같다.
다음은 이미지 생성을 평가하는 결과입니다.
거의 모든 피실험자들이 제안 수법을 선택했다.
Ablation Study
Single Encoder-Decoder vs. Coarse-to-Fine vs. GMCNN
Single Encoder-Decoder 모델, Coarse-to-Fine 모델과 비교합니다.
다른 구조에 비해 몇 가지 사이즈의 수용야의 제안을 준비하는 것이 이미지를 만드는 데 더 좋다.
Spatial Discounted Reconstruction Loss vs. Confidence-Driven Reconstruction Loss
Spatial Discounted Reconstruction Loss를 사용하는 방법과 비교합니다.
약간의 제안 방법의 생성 이미지가 더 명확해 보입니다.
With and without ID-MRF Regularization
ID-MRF의 유무를 비교합니다.
보아하니 아무런 변화가 없는 것 같다.
$\lambda_{mrf}$의 크기를 바꾸어 비교합니다.
$\lambda_{mrf}= 0.02~0.05$가 적당한 것 같습니다.
논쟁이 있습니까?
다음 논문
text to 이미지 연구
Text-Adaptive Generative Adversarial Networks: Manipulating Images with Natural Language
Reference
이 문제에 관하여(Generative Multi-column Convolutional Neural Networks를 통한 Image Inpainting 읽기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/d-ogawa/items/247167bf582b9a889f71
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(Generative Multi-column Convolutional Neural Networks를 통한 Image Inpainting 읽기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/d-ogawa/items/247167bf582b9a889f71텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)