Generative Multi-column Convolutional Neural Networks를 통한 Image Inpainting 읽기

Yi Wang, Xin Tao, Xiaojuan Qi, Xiaoyong Shen, Jiaya Jia
NeurIPS 2018
arXiv , pdf
이전에 읽은 논문 비교기법으로 등장해서 읽어봤어요.

어떤 물건?


이미지 인페인팅, 이미지 보충 방법을 제시합니다.

선행 연구와의 차이

  • 이미지 보완을 위한 Generative Multi-column Convolutional Neural Network(GMCNN)

  • implicit diversified Markov random field(ID-MRF), 훈련 때만 사용

  • confidence-driven의 reconstruction loss를 제시합니다.

  • 기술과 수법의 관건


    아래의 그림은 제안 방법의 전체도이다.
    대체적인 절차는,
  • 결함 섹션의 이미지 $X$를 입력하고 결함 섹션 1의 마스크 이미지 $M$
  • 세 가지 다른 필터 크기의 네트워크 $f_1, f_2, f_3달러 입력
  • 네트워크당 출력이 필요한 이미지 크기로 향상되고 $F$
  • 로 제어됨
  • 공용 디코더 $d$에 $F$를 입력하면generator의 생성 이미지로 출력됩니다 $\hat {Y}$

  • ※ 논문에서 figure2 가공
    기존의 주류 방법에서 사용된 one-stream encoder-decoder structure,coarse-to-fine architecture와 달리
  • 여러 사이즈의 수용야를 가지고 서로 다른 수준의 특징을 포착할 수 있다
  • coarse-level 오류는refinement
  • 에 영향을 주지 않는다
    듣자니

    ID-MRF Regularization


    (완전 이해...)
    많은 방법에서 이미지에 CNN과 유사한 특징을 가진 스티커를 사용하여 이미지를 보충한다.
    제안 방법에는 ID-MRF(Implicit diversified Markov random fields)가 사용됩니다.
    ID-MRF의 계산에서도 여현 유사도 등 직접적인 지표를 사용할 수 있다. 그러면 아래의 이미지(a)처럼 같은 패치의 특징을 사용하여 보충할 수 있다.

    이런 상황을 방지하기 위해 각종 패치의 특징을 이용하여 노력한다.
    생성된 이미지와 실제 이미지를 학습된 네트워크(VGG19)에 입력하고 $L$레이어의 피쳐를 $\hat{Y}_g^L, Y^L$, 각각 가져온 패치를 $v, s$로 설정합니다.
    이 패치들의 상대적인 싱크로율은
    RS(v, s) = \exp((\frac{\mu(v, s)}{\max_{r\in\rho_s(Y^L)}\mu(v, r) + \epsilon}) / h)
    
    로 정의됩니다.
    $h,\epsilon$는 상수의 양수, $\mu()$는 여현 유사도, $r\in\rho_s(Y^L)$는 $s$이외의 패치 $r$입니다.
    지수의 분자 부분은 $v, s$의 여현 유사도를 $v, r$의 여현 유사도의 최대치로 나눈다.
    우리는 그것을 귀일화하고,
    \overline{RS}(v, s) = RS(v, s)  \big/ \sum_{r\in\rho_s(Y^L)}RS(v, r)
    
    $\hat{Y}_g^L, Y^L$간의 ID-MRF 손실을 정의합니다.
    L_M(L) = -\log(\frac{1}{Z}\sum_{s\in Y^L}\max_{v\in\hat{Y}_g^L}\overline{RS}(v, s))
    
    패치당 $v$에 가장 가까운 패치 $s$가 클수록 $L_(L)$이 작아집니다.
    제시된 방법 중 VGG19의 conv4_2 이미지 구조 캡처용, conv3_2, conv4_2 이미지 텍스쳐 스냅,
    L_{mrf} = L_M(conv4\_2) + \sum_{t=3}^4L_M(conv\mathbf{t}\_2)
    
    이런 손실을 추가하면 위의 이미지(b)처럼 다양한 패치의 특징을 사용할 수 있다.

    Confidence-driven reconstruction loss


    Confidence-driven reconstruction loss$L_c$를 정의합니다.
    고스 필터로 confidence 마스크를 만드는 것 같은데 잘 모르겠어요.
    다른 방법의reconstructionloss에 비해 학습이 진행됨에 따라 상호보완적인focus는 결함 부분의 중심으로 이동한다.

    Adversarial Loss


    Adversarial Loss $L_{adv}$로 improved Wasserstein GAN[]을 사용합니다.
    최종 손실 함수 $L$,
    L = L_c + \lambda_{mrf}L_{mrf} + \lambda_{adv}L_{adv}
    

    유효성 확인 방법


    Qualitative Evaluation


    다음은 이미지 생성 예입니다.
    제안 방법은 가장 스타일리시한 이미지를 생성할 수 있다.
    멀티컬럼architecture와confidence-drivenreconstructionloss를 통해 합리적인 구조를 포착하면 ID-MRFregularization과adversarialtraining은 실제 무늬의 생성과 관련이 있는 것 같다.


    다음은 얼굴 이미지 보충 결과입니다.
    ID-MRF regularization의 효과는 더 좋은 결과와 연결되어 있는 것 같습니다.

    Quantitative Evaluation


    다음은 PSNR과 SSIM의 비교입니다.
    두 지표 모두 클수록 좋다.
    제안 기법은 클래스가 적은 데이터 집합에 효과적인 것 같다.

    다음은 이미지 생성을 평가하는 결과입니다.
    거의 모든 피실험자들이 제안 수법을 선택했다.

    Ablation Study


    Single Encoder-Decoder vs. Coarse-to-Fine vs. GMCNN


    Single Encoder-Decoder 모델, Coarse-to-Fine 모델과 비교합니다.
    다른 구조에 비해 몇 가지 사이즈의 수용야의 제안을 준비하는 것이 이미지를 만드는 데 더 좋다.


    Spatial Discounted Reconstruction Loss vs. Confidence-Driven Reconstruction Loss


    Spatial Discounted Reconstruction Loss를 사용하는 방법과 비교합니다.
    약간의 제안 방법의 생성 이미지가 더 명확해 보입니다.

    With and without ID-MRF Regularization


    ID-MRF의 유무를 비교합니다.
    보아하니 아무런 변화가 없는 것 같다.

    $\lambda_{mrf}$의 크기를 바꾸어 비교합니다.
    $\lambda_{mrf}= 0.02~0.05$가 적당한 것 같습니다.

    논쟁이 있습니까?

  • 이미지 보완을 위한 Generative Multi-column Convolutional Neural Network(GMCNN)
  • ID-MRF와 confidence-driven의 reconstruction loss
  • 제시
  • ImageNet과 같은 여러 종류의 데이터 집합이 존재하는 것은 그다지 효과적이지 않은 것 같다
  • 다음 논문


    text to 이미지 연구
    Text-Adaptive Generative Adversarial Networks: Manipulating Images with Natural Language

    좋은 웹페이지 즐겨찾기