AttnGAN: 주의력 있는 Generative Adversarial Networks를 통해 이미지 생성을 위한 Fine-Gained Text to Image Generation 읽기

Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He
CVPR2018
pdf , arXiv , github

어떤 물건?


텍스트에서 이미지를 생성하는 GAN, AttnGAN을 제시했습니다.
단어 수준의 주의와 여러 번의refine를 통해 더 자세한 그림을 생성합니다.

선행 연구와의 차이

  • attentional generative network와 Deep Attentional Multimodal Similarity 모델(DAMSM)은 AttnGAN의 두 가지 중요한 요소
  • 를 제시한다
  • state-of-the-art가 GAN 모델을 능가하는 성능
  • AttnGAN의attention layers에서 단어급 주의 허용
  • 기술과 수법의 관건


    Attentional Generative Network


    텍스트에서 단계적으로 이미지를 생성합니다.
    Attentional Generative Network의 $F^{ca}$, $F^{attn}_i$, $F_i$, $G_i$는 neural networks입니다.
    $F^{ca}$은(는) Conditioning Augmentation[36]입니다.
    그림의 "Attention models"에 대한 설명은 없지만 $F^ {attn}_나는 i$를 삽입하기만 하면 특별한 의미가 없다고 생각한다.

    ※ 논문에서 Figure2 가공
    $F$의 출력 $h$의column은 이미지의sub-region의 특징 벡터에 해당합니다.
    $D$ : dimension of the word vector
    $\hat D$: $U\in\mathbb{R}^{\hat D\times D}$, $e$를 $e^{'}\in\mathbb{R}^{\hat D\times T}$에 투영
    $N$ : $h\in\mathbb{R}^{\hat D\times N}$
    $T$ : number of words
    F^{attn}(e, h) = (c_0, c_1, \cdots, c_{N-1}) \\
    c_j = \sum_{i=0}^{T-1}\beta_{j, i}e_{i}^{'}, \beta_{j, i} = \frac{exp(s_{j, i}^{'})}{\sum_{k=1}^{T-1}exp(s_{j, k}^{'})} \\
    s_{j, i}^{'} = h_{j}^{T}e_{i}^{'}
    
    손실 함수는 다음과 같이 정의된다.
    각 단계의 GAN 손실의 합계($L_G$)가 됩니다.
    L = L_G + \lambda L_{DAMSM}, L_G = \sum_{i = 0}^{m-1}L_{G_i}
    
    $L_당{G_i}$, $L_{D_i}$정의는 다음과 같습니다.
    $x$은(는) real 이미지이고 $\hat x$은(는) fake 이미지입니다.


    conditional loss의 부분은'이미지는real or fake'에 대한 손실이고,conditional loss의 부분은'이미지와 문장은match or not'에 대한 손실입니다.

    Deep Attentional Multimodal Similarity Model (DAMSM)


    DAMSM에서 이미지와 문장의 단어 수준의 유사도를 측정합니다.

    ※ 논문에서 Figure2 가공

    The text encoder


    bi-directional LSTM 인코딩을 텍스트 특징으로 합니다.
    feature matrix of all words
    e \in \mathbb{R}^{D \times T}
    
    $D$는 피쳐 벡터의 비트이고 $T$는 단어의 수입니다.
    마지막 숨김 상태를 concatenate, global sentence vector $\bare$로 설정합니다.
    \bar e \in \mathbb{R}^{D}
    

    The image encoder


    이미지 피쳐는 CNN(Inteption-v3)으로 인코딩됩니다.
    local feature matrix$f$로 "mixed_6e"layer의 출력입니다. 특징 벡터의 비트는 768이고sub-region의 수는 289입니다. (결과sub-region은 어떤 사람이 잘 모릅니다. 그림을 몇 개로 분할합니까?)
    f \in \mathbb{R}^{768 \times 289}
    
    global feature vector$\barf$의 마지막 평균값 탱크 층으로 출력합니다.
    \bar f \in \mathbb{R}^{2048}
    
    텍스트 기능과 특징의 차원을 일치시키기 위해 변환합니다.
    v = Wf, \bar v = \bar W \bar f \\
    v \in \mathbb{R}^{D \times 289}, \bar v \in \mathbb{R}^{D}
    

    The attention-driven image-text matching score

    s = e^Tv \\
    \bar s_{i, j} = \frac{exp(s_{i, j})}{\sum_{k=0}^{T-1}exp(s_{k, j})}
    
    $s$에서 $i$개의 단어와 $j$개의sub-region의 싱크로율입니다. $\bar s$는 $s$입니다. 단어의 수량으로 정규화합니다.
    region-contextvector$c$정의1$관련sub-region의 특징에 대해 얼마나 많은 주의를 기울였는지.
    c_i = \sum_{j=0}^{288} \alpha_j v_j, \alpha_j = \frac{exp(\gamma_1\bar s_{i, j})}{\sum_{k=0}^{288} exp(\gamma_1\bar s_{i, k})}
    
    이미지 전체(Q), 텍스트 전체(D)를 정의하는attention-driven image-text matching score$R(Q, D) $오른쪽 $R(c_i, e_i) $는 여현 유사도.$gamma_2$는 연관성이 강한 조합 (word와region) 의 상황을 어떻게 강조합니까?
    R(Q, D) = log(\sum_{i=1}^{T-1}exp(\gamma_2 R(c_i, e_i)))^{\frac{1}{\gamma_2}}
    
    기사 $D_i$표현 이미지 $Q_i$와 일치하는 백업 확률은
    P(D_i | Q_i) = \frac{exp(\gamma_3R(Q_i, D_i))}{\sum_{j=1}^{M} exp(\gamma_3R(Q_i, D_i))}
    
    $\gamma_3달러는smoothingfactor입니다.
    손실 함수는 다음과 같습니다. $w$는word입니다.
    L_1^w = -\sum_{i=1}^Mlog P(D_i | Q_i)
    L_2^w = -\sum_{i=1}^Mlog P(Q_i | D_i)
    
    sentence vector$\bare$,global image vector$\barv$에서도 같은 계산을 합니다. $L_1^s, L_2^s$구.$s$는sentence의 뜻입니다.
    최종 DAMSM의 손실 함수는
    L_{DAMSM} = L_1^w + L_2^w + L_1^s + L_2^s
    

    유효성 확인 방법


    attentionalgenerative network, DAMSM의 유효성 검증, 이전 방법과 비교.
    사용된 데이터 집합은 다음과 같은 두 가지가 있다.

    평가 지표는 Inception score와 R-precision(r/R)입니다. R-precision은 정보 검색의 평가에 자주 사용되며, 관련 검색 결과 r개가 R개의 검색 결과의 비율을 차지합니다.

    Component analysis


    표의 여섯 줄은 CUB dataset이고 마지막 한 줄은 COCO dataset의 결과입니다.
    "AttnGAN1": 1 attention model, 2 generators
    "AttnGAN2": 2 attention model, 3 generators (Figure 2)
    $\lambda$전체 손실 $L_{DAMSM}$크기의 매개 변수를 조작합니다.
  • $\lambda$클수록 득점
  • 여러 개의attention모델,generatorstack의 결과가 좋다
  • attention 필요


  • 위쪽은 CUB dataset, 아래쪽은 COCO dataset의 결과입니다.
    그림은generator0~2 출력과attention1,2의 가시화 결과입니다.
  • 처음에 대략적인 (모양과 색깔만 포착) 이미지를 생성하고 점차적으로refine
  • 왼쪽 상단의'black'처럼attention1과 2는 서로 다른 단어를 주목할 수 있다(이로써 출력 해상도가 높은 이미지를 포착하는 중요한 단어)
  • 오른쪽 아래 키위, 바나나처럼 다른sub-region(텍스트가 가진 의미를 배울 수 있을까?)에 주목할 수 있다.

  • 관심도가 높은 단어를 바꾼 결과.

    현실에서 일어나지 않는 텍스트의 결과를 입력하십시오.

    sharp는 상세한 이미지이지만 현실에서는 출력 결과(여러 개의 머리, 눈, 꼬리)가 있을 수 없습니다.
    이 결과에서 알 수 있듯이 아직 전체 국면의 일치된 구조를 완벽하게 포착하지 못했다.

    Comparison with previous methods

  • 그 어떤 비교 방법보다 좋은 점수를 얻었다
  • 특히 COCO dataset의 결과를 보면 제시된 방법은attention을 통해 더욱 상세한 단어 수준,sub-region 수준에서 정보를 포착하여 더욱 복잡한 장면을 생성할 수 있다

  • 논쟁이 있습니까?

  • 텍스트에서 이미지를 생성하는 GAN, AttnGAN
  • attention,multi-stageprocess는 고품질의 이미지를 생성할 수 있다
  • 제안된 DAMSM 손실 유효
  • CUB dataset, COCO dataset이 state-of-the-art를 초과한 결과
  • 4.1의 결과와 같이 전체적인 일치 구조를 포착할 수 없는 곳에서 개선할 여지가 있다
  • 다음 논문


    글꼴 스타일 변환기
    Multi-Content GAN for Few-Shot Font Style Transfer

    좋은 웹페이지 즐겨찾기