AttnGAN: 주의력 있는 Generative Adversarial Networks를 통해 이미지 생성을 위한 Fine-Gained Text to Image Generation 읽기
CVPR2018
pdf , arXiv , github
어떤 물건?
텍스트에서 이미지를 생성하는 GAN, AttnGAN을 제시했습니다.
단어 수준의 주의와 여러 번의refine를 통해 더 자세한 그림을 생성합니다.
선행 연구와의 차이
기술과 수법의 관건
Attentional Generative Network
텍스트에서 단계적으로 이미지를 생성합니다.
Attentional Generative Network의 $F^{ca}$, $F^{attn}_i$, $F_i$, $G_i$는 neural networks입니다.
$F^{ca}$은(는) Conditioning Augmentation[36]입니다.
그림의 "Attention models"에 대한 설명은 없지만 $F^ {attn}_나는 i$를 삽입하기만 하면 특별한 의미가 없다고 생각한다.
※ 논문에서 Figure2 가공
$F$의 출력 $h$의column은 이미지의sub-region의 특징 벡터에 해당합니다.
$D$ : dimension of the word vector
$\hat D$: $U\in\mathbb{R}^{\hat D\times D}$, $e$를 $e^{'}\in\mathbb{R}^{\hat D\times T}$에 투영
$N$ : $h\in\mathbb{R}^{\hat D\times N}$
$T$ : number of wordsF^{attn}(e, h) = (c_0, c_1, \cdots, c_{N-1}) \\
c_j = \sum_{i=0}^{T-1}\beta_{j, i}e_{i}^{'}, \beta_{j, i} = \frac{exp(s_{j, i}^{'})}{\sum_{k=1}^{T-1}exp(s_{j, k}^{'})} \\
s_{j, i}^{'} = h_{j}^{T}e_{i}^{'}
손실 함수는 다음과 같이 정의된다.
각 단계의 GAN 손실의 합계($L_G$)가 됩니다.L = L_G + \lambda L_{DAMSM}, L_G = \sum_{i = 0}^{m-1}L_{G_i}
$L_당{G_i}$, $L_{D_i}$정의는 다음과 같습니다.
$x$은(는) real 이미지이고 $\hat x$은(는) fake 이미지입니다.
conditional loss의 부분은'이미지는real or fake'에 대한 손실이고,conditional loss의 부분은'이미지와 문장은match or not'에 대한 손실입니다.
Deep Attentional Multimodal Similarity Model (DAMSM)
DAMSM에서 이미지와 문장의 단어 수준의 유사도를 측정합니다.
※ 논문에서 Figure2 가공
The text encoder
bi-directional LSTM 인코딩을 텍스트 특징으로 합니다.
feature matrix of all wordse \in \mathbb{R}^{D \times T}
$D$는 피쳐 벡터의 비트이고 $T$는 단어의 수입니다.
마지막 숨김 상태를 concatenate, global sentence vector $\bare$로 설정합니다.\bar e \in \mathbb{R}^{D}
The image encoder
이미지 피쳐는 CNN(Inteption-v3)으로 인코딩됩니다.
local feature matrix$f$로 "mixed_6e"layer의 출력입니다. 특징 벡터의 비트는 768이고sub-region의 수는 289입니다. (결과sub-region은 어떤 사람이 잘 모릅니다. 그림을 몇 개로 분할합니까?)f \in \mathbb{R}^{768 \times 289}
global feature vector$\barf$의 마지막 평균값 탱크 층으로 출력합니다.\bar f \in \mathbb{R}^{2048}
텍스트 기능과 특징의 차원을 일치시키기 위해 변환합니다.v = Wf, \bar v = \bar W \bar f \\
v \in \mathbb{R}^{D \times 289}, \bar v \in \mathbb{R}^{D}
The attention-driven image-text matching score
s = e^Tv \\
\bar s_{i, j} = \frac{exp(s_{i, j})}{\sum_{k=0}^{T-1}exp(s_{k, j})}
$s$에서 $i$개의 단어와 $j$개의sub-region의 싱크로율입니다. $\bar s$는 $s$입니다. 단어의 수량으로 정규화합니다.
region-contextvector$c$정의1$관련sub-region의 특징에 대해 얼마나 많은 주의를 기울였는지.c_i = \sum_{j=0}^{288} \alpha_j v_j, \alpha_j = \frac{exp(\gamma_1\bar s_{i, j})}{\sum_{k=0}^{288} exp(\gamma_1\bar s_{i, k})}
이미지 전체(Q), 텍스트 전체(D)를 정의하는attention-driven image-text matching score$R(Q, D) $오른쪽 $R(c_i, e_i) $는 여현 유사도.$gamma_2$는 연관성이 강한 조합 (word와region) 의 상황을 어떻게 강조합니까?R(Q, D) = log(\sum_{i=1}^{T-1}exp(\gamma_2 R(c_i, e_i)))^{\frac{1}{\gamma_2}}
기사 $D_i$표현 이미지 $Q_i$와 일치하는 백업 확률은P(D_i | Q_i) = \frac{exp(\gamma_3R(Q_i, D_i))}{\sum_{j=1}^{M} exp(\gamma_3R(Q_i, D_i))}
$\gamma_3달러는smoothingfactor입니다.
손실 함수는 다음과 같습니다. $w$는word입니다.L_1^w = -\sum_{i=1}^Mlog P(D_i | Q_i)
L_2^w = -\sum_{i=1}^Mlog P(Q_i | D_i)
sentence vector$\bare$,global image vector$\barv$에서도 같은 계산을 합니다. $L_1^s, L_2^s$구.$s$는sentence의 뜻입니다.
최종 DAMSM의 손실 함수는L_{DAMSM} = L_1^w + L_2^w + L_1^s + L_2^s
유효성 확인 방법
attentionalgenerative network, DAMSM의 유효성 검증, 이전 방법과 비교.
사용된 데이터 집합은 다음과 같은 두 가지가 있다.
평가 지표는 Inception score와 R-precision(r/R)입니다. R-precision은 정보 검색의 평가에 자주 사용되며, 관련 검색 결과 r개가 R개의 검색 결과의 비율을 차지합니다.
Component analysis
표의 여섯 줄은 CUB dataset이고 마지막 한 줄은 COCO dataset의 결과입니다.
"AttnGAN1": 1 attention model, 2 generators
"AttnGAN2": 2 attention model, 3 generators (Figure 2)
$\lambda$전체 손실 $L_{DAMSM}$크기의 매개 변수를 조작합니다.
F^{attn}(e, h) = (c_0, c_1, \cdots, c_{N-1}) \\
c_j = \sum_{i=0}^{T-1}\beta_{j, i}e_{i}^{'}, \beta_{j, i} = \frac{exp(s_{j, i}^{'})}{\sum_{k=1}^{T-1}exp(s_{j, k}^{'})} \\
s_{j, i}^{'} = h_{j}^{T}e_{i}^{'}
L = L_G + \lambda L_{DAMSM}, L_G = \sum_{i = 0}^{m-1}L_{G_i}
e \in \mathbb{R}^{D \times T}
\bar e \in \mathbb{R}^{D}
f \in \mathbb{R}^{768 \times 289}
\bar f \in \mathbb{R}^{2048}
v = Wf, \bar v = \bar W \bar f \\
v \in \mathbb{R}^{D \times 289}, \bar v \in \mathbb{R}^{D}
s = e^Tv \\
\bar s_{i, j} = \frac{exp(s_{i, j})}{\sum_{k=0}^{T-1}exp(s_{k, j})}
c_i = \sum_{j=0}^{288} \alpha_j v_j, \alpha_j = \frac{exp(\gamma_1\bar s_{i, j})}{\sum_{k=0}^{288} exp(\gamma_1\bar s_{i, k})}
R(Q, D) = log(\sum_{i=1}^{T-1}exp(\gamma_2 R(c_i, e_i)))^{\frac{1}{\gamma_2}}
P(D_i | Q_i) = \frac{exp(\gamma_3R(Q_i, D_i))}{\sum_{j=1}^{M} exp(\gamma_3R(Q_i, D_i))}
L_1^w = -\sum_{i=1}^Mlog P(D_i | Q_i)
L_2^w = -\sum_{i=1}^Mlog P(Q_i | D_i)
L_{DAMSM} = L_1^w + L_2^w + L_1^s + L_2^s
attentionalgenerative network, DAMSM의 유효성 검증, 이전 방법과 비교.
사용된 데이터 집합은 다음과 같은 두 가지가 있다.
평가 지표는 Inception score와 R-precision(r/R)입니다. R-precision은 정보 검색의 평가에 자주 사용되며, 관련 검색 결과 r개가 R개의 검색 결과의 비율을 차지합니다.
Component analysis
표의 여섯 줄은 CUB dataset이고 마지막 한 줄은 COCO dataset의 결과입니다.
"AttnGAN1": 1 attention model, 2 generators
"AttnGAN2": 2 attention model, 3 generators (Figure 2)
$\lambda$전체 손실 $L_{DAMSM}$크기의 매개 변수를 조작합니다.
위쪽은 CUB dataset, 아래쪽은 COCO dataset의 결과입니다.
그림은generator0~2 출력과attention1,2의 가시화 결과입니다.
관심도가 높은 단어를 바꾼 결과.
현실에서 일어나지 않는 텍스트의 결과를 입력하십시오.
sharp는 상세한 이미지이지만 현실에서는 출력 결과(여러 개의 머리, 눈, 꼬리)가 있을 수 없습니다.
이 결과에서 알 수 있듯이 아직 전체 국면의 일치된 구조를 완벽하게 포착하지 못했다.
Comparison with previous methods
논쟁이 있습니까?
다음 논문
글꼴 스타일 변환기
Multi-Content GAN for Few-Shot Font Style Transfer
Reference
이 문제에 관하여(AttnGAN: 주의력 있는 Generative Adversarial Networks를 통해 이미지 생성을 위한 Fine-Gained Text to Image Generation 읽기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/d-ogawa/items/5b25b587deea6929e1df
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(AttnGAN: 주의력 있는 Generative Adversarial Networks를 통해 이미지 생성을 위한 Fine-Gained Text to Image Generation 읽기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/d-ogawa/items/5b25b587deea6929e1df텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)