10일차: Domain Separation Networks

Domain Separation Networks 개요
읽은 논문
Domain Separation Networks
Konstantinos Bousmalis, George Trigeorgis, Nathan Silberman, Dilip Krishnan, Dumitru Erhan
https://arxiv.org/abs/1608.06019v1
상술한 논문을 읽고 간단하게 총결하였다.
삼행으로 총결하다
  • 머신러닝 중 표시에 드는 비용이 많이 들기 때문에 이미 존재하는 대규모 라벨 데이터를 다른 분야로 이전하는 것을 연구하고 있다(Domain Adaption or Transfer Learning)
  • 특히 라벨 데이터가 있는 합성 데이터를 자동으로 얻는 것은 효과적이지만 합성 데이터 → 실제 데이터로 옮기는 과정에서 일반화에 실패하는 경우가 많다
  • 각 지역의 고유한 정보를 모델링하여 좋은 느낌을 실현할 계획이다
    관련 연구
    관련 연구에서는 Domain – Adversarial Neural Networks(DANN)1와 Maximum Mean Discrepany(MMD)2를 소개했다. 반면 평가로는 제안 기법인 DSN(Domain Separation Networks)과 각각 병용할 수 있는 방법으로 건너뛰었다. 다음에 읽어보자.
    제안 수법
    전제 조건
  • 원본 영역은 탭 데이터 집합이고 목표 영역은 탭 데이터 집합이 없는 교사역 적응 문제입니다.
  • 제시한 방법의 목표는 원역 데이터에서 학습한 모델을 목표역에 보급하는 것이다.
    제안 모델
  • 우선, 각 함수, 변수의 정의는 다음과 같다.
  • $X^S=\{x^S_i, y^S_i\}^{N_S}_{i=0} 달러는 원본 데이터 세트
  • 입니다.
  • $X^t=\{x^t_i\}^{N_t}_{i=0} 달러는 타겟 도메인 데이터 세트
  • $N_S, N_t달러는 견본수
  • $E_c(x;\thetac)$은(는) $x를 입력하는 피쳐맵$h cc$변환 인코더
  • $E_p(x;\thetap)$은(는) $x$를 입력하는 피쳐맵$hp$인코더로 변환하지만, 각 영역의privvate에 대한 표시입니다.
  • $D(h;\thetad)는 특징도 $h를 $\hat{x} 달러의 디코더로 재구성
  • 달러 G(h;\thetag)달러 예측 분류기
  • $특징도 $h에서 $\hat{y}달러로
    Figure1과 함께 읽으면 출력 $\hat{x},\hat{y} 달러는 각각 다음과 같습니다.
  • $\hat{x}=D(E_c(x)+E_p(x))$
  • $\hat{y}=G(E_c(x))$
  • 학습 방법
  • 학습의 목표는 $\boldsymbol{theeta}={theeta c,\thetap,\thetad,\thetag\}달러를 찾아 아래의 손실 함수를 최소화하는 것이다
  • $L=L_{task} +\alpha L_{recon} +\beta L_{difference} +\gamma L_{similarity}$
  • $\alpha,\beta,\gamma달러의 권세가 우선순위를 결정한다
  • $L_{task}달러는 우리가 달성하고자 하는 목표 임무의 손실 함수입니다.Figure1달러 L{class}$
  • 이번에는 $X입니다.S달러 레이블만 줘서 $XS달러만 학습
    손실 함수는 일반 Logo loss입니다.
  • $L_{recon} 달러의 입력 복구 손실
  • $L_{recon}=\sum_{i=1}^{N_S}L_{si\mse}(xi^S,\hat{x}^S)$(사실 마지막에 i가 있지만 Mardown이 순조롭게 작동하지 못함)
  • $L_{si\mse}(x,\hat{x})=\frac{1}{k}|x-\hat{x}|-\fracc{1}{k^2}([x-\hat{x}]・K)$
  • 여기 $||||||||||$squared L2 범수, k는 입력한pixel수, $K는 길이 k의 벡터(논문에 $1k달러를 표시함)입니다.
  • 이것은 일반 MSE보다 좋은 것 같아요.
  • $L_필드 공통 특징도 $h$c$및 도메인 특화 $h다른 가격
  • $L_{difference}=||H_c^{S^T}H_p^S||^2_F+||H_c^{t^T}H_p^t||^2_{F'}$
  • $H_c, H_p$hc, h_p$의 행렬에서 $|||^2F$squared 플로베르니우스노임
  • $L_$는 원본 필드와 목표 필드가 출력하는 $h의 유사도입니다.
  • Domain Adversarial Simility Looss를 사용하는 것 같습니다.
  • ~ 아마 이것은 참고문헌1에서 제기한 수법일 거예요. 이번에는 말하지 않겠습니다.
  • 11일추기.
    $L_{similarity}달러는 $hs, h_싱크로율을 측정하는 손실 함수다.
    본고는 두 가지 관련 연구를 인용하여 각각 제안 기법과 결합하여 평가한다.
  • 우선 사용DANN1의 경우
  • 역분류기를 매우 간단하게 만들고 이 모델의 손실을 직접 사용하는 방법
  • $L_{similarity}^{DANN}=\sum_{i=0}^{N_S+N_t}\{d_i\log\hat{d_i} + (1-d_i)\log (1 -\hat{d_i})\}$
  • $d_i$이 원역의 0,1값인지 여부 때문에 이 값을 식별할 때의log loss
  • 후속 사용MMD3(Maximum Mean Discrepany)의 경우
  • 이하 $L{similarity]^{MMD} 달러(Markdown화는 번거롭다)
  • 첫 번째 항목의 원본 샘플 사이의 모든 $\kappa(,)$
  • 두 번째 항목에서 원본 목표 간의 견본 조합의 모든 $\kappa(·,)$
  • 제3항의 대상역의 모든 샘플 $\kappa(,)$
  • 의 가중치 및
  • 여기 $\kappa(·,)달러는 PSD 커널 함수인데 이번에는 RBF 커널의 모양
  • 을 사용합니다.
  • $\kappa(x_i,x_j)=\sum_{n}\eta_n exp\{-\frac{1}{2\sigma_n}||x_i - x_j||^2\}$

  • 평가 실험
  • 공개 데이터 세트 MNIST, MNIST-M, German Traffic Signs Recognition Benchmark(GTSRB), Streetview House Numbers(SVHN), cropped LINMODdatase로 실험
  • 자세한 상황은 생략했지만 정밀도는 많이 높아졌다
    총결산
  • 지역 적응 문제에서 우리는 적당한 레시피가 교사가 없는 상황에서 적당한 레시피는 서로 공통된 부분만 학습하는 방법을 제시했다.
  • 주관자
    손놀림이 상당히 복잡해서 읽기에 효과가 있었다. 아무래도 마다운의 수학식에 시달려 한 시간 반 만에 다 읽었다. 그러나 선행연구를 이해하지 못하면 완전히 이해할 수 없어 앞으로 읽고 싶었다. 그리고 이 공식을 실행할 때 공식을 좀 더 이해해야 할 것 같았다. 어쨌든.다양한 곳에 적용할 수 있다는 게 신경 쓰여서 언제쯤 이루고 싶은 논문 두 편이라고 생각한다.
    Y. Ganin et al. . Domain-Adversarial Training of Neural Networks.JMLR, 17(59):1–35, 2016. 
    M. Long and J. Wang. Learning transferable features with deep adaptation networks.ICML, 2015. 
    A. Gretton, K. M. Borgwardt, M. J. Rasch, B. Schölkopf, and A. Smola. A Kernel Two-Sample Test.JMLR, pages 723–773, 2012. 

    좋은 웹페이지 즐겨찾기