논문 요약: Adversarial Traning을 통한 Simulated 및 Unsupervised Images의 학습

4248 단어 DeepLearningGANs

입문


CVPR 2017에서 최우수상을 수상한 Apple의 논문인'Learning from Simulated and Unsupervised Images through Adversarial Training'을 요약했습니다.
arXiv의 논문은 여기 있습니다.
https://arxiv.org/abs/1612.07828
CVPR 논문은 여기 있습니다.
http://openaccess.thecvf.com/content_cvpr_2017/papers/Shrivastava_Learning_From_Simulated_CVPR_2017_paper.pdfhttp://openaccess.thecvf.com/content_cvpr_2017/papers/Shrivastava_Learning_From_Simulated_CVPR_2017_paper.pdf
이미 GitHub에 몇 편의 논문을 발표했다.예를 들어 Keras 코드가 여기 있습니다.
https://github.com/wayaai/SimGAN

요점


딥러닝 등을 통해 학습하려면 대규모 데이터가 필요하지만 주석이 달린 이미지를 얻는 것은 어렵다.이미지를 합성하고 허위로 보고할 수 있다면 해결 방안이 되겠지만 합성된 이미지는 진짜와 거리가 멀다.본고에서 제시한 SimGAN 모델은 합성 이미지를 생동감 있게 한다.SimGAN은 Refiner가 합성한 이미지를 실제 이미지인지 Refine의 이미지인지 실감나게 합니다.이 구조는 GANs와 비슷하지만 다음과 같다.
  • loss에 자정규화 항목을 추가합니다
  • 픽셀 단위로adversarial loss를 구한다
  • 과거 식별기 배우기
  • SimGAN은 이러한 메커니즘을 통해 MP II Gaze 데이터의 집중을 통해state-of-the-art의 결과를 실현했다.

    모범



    1. simulator로 작성된 이미지(Synthetic)를 Refiner에 입력하여 실제 이미지(Refiened)를 생성합니다.
    2. Discriminator에 refine 이미지(Refined)와 진짜 이미지(Unlabeled real)로 만든 소량을 입력하여 식별합니다.
    3. Discriminator에서 각 픽셀에 대해 교차 엔트로피를 구하고 학습하기
    4. Refiner는 GANs 오차와 자정규화 항목으로loss를 구하여 학습시킨다

    인식기loss



    $\tilde{x}_i$은(는) refine 이미지입니다. $y_진짜 초상화야.감별기의loss는 일반적인 GANs와 같지만 교차엔트로피는 픽셀 단위로 구하고 이를 총화합니다.

    refiner loss



    하나의 항목은 GANs의 Generator와 동일한 오차입니다.
    두 항목은 자정규화 항목이다.일반적인 GANs는 "그런 이미지라면 어떤 이미지든 생성할 수 있습니다."라고 하지만simGAN은 라벨을 따라 이미지를 생성해야 합니다.예를 들어 시선 추정에 사용되는 눈 이미지 그룹을 고려하면 오른쪽, 왼쪽, 정면 등의 탭에 이 이미지가 존재한다.오른쪽에 있는 합성 이미지를 Refiner에 넣고 왼쪽으로 나오면 귀찮아요.그래서 제약이 필요하다.자정규화 항목으로 이 점을 실현하다.
    먼저, Synthetic 이미지 $x_i$에서 신경 네트워크와 같은 $\psi$를 피쳐 공간의 $\psi(x_i)$로 변환합니다.한편, refine 이미지 $R_\theta(x_i)$도 피쳐 공간 $\psi(R_\theta(x_i)$로 변환됩니다.픽셀 단위로 이 두 가지의 L1 범수를 구하다\psi(R_\theta (x_i)) -\psi (x_i) ||$.

    과거refine 이미지에서 식별기 배우기



    학습한refiner에서 얻은refine 이미지만으로 미니batch를 형성하면loss발산 등 문제가 발생합니다.
    학습을 안정시키기 위해 위의 그림에서 보듯이 과거에 리파인된 이미지를 수집하여 이 이미지를 포함하는 미니batch를 형성합니다.

    시선 추측의 실험 결과



    P2 Gaze dataset을 사용하여 시선 추정 실험을 수행합니다.구체적으로simGAN의 구조를 이용하여 새로운 이미지를 만들고 이 이미지를 이용하여 시선 추정을 한다.결과적으로state-of-the-art의 성능을 실현했다.
    위 그림에서 왼쪽은 실제 이미지이고 오른쪽 상단은 합성된 이미지(Synthetic)입니다.다음 단락이refine된 그림 (refined) 입니다.무기의 과도하고 선명한 합성 이미지를 리파인하여 피부의 질감과 자연스러운 소음을 얻는다.또 눈의 무지개도 저렇게 변했다.또한 다음 표는 다른 주요 방법과 비교한다.

    첫 번째 열은 기법 이름이고 두 번째 열은 데이터 세트가 실제 이미지(R)인지 합성 이미지(S)인지 여부입니다.3열은 오차율이다.refiner refine의 이미지를 사용한 데이터를 집중적으로 학습하는 CNN 방법의 성능이 가장 좋다.

    결론


    simGAN 방법을 통해 이미지를 작성하면 데이터 라벨을 더욱 진실하게 유지할 수 있습니다.그 결과 이refine 이미지의 학습 방법을 사용하여state-of-the-art의 성능을 실현하였다.

    좋은 웹페이지 즐겨찾기